Ivan Begtin
8.05K subscribers
1.96K photos
3 videos
102 files
4.67K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
За время коронавируса появляются новые отраслевые озёра данных (data lakes) для исследователей, многие с коммерческим уклоном. Например, CVID data lake [1] в рамках продукта Cortelis Research Intelligence от Clarivate [2] аналитического агентства с широким спектром продуктов для исследователей. Они анонсировали это облако, буквально, 5 дней назад, 20 августа [3] и, пока, без подробностей того что находится внутри него.

Существует и другое, бесплатное озеро данных, C3.ai COVID-19 Data Lake [4] от C3.ai соответственно. Подробностей чуть больше, есть демо и описание доступа к озеру через REST API с примерами в Jupiter Notebook и других научных записных книжках. О них была заметка в Forbes [5] ещё в мае 2020 года.

Чуть более простое и, также, бесплатное озеро данных по COVID-19 есть в Amazon AWS [6], включая базы данных и наборы данных особенно большого размера. Например, CORD19 [7], база исследований по коронавирусу для которой на базе AWS существует, в том числе, поисковик cord19.aws [8]

Несколько меньшее по объёму озеро данных есть и в облаке Microsoft Azure [9].

Озера данных это не единственный способ работы исследователей с данными связанными с коронавирусом. Офис стратегии по науке работы с данными при National Institutes of Health в США ведет реестр открытых (open access) ресурсов для исследователей [10] работающих с данных.

В целом складывается ощущение что формирование озер данных в отраслевом применении становится трендом и, в зависимости от выбранной стратегии, здесь большую роль могут сыграть крупнейшие игроки облачных сервисов. Фактически, постепенное развитие Azure Open Datasets, Google BigQuery и Open Data on AWS и показывает что большие общедоступные наборы данных - это хорошая приманка для пользователей облачных сервисов. Некоторые наборы и базы данных давно существуют, только, в облаках. Например, база поискового индекса Commoncrawl существует по умолчанию на Amazon AWS [11]

Для этого у Amazon есть Open Data Sponsorship program [12], у Microsoft есть Open Data Initiative [13], у Google нет отдельной программы, но есть рассказ о том как они работают над открытостью кода и данных [14]

Подводя итог, очень похоже что озера данных для исследователей окажутся устойчивым продуктом и далее будут существовать в двух формах. Профессиональной - закрытые озера данных для профессионалов, с большим числом узкоспециализированных инструментов и общедоступной форме где данные предоставляются крупнейшими игроками облачных решений в рамках их инициатив по открытым данным.

Ссылки:
[1] https://clarivate.com/cortellis/solutions/cvid-data-lake/
[2] https://en.wikipedia.org/wiki/Clarivate
[3] https://finance.yahoo.com/news/clarivate-launches-coronavirus-virology-infectious-140300688.html
[4] https://c3.ai/products/c3-ai-covid-19-data-lake/
[5] https://www.forbes.com/sites/adrianbridgwater/2020/05/27/tom-siebels-c3ai-charts-new-data-lake-for-covid-19-research/
[6] https://aws.amazon.com/ru/covid-19-data-lake/
[7] https://www.semanticscholar.org/cord19
[8] https://cord19.aws
[9] https://azure.microsoft.com/ru-ru/services/open-datasets/catalog/covid-19-data-lake/
[10] https://datascience.nih.gov/covid-19-open-access-resources
[11] https://registry.opendata.aws/commoncrawl/
[12] https://aws.amazon.com/ru/opendata/open-data-sponsorship-program/
[13] https://www.microsoft.com/en-us/open-data-initiative
[14] https://www.blog.google/technology/research/open-source-and-open-data/

#datalakes #data #opendata #covid19 #research
Правительство утвердило Концепцию регулирования технологий ИИ и робототехники, новость на сайте Минэкономразвития [1] и в Российской газете [2] почему-то не содержит ссылки на текст самого актуального документа этой концепции. И тут я не могу не напомнить про одну большую проблему с сайтом федерального правительства и доступности информации на нём. Документы там публикуются с задержкой в месяц, если сейчас (25 августа) открыть сайт в разделе поиска по документам [3] то там будут документы начиная с 25 июля 2020 года. Некоторые, избранные, документы публикуются чуть актуальнее, за 22 августа [4].

Для сравнения, материалы на официальном интернет-портале правовой информации (publication.pravo.gov.ru) публикуются с задержкой около 3-6 дней с момента подписания [5]. Конечно, надо делать коррекцию на выходные и праздничные дни, но, в общем и в целом, что-то не так с публикацией документов на сайте федерального правительства.

Отходя ещё дальше от концепции и взглянув на номера публикуемых документов мы можем увидеть что на 21 августа было принято 1262 Постановление Правительства (ПП) и 2141 Распоряжение Правительства (РП). В прошлом году всего было принято 1960 ППсок и 3273 РПсок.

Для сравнения, последний номер Указа Президента (УП) на 21 августа был номер 520, в прошлом году их было 604 за весь 2019 год. Кстати на сайте Президента (kremlin.ru) также задержка с публикацией документов в 1.5 месяца (45 дней) [6]

А вот федеральных законов (ФЗ) у нас уже 309 на 31 июля 2020 года, в прошлом году было всего 444, а на 30 июля их было всего 256 [7].

Подвожу итоги:
- количество принятия постановлений и распоряжений правительства, указов Президента и фед. законов выросло за 2020 год несмотря на коронавирус;
- мои оценочные прогнозы к концу года: 4000 РП, 2500 ПП, 800 УП и 600 ФЗ
- оперативность публикации документов на сайтах Правительства и Президента РФ значительно снизилась
- качество написанных документов лучше оценят специалисты

P.S. Статистику нормативной деятельности я веду в небольшом проекте lawstats на data.world где есть и цифры и визуализации по принятым НПА с 1994 по 2019 годы, а также списки самих НПА и статистика по ним.

Ссылки:
[1] https://economy.gov.ru/material/news/pravitelstvo_utverdilo_koncepciyu_regulirovaniya_tehnologiy_ii_i_robototehniki.html
[2] https://rg.ru/2020/08/24/utverzhdena-koncepciia-pravovogo-regulirovaniia-iskusstvennogo-intellekta.html
[3] http://government.ru/docs/all/
[4] http://government.ru/docs/
[5] http://publication.pravo.gov.ru/Search/Period?type=weekly
[6] http://kremlin.ru/acts/bank
[7] http://publication.pravo.gov.ru/Document/View/0001201907300064
[8] https://data.world/infoculture/lawstats

#laws #lawstats #ai
А вот и новости госзакупок связанных с данными в нашей столице. ООО "Центр налоговой политики" [1], директором и единственным бенефициаром которого является, Кирилл Никитин, руководитель российской практики PwC по оказанию услуг государственным органам и компаниям государственного сектора и кандидат в Мосгордуму (остальное желающие сами могут найти в сети), 19 августа выиграло контракт на 100 миллионов рублей [1] у ГБУ города Москвы "Аналитический центр".

Тема контракта весьма интересна: выполнение научно-исследовательской работы по теме «Разработка методологии и реализация комплекса мероприятий по оперативному индикативному мониторингу и прогнозированию состояния отраслей экономики города Москвы».

Фактически он про НИР про работу с данными о состоянии экономики Москвы, про анализ источников, систематизацию и тд.

На что стоит обратить внимание так это на то как этот контракт устроен поэтапно:
- этап 1: даты 20.08.2020 - 18.09.2020 -> ~50 млн. рублей
- этап 2: даты 19.09.2020 - 17.12.2020 -> ~30 млн. руб
- этап 3: даты 18.12.2020 - 30.06.2021 -> ~20 млн рублей

Если считать в такой "смешной" единице измерений как миллионо-день то получится:
- этап 1: 50 млн. руб / 29 дней = 1,72 млн. руб в день
- этап 2: 30 млн. руб / 89 дней = 0,337 млн. руб в день
- этап 3: 20 млн. руб / 194 дней = 0,103 млн. руб в день

А теперь самое интересное, задачи первого этапа из ТЗ контракта (барабанная дробь):
1. Разработка плана мероприятий по организации индикативного мониторинга и прогнозирования состояния экономики города Москвы
2. Разработка плана мероприятий по разработке требований к автоматизированной системе мониторинга и отраслевых мер налоговой и бюджетной политики, способствующих экономическому росту в ключевых отраслях экономики города Москвы

Стоит ли это 50 миллионов рублей за 29 дней? Серьёзно? Два плана мероприятий за месяц и 50 миллионов? Интересно, какая там "маржа" заложена к себестоимости, 1000% ?


Ссылки:
[1] https://www.tax-policy.ru/
[2] https://zakupki.gov.ru/epz/contract/contractCard/document-info.html?reestrNumber=2770483583420000012

#data #spending #moscowgovernment #moscow
Forwarded from Госзатраты
[1] Научные исследования: cамые дорогие контракты за прошедшую неделю 16.08.2020-23.08.2020:
Услуги, связанные с научными исследованиями и экспериментальными разработками в области прочих общественных наук и др.
Сумма контракта: 100 млн. руб.
Наименование заказчика: ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ УЧРЕЖДЕНИЕ ГОРОДА МОСКВЫ "АНАЛИТИЧЕСКИЙ ЦЕНТР"
Поставщик: ООО "Центр налоговой политики"
Регион: Москва
Дата заключения: 19.08.2020

Подробнее о контракте
#научные_исследования
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Реестр субсидий на портале Электронного бюджета отображается в обновленном формате. Теперь в нем отсутствуют сведения о ГРБС (надеемся, это техническая ошибка, а не сокрытие данных, как в случае с поставщиками по 223-ФЗ). 🙂

Оперативно выявлять ошибки в открытых данных Минфина России и Казначейства России нам позволяет работа над проектами «Госрасходы» и «Госзатраты». Команды проектов не только собирают, преобразуют и структурируют данные, но и используют их (что редко встречается в госорганах).

Надеемся, указанные проблемы API и веб-интерфейса реестра субсидий будут быстро исправлены.
Ivan Begtin
А вот и новости госзакупок связанных с данными в нашей столице. ООО "Центр налоговой политики" [1], директором и единственным бенефициаром которого является, Кирилл Никитин, руководитель российской практики PwC по оказанию услуг государственным органам и компаниям…
Вдогонку к моей прошлой публикации о контракте на индикативный мониторинг и прогнозирование в г. Москве со мной связался Кирилл Никитин, владелец Центра налоговой политики и привожу его комментарии:
- на самом деле цена первого этапа 30 миллионов рублей, а 20 миллионов рублей - это аванс по всему контракту
- с сентября 2019 года в PwC он не работает

Коллеги мне тут напомнили что Кирилл опытный консалтер и вполне возможно что его услуги/услуги его организации столько и стоят. Я не буду лично оценивать, не знаю. Готов выслушать разные мнения.

Но что безусловно, так, к сожалению, Правительство Москвы не публикует результаты таких контрактов. И к этом также очень и очень много вопросов, но уже не к исполнителям, а к заказчикам.

#spending #moscow #contracts
Оказывается что в ГосДуму внесли законопроект о признании должностными лицами глав госкомпаний чтобы упростить подведение их под уголовные дела [1] (ссылка на ведомости, извините).

И тут я не могу прокомментировать и задать важный вопрос. А на руководителей фондов/АНО/некоммерческих партнерств и тд. с госучастием - это распространяется?

Должно распространяться, но там нет понятия "доли" государства и учредителя. Хотя и госкорпорации НКО.

Ссылки:
[1] https://www.vedomosti.ru/society/articles/2020/08/25/837741-pravitelstvo-priravnyalo

#govngo
В дополнение к предыдущей публикации, на руководителей НКО распространяется. Звучит определение так:

1) примечание 1 к статье 201 изложить в следующей редакции:
1. В статьях настоящей главы, а также в статье 304 настоящего Кодекса выполняющим управленческие функции в коммерческой или иной организации, за исключением организаций, указанных в примечании 1 к статье 285 настоящего Кодекса, а также в некоммерческой организации, не являющейся государственным органом, органом местного самоуправления, государственным или муниципальным учреждением, признается лицо, выполняющее функции единоличного исполнительного органа, члена совета директоров или иного коллегиального исполнительного органа, а также лицо, постоянно, временно либо по специальному полномочию выполняющее организационно-распорядительные или административно-хозяйственные функции в этих организациях.";

текст отсюда [1]. А то есть распространяется и на членов советов директоров тоже и членов коллегиальных органов.

Ссылки:
[1] https://sozd.duma.gov.ru/bill/1013018-7

#govngo
Новая социальная тема по нарушению прав граждан/потребителей - это property tech (proptech) также называемое landlord tech. Технологии для домовладельцев которые затрагивают и нарушают права арендующих жилые или нежилые помещения. В проекте Landlord tech watch [1] собраны многочисленные примеры, как видов таких нарушений прав, так и конкретных примеров на территории США.

Эти нарушения включают, например:
- установку систем распознавания лиц на вход
- установку внутренних систем слежения
- использование мобильных приложений для коммуникации с арендодателями
- проверку арендодателя через базы полиции, банковский скоринг и тд
и ещё многое другое.

В статьях которые приводятся на сайте есть много отсылок к housing inequality и digital housing, а также к джентрификации территорий по причине развития подобных технологий.

Актуально ли это в России? Технологическая задержка внедрения подобных технологий у нас может составлять от 5 до 25 лет, в зависимости от территории и области применения. Российский массовый рынок съёма жилья является "серым", но всё меняется, лично я не удивлюсь если proptech в российских реалиях окажется частно-государственным партнерством с акцентом на собираемость налогов и иных платежей, например, коммунальных.

Ссылки:
[1] https://antievictionmappingproject.github.io/landlordtech/

#proptech #govtech #landlordtech #surveillance
Итоговый документ Концепции развития регулирования отношений в сфере технологий искусственного интеллекта и робототехники до 2024 года на сайте официального опубликования НПА publication.pravo.gov.ru [1] где он существует только в виде скана документа, как и все документы которые поступают и раскрываются на сайте официального опубликования в текстовом виде.

Это всё несмотря на то что в на дворе 20-е годы 21-го века, внедрённый документооборот и тд и даже дистанционная работа из-за коронавируса, но официальные документы до сих пор вначале сканами и потом уже, через месяцы в виде текста. Но о том как организована работа с НПА в России я уже писал и не хочу повторяться, там много что есть что исправлять.

По концепции, постараюсь её структурированно изложить.
Вовлечённые стороны
- Минэкономразвития России (сводит предложения по реализации)
- Федеральные органы исполнительной власти (направляют предложения по реализации и руководствуются концепцией)
- Госкорпорация Роскосмос (направляет предложения по реализации и руководствуется концепцией)
- Федеральное агентство технологического регулирования и метрологии (организация работы комитетов по разработке и уточнению терминов в ИИ, ч. II. п.6)

Сроки
- длительность действия: 3-4 года 3 месяца (19 августа 2020 - 31 декабря 2023(4?) года ). Не указано включён ли 2024 год.
- направление предложений ФОИВами в Минэкономразвития: до 19 ноября 2020 года

Финансирование
- Национальная программа "Цифровая экономика в Российской Федерации" (национальный проект)

{пропускаю здесь большой блок декомпозиции структуры самой стратегии и взаимосвязи с другими государственными инициативами}

На что стоит обратить внимание
- есть ГК Роскосмос, но нет других госкорпораций включая: ВЭБ.РФ (инвестиции в ИИ), Ростехнологии (разработка ИИ для военных и гражданских нужд) и тд.
- срок концепции до 2024 года - это удлинённый 3-х летний бюджетный цикл, очень короткий
- взаимодействие с отраслевыми ассоциациями нормативно не закреплено, если и будет то уже на уровне НПА Минэкономразвития
- организационная рамка не задана и не указана необходимость разработки НПА для этой организационной рамки

Есть ещё много что дополнить, но это надо уже читать не в виде скана, а в текстовом формате.

Ссылки:
[1] http://publication.pravo.gov.ru/Document/View/0001202008260005

#law #regulation #ai
Тем временем в Беларуси 12 ИТ-компаний находятся в процессе полного релокейта, 59 — частичного, а 112 компаний ищут возможность релокейта [1].

Ситуация, конечно, печальная. В каком-то смысле именно ИТ было той области которая в Беларуси развивалась хорошо и отключения Интернета очень скоро могут превратить страну в "картофельную республику", без какого-либо современного производства и услуг.

Ссылки:
[1] https://dev.by/news/linkedin-relokeit

#belarus
Удивительно сколь многие данные о России можно и нужно искать не в России, а в глобальных базах данных, чаще открытых, иногда не до конца открытых, иногда коммерческих.

Вот несколько примеров:
- база электростанций в наборе данных Global Power Plant Database [1] на сайте проекта Resource Watch. Там же и много других данных по
- выплаты нефтяных компаний государству налогами и не только, на сайте Resource Projects [2], пример Роснефть [3]
- составы правления и отслеживания изменений в составах правления публичных компаний [4] в The Official Board (кроме них есть ещё несколько похожих сервисов)
- OpenSignal даёт интересные инсайты и доступ к коммерческим данным по работе операторов мобильной связи [5], а также данных в рамках OpenCellID Project [6] и Mozilla Location Service [7] о башнях сотовой связи
- о том как распространяются мобильные приложения для основных платформ в России можно узнать из сервисов AppFollow [8], AppAnnie [9] и ещё многих других

Всё это неполный список того что называют "альтернативными данными" и то что можно анализировать не пользуясь открытыми государственными данными, просто по той причине что этих данных просто может не быть.

Ссылки:
[1] https://resourcewatch.org/data/explore/Powerwatch
[2] http://www.resourceprojects.org/
[3] http://www.resourceprojects.org/company/Rosneft/
[4] https://www.theofficialboard.com/companies/c/russian-federation
[5] https://www.opensignal.com/reports/2020/05/russia/mobile-network-experience
[6] https://opencellid.org
[7] https://location.services.mozilla.com
[8] https://appfollow.io
[9] https://www.appannie.com

#opendata #data #alternativedata
В Великобритании выяснилось что система предсказания вероятности наиболее тяжких преступлений, Most Serious Violence (MSV) определяла вероятности преступления со значительной меньшей точностью чем ранее было заявлено. В статье в Wired [1] есть отсылки на документ этического комитета за июль 2020 года [2] о текущем статусе внедрения системы NDAS и программной ошибке которая только в июле и была исправлена.

О разработке системы NDAS, в которую входит модуль MSV, формально было анонсировано в конце 2018 года и выделено 10 миллионов фунтов [3]. Это специальная аналитическая информационная система предсказания преступлений проходящая уже 2-й год пилотное внедрение в нескольких округах Великобритании. Её уникальность в том что это система работающая на огромных первичных данных учётов преступлений, баз по организованной преступности, иных учётов и баз данных позволяющих строить сложную детальную аналитику и вести списки лиц с наибольшей вероятностью могущих совершить преступления.

Я лично много лет изучаю precrime системы и считаю что их внедрение в каком-то смысле неизбежно и может быть ограничено только этическими принципами прописанными на уровне законов и способностью не только правоохранительной системы, но и социальных служб обеспечивать профилактику преступлений.

Ссылки:
[1] https://www.wired.co.uk/article/police-violence-prediction-ndas
[2] https://www.westmidlands-pcc.gov.uk/ethics-committee/ethics-committee-reports-and-minutes/
[3] https://www.gov.uk/government/news/home-office-funds-innovative-policing-technology-to-prevent-crime

#data #ai #precrime
NewAtlas пишет [1] о том что в США учёные из Purdue University стартовали исследование рецидивизма с помощью искусственного интеллекта. Вместе с местными властями в округа Типпекану (Tippecanoe) они намерены отслеживать сердечный ритм и состояние здоровья и поведение 250 досрочно освобожденных которым будет выдан специальный браслет и установлено мобильное приложение. Их действия будут сравниваться с действиями другой группы аналогичного размера, выступающей как контрольной.

Не все согласны что это исследование будет эффективным, например Liz O’Sullivan, технический директор проекта Surveillance Technology Oversight Project (S.T.O.P) [2] обращает внимание на то что люди меняют свое поведение когда знают что они находятся под наблюдением.

Подробнее о проекте информация [3] есть на сайте National Institute of Justice при департаменте юстиции США.

Я со своей стороны не могу не добавить что часто забывают что подобные персонализированные системы слежки охватывают не только тех кто носит браслеты или другие устройства и устанавливает специальное ПО на телефоны, но и всех кто их окружают там где они бывают. Устройства собирают сведения о инфраструктуре ad hoc momentum позволяя осуществлять слежку и за теми кто ими не пользуется, но находится рядом.

Ссылки:
[1] https://newatlas.com/computers/parolees-tracked-artificial-intelligence-prevent-recidivism/
[2] https://www.stopspying.org/
[3] https://nij.ojp.gov/topics/articles/specialized-smartphones-could-keep-released-offenders-track-successful-reentry

#precrime #ai #data #privacy
О работе с данными в академической среде на примере компьютерной лингвистики. Многие знают что компьютерная лингвистика - это область науки где, с одной стороны много данных, включая открытые, создается исследователями, а с другой стороны часто востребованы и коммерческими компаниями, в самых разных задачах обработки естественного языка. Это приводит к появлению гибридных бизнес моделей которые можно рассматривать, и как социально ответственный бизнеc, и как возможность самофинансирования некоммерческой деятельности - смотря как взглянуть.

Пример подобного коммерческого Sketch Engine [1], британо-чешского стартапа Lexical Computing [2] в котором собраны корпусы десятков языков всего мира. Корпуса созданы как на базе текстов в Википедии, так и на базе других крупных баз корпусов языков, таких как Aranea [3].

Важная особенность корпусов языков в их значительном объёме. С ними очень сложно работать без достаточных технических ресурсов памяти, процессора и хранения, поэтому поэтому коммерческий сервис даёт возможность работать с корпусами текстов несмотря на эти ограничения и предоставляет большой набор инструментов специально для исследователей в области компьютерной лингвистики.

При этом так же команда публикует сокращённую версию продукта под лицензией GPL - NoSketchEngine [4] который можно установить у себя локально и также с ним работать.

В это важная особенность сервисов создаваемых на базе академических/исследовательских данных. Практически во всех областях где есть вовлечение бизнеса и исследователей продукты построены по схожим принципам:
- бизнес модель основана на университетской подписке и подписке коммерческих компаний
- очень сильно заточены под предметную область и создают множество инструментов и интерфейсов под потребности именно исследователей
- значительно упрощают работу с данными очень большого объёма
- есть возможность указывать точные ссылки для библиографии
- есть или бесплатный доступ для исследователей, или какая-то часть кода/данных общедоступны

Таких примеров ещё много в разных областях. Такой продукт как Wolfram Alpha [5] создан не только для математиков, но и для всех кто исследует в сотнях отраслях и предоставляет, опять же, не данные, а инструменты на них основанные. Проект Censys [6] создавался как результаты академических работ по сканированию интернета на уязвимости, а сейчас является заметным коммерческим продуктом в области сетевой безопасности, с потребителями как из академической, так и коммерческой сред. А предоставление первичных больших данных стало в нём одним из продуктов Bulk Data [7]

Как и во всех продуктах основанных на данных, в данном случае важнейшим является то какую добавленную стоимость этот продукт создаёт.

Ссылки:
[1] https://www.sketchengine.eu
[2] https://www.lexicalcomputing.com/
[3] http://ucts.uniba.sk/aranea_about/index.html
[4] https://nlp.fi.muni.cz/trac/noske
[5] http://www.wolframalpha.com
[6] http://censys.io
[7] https://censys.io/product/product-data

#data #science #opendata #bigdata
Лучше всего получается то что делаешь под свои задачи (с)

Несколько внутренних инструментов решили перевести в open source и теперь они доступны на Github'е:
mongo2md - утилита помогающая в генерации документации/описания данных находящихся в коллекциях MongoDB [1]. Не умеет пока автодокуметировать поля к таблицам автоматически, но помогает очень сильно упростить работу тех кто документирует руками. Как можно понять из названия, создаёт Markdown файлы на основе схем коллекций которые само же распознает.

apibackuper - утилита по архивации данных отдаваемых через API. Подходит для всех тех случаев когда владелец данных предоставляет API с каким-то ограничением на один запрос, но не отдаёт нужные данные целиком для массовой выгрузки. В результате иногда надо делать тысячи запросов к API пролистывая все нужные данные. Эта утилита автоматизирует эти запросы к API, настраивается с помощью простого конфиг файла и экспортирует данные в нужном формате. Проверено на API на таких сайтах как как: Единый портал бюджетной системы, Корневой удостоверяющий центр, Headhunter API, Госрасходы. Функции именно в архивации на (полной копии данных) на определённый момент (фактически она нужна для создания внутреннего цифрового архива и архивации сайтов работащих через API/Ajax и не поддающихся веб-архивации классическими инструментами).

Ссылки:
[1] https://github.com/datacoon/mongo2md
[2] https://github.com/ruarxive/apibackuper
#opensource #api #data
Если кто-то не догадался сразу, то вот эти замечательные картинки - это "открытые данные" публикуемые Федеральным агентством лесного хозяйства в из их информационной системы дистанционного мониторинга.
Я бы восхитился вольностью интерпретации сотрудников Рослесхоза понятием открытые данные, но они такие не первые, я помню что были похожие "схемы" публикации данных и в других органах власти. Когда Word файл сохраняли в Word XML (язык разметки а ля HTML) и выдавали за машиночитаемые форматы, когда публиковали картинки вместо машиночитаемых файлов или когда с виду данные были, а одного клика было достаточно чтобы убедиться что они более недоступны.
В другой их системе, Единой государственная автоматизированная информационная система
"УЧЁТ ДРЕВЕСИНЫ И СДЕЛОК С НЕЙ" (ЛесЕГАИС) [2] также есть раздел открытых данных где их можно листать и искать, но скачать только некоторые и только в формате xlsx. В общем то тоже, открытость там на 3-чку и то только потому что за этим разделом API на базе GraphQL к которому опытные умы могут подключаться, но учитывая объёмы публикуемых данных - это крайне неудобно делать тысячи запросов по 20 записей каждая.
При этом в самом ведомстве знают что такое открытые данные и как их публиковать потому что соответствующий раздел на сайте Рослесхоза существует [3] и обновляется, но данные из их ФГИС не включает.

Ссылки:
[1] https://public.aviales.ru/main_pages/public.shtml
[2] https://lesegais.ru/
[3] http://rosleshoz.gov.ru/opendata
#opendata #opengov #rosles
Почему в России так много (а на самом деле так мало) открытых данных? Почему самыми большими данными оказываются, например, данные о госзакупках и госфинансам [1] ?

Среди множества причин: политических, экономических и культурных, я хочу обратить внимание на отличия в том что и как публикуется на российских порталах открытых данных и как это отличается от происходящего в мире.

1. Одни из наиболее крупных по объёмам публикации данных в мире - это географические и геологические данные. Например, более 26% всех наборов данных (25 тысяч из 95 тысяч) на портале открытых данных Австралии [2] опубликованы Geoscience Australia. Почти все эти данные - это геоданные, в форматах GeoJSON и SHP и других, содержащие сведения о наблюдении за территорией, спутниковые снимки и тд.

2. Ещё примерно вдвое больше данных публикуется другими научными и исследовательскими организациями и, в итоге, всё вместе - примерно 75% всех данных публикуемых на data.gov.au - это научные и исследовательские данные.

3. В Великобритании на портале data.gov.uk из публикуемых данных, также, около 15-20% - это геоданные. Точно измерить сложно поскольку публикуются они многими органами власти и организациями. Научных данных там меньше только по той причине что существуют отдельные системы раскрытия научных данных в рамках проектов Dataverse, европейского Zenodo и многих других.

4. В США ситуация похожая и большая часть данных на data.gov - это данные из многочисленных научных центров раскрывающих кроме данных ещё и совершенно невероятные объёмы открытого кода, в основном через Github.

5. В России около 64% (15286 из 23864) опубликованных данных на портале data.gov.ru [2] - это административные данные отклассифицированные в категорию "Государство". Они так или иначе касаются отчетности органов власти, вакансий, списков терр. органов и иных данных которые требуются к раскрытию по 8-ФЗ и порождённых от него НПА. Практическая их применимость есть в очень и очень узких задачах. Геоданные не публикуются практически полностью, научных данных также нет.

С чем это связано? Причин несколько:
- секретность геоинформации в России. То что во всём мире раскрывается повсеместно, в России является предметом преследования географов, засекречивается и не раскрывается даже в самых очевидных случаях. То же самое касается если не всех то многих данных о недрах в России.
- полное отсутствие коммуникаций с действующими научными проектами, по астрофизике, по изучению недр, по изучению погоды и так далее. Это ещё на уровне Открытого правительства - фактически совсем ничего не делалось в этом направлении
- фрагментированность госполитики в области управления данными. Отдельно существует регулирование открытых данных, отдельно разрабатываются НПА по СМЭВу, отдельно существуют инициативы по платформам по исследованиям в Минобре, отдельно существует регулирование информационных систем. В результате даже если огромные объёмы данных создаются в таких системах как ЕСИМО, системах Росгидромета и других, на портал открытых данных они не поступают.

Можно ли это изменить? На техническом уровне нет. Только на политическом уровне. Главная беда большинства госпорталов открытых данных не в их технической реализации, а в отсутствии политической опоры внутри исполнительной власти. А можно ли это изменить?


Ссылки:
[1] https://spending.gov.ru
[2] https://data.gov.ru

#opendata #data #opengov
Из "условно необычных" проектов про открытые данные - это Open Apparel (Открытая одежда) [1] проект по систематизации рынка одежды и фэшн индустрии в целом. В проекте собрано большое число объектов/предприятий большая часть которых собрана из списков вроде Better Cotton Initative [2] об улучшении работы фермеров работающих с хлопком, списков поставщиков крупных ритейлеров и так далее и тому подобное.

Сведений о предприятиях там, прямо скажем, "небогато". Название, местонахождение, указание в каких списках указано. А с другой стороны десятки тысяч объектов по всему миру.

Я не смог придумать как можно эти данные использовать, но кто знает, может быть проект будет развиваться.

Ссылки:
[1] https://openapparel.org
[2] https://bettercotton.org

#opendata