Ivan Begtin
8.1K subscribers
2.03K photos
3 videos
102 files
4.76K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
Один из инструментов с открытым кодом который используется внутри каталога данных DataCrafter - это утилита командной строки APIBackuper.

Изначально она разрабатывалась для архивации данных которые предоставляются только через API. Таких примеров много, многие государственные информационные системы устроены именно так - есть API, чаще недокументированное, и поверх него работает веб интерфейс. Но, конечно, это не только про государственные информационные системы, такое есть и у частных проектов.

Эта утилита работает без кода, через настройки конфиг файла в котором указываются параметры обращения к API. Вот тут пример по получению данных из API российского реестра удостоверяющих центров.

Чтобы собрать данные нужно в папке с этим конфигом запустить утилиту
apibackuper run full

А после сбора данных выполнить команду apibackuper export jsonl data.jsonl

На выходе получается файл в формате JSON lines который можно обрабатывать другими инструментами.

#opendata #tools #api #openapi
Вот уже довольно длительное время не работает портал открытых данных Воронежской области opendata.govvrn.ru. Последняя запись в интернет-архиве есть за март 2019 года, уже за 2020 год сайт оказался недоступен, а сейчас просто всегда выдает ошибку. Россия, возможно, единственная страна где проекты по открытости (включая открытость данных) не развиваются, а сворачиваются. При этом, что бы кто не говорил, открытость данных не несёт рисков для госорганов потому что в открытые данные переводят чаще всего те информационные ресурсы которые и так публиковались в Excel, Word, PDF и других форматах. Разница в том, что открытые данные - это форма коммуникации с технически подготовленными пользователями государственной информации.

#opendata #regions #voronezh #opengov
Новый уровень закрытости в нашей стране, Правительство распорядилось закрыть все закупки ФСО, ФСБ, СВР, Минобороны и Росгвардии, а также всех их подведомственных учреждений [1]. Всё это в распоряжении Правительства РФ от 30 октября 2021 г. N 3095-р.

Если раньше были закрыты закупки этих ведомств только в части закрытой части бюджета, то сейчас решили закрыть все закупки, в том числе и по открытой части тоже. Что это означает на практике?

1. Значительное повышение непрозрачности гражданской деятельности этих ведомств. Если, к примеру, у СВР её точно нет, то ФСБ, Минобороны и Росгвардия ещё и осуществляют лицензирование деятельности, а ФСО ведёт портал нормативно-правовых актов pravo.gov.ru. Вся эта деятельнсть теперь будет скрыта как и другая работа этих органов власти.
2. Ещё большее снижение конкуренции по закупкам этих ведомств. Закрытые конкурсные процедуры идут по закрытому списку поставщиков.
3. Можно обратить внимание что в этом списке нет МВД, но есть Росгвардия, выходит секретность Росгвардии сильно выше чем МВД. Закупки Росгвардии ранее были предметом общественного расследования, как бы причина не была именно в этом.

Вместе с ростом закрытой части российского бюджета он становится всё непрозрачнее.

Ссылки:
[1] http://publication.pravo.gov.ru/Document/View/0001202111020029

#opencontracting #contracts #government
Для тех кто ищет данные и не знает где их найти, Инфокультура подготовила новый небольшой и полезный проект "Каталог каталогов данных" datacatalogs.ru. На самом деле мы его вели очень давно, в виде базы в Airtable с большим числом параметров по каждому каталогу данных - тип каталога, темы, наличие экспорта, наличие API, программный продукт и многое другое. Потом поняли что недостаточно каталогизировать только каталоги данных и добавили туда несколько репозиториев других видов данных и источники особо крупных датасетов.
Forwarded from Инфокультура
Инфокультура представляет новый проект — Каталог данных www.datacatalogs.ru.

В нем систематизированы государственные источники открытых данных, а также собраны альтернативные базы, каталоги, репозитории, порталы, наборы и иные источники данных, потенциально интересные для всех, кто работает с данными.

На сегодняшний день в каталоге:
✔️ 245 российских и международных источников данных.
✔️ 105 тематических направлений, охватывающих самый широкий спектр от социологии до недропользования и внешней торговли.
✔️ Ссылки не только на государственные источники данных, но и на независимые общественные и некоммерческие инициативы, а также академические данные и данные коммерческих компаний.
✔️ Источники данных имеют разные режимы доступа (открытые, ограниченные, закрытые), а также категоризированы по типу контента и даже по типу платформы каталога (CKAN, DKAN и иные).

Если вы знаете какой-либо источник данных, отсутствующий в каталоге, вы можете добавить его, заполнив специальную форму.
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Минсельхоз России подготовил проект Распоряжения Правительства об утверждении перечня открытых данных Федеральной государственной информационной системы прослеживаемости пестицидов и агрохимикатов. Судя по документу, должны быть доступными:

- ИНН и наименование юрлица/ИП
- дата и время проведения работ с применением пестицидов и химикатов
- торговое наименование препарата, действующее вещество и выбранный способ его применения
- информация о способах обеспечения безопасности населения.

Не так часто в последнее время принимаются решения о публикации открытых данных, влияющих на качество и безопасность жизни, поэтому наличие данный документа не может не радовать.

По информации Федерального проекта портала НПА, общественное обсуждение проекта должно было закончиться вчера, но всегда можно отправить предложения об открытых данных напрямую в Минсельхоз.

https://regulation.gov.ru/projects#npa=119605
Netflix опубликовали открытый код Metaflow UI [1], веб интерфейса для разработанного ими движка Metaflow [2] по моделированию потоков данных/труб данных (data pipelines) в целях data science. Для тех кто регулярно работает с задачами по машинному обучению инструмент может быть полезен. Подробнее в блоге Netflix [3], с рассказом о том почему и кому этот GUI может быть полезен.

Ссылки:
[1] https://github.com/Netflix/metaflow-ui
[2] https://metaflow.org/
[3] https://netflixtechblog.com/open-sourcing-a-monitoring-gui-for-metaflow-75ff465f0d60

#data #datatools #datapipelines #opensource
Я в декабре 2019 года писал про проект ASPI по идентификации активности китайских технологических компаний в мире, он не обновлялся почти 2 года и, оказывается, неожиданно был обновлён в июне 2021 г. В виде большого набора данных и на карте собраны сведения о 3948 инициативах китайских технологических компаний в мире: совместных производствах, контрактах, обучении, дочерних предприятиях, тренингах и многом другом. Всего 27 компаний в 186 странах. В России всего 121 такой проект. Можно обратить внимание, например, на проекты Meiya Pico, продавших в 2018 году Следственному комитету РФ технологию MagiCube для вскрытия телефонов iPhone и Android. По видимому, они заменили, израильскую компанию Cellebrite продуктами которой ранее пользовались отечественные правоохранители.

Что тут добавить, если даже российские госорганы закрывают госзакупки, это не значит что информацию о них скроют поставщики. Им же надо привлекать клиентов и показывать успехи.

#privacy #china #surveillance
В рубрике "открытые большие наборы данных", напомню про многочисленные открытые наборы данных с которыми можно работать в любое время.

* Common Crawl - огромный общедоступный поисковый индекс. На его основе создается множество проектов, включая, например, PrivaSeer, поисковик по условиям приватности.
* Wikipedia dumps - дампы базы данных Википедии и связанных с ней проектов, на всех языках.
* DBLP - открытая база данных библиографии в computer science. Полезная всем кто разрабатывает алгоритмы поиска трендов в научных исследованиях.
* Awesome Public Datasets - большой каталог источников открытых данных, как правило, большого объёма.

И, конечно, напомню про свежезапущенный нами каталог каталогов данных (datacatalogs.ru) где можно найти каталог данных в России, о России, связанных с России и русскоязычными пользователями данных.

#opendata #datasets #datasources
Свежее расследование в The Markup о том как Amazon манипулирует выдачей в своём магазине и подсовывает свои товары в результаты поиска и просмотра так чтобы их чаще покупали. При этом продукты Amazon оказываются в топе выдачи даже если у их конкурентов выше оценки потребителей, их больше покупают и так далее. У The Markup получаются очень интересные лонгриды, с интерактивом, и с результатами соцопросов и обработки данных. А в этой статье они ещё и выложили весь код и все данные которые собрали проверяя теорию что Amazon продвигает свои бренды в первую очередь. Этот код и данные - это почти 300 ГБ в распакованном виде и около 11 ГБ в сжатом виде. Очень много данных, собранных на февраль 2021.

Лично мне нравится как The Markup подходит к расследованиям и акцент редакции на Big Tech. Не знаю воспроизводима ли их модель в стране отличной от США, но читать интересно.

#opendata #datasets #datajournalism #ddj #bigtech
Postman опубликовали свежий отчет The State of API 2021 [1], отчет они проводили на своей платформе, поэтому неудивительно что в нём они фигурируют как лидер инструментария по работе с API, но даже несмотря на это искажение, вполне возможно что они правы. Удивительно малое присутствие другие API инструментов и сервисов, например, RapidAPI, маркетплейс для API родом из Израиля, оказывается малопопулярен среди разработчиков, а вот корпоративные продукты от Microsoft, Google, Oracle, IBM вполне интересны (почти все они это купленные стартапы). Как всегда интересное чтение, Postman, действительно, один из лучших коммерческих инструментов проектирования и тестирования API, но, конечно, далеко не единственный и не универсальный. Например, для GraphQL или проектирования SOAP есть альтернативы (хотя кому придёт в голову проектировать SOAP API в наше то время? ).

Как бы то ни было рынок API сейчас на подъёме в мире и это уже неплохой мотиватор делать продукты изначально ориентированные на предоставление API.

Ссылки:
[1] https://www.postman.com/state-of-api

#API #reports
В рубрике "интересные наборы данных" база данных пауков World Spider Catalog [1] с описанием более чем 49 000+ специй и с возможностью выгрузки всей базы данных целиком в машиночитаемом виде [2] в CSV формате. Каталог поддерживается Naturhistorisches Museum Bern, спонсируется несколькими организациями изучающими арахнологию.

Данные будут интересны не только опытным арахнологам, но и всем кто интересуется пауками всех возможных видов и форм.

Ссылки:
[1] https://wsc.nmbe.ch
[2] https://wsc.nmbe.ch/dataresources

#opendata #datasets #openaccess
То что мы в России называем машиночитаемыми законами в мире чаще называют machine-consumable legislation (машинопотребляемыми законами/регулированием). О них и концепции Rules as Code в обзоре Why you should develop a Rules as Code-enabled future [1] от Tim de Sousa, автора Rules as Code Handbook.

Он упоминает многие продукты которые уже создаются внутри технологических команд в государствах. Например, Policy Difference Engine [2] в Канаде и проект DataLex в Австралии


Ссылки:
[1] https://apolitical.co/solution-articles/en/develop-rules-as-code-enabled-future
[2] https://codefor.ca/blog/introducing-the-policy-difference-engine

#laws #regulation #legislation #legaltech
Forwarded from APICrafter
В каталог Datacrafter'а загружены данные 19 реестров и справочников из Федерального информационного фонд по обеспечению единства измерений (ФГИС Аршин), государственной информационной системы в ведении Росстандарта. В том числе такие наборы данных как:
- Аттестованные методики (методы) измерений - 39 тысяч записей
- Эталоны единиц величин - 114 тысяч записей
- Утверждённые типы средств измерений - 99 тысяч записей

Эти данные, а также остальные наборы данных загружены в раздел Справочники и классификаторы.

Все они доступны для бесплатного открытого использования через API DataCrafter и с возможностью получить весь набор данных в виде базы MongoDB.

Далее продолжится работа по классификаци и анализу всех загруженных метаданных в этих наборах данных.

В будущем ждите больше данных, идёт работа по агрегации крупнейших каталогов данных.

#opendata #datasets #metrology
В рубрике "интересные наборы данных" и "как это работает у них" данные раскрытия сведений о заболеваемости COVID-19 в Италии [1]. Репозиторий опубликован на платформе Github и включает ежедневно обновляемые сведения о статистике заболевания в разрезе страны и территорий, сведения о вакцинации и многое другое. Данные обновляются автоматически, опубликованы под лицензией Creative Commons CC-BY 4.0. Это официальный репозиторий сообщества государственных open source разработчиков Италии (developers.italia.it) [2].

Многие данные по COVID-19 в региональном и общестрановом разрезе публикуются на итальянском портале открытых данных [3]. Как и российский портал открытых данных он сделан на базе ПО Dkan, но отличается тем что его открытый код общедоступен [4], а сами данные обновляются на регулярной основе. Многие данные из 47 тысяч наборов открытых данных в итальянском национальном портале данных - это геоданные. Геоданные публикуются на портале geodati.gov.it [5], и значительная их часть доступны как открытые данные.

Ссылки:
[1] https://github.com/italia/covid19-opendata-vaccini
[2] https://developers.italia.it
[3] https://www.dati.gov.it/view-dataset?Cerca=covid
[4] https://github.com/FormezPA/dkan
[5] https://geodati.gov.it/

#opendata #opengov #italy #datasets
У 77% от общего числа или, в цифрах, у 3852 некоммерческих организаций в России в форме АНО, фондов, благотворительных фондов, общественных фондов, экологических фондов, религиозных организаций зарегистрированных в России за 2021 год в ЕГРЮЛ отсутствуют сведения об учредителях. Много это или мало? За 2021 год было зарегистрировано всего 5143 подобных НКО. Соответственно 77% от их числа - это очень много.

Примерно с 24 августа это касается всех зарегистрированных НКО подобного типа. с 24 августа по 7 ноября их было зарегистрировано 1056 организаций, ни по одной из них в ЕГРЮЛ недоступны сведения об учредителях.

Примеры организаций, коды ОГРН: 1216900011151, 1217400031012, 1212400022680

Проверить их можно в сервисах проверки контрагентов или в ЕГРЮЛ напрямую egrul.nalog.ru [1].

Для сравнения в 2020 году было зарегистрировано 5291 юридическое лицо в этих формах собственности и из них по 965 отсутствуют сведения об учредителях, это 18,2% от общего числа. Тоже много, тоже надо разбираться почему, но это куда меньше чем в этом году,

Отдельно надо разбираться что было в предыдущие годы, но рост неполноты данных от 18,2% до 77% - это очень серьёзно. Хочется надеяться что этому есть какое-то разумное объяснение.

А я напомню что один из проектов Инфокультуры - Открытые НКО (openngo.ru) [2] открытая база и открытые данные по всем некоммерческим организациям. База включает, в том числе, сведения из баз APICrafter'а и регулярно обновляется данными из ЕГРЮЛ. Полнота и точность сведений об учредителях организаций необходима для всех проверок контрагентов, задач проверок комплаенс и многого другого привычного в деловой практике.

Повторяется ли подобная ситуация для юридических лиц в иных формах собственности сказать не возьмусь, тотальная проверка всех зарегистрированных за 2021 год юр. лиц задача куда более трудоёмкая.

Ссылки:
[1] https://egrul.nalog.ru
[2] https://openngo.ru

#opendata #data #registries
Специально для российских госорганов и крупного бизнеса которые очень стараются избегать любого прямого регулирования внедрения ИИ, приведу пример нерегуляторной модели. Этический комитет был создан при West Midlands Police департаменте полиции в Великобритании в котором происходили и происходят эксперименты по внедрению National Data Analytics Solution (NDAS) специальной прогностической системы предупреждения преступлений на основе больших данных. Этот комитет ежемесячно собирается и публикует, как результаты своего анализа, так и представленные полицией материалы. Материалы, кстати, весьма интересные всем кто интересуется тематикой цифрового дознания [1].

Да, саморегулирование может быть устроено подобным образом, но только через полную транспарентность решений и раскрытие деталей о том как обеспечивается обучение алгоритмов.

Ссылки:
[1] https://www.westmidlands-pcc.gov.uk/ethics-committee/ethics-committee-reports-and-minutes/

#ai #regulation #police #predictivepolicing #uk #ndas
В рубрике интересные книги - свежевышедшая The Informed Company: How to Build Modern Agile Data Stacks that Drive Winning Insights [1] от Dave Fowler и Mattew David о том как организовать современный стэк технологий для работы с данными (data stack), как устроена архитектура с данными в облаке и какие стратегии работы с данными есть у малых, средних и крупных компаний.

Книга рассказывает в подробностях о том что такое Data Source, Data Lake, Data Warehouse и Data Marts (по русски - источники данных, озера данных, хранилища данных и витрины данных), но главное её достоинство для одних и недостаток для других - это простота изложения, вплоть до жанра "озера данных для самых маленьких". Для опытных специалистов это всё может показаться азами, например, там довольно ограниченный перечень описываемых архитектур, структуры и компонентов современного стэка. К примеру в прошлогоднем обзоре Emerging Architectures for Modern Data Infrastructure [2] от Andreessen Horowitz тоже наглядно, но несколько более детальнее>

А вот для руководителей которые должны быть компетентными заказчиками, но часто не разбираются в технологиях эта книга будет очень полезна также как и полезна для обучения студентов современным средам работы с данными.

Этот акцент на понятности у авторов неудивителен, оба они из компании ChartIO, недавно приобретённой Atlassian и у ChartIO есть серия веб-книг DataSchool [3] о том как научиться SQL, как преподавать SQL, как работать с данными в облаке и многое другое. Все они написаны в очень доступном стиле для обучения аналитиков с нуля и тех кто учит аналитиков с нуля. Если присмотреться, то The Informed Company и эти книжки пересекаются по содержанию где-то процентов на 50-60%, главное же изменение в смене акцента аудитории на руководителей и управлении данными.

Ссылки:
[1] https://www.amazon.com/Informed-Company-Modern-Winning-Insights-ebook-dp-B09K5ZMDDN/dp/B09K5ZMDDN/
[2] https://future.a16z.com/emerging-architectures-modern-data-infrastructure/
[3] https://dataschool.com/

#data #datamanagement #books #reviews