Ivan Begtin
9.13K subscribers
2.04K photos
3 videos
102 files
4.78K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
Я в декабре 2019 года писал про проект ASPI по идентификации активности китайских технологических компаний в мире, он не обновлялся почти 2 года и, оказывается, неожиданно был обновлён в июне 2021 г. В виде большого набора данных и на карте собраны сведения о 3948 инициативах китайских технологических компаний в мире: совместных производствах, контрактах, обучении, дочерних предприятиях, тренингах и многом другом. Всего 27 компаний в 186 странах. В России всего 121 такой проект. Можно обратить внимание, например, на проекты Meiya Pico, продавших в 2018 году Следственному комитету РФ технологию MagiCube для вскрытия телефонов iPhone и Android. По видимому, они заменили, израильскую компанию Cellebrite продуктами которой ранее пользовались отечественные правоохранители.

Что тут добавить, если даже российские госорганы закрывают госзакупки, это не значит что информацию о них скроют поставщики. Им же надо привлекать клиентов и показывать успехи.

#privacy #china #surveillance
В рубрике "открытые большие наборы данных", напомню про многочисленные открытые наборы данных с которыми можно работать в любое время.

* Common Crawl - огромный общедоступный поисковый индекс. На его основе создается множество проектов, включая, например, PrivaSeer, поисковик по условиям приватности.
* Wikipedia dumps - дампы базы данных Википедии и связанных с ней проектов, на всех языках.
* DBLP - открытая база данных библиографии в computer science. Полезная всем кто разрабатывает алгоритмы поиска трендов в научных исследованиях.
* Awesome Public Datasets - большой каталог источников открытых данных, как правило, большого объёма.

И, конечно, напомню про свежезапущенный нами каталог каталогов данных (datacatalogs.ru) где можно найти каталог данных в России, о России, связанных с России и русскоязычными пользователями данных.

#opendata #datasets #datasources
Свежее расследование в The Markup о том как Amazon манипулирует выдачей в своём магазине и подсовывает свои товары в результаты поиска и просмотра так чтобы их чаще покупали. При этом продукты Amazon оказываются в топе выдачи даже если у их конкурентов выше оценки потребителей, их больше покупают и так далее. У The Markup получаются очень интересные лонгриды, с интерактивом, и с результатами соцопросов и обработки данных. А в этой статье они ещё и выложили весь код и все данные которые собрали проверяя теорию что Amazon продвигает свои бренды в первую очередь. Этот код и данные - это почти 300 ГБ в распакованном виде и около 11 ГБ в сжатом виде. Очень много данных, собранных на февраль 2021.

Лично мне нравится как The Markup подходит к расследованиям и акцент редакции на Big Tech. Не знаю воспроизводима ли их модель в стране отличной от США, но читать интересно.

#opendata #datasets #datajournalism #ddj #bigtech
Postman опубликовали свежий отчет The State of API 2021 [1], отчет они проводили на своей платформе, поэтому неудивительно что в нём они фигурируют как лидер инструментария по работе с API, но даже несмотря на это искажение, вполне возможно что они правы. Удивительно малое присутствие другие API инструментов и сервисов, например, RapidAPI, маркетплейс для API родом из Израиля, оказывается малопопулярен среди разработчиков, а вот корпоративные продукты от Microsoft, Google, Oracle, IBM вполне интересны (почти все они это купленные стартапы). Как всегда интересное чтение, Postman, действительно, один из лучших коммерческих инструментов проектирования и тестирования API, но, конечно, далеко не единственный и не универсальный. Например, для GraphQL или проектирования SOAP есть альтернативы (хотя кому придёт в голову проектировать SOAP API в наше то время? ).

Как бы то ни было рынок API сейчас на подъёме в мире и это уже неплохой мотиватор делать продукты изначально ориентированные на предоставление API.

Ссылки:
[1] https://www.postman.com/state-of-api

#API #reports
В рубрике "интересные наборы данных" база данных пауков World Spider Catalog [1] с описанием более чем 49 000+ специй и с возможностью выгрузки всей базы данных целиком в машиночитаемом виде [2] в CSV формате. Каталог поддерживается Naturhistorisches Museum Bern, спонсируется несколькими организациями изучающими арахнологию.

Данные будут интересны не только опытным арахнологам, но и всем кто интересуется пауками всех возможных видов и форм.

Ссылки:
[1] https://wsc.nmbe.ch
[2] https://wsc.nmbe.ch/dataresources

#opendata #datasets #openaccess
То что мы в России называем машиночитаемыми законами в мире чаще называют machine-consumable legislation (машинопотребляемыми законами/регулированием). О них и концепции Rules as Code в обзоре Why you should develop a Rules as Code-enabled future [1] от Tim de Sousa, автора Rules as Code Handbook.

Он упоминает многие продукты которые уже создаются внутри технологических команд в государствах. Например, Policy Difference Engine [2] в Канаде и проект DataLex в Австралии


Ссылки:
[1] https://apolitical.co/solution-articles/en/develop-rules-as-code-enabled-future
[2] https://codefor.ca/blog/introducing-the-policy-difference-engine

#laws #regulation #legislation #legaltech
Forwarded from APICrafter
В каталог Datacrafter'а загружены данные 19 реестров и справочников из Федерального информационного фонд по обеспечению единства измерений (ФГИС Аршин), государственной информационной системы в ведении Росстандарта. В том числе такие наборы данных как:
- Аттестованные методики (методы) измерений - 39 тысяч записей
- Эталоны единиц величин - 114 тысяч записей
- Утверждённые типы средств измерений - 99 тысяч записей

Эти данные, а также остальные наборы данных загружены в раздел Справочники и классификаторы.

Все они доступны для бесплатного открытого использования через API DataCrafter и с возможностью получить весь набор данных в виде базы MongoDB.

Далее продолжится работа по классификаци и анализу всех загруженных метаданных в этих наборах данных.

В будущем ждите больше данных, идёт работа по агрегации крупнейших каталогов данных.

#opendata #datasets #metrology
В рубрике "интересные наборы данных" и "как это работает у них" данные раскрытия сведений о заболеваемости COVID-19 в Италии [1]. Репозиторий опубликован на платформе Github и включает ежедневно обновляемые сведения о статистике заболевания в разрезе страны и территорий, сведения о вакцинации и многое другое. Данные обновляются автоматически, опубликованы под лицензией Creative Commons CC-BY 4.0. Это официальный репозиторий сообщества государственных open source разработчиков Италии (developers.italia.it) [2].

Многие данные по COVID-19 в региональном и общестрановом разрезе публикуются на итальянском портале открытых данных [3]. Как и российский портал открытых данных он сделан на базе ПО Dkan, но отличается тем что его открытый код общедоступен [4], а сами данные обновляются на регулярной основе. Многие данные из 47 тысяч наборов открытых данных в итальянском национальном портале данных - это геоданные. Геоданные публикуются на портале geodati.gov.it [5], и значительная их часть доступны как открытые данные.

Ссылки:
[1] https://github.com/italia/covid19-opendata-vaccini
[2] https://developers.italia.it
[3] https://www.dati.gov.it/view-dataset?Cerca=covid
[4] https://github.com/FormezPA/dkan
[5] https://geodati.gov.it/

#opendata #opengov #italy #datasets
У 77% от общего числа или, в цифрах, у 3852 некоммерческих организаций в России в форме АНО, фондов, благотворительных фондов, общественных фондов, экологических фондов, религиозных организаций зарегистрированных в России за 2021 год в ЕГРЮЛ отсутствуют сведения об учредителях. Много это или мало? За 2021 год было зарегистрировано всего 5143 подобных НКО. Соответственно 77% от их числа - это очень много.

Примерно с 24 августа это касается всех зарегистрированных НКО подобного типа. с 24 августа по 7 ноября их было зарегистрировано 1056 организаций, ни по одной из них в ЕГРЮЛ недоступны сведения об учредителях.

Примеры организаций, коды ОГРН: 1216900011151, 1217400031012, 1212400022680

Проверить их можно в сервисах проверки контрагентов или в ЕГРЮЛ напрямую egrul.nalog.ru [1].

Для сравнения в 2020 году было зарегистрировано 5291 юридическое лицо в этих формах собственности и из них по 965 отсутствуют сведения об учредителях, это 18,2% от общего числа. Тоже много, тоже надо разбираться почему, но это куда меньше чем в этом году,

Отдельно надо разбираться что было в предыдущие годы, но рост неполноты данных от 18,2% до 77% - это очень серьёзно. Хочется надеяться что этому есть какое-то разумное объяснение.

А я напомню что один из проектов Инфокультуры - Открытые НКО (openngo.ru) [2] открытая база и открытые данные по всем некоммерческим организациям. База включает, в том числе, сведения из баз APICrafter'а и регулярно обновляется данными из ЕГРЮЛ. Полнота и точность сведений об учредителях организаций необходима для всех проверок контрагентов, задач проверок комплаенс и многого другого привычного в деловой практике.

Повторяется ли подобная ситуация для юридических лиц в иных формах собственности сказать не возьмусь, тотальная проверка всех зарегистрированных за 2021 год юр. лиц задача куда более трудоёмкая.

Ссылки:
[1] https://egrul.nalog.ru
[2] https://openngo.ru

#opendata #data #registries
Специально для российских госорганов и крупного бизнеса которые очень стараются избегать любого прямого регулирования внедрения ИИ, приведу пример нерегуляторной модели. Этический комитет был создан при West Midlands Police департаменте полиции в Великобритании в котором происходили и происходят эксперименты по внедрению National Data Analytics Solution (NDAS) специальной прогностической системы предупреждения преступлений на основе больших данных. Этот комитет ежемесячно собирается и публикует, как результаты своего анализа, так и представленные полицией материалы. Материалы, кстати, весьма интересные всем кто интересуется тематикой цифрового дознания [1].

Да, саморегулирование может быть устроено подобным образом, но только через полную транспарентность решений и раскрытие деталей о том как обеспечивается обучение алгоритмов.

Ссылки:
[1] https://www.westmidlands-pcc.gov.uk/ethics-committee/ethics-committee-reports-and-minutes/

#ai #regulation #police #predictivepolicing #uk #ndas
В рубрике интересные книги - свежевышедшая The Informed Company: How to Build Modern Agile Data Stacks that Drive Winning Insights [1] от Dave Fowler и Mattew David о том как организовать современный стэк технологий для работы с данными (data stack), как устроена архитектура с данными в облаке и какие стратегии работы с данными есть у малых, средних и крупных компаний.

Книга рассказывает в подробностях о том что такое Data Source, Data Lake, Data Warehouse и Data Marts (по русски - источники данных, озера данных, хранилища данных и витрины данных), но главное её достоинство для одних и недостаток для других - это простота изложения, вплоть до жанра "озера данных для самых маленьких". Для опытных специалистов это всё может показаться азами, например, там довольно ограниченный перечень описываемых архитектур, структуры и компонентов современного стэка. К примеру в прошлогоднем обзоре Emerging Architectures for Modern Data Infrastructure [2] от Andreessen Horowitz тоже наглядно, но несколько более детальнее>

А вот для руководителей которые должны быть компетентными заказчиками, но часто не разбираются в технологиях эта книга будет очень полезна также как и полезна для обучения студентов современным средам работы с данными.

Этот акцент на понятности у авторов неудивителен, оба они из компании ChartIO, недавно приобретённой Atlassian и у ChartIO есть серия веб-книг DataSchool [3] о том как научиться SQL, как преподавать SQL, как работать с данными в облаке и многое другое. Все они написаны в очень доступном стиле для обучения аналитиков с нуля и тех кто учит аналитиков с нуля. Если присмотреться, то The Informed Company и эти книжки пересекаются по содержанию где-то процентов на 50-60%, главное же изменение в смене акцента аудитории на руководителей и управлении данными.

Ссылки:
[1] https://www.amazon.com/Informed-Company-Modern-Winning-Insights-ebook-dp-B09K5ZMDDN/dp/B09K5ZMDDN/
[2] https://future.a16z.com/emerging-architectures-modern-data-infrastructure/
[3] https://dataschool.com/

#data #datamanagement #books #reviews
Как-то я всё больше и больше и говорю про приватность, а не про открытость. Но что это означает? Нужно больше откртытых данных по теме приватности! Присоединяйтесь сегодня в 19 часов к голосовому чату на @GDPRru
Forwarded from Privacy GDPR Russia
​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​#events #privacy #radiogroot

Когда: 09 ноября 19:00(мск)
Где: голосовой чат в канале Privacy GDPR Russia
Тема: RadioGroot. Privacy поболтушки
В гостях: Иван Бегтин
Кто: Автор канала про большие данные и приватность
Организатор: RPPA
Язык: русский
Стоимость: бесплатно
Подробности: заходи в канал

🗓 Добавить в календарь

💬Оставляй вопросы спикеру здесь⬇️⬇️⬇️
В рубрике инструментов работы с данными, об инструментах с открытым кодом для работы над качеством данных.

- OpenRefine - инструмент для ручной/автоматизированной очистки наборов данных. Работает преобразуя их в плоские таблицы, поддерживает Excel/CSV/JSON/JSON lines и другие форматы. Позволяет проводить довольно гибкие преобразования по отдельным колонкам. Основан на продукте Google Refine, когда-то переданным компанией в open source.
- Great Expectations - "Большие ожидания", библиотека для языка Python, одна из наиболее активно используемых для автоматической валидации значений в наборах данных, потоках данных, data pipelines и не только.
- Soda-SQL - инструмент с открытым кодом для создания метрик и тестирования данных в SQL базах данных. Поддерживает несколько SQL баз данных и несколько базовых видов/типов полей. Умеет анализировать данные в СУБД и на основе этого рекомендовать автоматизированные тесты.
- Re-data - инструмент подсчёта метрик и проверки качества данных в SQL базах данных. Включает возможность активного мониторинга данных.
- ODD Platform - Open Data Discovery Platform, включает механизмы проверки качества данных, а сама платформа делается на основе ODD Spec спецификации описания метаданных. Здесь Open Data Discovery - это [Open] [Data Discovery], не открытые данные, а открытое обнаружение данных.

Я от себя добавлю что часто инструменты контроля качества данных сильно замедляют работу с данными если они не оптимизированы. К примеру Soda-SQL и Great Expectations, скажем так, имеют большие возможности по их ускорению, потому про по умолчанию заложенные там проверки через регулярные выражения можно сильно оптимизировать. К примеру, решая похожие задачи по классификации данных в DataCrafter'е, могу сказать что там вообще нет регулярных выражений, но и нет жесткой закодированности идентифицирующих типы данных правил. Вместо них некий аналог RegExp'ов работающий многократно быстрее.

Много лет назад я подумывал написать свой движок для обработки регулярных выражений в контексте, оптимизированный под результаты предыдущих сравнений. К примеру, у тебя есть несколько тысяч регулярных выражений на соответствие которым надо проверить конкретную строку/текст. Как сделать это быстро? Идеальный сценарий - индекс построенный по этим регулярным выражениям и построение конечного автомата по проверке, неидеальный сценарий - хотя бы зависимости между регулярными выражениями и автоматический отсев каких-то сравнений после других сравнений (кривой аналог построения индекса, на самом деле).

В частных случаях задача решается. Лично я её решал и решил для сравнений связанных с датами и строками размера до 50 символов довольно грубым способом на 50% состоящим из замены регулярных выражений на их сборный конструктор-аналог и на 50% заменой индекса на код по предпроцессингу входящего потока. Результаты 3 года назад опубликовал в виде библиотеки для Python qddate, там не все наработки, но значительная часть по распознаванию дат в любых форматах. Поэтому можно ли ускорить проверку качества данных и расчёт метрик по миллиардам записей в базах данных? Конечно можно и значительно!

#opendata #metadata #dataquality #datatools #tools
Информационная прозрачность Китая (тюлевая занавеска) и России (ночные шторы).
В новом отчете американского Центра кибербезопасности и новых технологий "Запряженная молния: Как китайские военные осваивают искусственный интеллект" немало интересного.
Меня же поразило то, что он дает простую и наглядную возможность сравнить Россию и Китай по уровню информационной прозрачности и открытости.
Если в качестве критерия сравнения взять закупки военных, то результат получается поразительный. Это все равно что сравнивать прозрачность тюлевой занавески (у Китая) и ночных штор для спальни (у России).

В России закупки Минобороны (а также ФСБ и СВР) уже несколько лет, так сказать, привилегированные - на сайте Госзакупок они о своих тратах не отчитываются. А с 2022 станут также закрытыми закупки Росгвардии и ФСО.

В Китае открыто публикуются данные о всех закупках армии и военных госпредприятий: от сидений для унитазов до ударных военных беспилотников. Состав публикуемых данных отличается в зависимости от категории закупок:
• Для категории “public” (таких примерно 75%) публикуется: что закупается и сколько, подразделение-покупатель, для кого закупает, бюджет проекта, тендерное агентство, победитель тендера.
• Для категории “confidential” (таких примерно 22%) не указывается бюджет, а для категории “secret” (таких примерно 3%) еще и для кого закупается.

Другой печальный сюрприз отличий военных закупок Китая и России – состав поставщиков.
• В Китае 61% поставщиков – частные компании, 25% - госпредприятия и их дочки, 9% университеты, 2% - предприятия Академии наук и 3% - прочие.
• В России предположите сами (как пишет Коммерсантъ – «значительная их часть находится в госсобственности»).

Вы, наверное, думали, что с этим делом у Китая, примерно, как в России.
А оказалось, примерно, как в США.
Отчет: https://cset.georgetown.edu/publication/harnessed-lightning/
#Китай
А есть ли где-либо подробный правовой разбор законопроекта о публичной власти № 1256381-7 [1] ?

Там гигантский текст на 174 страницы и даже без поправок в другие законы, а полностью новый закон. Что очень странно, обычно к таким законопроектам присоединяют ещё множество поправок в иные законы.

А то там про открытость и прозрачность хоть и немного, но обеспечение гласности упоминается, что редкость в наших законов последних лет. Хочется понять что за всем этим стоит.

Если знаете, приглашаю в чат @begtinchat

Ссылки:
[1] https://sozd.duma.gov.ru/bill/1256381-7

#laws #regulation
Forwarded from 🗞 Виз Ньюз (Nikita Rokotyan)
This media is not supported in your browser
VIEW IN TELEGRAM
Энрико Бертини (Enrico Bertini), ассоциированный профессор визуализации данных Нью-Йоркского университета и со-ведущий подкаста Data Stories, с конца октября публикует образовательные статьи по визуализации в своем блоге. Энрико прекрасный преподаватель и исследователь, так что не проходите мимо.

Его новый материал посвящен тому, как сделать ваши визуализации более «чистыми» и простыми для восприятия. Маст рид, если вы новичок в области.

https://filwd.substack.com/p/clarity-and-aesthetics-in-data-visualization
Я лично особой нежностью "люблю" траты нашего отечества на создание аналога Википедии через вливание сотен миллионов рублей в ОАО "БРЭ" и одного не могу понять - зачем, почему и с чего это происходит?

По публичной отчетности на ресурсе ФНС [1] ОАО БРЭ потратило 565 из 688 миллионов рублей (82%!) за 2020 год.

Сайт ОАО почти не обновлялся в несколько лет [2], но при этом издательством он, не потерян, потому что в 2019 году они там создали раздел про АНО БРЭ [3].

Раскрытия информации о деятельности ОАО БРЭ не делает с 2015 года [4], что происходит на деньги этой субсидии неизвестно, электронная версия энциклопедии не даёт никакой истории изменений [5] и происходящее наводит на неприятные мысли что результата там и не будет.

При этом последние контракты ОАО БРЭ заключало в 2020 году [6].

Поэтому вопрос - где результат и куда идут деньги?

Ссылки:
[1] https://bit.ly/3wwnIJd
[2] https://greatbook.ru/
[3] https://bit.ly/3D500Gf
[4] https://bit.ly/3EZsxh2
[5] https://bigenc.ru/
[6] https://bit.ly/3n3Aa00