Ivan Begtin
9.16K subscribers
2.05K photos
3 videos
102 files
4.78K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
Похоже что Tor в России заблокировали [1], а заодно и ajax.aspnetcdn.com относящийся к Microsoft Ajax Content Delivery Network, которая используется более чем в 3000+ сайтов в Рунете [2], включая веб-ресурсы аэрофлота и так далее.

Будьте внимательны и осторожны, синоптики прогнозируют в Рунете сбои и ошибки.

Ссылки:
[1] https://ntc.party/t/ooni-reports-of-tor-blocking-in-certain-isps-since-2021-12-01/1477
[2] https://trends.builtwith.com/websitelist/Microsoft-Ajax-Content-Delivery-Network/Russia

#security #blocking
В университете Коста-Рики запустили проект "Todos los contratos CR" (Все договора [Коста-Рики]) по мониторингу, анализу и оценке госконтрактов страны [1]. В основе методология RED FLAGS for integrity [2] созданная в 2016 году в международном проекте Open Contracting.

Проект создается при поддержке PODER [3] мексиканской НКО анализирующей контракты, открытость и прозрачность государства и всего остального входящего в political integrity.

У PODER есть платформа QuienEsQuien.wiki [4] (Кто-есть-кто) в которой они собирают базу лиц принимающих решения, базу госконтрактов, публичных институтов, поставщиков и тд.

Тут ещё можно напомнить что Todos los contratos в Коста-Рике - это клон одноименного мексиканского проекта PODER [5] и данные собранные в рамках Todos los contrators Коста-Рики также загружаются в эту платформу и, похоже, она явно будет развиваться в сторону охвата всех стран Латинской америки.


Ссылки:
[1] https://todosloscontratos.ucr.ac.cr
[2] https://www.open-contracting.org/wp-content/uploads/2016/11/OCP2016-Red-flags-for-integrityshared-1.pdf
[3] https://poderlatam.org
[4] https://www.quienesquien.wiki/es/inicio
[5] https://todosloscontratos.quienesquien.wiki/es/todos-los-contratos

#contracts #open #opendata #spending
Команда создателей Datahub [1], каталога управления метаданными от LinkedIn, в 2020 году выделились в отдельный стартап Metaphor и вот в ноябре этого года анонсировали Metaphor Platform [2].

По сути это коммерческая SaaS платформа, аналогичная Datahub, используемая для сбора данных о данных (метаданных), но с разделением на 3 типа метаданных:
- технические метаданных - данные из первоисточиков о структуре, качестве, описании таблиц и тд.
- метаданные бизнеса - мэппинг между физическими данными и их производственным рабочим представлением, от сценариев использования
- поведенческие метаданные - привязывание данных к конкретным пользователям и их поведению.

Сама идея этого интересна, хотя и сужает области применения такого продукта. В этой модели фокус сдвигается на бизнес пользователей и конечных пользователей, а далеко не все системы сбора метаданных эксплуатируются в средах где есть большое число внешних пользователей. Это, то что касается поведенческих метаданных, а то что касается метаданных бизнеса, то тут понятная идея с вовлечением управленцев в понимание данных.

В любом случае продукт ещё только в режиме demo, надо будет за ним последить внимательнее.

Ссылки:
[1] https://engineering.linkedin.com/blog/2019/data-hub
[2] https://metaphor.io/blog/metaphor-product-launch

#metadata #datacatalogs
Open Data for Official Statistics: History, Principles, and Implementation [1] свежая статья от авторов Open Data Watch [2], международного НКО работающего в направлении открытости официальной статистики в мире. Статья подана в форме обзора практик с рекомендациями и с явным прицелом на то что в будущем эти рекомендации станут частью рекомендаций ООН по сбору статистики.

У них же много других публикаций с более узким фокусом [3], а также годовой обзор открытости официальной статистики за 2020 год [4] и в этом феврале ждём обновление за 2021 год.

Ссылки:
[1] https://opendatawatch.com/publications/open-data-for-official-statistics-history-principles-and-implentation/
[2] https://opendatawatch.com
[3] https://opendatawatch.com/publications/
[4] https://odin.opendatawatch.com/Report/annualReport2020

#opendata #statistics
Вышел доклад The State of Open Data 2021 [1] от холдинга Digital Science и посвящённый открытым исследовательским данным, а то есть данным которые учёные публикуют для ученых. Доклад в форме альманаха статей по темам, с обзором существующих академических систем раскрытия данных, внедрения новых, основных проблем стоящих перед исследователями, управление метаданными и так далее.

И, конечно, с акцентом на том что open research data и open access преследуют две основные цели:
1) Воспроизводимость научных работ
2) Борьба с научной профанацией (недостоверными исследованиями)

Тут важно помнить что Digital Science - это коммерческий холдинг научной инфраструктуры, с такими сервисами как Figshare, Writeful, Ripeta и так далее. Соответственно и цели у них вполне коммерческие, в сторону отказа от бизнес модели продажи доступа к статьиям и данным, а взимание платы за инфраструктурные сервисы для исследователей.

Поэтому про открытые данные и чуть про открытый код в их обзоре написано, но тему сервисов открытой научной инфраструктуры они избегают, поскольку именно там их реальные конкуренты.

Как бы то ни было альманах полезен тем что заметки в нём написаны людьми реально работающими в сложной исследовательской инфраструктуре с большими данными.

Как-нибудь я напишу подробнее о том какие продукты по раскрытию данных есть у отраслевых исследователей. Как ни странно они очень неуниверсальны и инструменты которые используют компьютерные лингвисты, биоинформатики и, к примеру, физики-ядерщики для публикации данных - все они очень разные.

Ссылки:
[1] https://digitalscience.figshare.com/articles/report/The_State_of_Open_Data_2021/17061347

#opendata #openresearchdata #openscience #openacces
Если вспомнить, то темой открытости данных я занимаюсь уже больше 12 лет. С разными фокусами и акцентами, на political integrity, эффективность в гоусправлении, на необходимость для исследователей, на потребностях бизнеса. В самых разных формах от общественных проектов до коммерческих сервисов и каталогов.

Я помню как эта тема развивалась с нулевого старта и как я погружался в неё, во многом, от большего нежелания продолжать заниматься госзакупками где меня уже знали хорошо.

Как и многие другие идеи открытости, открытые данные - это, в первую очередь, идеология. Наиболее зрелая в свободных проектах, в открытости науки, и в политической ответственности. Куда более гибкая в делах бизнеса, поскольку для бизнеса открытые данные - это всего лишь одна из форм топлива для продуктов основанных на данных.

Особенность в том что российские политики, уйдя полностью в протекционисткую и внутреннюю повестку не видят что открытые данные сейчас стало основной темой открытости государств, международных организаций и межгосударственных образований. Разделы на сайтах или порталы открытых данных есть у всех агентств ООН, единый каталог открытых данных ООН собирает данные 76 организаций, инициативы по обмену генетическими данными при COVID-19 охватывают исследователей из большинства стран мира, общие стандарты обмена и раскрытия данными разрабатываются десятками международных НКО по всему миру. Открытость данных в мире продолжает развиваться и фокус последних лет на 3-й волне открытых данных с четким фокусом на целях создания данных и целях открытости.

И это ещё если не говорить о экономическом эффекте доступности данных и возврате расходов на их создание через налоги и социальный эффект.

Поэтому 12 лет назад когда я только начинал говорить про пользу от открытости данных небыло ничего - примеров, понимания, значительного рынка и не только. Сейчас всё это есть и, конечно, перезапуск всей повестки открытости данных - это вопрос лишь времени.

#opendata #opengov
Для тех кто интересовался, видеозапись моей лекции в рамках Digital Innopolis Days "Управление основное на данных в государственном и частном секторе" [1]. Я много повторяюсь в эти годы, не потому что люблю повторяться, а потому что некоторые понятия/события/явления актуальны надолго, а двигаются медленно.

А также экспертной дискуссии "Экспертная дискуссия.Практики предоставления государственных данных (data sharing)" [2]. На дискуссии было много участников: Андрей Яковлев (НИУ ВШЭ), Дарья Цыплакова (Счетная палата РФ), Жанна Устименко (Минсельхоз России), Александр Гаврилин (Яндекс), Айрат Хасьянов и Елена Макарова (КАИ). Дискуссия была очень продуктивная, про кооперацию государства, бизнеса и исследователей в работе с данными.

Я участвовал и помогал в организации экспертной дискусии от нашей Ассоциации участников рынка данных (АУРД). В следующем году будет ещё несколько мероприятий который мы организуем от нашей ассоциации, о них я обязательно и ещё не один раз напишу.

Ссылки:
[1] https://www.youtube.com/watch?v=zFZQUQhz3Yo
[2] https://www.youtube.com/watch?v=S7N66ZepG0s

#opendata #data #datasharing #events
В каком-то смысле данные и проекты на данных становятся нормой в любой деятельности. Например, проект Native Data [1] о сборе и обмене личных данных, в первую очередь о здоровье между индейскими организациями/поселениями/сообществами в США.

Всё это подаётся как Tribal data sovereignty [2], контроль индейскими территориями собственных данных. Там много любопытного в этом подходе к реализации права на то чтобы знать о себе и иметь право управлять тем кто получает личные данные.

Ссылки:
[1] https://nativedata.npaihb.org/
[2] https://nativedata.npaihb.org/glossary/#tribal-data-sovereignty

#opendata #datasharing #tribes
Вот уже довольно долгое время я слежу за активностью Минцифры и её [квази]подведов (РФРИТ) в сторону открытого кода. Слежу и в том что происходит в открытом пространстве, и говорю с вовлеченными лицами, и вижу что происходит в мире параллельно.

Честно говоря по итогам этого всего у меня назрело материалов на большой текст/колонку/статью/лонгрид, пока же в краткой форме напишу ибо "Writing is Thinking".

Для начала надо чётко разделить три направления взаимоотношения государства и open source сообщества/рынка.

1. Поддержка отечественных open source компаний
Что, на самом деле, конечно, поддержка международных сообществ тоже, опосредовано через вклад отечественных open source разработчиков. Причём разработчиков и внедренцев, на самом деле. То есть тех кто напрямую делает свои продукты и внедряет продукты с открытым кодом, контрибьютит в открытые репозитории.

Задача понятная, во многих странах применяемая правительствами стран через разного рода государственные и квазигосударственные фонды раздающие целевые гранты на создание и развитие ПО с открытым кодом. Имеет много измеримых социально экономических эффектов.
Ключевые адресаты тут:
- компании в рынке open source
- компании внедряющие продукты и готовые использовать open source решения

Никакой истории про госуправление и тд. тут нет. Только рынок, измеримые экономические показатели, вполне понятные модели измерения эффекта от любых применяемых мер госполитики.

2. Контроль за разработкой исходного кода господрядчиков

Это совсем другая тема, ключевой её посыл в том что органы власти и госучреждения тратят слишком много на софт, ещё больше на его внедрение. ПО получается так себе, внедрение тоже по разному, все хором говорят "ну что вы хотите, среда такая" и они правы. Попытки внедрения ГЕОПа, ГосТех'а, ФАПа, а до этого разного рода типовых решений - они про это. Они все про то что сейчас этой сложный рынок, без единого центра управления и у него нет централизованного регулятора. Попытки загнать всех сейчас в единый репозиторий - это одна из таких попыток. Казалось бы при чём здесь открытый код? Истории про гослицензии при госконтрактах - это как раз такой подход с попыткой национализации исходного кода продуктов поставщиков. Госпоставщики по ИТ, мягко говоря, не подарки, и применяют полный спектр неприятных ИТ практик с "двойной продажей кода", с внедрением неотделимых компонентов, с внедрением незаменимых зависимостей, с привязкой к вендорам, с оптимизацией кода под какое-нибудь самое редкое и поганое дорогое железо и ещё много чего. Но, одновременно с этим это не вполне open source, это скорее source control (контроль исходного кода). Он нужен, к open source имеет малое отношение.

3. Открытый код госкоманд

А вот это то о чём рассказывал и рассказываю уже лет 7-8. Государство очень много кода инсорсит на внутренние команды, на команды в госпредприятиях и так далее. Этот код даже больше принадлежит государству чем код поставщиков по госконтрактам. В мире такими командами являются OpenSG (Сингапур), Government Digital Service (США), AlphaGov (Великобритания), 18F (США), Team Digitale (Италия) и многие другие. В России такие команды могли бы быть... но, но их нет. Многие из приложений создаваемых, например, RTLabs в Ростелекоме могли бы быть полностью с открытым кодом. Это и куски портала госуслуг, и мобильные приложения и многие другие сервисы. Когда я упоминаю открытость госкода на Github то это именно про те команды которые ведут открытую разработку госкода по всему миру. Фактически органы власти осуществляют создание общественного блага.
И вот эта часть как раз про реформу госуправления, кроссведомственные команды, возможность внешним разработчикам улучшать государственный код (код госприложений).

Как вы понимаете все эти три направления не зависят друг от друга. Поддержка open source компаний - это про экономический эффект.
Контроль за исходным кодом господрядчиков - это про изменение баланса управления и предполагаемую экономия в закупках.
А вот с открытым кодом госкоманд в России хуже всего. Его просто нет. И не потому что нет культуры разработки, и не потому что нет готовности команд разработчиков. Как раз если не все, то многие вполне готовы. Нет главного - политической воли легализующей такую практику и драйверов внутри государства готовых вкладывать в это усилия.

Поэтому вот так, пока кратким текстом, я хочу зафиксировать что, по хорошему, направления развития открытого кода и контроля за кодом в рамках госконтрактов должны иметь свои сфокусированные усилия, не зависящие от движения по другим направлениям. Они вполне автономны и потенциал их гораздо больше чем то что пока реализуется.

P.S. Текст, всё таки, получился слишком длинным для Telegram'а и разбился на две части. Тем кто хочет увидеть го целиком то он же в Facebook'е https://www.facebook.com/ibegtin/posts/10158653240263263

#opensource #policy #policies #government
Первый в мире стандарт по алгоритмической прозрачности принят правительством Великобритании [1]. В описании Algorithmic Transparency Standard [2] присутствует технический стандарт заполнения сведений об алгоритмических системах [3], а также шаблон и руководство по заполнению [4]

Стандарт был разработан в CDDO, The Cabinet Office’s Central Digital and Data Office, службе созданной в апреле 2021 года с фокусом на цифровые продукты и данные.

Здесь важно напомнить что в Великобритании уже существуют Национальная стратегия данных [5] и Национальная стратегия ИИ [6], а работа по созданию этого стандарта предварялась несколькими исследованиями и анализом применения ИИ и регулирования ИИ в других странах.

Ссылки:
[1] https://www.gov.uk/government/news/uk-government-publishes-pioneering-standard-for-algorithmic-transparency
[2] https://www.gov.uk/government/collections/algorithmic-transparency-standard
[3] https://www.gov.uk/government/publications/algorithmic-transparency-data-standard
[4] https://www.gov.uk/guidance/provide-information-on-how-you-use-algorithmic-tools-to-support-decisions-pilot-version
[5] https://www.gov.uk/government/publications/uk-national-data-strategy/national-data-strategy
[6] https://www.gov.uk/government/publications/national-ai-strategy/national-ai-strategy-html-version

#ai #policy #standards #uk
В рубрике больших наборов данных, подборка наборов открытых данных о сетевой инфраструктуре.

- Статистика работы сервисов Tor в проекте CollectTor [1]. В общей сложности там несколько десятков гигабайт машиночитаемых данных по инфраструктуре Tor собранные с 2005 года.

- Real world networking datasets [2] - большая коллекция ссылок на наборы данных о трафике и сетевой инфраструктуре

- Project Sonar [3] наборы открытых данных результатов сканирования серверов DNS, IP адресов, подсетей и иной сетевой инфраструктуры. Десятки терабайт данных

- Censys Datasets [4] - наборы данных коммерческого проекта Censys с результатами сканирования всех адресов IPv4 (доступно только с разрешения владельца данных)

- Greynoise [5] - "серый шум", сервис отслеживания тех кто регулярно сканирует интернет и ведущий лог/базу данных всей сканирующей активности. Бесплатный ограниченный некоммерческий доступ и очень дорогой, $25k, коммерческий.

- CRAWDAD [6] архивы беспроводных данных в колледже Dartmouth. Включают данные собранные мобильными приложниями, Wifi, Bluetooth, Zigbee и др.

- RadioML [7] - датасеты естественных и симулированных записей данных радиочастот от DeepSig

Ссылки:
[1] https://metrics.torproject.org/collector.html
[2] https://gist.github.com/stefanbschneider/96602bb3c8b256b90058d59f337a0e59
[3] https://opendata.rapid7.com/
[4] https://search.censys.io/data
[5] https://www.greynoise.io
[6] https://crawdad.org/all-bydate.html

#opendata #networks #traffic #radio #datasets
Довольно простое и давно планировавшееся обновление в DataCrafter'е - экспорт данных таблиц в простых форматах. Сейчас поддерживаются JSONl, csv и parquet. JSON lines для всех видов данных, а csv и parquet для данных в плоских таблицах. При генерации данных для экспорта всегда есть баланс между нагрузкой на базы данных, объёмами хранения и скоростью отдачи результатов. Эти данные экспортируются не на лету, а по расписанию, тем самым нагрузка на БД и процессор минимизируется, а хранить приходится сильно больше.
Forwarded from APICrafter
Обновления в каталоге APICrafter

Что нового
1. Данные о пакетах данных теперь публикуются более компактно. Страница пакета данных теперь включает сведения о характеристиках, таблицах и сборках данных вместе. Например [1] [2]
2. Таблицы открытых наборов данных теперь можно скачать в форматах JSONl, CSV и Parquet. Ссылки на данные публикуются на странице таблицы, например, "Точки обмена" [3]

Экспорт данных сейчас работает со следующими ограничениями:
- экспорт только для наборов данных менее чем с 100 тысячами записей
- форматы csv и parquet доступны только для таблиц без вложенных объектов
- сборки данных включают все данные и доступны всегда

Формат Parquet [4] популярен в data science и активно используется с помощью Jupyter Notebook.

Мы обязательно опубликуем примеры его использования.

Ссылки:
[1] https://tinyurl.com/2s3vuxaf
[2] https://tinyurl.com/2p89vp2k
[3] https://tinyurl.com/yckma22e
[4] https://tinyurl.com/mr4xjdmd

#apicrafter #datascience #datasets #parquet #json #csv
Вышла свежая версия Delta Lake [1], open source продукта по созданию озер данных используемого во многих облачных решениях, например, в MS Azure [2], а также в Google Cloud и AWS. Создатели Delta Lake, компания Databricks [3], а сам проект переведен в Linux Foundation [4].

Инструмент полезный, если не первоочередной для инженеров данных не имеющих ограничений на работу с облачными продуктами.

Ссылки:
[1] https://github.com/delta-io/delta/releases/tag/v1.1.0
[2] https://docs.microsoft.com/en-us/azure/synapse-analytics/spark/apache-spark-what-is-delta-lake
[3] https://databricks.com/
[4] https://www.linuxfoundation.org/projects

#data #tools
ICIJ опубликовали данные из Pandora Papers [1]. Они доступны для поиска на их сайте и в виде дампов [2] для графовой базы данных Neo4J. Проще всего их скачать из репозитория на Github [3] в виде файла дампа на 429 МБ, а работать с данными в Neo4J Desktop [4]. Я думаю что сейчас в ближайшее время много будет желающих заглянуть в эти данные, журналисты так наверняка найдут там что-то интересное.

И, конечно, есть актуальная задача преобразовать эти данные в более популярные формы, потому что дампы Neo4J только в Neo4J и можно обрабатывать, а простых инструментов конвертации этих дампов нет, только через загрузку в Neo4J и последующий экспорт данных.

Ссылки:
[1] https://offshoreleaks.icij.org/investigations/pandora-papers
[2] https://offshoreleaks.icij.org/pages/database
[3] https://github.com/ICIJ/offshoreleaks-data-packages/tree/main/data
[4] https://neo4j.com/download/

#leaks #data #opendata #datasets
Приложение родительского контроля Life360 поймали на продаже данных 33 миллионов пользователей [1]. Вернее как поймали, об этом и раньше было известно что продажа данных - это часть их бизнес модели, но подробности не были доступны. А вот теперь мы можем узнать из откровений бывшего сотрудника что Life360 продавали данные таким агрегаторам перс. данных как X-Mode и Safegraph. В статье также упоминается что X-Mode продавали данные департаменту обороны США, а Safegraph продавли их Centers for Disease Control and Prevention (CDC), агентству США отслеживающему распространение COVID-19.


Ссылки:
[1] https://themarkup.org/privacy/2021/12/06/the-popular-family-safety-app-life360-is-selling-precise-location-data-on-its-tens-of-millions-of-user

#privacy #apps #mobile
А вот и первые современные медиа пишущие о цифровой архивации. В рассылке Сверхновой о том почему архивация сайтов важная и примеры того кто и как это делает [1]. Там же они упоминают мою инструкцию о том как архивировать сайты и я её напомню для тех кто мог пропустить [2].

Напомню также про другие мои тексты о цифровой архивации:
- The Bit list of Digitally endangered species [3]
- О архивации институтов развития [4]
- О сервисах веб-архивации [5]
- О исчезновении сайта установного суда Санкт-Петербурга [6]
- О подходах к цифровой архивации [7]
- О сравнении архивных копий веб-страниц [8]
- Рождённые в цифре. Цифровые архивы в новейшей истории [9]
- О Archives Unleashed Toolkit [10]

А также многом другом что можно найти у меня в телеграм канале по хэштегу #digitalpreservation

И, вновь, повторюсь что хорошо что о цифровых архивах начали писать журналисты. Это большой прогресс за прошедшие годы.

Ссылки:
[1] https://supernovamedia.substack.com/p/--e13
[2] https://begtin.substack.com/p/18
[3] https://yangx.top/begtin/3258
[4] https://yangx.top/begtin/3253
[5] https://yangx.top/begtin/3070
[6] https://yangx.top/begtin/3057
[7] https://yangx.top/begtin/2397
[8] https://yangx.top/begtin/2356
[9] https://begtin.substack.com/p/7-digital-born-
[10] https://yangx.top/begtin/2044

#digitalpreservation #webarchives #archives
Forwarded from Инфокультура
В каталог открытых данных Инфокультуры (datacatalogs.ru) добавлены новые каталоги данных и репозитории

Генетические и биологические (зоологические и ботанические) коллекции Российской Федерации
Цель создания ресурса - разработка информационной системы по генетическим и биологическим (зоологическим и ботаническим) коллекциям РФ в виде общедоступного WEB - сервера, предназначенного для выполнения ключевых функций по проблеме инвентаризации и документирования генетических ресурсов в РФ и удовлетворения информационных потребностей федеральных органов власти, научного сообщества, международных и национальных общественных организаций.

Портал социологических данных РАНХиГС
"Портал социологических данных РАНХиГС — это большая тематическая информационная платформа, открытая база актуальных исследований, проводимых различными подразделениями Академии. Причем речь идет не только о социологических, но и о междисциплинарных проектах.

Фонд данных ДЗЗ
Геопортал Роскосмоса - ресурс, который сочетает в себе средство просмотра космических снимков земной поверхности и средство поиска/заказа данных из Федерального фонда данных ДЗЗ. Отдельным группам пользователей также предоставляется сервис заказа проведения космической съёмки российскими аппаратами ДЗЗ."

База социологических данных ВЦИОМ
Базы данных результатов социологических опросов ВЦИОМ. Включая базы данных Спутник, Архивариус и Roper

Каталог социальных исследований Евразийский монитор
Каталог результатов социологических исследований Евразийский монитор. Включает большое число исследований и данные в формате Microsoft Excel.

Если Вы знаете какой-либо каталог данных отсутствующий в репозитории, напишите нам о нём через в форму на сайте или на почту [email protected]. Это может быть государственный, общественный, частный, научный каталог данных по которому доступно хотя бы описание метаданных того что в нём содержится, а ещё лучше если это каталог открытых данных.

#opendata #datacatalogs #datasets