Ivan Begtin
8.09K subscribers
1.99K photos
3 videos
102 files
4.7K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
В прошлом году я сильно сократил всю активность связанную с общением с госорганами и вот только ходил на круглый стол в Мосгордуму посвящённую системам слежки.
👁 Как за нами следят? Видео на 10 мин со слушаний в Мосгордуме

https://youtu.be/v3mrR7YfMwU

Москва занимает 13-е место в мире по количеству камер видеонаблюдения. Но кто именно регулирует систему распознавания лиц? Как происходит обработка полученной информации? И давали ли москвичи свое согласие на сбор их персональных данных?

Об этом и многом другом мы говорили 15 декабря 2022 года на круглом столе в Мосгордуме. Экспертами выступили депутаты, социологи, специалисты в области компьютерного зрения, вендоры и сотрудники исследовательских институтов. Спасибо депутату Максиму Круглову и фракции Яблоко в Мосгордуме за инициативу и организацию слушаний по этому важному вопросу на стыке новых технологий, безопасности и демократии.

Главные тезисы с нашего круглого стола — в видео по ссылке.
В рубрике открытых продуктов для работы с данными, в первую очередь с открытыми данными.

Datalad [1] - библиотека и утилита командной строки с открытым кодом для управления данными по аналогии с управлением кодом, через git и git подобные системы. Использует внутри git и git-anned и позволяет։
- отслеживать изменения в данных
- возвращаться к предыдущим версиям
- сохранять прослеживаемость данных
- обеспечивать полную воспроизводимость

Кроме того умеет создавать статистические html сайты с каталогами данных [2] и сами данные можно скачивать с помощью командной строки и клонировать, по аналогии с клонированием репозиториев кода.

Как можно догадаться, изначально создавался этот движок для работы с научными данными и в примерах его использования чаще фигурируют именно такие наборы данных. Делают его активно с 2015 года, уже 8 лет.
Всё это время он развивался на гранты Германского министерства образования и науки и Национального научного фонда США.

Проект полезный для тех кто работает с исследовательскими данными и публикует данные собственных исследований.

И, в качестве напоминания, аналогичный подход Git для данных также реализуется в таких проектах как DVC (Data version control) [3], Dolt [4] и lakeFS [5].

Ссылки։
[1] https://www.datalad.org/
[2] https://datalad.github.io/datalad-catalog/
[3] https://dvc.org/
[4] https://github.com/dolthub/dolt
[5] https://lakefs.io/

#datatools #opensource #opendata
В рубрике как устроены научные репозитории данных, проект DataOne [1]. Это каталог и сервис поиска данных и организации собственных каталогов данных для исследовательских центров о Земле (Earth sciences), по таким темам как։ метеорология, изучение океанов, гидрография, геология, биология, география и другие. Проект изначально был профинансирован Национальным научным фондом США на $21 миллион на 4 года с 2009 по 2013, получателем гранта был Университет Нью Мексико, сейчас он называется Университет Калифорнии, Санта Барбара. Этот университет и сейчас развивает этот проект и связанные с ним продукты.

В общей сложности DataOne агрегирует данные из более чем 60 порталов, часть из которых работают на его же движке в что и DataOne. В проекте сочетается его модель существования как открытого проекта и коммерческие сервисы через продукт для университетов по созданию հօsted repository когда сотрудники университета могут гибко управлять своим каталогом онлайн.

Важная особенность в том что собираются не только данные, но и метаданные которые специфичны для геонаук.

Например։
- методы исследования
- перечень исследователей с их идентификаторами (ORCID)
- георегион(-ы)
- временной диапазон
- информация о проекте
- источник финансирования

А также детальные метаданные по каждому полю в таблицах CSV, XML, XLS и др.

Это далеко не единственный портал данных в науках о Земле, существует немало национальных и тематических порталов данных.

Ссылки։
[1] https://dataone.org
[2] https://search.dataone.org/data

#opendata #datasets #dataportals #openaccess #openscience
Интересные стартапы по дата инженерии։
- Seek AI [1] позиционируют себя как Generative AI for Data. Ты формулируешь запрос/вопрос на аналитику общими словами, а они используют ИИ для генерации ответа. Привлекли $7.5m инвестиций в этом январе [2], очень интересно что будет их итоговым продуктом потому что общедоступной информации маловато.

- Metaplane [3] платформа для мониторинга данных включая базы данных, трубы данных, источники и тд. Позиционируют себя как Datadog for data. Позиционирование довольно грамотное, для облачной дата инфраструктуры это актуально начиная со средних размеров компаний. Привлекли $8.4m инвестиций в последнем раунде в этом январе [4]. Таких проектов всё больше, с разными акцентами и шансами на выживаемость. Делать аналог Datadog кажется вполне разумной затеей.

- XetData [5] ещё один проект Git для данных, с поддержкой версионности и git-подобного режима доступа к данным. Акценты делают на обучении моделей работы с данными, возможности исследования данных (data exploration) и на эффективной дедупликации данных с сильным сжатием оригинальных данных. Привлекли $7.5m инвестиций. Выглядят интересно, но это лишь ещё один проект "git for data" вроде тех о которых я писал недавно [7]. ИМХО, в этой области модель github'а не сработает, потому что код давно уже гораздо больше подходит под общественное достояние, а данные являются объектами монетизации. Скорее востребовано должна быть модель Gitlab для данных, с возможность делать свои инстансы бесплатно или за небольшие деньги и управлять хранилищем данных подключая разные опции. А сервисы вроде XetData или того же Dolt(-а) больше напоминают сервисы очень специализированного хостинга с монетизацией за гигабайт/терабайт и каналы доступа.

Ссылки։
[1] https://www.seek.ai
[2] https://www.seek.ai/press-01-11-23
[3] https://www.metaplane.dev
[4] https://www.metaplane.dev/blog/the-next-stage-of-metaplane
[5] https://xetdata.com
[6] https://xetdata.com/blog/2022/12/13/introducing-xethub/
[7] https://yangx.top/begtin/4532

#startups #data #dataquality #git #dataengineering
Свежее что почитать про данные

Measuring the value of data and data flows [1] любопытный документ от вышел от имени ОЭСР с подходами к оценке экономики данных, оценке значения данных и потоков данных. В основном основан он на экономике США, но упоминаются там и другие страны. Много цифр, графиков и оценок полезных для содержательных дискуссий.

European Research Data Landscape [2] результаты исследования в виде опроса учёных про инфраструктуру данных Евросоюза. Общая оценка что уровень использования и публикации данных довольно высокий и там же в исследовании есть рейтинг порталов научных данных по соответствию принципам FAIR. Этих порталов очень много! Основное что происходит - это ранее закрытые порталы открываются.

Semantic Media: Mapping Meaning on the Internet [3] свежая книга, платная, $18 про развитие semantic web и онтологий. Для тех кто не сталкивался, semantic web это довольно продвинутые, но сложные в изучении инструменты. Самая успешная практическая их адаптация - это Wikidata

Research in programming Wikidata [4] замечательная подборка курсов по тому как работать с Викидата, созданна командой Андрея Крижановского из Петрозаводского государственного университета. Есть и на русском языке [5]. Для тех кто хочет формировать интересные наборы данных там много практического SPARQL с примерами запросов.

Ссылки:
[1] https://www.oecd-ilibrary.org/science-and-technology/measuring-the-value-of-data-and-data-flows_923230a6-en
[2] https://op.europa.eu/en/publication-detail/-/publication/03b5562d-6a35-11ed-b14f-01aa75ed71a1/language-en
[3] https://www.wiley.com/en-us/Semantic+Media:+Mapping+Meaning+on+the+Internet-p-9781509542598
[4] https://en.wikiversity.org/wiki/Research_in_programming_Wikidata
[5] https://ru.wikiversity.org/wiki/%D0%9F%D1%80%D0%BE%D0%B3%D1%80%D0%B0%D0%BC%D0%BC%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5_%D0%92%D0%B8%D0%BA%D0%B8%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85

#readings #data #opendata #wikidata #ontology #semanticweb
дарю идею совершенно безвозмездно (с)

Сделать аналог RSS читалки для телеграм каналов и, при желании, твиттера и мастодона который был бы исключительно про потребление инфы, а не для коммуникации. Специально для тех кто не пересылает и смешивать чтение и общение не хочет.

Зато сделать туда несколько важных фич։
1. Дайджестирование подписок. Иначе говоря, настраивать сгруппировывание постов от некоторых каналов сразу по n штук. Помогает читать чрезмерно частящие каналы
2. Спам фильтры. В некоторых телеграм каналах реклама уже за... раздражает. Нужны механизмы фильтрации по тегам или по ключевым словам и встроенные спам фильтры. На этом же можно монетизироваться. Спам фильтры можно [и нужно] вести централизованно.
3. Бьютификация контента. Удаление смайликов и тд.

Минус - экосистема телеграма вне контроля, поменяются правила и API и всё на... закончится.
Плюс - рынок точно есть, монетизация не конфликтует пока с монетизацией телеграма.

#ideas
К вопросу о том как искать данные, ключевой проект в этой области - это Google Dataset search [1] который до сих пор имеет статус исследовательского и "не вышел из инкубатора". Он всем хорош, например, использует разметку Dataset из Schema.org для идентификации наборов данных на сайтах и позволяет получать нужные данные быстро если владелец их разметил. Но у него есть системная проблема, она заключается в том что для наборов данных не работает ранжирование теми же методами что для других поисковых индексов, они редко ссылаются друг на друга. Так как определить данные по значимости при поиске? По ключевым словам? Поиск быстро "замусоривается"․ Что и произошло с ним в данном случае. Например, когда ищешь стат показатели по множеству запросов вылезают ссылки на коммерческий проект CEIC. Вроде такого [2], выдаётся первым на запрос "European statistics". Разметка на странице там есть, а вот содержания нет. Нет там и лицензий CC-BY, ни многого другого. Это типичная SEO страница для тех кто торгует данными. Это если мы ищем любые данные, не только бесплатные. А если сделаем фильтр на бесплатные и поищем "Russian statistics" то первым вылезет ссылка на набор данных Linkedin users in Russian Federation [3] сервиса NapoleonCat где нет никаких данных, только график картинкой.

Краткий вывод неутешителен, хороших поисковиков по данным сейчас нет. Задачи data discovery требуют больших усилий, с одной стороны, с другой это не рынок услуг, поскольку платить кому-то за целенаправленный поиск мало кто готов. Только рынок продуктов. Интересно когда появятся достойные альтернативы?

Ссылки:
[1] https://datasetsearch.research.google.com
[2] https://www.ceicdata.com/en/european-union/eurostat-trade-statistics-by-sitc-european-union-russia
[3] https://napoleoncat.com/stats/linkedin-users-in-russian_federation/2022/01/

#datadiscovery #datasets #opendata #searchengines #google
Как я обещал публикую результаты опроса по поводу организации Дня открытых данных в Москве в 2023 году. Всего опрошенных 100 человек, из опроса можно узнать что։
- большинство за его проведения
- 11 потенциальных докладчиков, плюс ещё несколько приглашённых, в итоге до 14-15
- большинство интересуют лекции и разборы кейсов
- ждут доклады средней сложности
- большинство специалисты по работе с данными и исследователи
- ключевые темы которые большинству интересны։
— где искать данные
— открытые государственные данные
— open source инструменты на данных

Результаты очень хорошие, видно что многим не хватало дня открытых данных в прошлом году.

Итого։ мы начинаем планировать ОДД, предварительный ориентир 4 марта, пока склоняемся к формату того чтобы сделать онлайн конференцию + митап вживую на следующий день. Докладчиков не так много поэтому пока непонятно нужен ли программный комитет, но если есть кого в него порекомендовать напишите мне в личку. Рекомендовать можно кого-то кроме самого себя.

Напомню что День открытых данных (ODD) - это ежегодные мероприятия происходящие одновременно по всему миру в форматах митапов, конференций, хакатонов и других мероприятий. Последний раз в России он проходил в 2021 году. Ранее на эти мероприятия мы активно приглашали российских чиновников и представителей бизнеса, сейчас мы возвращаемся к изначальному формату проведения сообществом ради сообщества.

И, конечно, если Вы захотите организовать локальный митап/хакатон/другое событие в своём городе в России, то напишите нам на [email protected] или мне в личку о том какая нужна помощь, если она нужна.

#opendataday #opendata #events