Ivan Begtin
9.13K subscribers
2.04K photos
3 videos
102 files
4.77K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
Мне вот тоже хочется поисследовать что там у нас уже набралось в Dateno, а то всё репощу исследования других, что тоже интересно, конечно.

Я, для поиска чаще всего использую datenocmd, утилитку для запросов с командной строки и, например, недавно искал что у нас с индексацией данных по криптовалютам.

Хорошая новость - датасеты в индексе есть. Не такая хорошая новость - почти это все неактуальные, исторические датасеты опубликованные исследователями в разное время популярности и непопулярности крипты.

Что удивительно, нет ни одной базы индикаторов по крипте. Коммерческих сервисов много, а ни одного центрального банка и ни одного статистического ведомства мне неизвестно которые бы эту инфу публиковали.

Даже в у Банка международных расчётов или ЕЦБ или Евростата этой информации нет, даже в экспериментальной статистике. В общем-то реально серая зона, совершенно за пределами официального статучёта.

Но мы скоро начнём добавлять эти данные в Dateno, все что найдём;)

#opendata #datasets #crypto
Довольно неожиданный шаг со стороны испанского регулятора.

Вышел Проект Королевского указа, регулирующего выдачу расширенных коллективных лицензий на массовое использование работ и услуг, защищенных правами интеллектуальной собственности, для разработки моделей искусственного интеллекта общего назначения.[1]

Фактически разработчикам ИИ хотят дать право использовать интеллектуальную собственность через коллективные лицензии. Очень интересно как это будет развиваться, выйдет ли/уже выходит ли на наднациональные рамки Евросоюза и
как сами правообладатели к этому отнесутся.

Ссылки:
[1] https://www.cultura.gob.es/en/servicios-al-ciudadano/informacion-publica/audiencia-informacion-publica/abiertos/2024/concesion-licencias-colectivas.html

#regulation #ai #spain
В рубрике закрытых данных в РФ с 2023 года перестал работать домен rosrid.ru на котором были доступны научные работы из ЕГИСУ НИОКТР (Единая государственная информационная система учета. научно-исследовательских, опытно-конструкторских и технологических работ гражданского назначения) и вместо него теперь работает сайт gisnauka.ru [1].

Ещё до обновлений 2022-2023 года в рамках ЕГИСУ НИОКТР публиковались дампы данных/метаданных научных работ. Последнюю выгрузку их в нашу дата платформу Datacrafter мы делали в 2021 году [2].

Примерно в 2022-2023 году систему ЕГИСУ НИОКТР обновляли и вместо данных дампов теперь там стали называть открытыми данными статистику. С внедрением Домена наука ничего не изменилось, сами данные недоступны и даже полнотекстовых публикаций там также не находится, хотя и в поиске есть опция их поиска.

Ссылки:
[1] https://gisnauka.ru
[2] https://datacrafter.ru/packages/rosridnew

#opendata #closeddata #russia #openaccess
Читаю в Российской газете про идею создания научного дата-хаба [1] и думаю как это прокомментировать.

Начну с того что для его создания регулирования не нужно, необходимо лишь чтобы ключевые органы власти и ряд учреждений сдали бы туда данные и чтобы ими можно было пользоваться. Это вопрос не регулирования, а как принято говорить "политической воли" или, если угодно, "государственного насилия" в отношении государственных же структур не участвующих в обмене данными.

И поэтому, разговоры про регулирование стоит воспринимать как опасный звоночек потому что не имея возможность потребовать от госорганов и госкорпораций данные, пр-во начнет регулировать бизнес сдавать данные в этот дата хаб. Вот тут регулирование нужно в полный рост, но это уже плохая форма государственного принуждения, выгодная только ограниченному числу ИИ компаний и ряду госорганов.

Ссылки:
[1] https://rg.ru/2024/11/25/rossijskij-ii-obuchat-na-otechestvennyh-dannyh.html

#opendata #data #ai #regulation #russia
Свежее регулирование выдачи сертификатов российского НУЦ [1] предполагающее выдачу сертификатов национального удостоверяющего центра веб сайтам/сервисам и это к вопросу о том когда сайты российских госорганов и госучреждений начнут выпадать из поисковиков Google, Bing, а также более не архивироваться в Интернет Архиве.

Из интернет архива многие госсайты уже повыпадали [2] [3] [4] и многие другие могут исчезнуть в будущем.

Я бы сказал что уже давно переходить к архивации всех сайтов российских госорганов, но задача эта не только трудоёмкая, но и финансово затратная - на оборудование и на хранение, пока мы своими силами в рамках Национального цифрового архива [5] не решили. Нехватает времени/ресурсов даже нормальный каталог заархивированного сделать.

Но острота проблемы с недоступностью и потенциальной потерей контента не снимается.

Ссылки:
[1] https://yangx.top/ep_uc/2981
[2] https://web.archive.org/web/20240000000000*/https://minjust.gov.ru
[3] https://web.archive.org/web/20240000000000*/https://rkomi.ru
[4] https://web.archive.org/web/20240000000000*/https://www.mnr.gov.ru
[5] https://ruarxive.org

#digitalpreservation #webarchival #russia
В продолжение текста о том как искать данные в принципе, поговорим о том где искать геоданные. С геоданными, всё, и лучше, и хуже, но важнее то что всё по другому. Иногда очень по другому.

Первое что важно знать это то что геоданные не индексируются Google Dataset Search и большей частью поисковиков которые я ранее не упоминал. Очень часто геоданные находятся, в принципе, за пределами обычного поиска и искать их необходимо в специальных каталогах и специальных сервисах.

Конечно, в первую очередь я порекомендую Dateno ;) где проиндексировано более чем 5.5 миллионов геоданных-ресурсов из геопорталов, практически по всем странам.

Но есть и другие источники:
- Geoseer - единственный известный мне поисковик по геоданным. Чем-то похож на Dateno, а Dateno на него. Охватывает 3.5 миллиона точек с гео API, в основном WMS, WFS, WCS и WMTS.
- ArcGIS Hub - портал открытых данных на базе платформы ArcGIS, охватывает все экземпляры порталов с открытыми данными на базе облачного сервиса ArcGIS
- ArcGIS Search - поисковик от ArcGIS по всем общедоступным ресурсам на их геосерверах. Шире чем поиск ArcGIS Hub, охватывает не только цифровые слои, но и другие геоартефакты
- Spatial Data Catalog - каталог данных от Carto, более 11 тысяч наборов данных удобных для интеграции с их платформой. Примерно 2/3 данных доступны только за деньги, считаются premium data
- Spatineo Directory - не каталог данных, но каталог источников геоданных, геосерверов. Можно найти нужны сервер и искать уже в нём.

А также стоит обратить внимание на порталы США: geoplatform.gov, sciencebase.gov и Европы data.europe.eu, где тоже много геоданных

Источников геоданных куда больше, это только основные ресурсы. А есть ещё базы спутниковых снимков, интерфейсы доступа к ним через стандарт STAC и многое другое. Об этом я регулярно пишу и ещё напишу здесь.

#opendata #geodata #datacatalogs
Forwarded from Privacy Advocates
🇺🇸 Microsoft утверждает, что не использует документы Office для обучения ИИ-моделей
🔸Microsoft заявила, что не использует данные пользователей из приложений Microsoft 365 для обучения своих моделей искусственного интеллекта (ИИ). Заявление сделано в ответ на появившиеся в последние недели сообщения о том, что компания якобы требует от пользователей Word и Excel отказаться от использования их данных для обучения ИИ.
🔸Вопрос возник из-за настроек конфиденциальности в Microsoft Office, в которых включена опция «дополнительные подключаемые функции». Эта функция позволяет, например, «искать изображения в Интернете» или «находить доступную в сети информацию». По умолчанию эта опция включена, но в описании не упоминается, что она используется для обучения ИИ. Кроме того, документ Microsoft от 21 октября 2024 года усилил путаницу, перечисляя «подключаемые функции», которые «анализируют ваш контент», без явного исключения обучения на базе больших языковых моделей (LLM).
В качестве регулярных напоминаний о том что чем занимаюсь я лично и команды Инфокультуры, Dateno и Open Data Armenia.

Международное
- Dateno - глобальная поисковая система по данным, охватывает все страны мира и 19 миллионов датасетов. Большой-маленький международный стартап помогающий находить данные по всем возможным темам. А также с открытым кодом ряда компонентов в репозиториях commondataio и dateno и реестр каталогов данных Dateno registry
- Data Catalog Armenia - общественный каталог открытых данных по Армении, пока нет государственного единственный такой каталог данных в стране. Включая открытые репозитория кода сбора данных opendataam

Проекты в России/связанные с Россией
- Хаб открытых данных - общественный портал открытых данных со множеством датасетов. Из-за наплыва спамеров пришлось закрыть в нем свободную регистрацию, но всем желающим публиковать данные всегда можем дать такую возможность.
- Госзатраты - проект по сбору и публикации всех данных о государственных и муниципальных контрактах в РФ. Включая открытое API и открытые данные. Большие данные, за более чем 10 лет.
- Ruarxive - национальный цифровой архив России, архивы всех потенциально исчезающих сайтов госорганов, организаций, НКО и отдельных проектов. Постоянно не хватает ресурсов чтобы охватить всё что хочется, потому что исчезает всё постоянно.
- OpenNGO - база по всем некоммерческим организациям в России. По всем - это всем, не только социально ориентированным. Там есть и госНКО, и университеты и тд. Включает открытые данные и открытое API.
- Datacatalogs.ru - портал каталога каталогов данных который мы делали до Dateno и до реестра каталогов данных Dateno. Только российские ресурсы и стран постсоветского пространства, включает не только "чистые" каталоги данных, но и порталы открытого бюджета, к примеру, как то что каталогами данных не является, но могло бы быть.
- Plain Russian - сервис проверки русского языка на простоту. Скорее всего скоро будет неактуальным из-за развития LLM, тем не менее, он существует, работает, полезен.

P.S. А также есть многие проекты которые ещё в работе, или подвисли, или требуют актуализации, или представленные только в виде документов или открытого кода, о них в следующий раз

#opendata #data
В Буэнос-Айресе в Аргентине судьи начали применять ИИ для подготовки судебных решений [1]. Специальная система PROMETEA обучена на на более чем 300 тысячах правилах и документах и за 20 секунд принимает решения с 90% точностью. При этом ни одно решение не принимается автоматически, каждое является черновиком который вычитывается юристом и только после его одобрения становится финальным решением.

Особенность в том что система применяется не для всех, а для многочисленные налоговых и административных разбирательств, которые, в основном, довольно стандартизируемы или предсказуемы. ИИ система является помощником судей, а не их заменителем.

И это поднимает вопрос о том к чему может привести и, с высокой вероятностью, приведет при внедрении ИИ в судебный процесс. Это массовые сокращения вспомогательного персонала в судах и изменение самого принципа работы судов. Хорошо это или плохо? Пока говорить рано.

А подробнее про систему PROMETEA можно прочитать в официальном отчете [2].

Ссылки:
[1] https://restofworld.org/2024/buenos-aires-courts-adopt-chatgpt-draft-rulings/
[2] https://mpfciudad.gob.ar//storage/archivos/9c8074a610f82c7ff0b47bbb1a2abee9.pdf

#ai #courts #argentina #privacy
Написал большой текст про особенности российской официальной статистики
Российская статистика: немашиночитаемая институциональная фрагментация
в этот раз там не столько про машиночитаемость, и даже не столько про цифровизацию Росстата, сколько про его территориальные подразделения и про гигантское дробление данных и публикаций которые они создают.

Я не стал этого добавлять в большой текст, добавлю здесь. В среднем на сайте терр. органа Росстата опубликовано от 500 до 2000 документов, примерно такое же число публикаций выпущенных ими на бумаге. Если все эти документы собрать вместе то был бы каталог от 50 до 200 тысяч статистических публикаций и это было бы даже каталогом данных, наполовину,уж точно.

Но этого никогда не будет до тех пор пока подразделения Росстата торгуют данными.

#opendata #data #statistics #russia
Оказывается вышел пре-релиз версии 6.0 библиотеки Plotly для визуализации данных [1] самое интересное там это то что они перешли на библиотеку Narwhals [2] которая позволяет работать с условно любой библиотекой для датафреймов и сохранять совместимость с pandas. Например, это такие библиотеки как: cuDF, Modin, pandas, Polars, PyArrow

Собственно и автор Plotly пишет про то что для не-pandas датафреймов всё ускоряется в 2-3 раза [3].

По всем параметрам хорошая штука, надо использовать на практике.

Ссылки:
[1] https://github.com/plotly/plotly.py/releases/tag/v6.0.0rc0
[2] https://github.com/narwhals-dev/narwhals
[3] https://www.linkedin.com/posts/marcogorelli_plotly-60-%F0%9D%90%A9%F0%9D%90%AB%F0%9D%90%9E%F0%9D%90%AB%F0%9D%90%9E%F0%9D%90%A5%F0%9D%90%9E%F0%9D%90%9A%F0%9D%90%AC%F0%9D%90%9E-is-out-activity-7267885615096991744-2ORl?utm_source=share&utm_medium=member_desktop

#opensource #dataviz #dataframes
Graphic Walker [1] ещё один симпатичный инструмент для анализа и визуализации данных позиционируемый как альтернатива Tableau.

На его основе работает GWalkR [2] инструмент для Exploratory Data Analysis (EDA) на языке R что хорошо встраивается в R Notebook и иные встроенные способы визуализации.

Ссылки:
[1] https://github.com/Kanaries/graphic-walker
[2] https://github.com/Kanaries/GWalkR

#opensource #dataviz #dataanalysis