Ivan Begtin
8.09K subscribers
1.97K photos
3 videos
102 files
4.68K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
Вал сообщений о багах сгенерированных AI

Статья Open source maintainers are drowning in junk bug reports written by AI [1] о том как разработчиков Python и Curl заваливают низкокачественными сообщениями о багах найденных AI ботами. Ситуация неприятная потому что может сильно демотивировать профессионалов контрибьюторов в открытый код.

Лично я с этим пока не столкнулся, но подозреваю что такой день ещё настанет.
И это далеко не единственное потенциально вредное применение ИИ.

Я подозреваю что очень скоро ИИ начнут использовать и для симуляции портфолио на Github'е и ещё много чего другого.

Бойтесь LLM проникающего в процесс разработки. Это не только low-code инструменты, но и немало трэша который к нам приходит.

Ссылки:
[1] https://www.theregister.com/2024/12/10/ai_slop_bug_reports/

#opensource #ai
Подборка чтения про данные, технологии и не только:

- SOAR - крупнейший в мире атлас, каталог и архив карт, привязанных к карте мира. Более 712 тысяч карт по десяткам тематик, особенно интересны исторические карты, на мой взгляд. Поиск скорее неудобный, а вот отображение на карте мира очень неплохо [1]

- Open Science rewarded: Four Projects to receive the National Prize for Open Research Data [2] в Швейцарии есть премия Open Research Data (ORD) которой ежегодно награждаются исследователи делающие проекты и помогающие публиковать и развивать среду открытых исследовательских данных. Среди победителей такой проект как Pathoplexus [3] онлайн сервис и база данных человеческих патогенов включая геномные данные. Открытый код и открытые данные вместе. Проекты других победителей не менее интересны.

- OpenUK New Year Honours List [4] список персон отмеченных за вклад в открытый код и в открытые данные в Великобритании. Ежегодно публикуется НКО OpenUK одна из важных особенностей которой в том что финансируется она не госгрантами, а корпоративными спонсорами: Google, Github, Microsoft, Arm, Red Hat и другими.

- Web Almanac 2024 [5] ежегодный доклад о состоянии веба от HTTP Archive создан по итогам анализа 16.9М сайтов и 83ТБ данных, описан в 19 разделах включая разделы про структурированные данные, размеры веб страниц, шрифты, изображения, разметка и многое другое.

- What happens with legislative initiatives in the committees? [6] дата-сторителлинг в Парламенте Австрии с визуализацией законодательных инициатив, на немецком, но поддаётся автопереводу. К публикации приложены данные и код на языке R.

Ссылки:
[1] https://soar.earth/
[2] https://akademien-schweiz.ch/en/medien/press-releases/2024/offene-wissenschaft-ausgezeichnet-vier-projekte-erhalten-den-nationalen-preis-fur-offene-forschungsdaten/
[3] https://pathoplexus.org/
[4] https://openuk.uk/honours/
[5] https://almanac.httparchive.org/en/2024/
[6] https://www.parlament.gv.at/recherchieren/open-data/showcases/Was-passiert-mit-Gesetzesinitiativen-in-den-Ausschuessen

#opendata #opensource #openaccess #readings #geo #spatial
В рубрике как это устроено у них платформа ioChem-DB [1] каталог данных в области вычислительной химии и материаловедения, не сомневаюсь что большинство химиков работающих с химическими формулами с ним сталкивались.

Его особенность в том что это по-факту:
- специальный набор инструментов по подготовке и преобразованию данных
- модель данных для описания данных
- платформа на базе DSpace для публикации данных в первичном и в преобразованных форматах.

Основной сайт агрегирует данные собранные из других порталов.

Большая часть данных публикуется в форматах Chemical Markup Language (CML) [2] и под свободными лицензиями.

Важная особенность в том что названия и описания этих наборов данных могут быть крайне минималистичны и состоять только из какого-нибудь кода, например 000112758 [3]

Поэтому я лично не знаю как химики используют там поиск и не могу сказать что понимаю как добавлять такие данные в Dateno [4] потому что хоть это и датасеты, но кто сможет найти их с таким-то описанием?

Ссылки:
[1] https://www.iochem-bd.org
[2] https://www.xml-cml.org
[3] https://iochem-bd.bsc.es/browse/handle/100/87916
[4] https://dateno.io

#opendata #chemistry #opensource #datasets #dateno
Teable [1] опенсорс продукт и онлайн сервис по созданию интерфейса а ля Airtable поверх баз Postgresql и Sqlite.

Для тех кто ранее сталкивался с Airtable и редактировал онлайн свои таблицы - это более чем идеальная замена. Если Airtable ушли по пути стремительной монетизации и превращения онлайн таблиц в конструкторы приложений, то тут продукт куда более близкий к изначальной идее таблиц онлайн. Фактически это онлайн замена MS Access, но, и это важно, поверх классической СУБД. А то есть данные можно править и вручную и автоматизировано.

Я теста ради загрузил одну из наиболее крупных таблиц из Airtable что у меня были, это таблица российских госдоменов для проекта @ruarxive (Национальный цифровой архив) и работает сервис прекрасно.

Ещё одна важная его особенность - это его можно разворачивать локально и работать со своими данным на собственном экземпляре продукта.

Ну а также они в бета режиме сейчас предоставляют сам сервис онлайн бесплатно, но монетизацию рано или поздно введут, так что open source выглядит интереснее.

Ссылки:
[1] https://teable.io

#opensource #datasets #datatools
В рубрике интересных проектов по работе с данными LOTUS: A semantic query engine for fast and easy LLM-powered data processing [1] движок для обработки данных с помощью LLM поверх Pandas. Принимает на вход человеческим языком описанные конструкции, переводит их в программные операции над датафреймом.

Является демонстрацией работы из научной работы Semantic Operators: A Declarative Model for Rich, AI-based Analytics Over Text Data [2].

Выглядит весьма интересно как задумка и как реализация, вполне можно рассматривать как внутренний движок поверх которого можно сделать обёртку, как для манипуляции данными в командной строке, так и хоть с подключением голосового ассистента.

Если ещё и Pandas заменить на Polars или иную drop-in альтернативу, то ещё и обработка данных приобретёт хорошую скорость и производительность.

Я лично вижу одним из трендов ближайшего года появление всё большего числа инструментов для обработки данных с LLM внутри.

Ссылки:
[1] https://github.com/guestrin-lab/lotus
[2] https://arxiv.org/abs/2407.11418

#opensource #datatools #dataengineering #data #ai #llm
Оказывается в декабре команда OpenRefine [1], инструмента по ручной очистке данных, опубликовала результаты опроса пользователей о том к какой группе те себя относят, как пользуются и так далее.

И по группам результаты даже чуть удивительные.
Основные пользователи (38%) - это исследователи, а вот следом за ними следующие - это библиотекари.
Далее идут по сообществам:
- Data Science
- Wikimedian
- GLAM

И где-то там же ещё и дата журналисты, digital humanities и тд.

По сути это инструмент как раз для обработки данных в гуманитарных профессиях, относительно небольшого объёма, но с прицелом на работу со связанными данными, Wikipedia/Wikimedia и так далее.

Подозреваю что и Data Science там тоже в контексте не корпоративных, а исследовательских данных.

Кстати, в дата инженерии и корпоративной дата аналитики он почти не применяется. Всё это про разницу в стеках инструментов работы с данными, их достаточно давно можно нарезать группами по областям применения.

Например, дата журналистам или историкам OpenRefine полезен, аналитиков логичнее учить делать то же самое с помощью дата фреймов, дата инженеров с помощью конвееров данных и так далее.

А сам OpenRefine хороший инструмент, но упершийся в жёсткие ограничения внутреннего движка. Если бы я не был так увлечен Dateno я бы всерьёз озадачился созданием UI похожего на OpenRefine, но на движке DuckDB или Polars.

Ссылки:
[1] https://openrefine.org
[2] https://openrefine.org/blog/2024/12/20/2024-survey-results

#opendata #opensource #datatools
Продолжая рассуждения про OpenRefine, я какое-то время довольно быстро сделал движок mongorefine [1] в котором воспроизвёл некоторые ключевые функции OpenRefine в в виде библиотеки поверх MongoDB. Но после тестов выяснилось что хотя это и очень гибкая штука, но безбожно медленная.

К сравнению DuckDB или Polars не такие гибкие, зато работают с данными значительно большего объёма на десктопе.

У OpenRefine есть две ключевые фичи которые наиболее трудоёмки:
1. История всех изменений датасета. Это не так сложно как может показаться, но на большом датасете начинает кушать много дискового пространства.
2. UI для пользователя. Без UI, в виде библиотеки - эта задача проста. С UI - это становится не так просто. Вот я, например, нужными навыками для создания таких сложных пользовательских интерфейсов не обладаю.

Остальные фичи касаются интеграции с внешними сервисами, Wikidata и тд. Тут важнее интерфейс для плагинов, а не сразу сами плагины.

Я для такого рисовал схемку как можно было бы организовать правильно, но, пока забросил эту идею.

#opensource #datatools #thoughts
В рубрике полезного чтения про данные, технологии и не только:
- The Unique Challenges of Open Data Projects: Lessons From Overture Maps Foundation [1] в блоге Linux Foundation об отличиях работы с открытыми данными и открытым кодом на примере Overture Maps. Написано так словно авторы переоценили свой опыт с открытым кодом применительно к открытым данным, какие-то тезисы кажутся очень очевидными для тех кто в теме давно, что не отменяет их актуальности, конечно.

- La France classée première européenne en matière d'open data pour la 4e année consécutive [2] текущее состояние открытых данных во Франции за 2024 год, на французском, но всё понятно и автопереводчики есть. Если кратко: а) Франция лидер в отчете Open Data Maturity. б) Приоритет на данных особой ценности. в) Приоритет на вовлечении сообщества.

- The State of Open Data 2024: Special Report [3] доклад от Digital Science про состояние открытых исследовательских данных (публикуемых на их платформе, конечно, и ряда других источников). Полезно для общего понимания трендов в этой области, с поправкой на то что они коммерческий провайдер исследовательской инфраструктуры.

- Datos Abiertos de los Registradores de España [4] свежезапущенный каталог открытых данных испанских регистраторов, по сути статистика по банкротствам, покупкам жилья и так далее. Много полезных индикаторов оформленных как открытые данные.

- Wspolna platforma kartografee geologicznej (WPKG) [5] недавно открытая картографическая платформа геологической службы Польши. Помимо большого числа слоёв ещё и публикуют 3D модель геологической структуры территории Польши которая выглядит весьма и весьма неплохо. Открытое API явным образом не обозначено, но внутри всё на базе ArcGIS сервера к которому можно подключиться онлайн без труда.

- qcsv pro [6] коммерческий продукт для обработки данных и публикации на порталах открытых данных на базе CKAN. Смотрю на него критическим взглядом. С одной стороны он не дотягивает до OpenRefine по функциональности обработки и очистки данных, с другой ограничения бесплатной версии в 1000 строк CSV это ну как бы его сильно обесценивает, а с третьей он жёстко ограничен экосистемой CKAN. Есть ощущение что экономика не должна сходится, но вот бизнес модель такую можно зафиксировать. Будет ли она успешной? Посмотрим.

- Open Data Editor [7] некоммерческий редактор открытых данных с открытым данным и возможностью с публикации данных в CKAN и Zenodo. По сути это открытый конкурент qsv pro, и я о нём ранее упоминал. Полезен всем кто готовит небольшие данные для публикации, к сожалению, не годится когда данные не совсем маленькие, например, от 500MB.

- Most violent or sexual offences went unsolved in crime hotspots in England and Wales last year [8] статья в The Guardian о том что раскрывается лишь 11% преступлений сексуального характера в Великобритании раскрывается. И даже важнее то что есть территории где раскрываемость сильно ниже чем по стране, отчасти из-за качества данных, а отчасти это отражает реальную ситуацию. Важно что в Великобритании принципиально возможен такой анализ поскольку полиция раскрывает данные до муниципального уровня на специальном сайте data.police.uk

Ссылки:
[1] https://www.linuxfoundation.org/blog/the-unique-challenges-of-open-data-projects-lessons-from-overture-maps-foundation
[2] https://www.data.gouv.fr/fr/posts/la-france-classee-premiere-europeenne-en-matiere-dopen-data-pour-la-4e-annee-consecutive/
[3] https://www.digital-science.com/state-of-open-data-report-2024/
[4] https://www.registradores.org/-/el-colegio-de-registradores-presenta-la-plataforma-open-data-que-ofrece-información-pública-para-su-consulta-de-forma-libre-y-gratuita
[5] https://geologia.pgi.gov.pl/mapy/
[6] https://qsvpro.dathere.com/
[7] https://opendataeditor.okfn.org/
[8] https://www.theguardian.com/uk-news/2025/jan/13/most-violent-or-sexual-offences-went-unsolved-in-uk-hotspots-last-year

#opendata #uk #poland #geodata #opensource
В ближайшие дни я в Москве и довольно неожиданно, а на самом деле давно были планы, читаю лекцию про работу с большими исследовательскими датасетами и об использовании DuckDB и Parquet в этих целях. Будет и в части теории и рассказа про современный инструменты и в части демонстрации на живых данных. Для тех исследователей кто хотя бы немного владеет Python, R и/ли SQL всё будет довольно понятно.

А вот и сам анонс;)

Приглашаем поучаствовать в семинаре на тему особенностей работы с современными форматами больших данных.

Поговорим о ключевых преимуществах формата Parquet для оптимизации хранения и обработки данных, а также о возможностях аналитической СУБД DuckDB.

Семинар может быть интересен тем, кто занимается обработкой и анализом больших данных, а также тем, кто ищет эффективные и производительные решения для работы с массивами данных в современных аналитических экосистемах.

Дата проведения: 21 января 2025 г. (вторник), с 16:30 до 18:00
Формат: гибридный
Место проведения: Институт востоковедения РАН (г. Москва, ул. Рождественка, 12), аудитория 222

Регистрация: https://ivran.ru/registraciya-na-seminar

#opendata #opensource #lectures #teaching
Подборка полезных ссылок инструментов с открытым кодом:
- pyper [1] библиотека для Python для параллельной обработки данных, упрощает работу с потоками, делает её значительно проще.

- Gemini-search [2] альтернатива для Perplexity на базе LLM модели Gemini от Google. Плюс: хостится локально. Минус: за обращения к API Гугла надо платить. Мне не удалось её заставить работать, но демо выглядит интересно, надеюсь скоро будет работоспособнее

- Automatisch [3] open source аналог Zapier, используется для интеграции и автоматизации разных онлайн сервисов типа Twitter, Spotify, Google Docs и др. Сервисов таких много, но тут открытый код.

- crawl4ai [4] веб краулер с построением конвееров для обработки страниц для LLM и не только. Мне вот есть куда прикрутить краулер, может быть даже именно этот. А вообще удивительно насколько стремительно становятся популярными именно AI-powered инструменты. К примеру, похожий краулер Browsertrix для веб архивации имеет всего 223 лайка. А у crawl4ai сразу 25 тысяч лайков. Разница, реально, на 2 порядка и интенсивность разработки аналогично.

- PDFMathTranslate [5] open source инструмент перевода научных статей на другие языки, с сохранением всех формул, изображений и тд. Поддерживает все актуальные разговорные языки используемые в науке: английский, китайский, французский, немецкий, русский, испанский и тд. Существует в виде онлайн сервиса с ограничением в менее чем 5MB [6] или можно скачать и развернуть у себя

Ссылки:
[1] https://github.com/pyper-dev/pyper
[2] https://github.com/ammaarreshi/Gemini-Search
[3] https://github.com/automatisch/automatisch
[4] https://github.com/unclecode/crawl4ai
[5] https://github.com/Byaidu/PDFMathTranslate
[6] https://pdf2zh.com/

#opensource #datatools #ai #crawlers #search