Ivan Begtin
9.34K subscribers
2.34K photos
4 videos
110 files
5.03K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email [email protected]

Ads/promotion agent: @k0shk
加入频道
И о научных работах которые я искал, собственно более всего меня интересовали свежие статьи о автодокументировании наборов данных и вот наиболее релевантная работа AutoDDG: Automated Dataset Description Generation using Large Language Models [1] которую я проглядел несмотря на то что у меня в Semantic Scholar настроены фильтры с уведомлением о статьях по определенным темам. Кстати, хорошо бы если бы эти фильтры могли иметь форму запросов к AI помощнику, результаты должны быть точнее.

А статья интересная, от команды Visualization, Imaging, and Data Analysis Center at New York University (VIDA-NYU) которые делали очень много разных инструментов по автоматизации анализа данных и, кстати, они авторы одного из поисковиков по открытым данным Auctus [2], только они забросили этот проект года 3 назад, но он был интересен.

Вот эта команда вместе со статьёй выложили код AutoDDG [3] который пока явно мало кто видел. Можно код посмотреть и увидеть что они там делали примерно то что и я в утилите undatum [4], но с лучшей проработкой. Вернее у меня проработка была практическая и моя утилита умеет датасеты в разных форматах документировать, но у них, несомненно, качество документирования проработаннее и продуманнее.

Хорошая статья, полезный код. Прилинковывать его к своим проектам я бы не стал, но идеи подсмотреть там можно. Заодно они применяют ИИ для выявления семантических типов данных, приятно что кто-то думает в том же направлении что и я;)

Ссылки:
[1] https://www.semanticscholar.org/reader/5298f09eced7aa2010f650ff16e4736e6d8dc8fe
[2] https://github.com/VIDA-NYU/auctus
[3] https://github.com/VIDA-NYU/AutoDDG
[4] https://yangx.top/begtin/6578

#opensource #datadocumentation #ai #aitools
721
Подборка ссылок про данные, технологии и не только:
- State of Docs 2025 [1] результаты опроса от Gitbook про документирование программных продуктов с акцентом на документацию к API. В целом ничего нового: все используют AI, спецификацию OpenAPI и тд. Из интересного - метрики документированности и documentation observability [2], полезно для всех кто пишет техническую документацию или не пишет, хотя должен бы писать.
- UNCTAD: Working group on data governance at all levels [3] рабочая группа при ЮНКТАД по управлению данными на всех уровнях, была сформирована в ноябре 2024 года, в неё входит 27 стран членов ООН (почти все крупнейшие экономики, кроме РФ) и 27 не-государственных участников. Ожили с мая, начали проводить сессии с обсуждениями и подготовки предложений к Global Digital Compact
- SchemaStore [4] частная попытка с открытым кодом сделать репозиторий схем данных в формате JSON Schema. Не структурированно, на мой взгляд, но довольно массово, 1000+ схем. Выглядит как хорошая попытка, но я бы сделал иначе.
- The Plain Language Act: A solution, not a problem — my view on the Repeal Bill [5] в Новой Зеландии парламентарии задумали отменить Закон о Простом Языке, обязывающем чиновников излагать официальные тексты понятным образом. Те кто занимался этой темой много лет теперь бьют тревогу и ссылаются на то что другие страны (например, Норвегия), наоборот усиливают подобное законодательство.
- ContextGem: Effortless LLM extraction from documents [6] ещё один движок по анализу документов с помощью AI, пока только набирает популярность. Вместо преобразования разных форматов автор сконцентрировался на конвертере из DOCX файла и обработке текста.
- o3 Beats a Master-Level Geoguessr Player—Even with Fake EXIF Data [7] ещё один текст про прогресс ИИ в определении геолокации по фотографии, даже если указаны подложные данные в EXIF и в сравнении с человеком который давно играет в Geoguessr.

Ссылки:
[1] https://www.stateofdocs.com/2025/
[2] https://passo.uno/docs-observability-do11y/
[3] https://unctad.org/topic/commission-on-science-and-technology-for-development/working-group-on-data-governance
[4] https://github.com/SchemaStore/schemastore
[5] https://www.linkedin.com/pulse/plain-language-act-solution-problem-my-view-repeal-bill-lynda-harris-jf2pf/
[6] https://github.com/shcherbak-ai/contextgem

#opensource #datadocumentation #datapolicy #plainlanguage
👍8