Ivan Begtin
8.09K subscribers
1.97K photos
3 videos
102 files
4.68K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
Вал сообщений о багах сгенерированных AI

Статья Open source maintainers are drowning in junk bug reports written by AI [1] о том как разработчиков Python и Curl заваливают низкокачественными сообщениями о багах найденных AI ботами. Ситуация неприятная потому что может сильно демотивировать профессионалов контрибьюторов в открытый код.

Лично я с этим пока не столкнулся, но подозреваю что такой день ещё настанет.
И это далеко не единственное потенциально вредное применение ИИ.

Я подозреваю что очень скоро ИИ начнут использовать и для симуляции портфолио на Github'е и ещё много чего другого.

Бойтесь LLM проникающего в процесс разработки. Это не только low-code инструменты, но и немало трэша который к нам приходит.

Ссылки:
[1] https://www.theregister.com/2024/12/10/ai_slop_bug_reports/

#opensource #ai
Подборка чтения про данные, технологии и не только:

- SOAR - крупнейший в мире атлас, каталог и архив карт, привязанных к карте мира. Более 712 тысяч карт по десяткам тематик, особенно интересны исторические карты, на мой взгляд. Поиск скорее неудобный, а вот отображение на карте мира очень неплохо [1]

- Open Science rewarded: Four Projects to receive the National Prize for Open Research Data [2] в Швейцарии есть премия Open Research Data (ORD) которой ежегодно награждаются исследователи делающие проекты и помогающие публиковать и развивать среду открытых исследовательских данных. Среди победителей такой проект как Pathoplexus [3] онлайн сервис и база данных человеческих патогенов включая геномные данные. Открытый код и открытые данные вместе. Проекты других победителей не менее интересны.

- OpenUK New Year Honours List [4] список персон отмеченных за вклад в открытый код и в открытые данные в Великобритании. Ежегодно публикуется НКО OpenUK одна из важных особенностей которой в том что финансируется она не госгрантами, а корпоративными спонсорами: Google, Github, Microsoft, Arm, Red Hat и другими.

- Web Almanac 2024 [5] ежегодный доклад о состоянии веба от HTTP Archive создан по итогам анализа 16.9М сайтов и 83ТБ данных, описан в 19 разделах включая разделы про структурированные данные, размеры веб страниц, шрифты, изображения, разметка и многое другое.

- What happens with legislative initiatives in the committees? [6] дата-сторителлинг в Парламенте Австрии с визуализацией законодательных инициатив, на немецком, но поддаётся автопереводу. К публикации приложены данные и код на языке R.

Ссылки:
[1] https://soar.earth/
[2] https://akademien-schweiz.ch/en/medien/press-releases/2024/offene-wissenschaft-ausgezeichnet-vier-projekte-erhalten-den-nationalen-preis-fur-offene-forschungsdaten/
[3] https://pathoplexus.org/
[4] https://openuk.uk/honours/
[5] https://almanac.httparchive.org/en/2024/
[6] https://www.parlament.gv.at/recherchieren/open-data/showcases/Was-passiert-mit-Gesetzesinitiativen-in-den-Ausschuessen

#opendata #opensource #openaccess #readings #geo #spatial
В рубрике как это устроено у них платформа ioChem-DB [1] каталог данных в области вычислительной химии и материаловедения, не сомневаюсь что большинство химиков работающих с химическими формулами с ним сталкивались.

Его особенность в том что это по-факту:
- специальный набор инструментов по подготовке и преобразованию данных
- модель данных для описания данных
- платформа на базе DSpace для публикации данных в первичном и в преобразованных форматах.

Основной сайт агрегирует данные собранные из других порталов.

Большая часть данных публикуется в форматах Chemical Markup Language (CML) [2] и под свободными лицензиями.

Важная особенность в том что названия и описания этих наборов данных могут быть крайне минималистичны и состоять только из какого-нибудь кода, например 000112758 [3]

Поэтому я лично не знаю как химики используют там поиск и не могу сказать что понимаю как добавлять такие данные в Dateno [4] потому что хоть это и датасеты, но кто сможет найти их с таким-то описанием?

Ссылки:
[1] https://www.iochem-bd.org
[2] https://www.xml-cml.org
[3] https://iochem-bd.bsc.es/browse/handle/100/87916
[4] https://dateno.io

#opendata #chemistry #opensource #datasets #dateno
Teable [1] опенсорс продукт и онлайн сервис по созданию интерфейса а ля Airtable поверх баз Postgresql и Sqlite.

Для тех кто ранее сталкивался с Airtable и редактировал онлайн свои таблицы - это более чем идеальная замена. Если Airtable ушли по пути стремительной монетизации и превращения онлайн таблиц в конструкторы приложений, то тут продукт куда более близкий к изначальной идее таблиц онлайн. Фактически это онлайн замена MS Access, но, и это важно, поверх классической СУБД. А то есть данные можно править и вручную и автоматизировано.

Я теста ради загрузил одну из наиболее крупных таблиц из Airtable что у меня были, это таблица российских госдоменов для проекта @ruarxive (Национальный цифровой архив) и работает сервис прекрасно.

Ещё одна важная его особенность - это его можно разворачивать локально и работать со своими данным на собственном экземпляре продукта.

Ну а также они в бета режиме сейчас предоставляют сам сервис онлайн бесплатно, но монетизацию рано или поздно введут, так что open source выглядит интереснее.

Ссылки:
[1] https://teable.io

#opensource #datasets #datatools
В рубрике интересных проектов по работе с данными LOTUS: A semantic query engine for fast and easy LLM-powered data processing [1] движок для обработки данных с помощью LLM поверх Pandas. Принимает на вход человеческим языком описанные конструкции, переводит их в программные операции над датафреймом.

Является демонстрацией работы из научной работы Semantic Operators: A Declarative Model for Rich, AI-based Analytics Over Text Data [2].

Выглядит весьма интересно как задумка и как реализация, вполне можно рассматривать как внутренний движок поверх которого можно сделать обёртку, как для манипуляции данными в командной строке, так и хоть с подключением голосового ассистента.

Если ещё и Pandas заменить на Polars или иную drop-in альтернативу, то ещё и обработка данных приобретёт хорошую скорость и производительность.

Я лично вижу одним из трендов ближайшего года появление всё большего числа инструментов для обработки данных с LLM внутри.

Ссылки:
[1] https://github.com/guestrin-lab/lotus
[2] https://arxiv.org/abs/2407.11418

#opensource #datatools #dataengineering #data #ai #llm