Ivan Begtin
8.1K subscribers
2.03K photos
3 videos
102 files
4.76K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
Hugging Face выпустили коллекцию графиков 🤗 Open-source AI: year in review 2024 [1].

Где много всяких визуализаций того как в области AI работают с данными, моделями и не только, а ещё там есть график The Circle of Sharing: How Open Datasets Power AI Innovation [2] где можно увидеть как повторно компаниями используются датасеты выложенные другими компаниями.

Другие графики не менее любопытные.
Ссылки:
[1] https://huggingface.co/spaces/huggingface/open-source-ai-year-in-review-2024
[2] https://huggingface.co/spaces/huggingface/open-source-ai-year-in-review-2024

#opendata #ai #dataviz #data
В рубрике интересных проектов по работе с данными LOTUS: A semantic query engine for fast and easy LLM-powered data processing [1] движок для обработки данных с помощью LLM поверх Pandas. Принимает на вход человеческим языком описанные конструкции, переводит их в программные операции над датафреймом.

Является демонстрацией работы из научной работы Semantic Operators: A Declarative Model for Rich, AI-based Analytics Over Text Data [2].

Выглядит весьма интересно как задумка и как реализация, вполне можно рассматривать как внутренний движок поверх которого можно сделать обёртку, как для манипуляции данными в командной строке, так и хоть с подключением голосового ассистента.

Если ещё и Pandas заменить на Polars или иную drop-in альтернативу, то ещё и обработка данных приобретёт хорошую скорость и производительность.

Я лично вижу одним из трендов ближайшего года появление всё большего числа инструментов для обработки данных с LLM внутри.

Ссылки:
[1] https://github.com/guestrin-lab/lotus
[2] https://arxiv.org/abs/2407.11418

#opensource #datatools #dataengineering #data #ai #llm
Подборка полезных ссылок инструментов с открытым кодом:
- pyper [1] библиотека для Python для параллельной обработки данных, упрощает работу с потоками, делает её значительно проще.

- Gemini-search [2] альтернатива для Perplexity на базе LLM модели Gemini от Google. Плюс: хостится локально. Минус: за обращения к API Гугла надо платить. Мне не удалось её заставить работать, но демо выглядит интересно, надеюсь скоро будет работоспособнее

- Automatisch [3] open source аналог Zapier, используется для интеграции и автоматизации разных онлайн сервисов типа Twitter, Spotify, Google Docs и др. Сервисов таких много, но тут открытый код.

- crawl4ai [4] веб краулер с построением конвееров для обработки страниц для LLM и не только. Мне вот есть куда прикрутить краулер, может быть даже именно этот. А вообще удивительно насколько стремительно становятся популярными именно AI-powered инструменты. К примеру, похожий краулер Browsertrix для веб архивации имеет всего 223 лайка. А у crawl4ai сразу 25 тысяч лайков. Разница, реально, на 2 порядка и интенсивность разработки аналогично.

- PDFMathTranslate [5] open source инструмент перевода научных статей на другие языки, с сохранением всех формул, изображений и тд. Поддерживает все актуальные разговорные языки используемые в науке: английский, китайский, французский, немецкий, русский, испанский и тд. Существует в виде онлайн сервиса с ограничением в менее чем 5MB [6] или можно скачать и развернуть у себя

Ссылки:
[1] https://github.com/pyper-dev/pyper
[2] https://github.com/ammaarreshi/Gemini-Search
[3] https://github.com/automatisch/automatisch
[4] https://github.com/unclecode/crawl4ai
[5] https://github.com/Byaidu/PDFMathTranslate
[6] https://pdf2zh.com/

#opensource #datatools #ai #crawlers #search
Полезное чтение про данные, технологии и не только:
- Digitalizing sewage: The politics of producing, sharing, and operationalizing data from wastewater-based surveillance [1] оцифровка канализации и переходу к слежке через анализ сточных вод. Скрыто за пейволом, но тема важная, и активно развивающаяся. Годится для тем рассказов социальной фантастики про то как полиция выявляет убийц расчленителей и наркоманов, а медики больных по анализу сточных вод в реальном времени. Статья за пэйволом
- AI Is Bad News for the Global South [2] статья о том что ИИ для развивающихся стран не несёт ничего хорошего. Потому что английский язык, потому что gig-экономика включает многих из развивающихся стран, а теперь будет ИИ контент.
- The Access to Public Information: A Fundamental Right [3] книга Alejandra Soriano Diaz, о том что доступ к информации - это фундаментальное право и от него зависят другие права. Увы, книга не в открытом доступе,
- Kickstarting Collaborative, AI-Ready Datasets in the Life Sciences with Government-funded Projects [4] статья о том что государство должно активно софинансировать создание данных/датасетов в медицине и других life sciences. Там же ссылка на Open Dataset Initiative [5] создание открытых научных датасетов по запросу сообществ.

Ссылки:
[1] https://journals.sagepub.com/doi/abs/10.1177/23996544241313454
[2] https://foreignpolicy.com/2024/12/17/ai-global-south-inequality/
[3] https://www.cambridgescholars.com/product/978-1-0364-1521-1
[4] https://fas.org/publication/collaborative-datasets-life-sciences/
[5] https://alignbio.org/datasets-in-detail

#opendata #data #foi #readings #ai
Китайский стартап Deepseek [1] с его 3-й версией языковой модели показал что можно создать конкурентную языковую модель за $6 миллионов и ограниченными ресурсами, всего 10 тысяч процессоров Nvidia H100s [2]. Сейчас в США акции AI компаний упали, особенно Nvidia, а также приложение DeepSeek в топе скачиваний. Оно уже явно сбоит, невозможно зарегистрироваться через их сайт, ошибки одна за другой, но это явно из-за массового спроса.

Сама модель сделана небольшой командой AI исследователей, а Deepseek ранее был малоизвестным китайским стартапом.

Что важно так это то что их код открыт под свободной лицензией MIT и они опубликовали полный технический отчёт о том как они добились такого результата [3].

Если так дальше пойдет то совершенно то $500 миллиардов в проект Stargate США резко уменьшится в цене. Может быть даже очень резко, как и ожидаемые доходы AI лидеров.

Ссылки:
[1] https://www.deepseek.com
[2] https://www.axios.com/2025/01/27/deepseek-ai-model-china-openai-rival
[3] https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf

#ai #ml #llm
Open R1 [1] полностью открытая реконструкция модели Deepseek-R1 которая несколько дней назад стала столь известной и популярной.

Думаю что недолго будет ждать когда появится сервис (спорю что уже появились) альтернативы DeepSeek в других юрисдикциях, не в Китае.

Что последствия для рынка не отменит, но уменьшит опасения утечки конфиденциальных данных

Ссылки:
[1] https://github.com/huggingface/open-r1

#opensource #llm #deepseek #ai
AI и политика

Dario Amodei, CEO стартапа Anthropic, создателей LLM моделей Claude, написал в блоге [1] призыв к ужесточению экспортного контроля США за чипами для обучения ИИ. Дословно это звучит как Export controls serve a vital purpose: keeping democratic nations at the forefront of AI development. У него под постом в твиттере развернулась большая полемика с теми кто против ограничений на развитие ИИ [2]. Большая часть комментариев звучит как при всём уважении к Вашей команде, но DeepSeek молодцы и развивать ИИ модели с открытым кодом важно.

Разработка ИИ стремительно политизируется вместе с демократизацией ИИ инструментов.

Ссылки:
[1] https://darioamodei.com/on-deepseek-and-export-controls
[2] https://x.com/DarioAmodei/status/1884636410839535967

#ai #opensource #deepseek #llm
ChatGPT теперь даёт возможность поиска и интерактива без авторизации [1] вот что конкуренция творит, а всего-то китайцы запустили Deepseek😜

Ссылки:
[1] https://chatgpt.com/?hints=search

#llm #ai #chatgpt
Полезные ссылки про данные, технологии и не только:
- Perforator [1] профайлер приложений от Яндекса и с использованием eBPF [2]. Полезно для отладки многих сложных и простых нативных приложений и отдельно расписано как профилировать и оптимизировать серверные приложения на Python. Выглядит как очень добротный open source продукт
- GPT Researcher [3] автономный инструмент для исследований с аккуратной простановкой цитат, использует внешние и локальные источники. Интегрирован с OpenAI
- The Illustrated DeepSeek-R1 [4] подробно о DeepSeek в картинках, позволяет легче ухватить суть продукта
- DataLumos [5] проект Университета Мичигана по архивации государственных и социальных данных, построен на базе OpenICPSR [6], данных не очень много, но они адаптированы под исследовательские задачи
- Data Formulator: Create Rich Visualizations with AI [7] полноценный движок для визуализации данных с помощью ИИ. Выпущен исследователями из Microsoft вместе с научной работой, под лицензией MIT. Выглядит как proof-of-concept, не факт что его можно применять в практических задачах сразу и из коробки, но для экспериментов самое оно. И для идей и вдохновения
- Chat2DB [8] открытый код (community edition) и сервис по управлению базами данных с помощью ИИ. Всё самое вкусное вынесли в коммерческие версии, но посмотреть стоит в любом случае.

Ссылки:
[1] https://perforator.tech
[2] https://ebpf.io
[3] https://github.com/assafelovic/gpt-researcher
[4] https://newsletter.languagemodels.co/p/the-illustrated-deepseek-r1
[5] https://www.datalumos.org
[6] https://www.openicpsr.org/openicpsr/
[7] https://github.com/microsoft/data-formulator
[8] https://chat2db.ai

#opensource #datatools #opendata #ai
Dataset investigation (расследование датасетов)

Если Вы ещё не слышали этот термин, то с высокой вероятностью услышите в этом году. Это расследования на данных о данных применительно к тому на чём обучались ИИ модели и к каким предубеждениям это привело. Я этот термин увидел в списке предсказаний будущего [1] от Mozilla Foundation и готов согласиться что это будет горячая тема в самые ближайшие годы.

Скоро можно будет писать что мол я не балбес кто-то скармливающий LLM провокационные вопросы, а полноценный dataset investigator (расследователь датасетов).😂

Не благодаритеf😎

Ссылки:
[1] https://foundation.mozilla.org/en/what-we-fund/programs/datasets-will-become-an-object-of-investigative-inquiry-for-journalists/

#ai #humour
Please open Telegram to view this post
VIEW IN TELEGRAM
Для тех кто думает о том как AI и конкретно LLM меняют журналистику выступление [1] Katie Koschland из Financial Times в Великобритании о том как они реорганизовали работу редакции и создали внутренний инструмент подготовки статей.

Там про их внутренний инструмент Scoop который они используют для того чтобы подготавливать черновики текстов, но так чтобы они были максимально похожи на ранее написанные тексты FT.

Оптимистичное в её презентации то что без человека не обойтись, потому что этика и нюансы, но, мы то понимаем что конечно, со временем, обойтись получится если не совсем, то резко сокращая стоимость создания и поддержания редакции.

Ссылки:
[1] https://www.youtube.com/watch?v=6UkEFuLSoh4

#datajournalism #aijournalism #data #ai
Для тех кто интересуется тема приватность и AI с точки зрения управления, юридических нюансов в первую очередь, курс AI Governance 2.0 про Регулирование и комплаенс ИИ-систем стартует завтра: в составе 9 преподавателей, 3 менторов, 1 куратора и 16 слушателей.

Я там тоже преподаю и рекомендую курс для всех кто интересуется темой.

#privacy #ai #education #studies
Полезные ссылки про данные технологии и не только:
- Graph Databases after 15 Years – Where Are They Headed? [1] автор рассказывает об эволюции графовых баз данных и главный вывод что они стали очень нишевыми и в упадке, кроме очень узких применений.
- Keep Canvases Moving with DuckDB on the Server [2] count.io, сервис онлайн BI внедрили DuckDB для выполнения серверных запросов. Результаты в немедленном сокращении стоимости их выполнения.
- Polars Cloud; the distributed Cloud Architecture to run Polars anywhere [3] команда Polars запустила облачный сервис со своим продуктом, пока в режиме раннего доступа. Обещают масштабирование датафреймов и тд. Главное чтобы их открытый продукт при этом не пострадал или не оказался под какой-нибудь не совсем открытой лицензией.
- What Is a Flat File? [4] обзор текстовых форматов распространения файлов, поверхностный, но полезный для начинающих.
- Mistral OCR [5] переводчик PDF файлов в файлы Markdown от команды создателей Mistral AI. Говорят сами про себя что они лучшие в этом деле, но проверить пока не проверял.
- Aider is AI pair programming in your terminal [6] инструмент для подключения ИИ к написанию кода, умеет подключаться ко множеству моделей включая локальные. В том числе примеры по работе с данными [7]

Ссылки:
[1] https://www.youtube.com/watch?v=X_RFo616M_U
[2] https://count.co/blog/announcing-duckdb-on-the-server
[3] https://pola.rs/posts/polars-cloud-what-we-are-building/
[4] https://evidence.dev/blog/what-is-a-flat-file
[5] https://mistral.ai/news/mistral-ocr
[6] https://aider.chat/
[7] https://aider.chat/examples/census.html

#opensource #ai #data #datatools #rdbms
Полезные ссылки про данные, технологии и не только:
- czkawka [1] утилита удаления дублирующихся файлов, музыки, видео и иных файлов. Полезна всем кто работает с большими личными архивами. Слово польское, произносится как чавка, переводится как икота. Называть программы телесными и душевными состояниями звучит как начало хорошего тренда, кто подхватит?
- glance [2] персональная читалка RSS и других новостей, open source и self hosted. Давно не пользовался подобным, но актуально для многих.
- coreutils [3] утилиты GNU переписанные на Rust. Просто уже массовое какое-то явление, перепиши это на Rust. Я лично не против, может быть даже они работают лучше.
- audaris.ai [4] в этот раз не открытый код, а стартап по превращению статей в подкасты. не первый раз вижу их на сайтах некоторых СМИ и сама идея мне нравится. Поддерживают всего 10 языков, так что тут есть пространство для их конкурентов. Подкидываю идею, анализировать книги с помощью AI, идентифицировать персонажи и диалоги и делать их озвучивание наиболее близкими к персонажам голосами, разными.
- Research Handbook on Open Government [5] - научное руководство по открытости гос-ва, полезная книжка, но открыта лишь частично, остальное за деньги. Про научные подходы к исследованию этой темы, важно для тех кто исследует тематику госуправления.
- Lacuna Fund [6] один из немногих фондов выдающий гранты на создание датасетов для ИИ, но... только для стран Юга. Грантовая программа за 2024 год закончена, но на сайте много датасетов, в основном африканских стран. Может быть туда можно подаваться из стран Центральной Азии и Армении? Может быть
- Fair Forward [7] германская государственная программа поддержки открытости (данных, кода, моделей для ИИ) для развивающихся стран. Они же финансируют, в том числе, Lacuna Fund

Ссылки:
[1] https://github.com/qarmin/czkawka
[2] https://github.com/glanceapp/glance
[3] https://github.com/uutils/coreutils
[4] https://www.adauris.ai/
[5] https://www.elgaronline.com/edcollbook/book/9781035301652/9781035301652.xml
[6] https://lacunafund.org
[7] https://www.bmz-digital.global/en/overview-of-initiatives/fair-forward/

#opendata #opensource #startups #ai #books #readings
Forwarded from Dateno
🚀 Dateno Enters Industrial Operation – Redefining Global Dataset Search
We’re excited to announce that Dateno has officially transitioned to full-scale industrial operation! 🎉 Now, data professionals worldwide can seamlessly access over 20 million high-quality datasets with advanced filtering, API integration, and continuously updated sources.

🔍 What makes Dateno stand out?
Extensive dataset collection – 20M+ datasets indexed, aiming for 30M.
Advanced filtering – Search by dataset owner, geography, topic, and more.
AI-powered search – Recognizes semantic relationships (DOI, geolocation).
API-first approach – Seamless integration into analytics & ML pipelines.
High-quality, ad-free data – Focused on clean, structured, and trustworthy datasets.

💡 What’s next?
🔹 Expanding the dataset index to cover even more industries & research fields.
🔹 Improving search quality & user experience.
🔹 Enhancing AI-driven search for more relevant results.
🔹 Adding new API capabilities for seamless integration.
🔹 Launching tools to help professionals derive deeper insights.

Dateno is more than a search engine – it’s an ecosystem built to make data discovery effortless. 🌍

Join us and experience the next level of fast, precise, and integrated dataset search!
👉 Learn more: dateno.io
📩 Contact us: [email protected]

#Dateno #DataSearch #MachineLearning #BigData #AI
Для тех кто ещё не столкнулся, но скоро столкнётся с "атаками" AI скрейпботов на сайты, Anubis [1] [2] открытый код который помогает отбиваться от некоторых поисковых систем препятствуя любому индексированию сайта.

Почему это важно? Потому что несколько AI ботов уже нюкнули множество проектов с открытым кодом [3] и те отбиваются от них Анубисом и пытаются ещё и добиться компенсации за DDoS атаки.

Ссылки:
[1] https://github.com/TecharoHQ/anubis
[2] https://anubis.techaro.lol/
[3] https://thelibre.news/foss-infrastructure-is-under-attack-by-ai-companies/

#opensource #ai #scraping