Ivan Begtin
8.05K subscribers
1.96K photos
3 videos
102 files
4.67K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
Подборка полезных ссылок инструментов с открытым кодом:
- pyper [1] библиотека для Python для параллельной обработки данных, упрощает работу с потоками, делает её значительно проще.

- Gemini-search [2] альтернатива для Perplexity на базе LLM модели Gemini от Google. Плюс: хостится локально. Минус: за обращения к API Гугла надо платить. Мне не удалось её заставить работать, но демо выглядит интересно, надеюсь скоро будет работоспособнее

- Automatisch [3] open source аналог Zapier, используется для интеграции и автоматизации разных онлайн сервисов типа Twitter, Spotify, Google Docs и др. Сервисов таких много, но тут открытый код.

- crawl4ai [4] веб краулер с построением конвееров для обработки страниц для LLM и не только. Мне вот есть куда прикрутить краулер, может быть даже именно этот. А вообще удивительно насколько стремительно становятся популярными именно AI-powered инструменты. К примеру, похожий краулер Browsertrix для веб архивации имеет всего 223 лайка. А у crawl4ai сразу 25 тысяч лайков. Разница, реально, на 2 порядка и интенсивность разработки аналогично.

- PDFMathTranslate [5] open source инструмент перевода научных статей на другие языки, с сохранением всех формул, изображений и тд. Поддерживает все актуальные разговорные языки используемые в науке: английский, китайский, французский, немецкий, русский, испанский и тд. Существует в виде онлайн сервиса с ограничением в менее чем 5MB [6] или можно скачать и развернуть у себя

Ссылки:
[1] https://github.com/pyper-dev/pyper
[2] https://github.com/ammaarreshi/Gemini-Search
[3] https://github.com/automatisch/automatisch
[4] https://github.com/unclecode/crawl4ai
[5] https://github.com/Byaidu/PDFMathTranslate
[6] https://pdf2zh.com/

#opensource #datatools #ai #crawlers #search