Ivan Begtin
9.13K subscribers
2.04K photos
3 videos
102 files
4.77K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
加入频道
July 5, 2020
Давний вопрос - как вести личные заметки.
Есть простые способы такие как "классические" - это папки и файлы, сложенные локально или в каком-нибудь облачном сервисе вроде Dropbox или Google Drive. Чуть более сложные - это множество текстов в Google Docs.

Есть чуть более продвинутые с помощью OneNote или Evernote. У Evernote за долгое время появилось большое число поклонников, тех кто ведёт в них заметки чуть не всю свою зрелую жизнь, но проприетарность, свой формат хранения и ещё многие особенности, не сделали его стандартом де факто.

Так что использовать сейчас? Самыми популярными и, на мой личный взгляд, удобными инструментами являются инструменты с использованием Markdown нотации:
• Notion (https://notion.so) - практический идеальный конструктор для создания пространств ведения заметок. Позволяет очень многое в управлении контентом, таблицами, подготовкой текстов и ведения заметок. Реально хороший инструмент и относительно недорогой. Главный недостаток в том что его шаблоны довольно ограничены, а всё остальное надо делать самостоятельно что требует хорошей самоорганизации и чёткости в структурировании себя. Лично я веду в Notion базы рецептов и ингредиентов. Минимальная стоимость в $4 в месяц.

• Roam (https://roamresearch.com) - гораздо менее насыщенная функциями (но куда больше смыслом) платформа для ведения личных журналов и заметок с акцентом на студентов и исследователей. Главные достоинства - это воспроизведение процесса мышления человека и автоматическая простановка обратных ссылок в заметках, а также организация всего процесса по организации собственного исследования или же того как делать заметки при обучении. Roam существенно дороже и выходит в $15 в месяц или за $500 можно получить пожизненный доступ. Многие считают что это того стоит, а о том как использовать Roam есть хорошая серия видеопрезентаций от Shu Omi. Там, в том числе, есть хорошо изложенное видео о том как использовать Zettelkasten метод в управлении знаниями и обучении через Roam.

• Obsidian (https://obsidian.md/) - это ещё один инструмент, на сей раз только в виде настольного приложения с синхронизацией с сервером по выбору пользователя и поддерживающее визуализацию взаимосвязанных заметок. Его оффлайновость с опциональным использованием сервера - это большое достоинство. Он бесплатен для тех кто хочет использовать в личных целях локально и $4 стоит подписка на синхронизацию через сервер.

• HackMD (https://hackmd.io) - персональная или командная вики основанная на Markdown. Хорошо годится для заметок в целом и куда хуже для структурированного ведения заметок если только нет большой привычки к Wiki. Стоит $5 в месяц за пользователя, есть возможность использовать бесплатно или развернуть свою копию из open source.

• WriteApp (https://writeapp.co) - это скорее минималистичный редактор чем полноценная система управления заметками. Стоит $25 для одноразовой покупки и $5 за ежегодное обновление. Лично я его часто использую как локальный Markdown редактор и потом из него уже переношу онлайн.


Наверняка этот список неполон, лично я использую пока Notion и WriteApp, присматриваюсь к Roam, но понимаю что чтобы его использование себя окупало надо вести исследовательские проекты или тщательно документировать долгосрочные размышления

#notes #software
July 5, 2020
February 11, 2021
Explorium, стартап по подготовке данных (data preparation) получил очередной раунд венчурного финансирования в 75 миллионов USD [1] что теперь составляет 127 миллионов USD вложенных инвесторами в этот продукт. Продукт у них интересный [2], в виде создания платформы для очистки, обработки и, что важно, обогащения данных для чего они используют множество открытых и коммерческих источников дополняя данные загруженные на их платформу сведениями о компаниях, статистике в геопривязке, информацию о людях и не только. У них весьма большая External Data Library [3].

Задачи которые они решают повсеместны, большинство решает их используя собственный код, а тут комплексное и, скорее всего, дорогое решение. В России, конечно,не применимое в силу импортозамещения и ограничений в обработке данных за пределами российской юрисдикции.

Интереснее то что таких инструментов всё больше и значительные инвестиции идут в облачные продукты.

Ссылки:
[1] https://venturebeat.com/2021/05/18/data-prep-platform-explorium-raises-75m/
[2] https://www.explorium.ai/
[3] https://www.explorium.ai/platform-data-engine/

#tools #software #startups
May 20, 2021
Неплохой обзор развёртывания ArangoDB [1], альтернативы MongoDB. Альтернативы, в целом, неплохой, но не то чтобы "вау, надо быстро всё заменять".

Как и MongoDB в ArangoDB есть поддержка JSON и загрузка JSON и JSON lines файлов, как и MongoDB в ArangoDB свой формат бинарной сериализации, VelocityPack (в MongoDB - это BSON). Но есть и куча нюансов, для меня лично одним из важнейших был то что в ArangoDB отсутствует тип данных "дата и время", вместо этого дата хранится как в JSON, в виде строки, а в языке запросов предусмотрены функции работы с ней. Лично по мне - это сомнительный подход, обойти это можно, но надо прикладывать лишние усилия. Хорошо бы упростить миграцию с MongoDB на ArangoDB.

С другой стороны, ArangoDB куда больше постепенно внедряется в data science и modern data stack. Там есть ArangoML [2], metadata store и многое другое. Плюс у них лицензия кода Apache 2.0, а не SSPL как у MongoDB.

Так что публикации про ArangoDB читать интересно и полезно, экспериментировать с ним стоит.

Ссылки:
[1] https://ericfossas.medium.com/the-best-nosql-database-for-kubernetes-fd920003e1ad
[2] https://www.arangodb.com/machine-learning/

#datatools #opensource #software #reading
April 8, 2022
February 1, 2023
February 8, 2023
Для тех кто работает с файлами в WARC формате (большая часть сайтов в ruarxive хранятся в нём) ещё одна утилита по работе с ними. Warchaeology [1]. Утилита создана в Национальной библиотеке Норвегии и позволяет:
- конвертировать форматы ARC, WARC и Nedlib
- листать WARC файлы
- удалять дубликаты файлов
- валидировать содержание WARC файлов
- предоставлять оболочку по работе с WARC файлами

Инструмент полезный, может пригодится тем кто любит работать в командной строке. Я также напомню про библиотеку и утилиту командной строки WarcIO [2] с функциями извлечения и пересжатия содержимого WARC файлов и разработанную мной когда-то утилиту MetaWARC [3] которая тоже умеет извлекать контент из WARC файлов и ещё индексировать их в sqlite и считать статистику и даже извлекать метаданные из вложенных файлов.

Больше инструментов полезных и разных! Если Вы знаете хорошие инструменты с открытым кодом для цифровой архивации, пишите нам, будем делать их обзоры.

Ссылки:
[1] https://github.com/nlnwa/warchaeology
[2] https://github.com/webrecorder/warcio
[3] https://github.com/datacoon/metawarc

#tools #opensource #digitalpreservation #webarchives #WARC #software
May 30, 2024
Полезное чтение про данные технологии и не только:
- AI Doesn’t Kill Jobs? Tell That to Freelancers [1] статья в WSJ о том что рынок фрилансеров резко проседает с 2022 года (появления ChatGPT) и у людей делавших рутинную цифровую работу теперь задача найти себе новый заработок.
- AI Is Already Wreaking Havoc on Global Power Systems [2] лонгрид в Блумберг о том как AI влияет на энергопотребление. Большой интерактивный продукт, приятно смотреть. И тема актуальная
- The Rise of Medium Code[3] в блоге Dagster про восхождение среднего кода (medium code). О том что с разработкой ПО не всё так плохо, просто по другому.
- Governing with Artificial Intelligence [4] свежая статья от ОЭСР про госуправление с помощью ИИ. Как раз актуально, много разговоров на эту тему и больше хайпа чем смысла, а тут сжато и с примерами
- How to optimize the systematic review process using AI tools [5] об использовании ИИ для систематического обзора тематических статей/публикаций. Полезно учёным и исследователям в самых разных областях.

Ссылки:
[1] https://www.wsj.com/tech/ai/ai-replace-freelance-jobs-51807bc7
[2] https://www.bloomberg.com/graphics/2024-ai-data-centers-power-grids/
[3] https://dagster.io/blog/the-rise-of-medium-code
[4] https://www.oecd-ilibrary.org/science-and-technology/governing-with-artificial-intelligence_26324bc2-en
[5] https://acamh.onlinelibrary.wiley.com/doi/full/10.1002/jcv2.12234

#readings #software #ai
June 24, 2024
July 25, 2024