Ivan Begtin
8.01K subscribers
1.94K photos
3 videos
101 files
4.64K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
В рубрике полезные инструменты для работы с данными:
- OpenRefine версии 3.5.0 вышел совсем недавно, один из лучших инструментов для data wrangling, точно лучший из бесплатных. Много разных улучшений, для поддержки Wikibase/Wikidata, для работы в UI и ещё многое другое.
- Autoscraper не совсем обычный инструмент автоматического скрейпинга данных на основе примеров. Вместо сложных конструкций по парсингу HTML скрейперу передаётся пример данных, а дальше он сам додумывается. Хорошая штука, я когда-то думал в этом же направлении, но шёл от понимания структуры данных, а тут от содержания.
- Developing AI-Based Solution for Web Scraping: Lessons Learned - полезная статья на ту же тему автоматизации скрейпинга данных. То что авторы используют термин AI - это, конечно, совсем неправда. Просто адаптивные алгоритмы, но и они это уже хороший прогресс.
- QuestDb - открытая СУБД с обещаниями очень хорошей скорости для хранения и обработки временных рядов. По их собственным бенчмаркам обгоняет ClickHouse
- NADA (National Data Archive) - проект Мирового Банка по публикации микроданных опросов, переписей и так далее. С открытым кодом и с поддержкой стандарта раскрытия данных DDI (Data Documentation Initiative). Используется самим Мировым банком в их базе микроданных и ещё в нескольких странах национальными службами статистики.

А также не совсем про данные:
- PubPub для тех кто интересуется новыми моделями публикации научных текстов, у проекта PubPub.org есть открытый код которым можно воспользоваться. Это не совсем про данные, но близко к открытости науки и открытости знания.

#data #tools #tech
Я бы сказал что у меня скепсиса прибавилось, но посмотрим. По прежнему считаю что концепция здравая, а реализацию ещё не поздно корректировать.

Ссылки:
[1] https://www.youtube.com/watch?v=NddaKbSqa94
[2] https://www.developer.tech.gov.sg/

#govtech #government #tech