Ivan Begtin
8.01K subscribers
1.94K photos
3 videos
101 files
4.64K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
Полезное чтение про данные и не только:
- Windows 11 is officially a failure [1] о том что Windows 11 не так привлекательна как ожидалось. Честно говоря не удивительно, я лично до сих пор не могу понять зачем мигрировать с Windows 10 на Windows 11.
- 10 Books Every Senior Engineer Should Read [2] обзор книг по программной инженерии, ничего особенного, просто полезная подборка, одна из многих
- Kubit привлекли $18M [3] инвестиций, это решение по продуктовой аналитики поверх data warehouse
- JQ, Grep for JSON: Cookbook I [4] гайд по утилите JQ для работы с json файлами. Лично по мне очень неудобная утилита, но кому-то нравится

P.S. Я тут готовя одну из публичных лекций неожиданно столкнулся с тем что практически нет гайдов и сравнений по инструментам для data wrangling. Как минимум это - Excel, OpenRefine, pandas в Jupyter Notebook и коммерческие вроде Trifacta, но какого-то качественного анализа и сравнения нет.

P.S.S. А ещё удивительное дело, но никто не додумался до headless data wrangling, может потому что это нерационально, а может потому что такая комбинация кажется слишком странной.

Ссылки:
[1] https://medium.com/geekculture/windows-11-is-officially-a-failure-141c4027a308
[2] https://semaphoreci.medium.com/10-books-every-senior-engineer-should-read-a61c1917e2a7
[3] https://www.kubit.ai/
[4] https://medium.com/data-science-deep-dive/jq-grep-for-json-cookbook-i-4a1d78a227e5

#data #readings #texts
Одна из интересных ниш для стартапов сейчас - это использование ИИ для сокращения объёмов хранения данных и повышения эффективности хранилищ. Стартап Densify [1] позволяет провести такую оптимизацию с обещанием сокращения расходов на хранение в облаках до 80%. Другой стартап Cast AI [2] помогает оптимизировать облачную инфраструктуру на AWS, Azure или GCP.

Другой взгляд на эту же проблему и тоже через ИИ - это стартапы по созданию алгоритмов сжатия изображений, также, с ИИ. Vance AI [3] и Compression AI [4] декларируют сжатие изображение лучше всех остальных алгоритмов. Сжатие, конечно, всегда с потерями (lossy compression), но визуально это незаметно.

Есть похожие проекты для видео, также повышающие качество сжатия.

В ситуации когда, например, в России ожидается дефицит систем хранения и растёт цена за облачное хранение файлов такие алгоритмы и подходы будут как никогда кстати.

Ссылки:
[1] https://venturebeat.com/2018/03/06/densify-uses-ai-to-cut-businesses-cloud-spending-by-up-to-80/
[2] https://venturebeat.com/2021/10/12/cloud-optimization-startup-cast-ai-raises-10m/
[3] https://vanceai.com/image-compressor/
[4] https://compression.ai/

#ai #data #startups #compression
Около 5 лет назад мы с коллегой шутили придумывая реформы государственного управления.

Там было много прорывных идей, например:
- Государственная программа рытья особого пути России к центру Земли.
- Легализация института проституции (в том числе политической), включая создание нормативно-правовой и регулятор институциональной основы
- Переподчинение государственных ВУЗов Министерству обороны
- Переодеть всю полицию в оранжевую форму

И, конечно, там был такой пункт как Государственная программа поддержки церковных и тюремных малых инновационных компаний и стартапов.

К счастью, эти гениальные идеи не покидали предела специально отведенных документов.

Поэтому даже не могу описать свои чувства когда сейчас читаю что ФСИН намерена привлекать осужденных IT-специалистов к удаленной работе на бизнес [1] о чём нам пишет ТАСС.

Для полного счастья нехватает только квот по посадкам ИТшников, государственной программы "Шарашки 2.0" и тому подобного.

Как я уже говорил многие позитивные инициативы Минцифры РФ для ИТ отрасли могут превратиться в тыкву, потому что Минцифра не Правительство РФ, а в Правительстве РФ, видимо, считают такие инициативы ФСИН нормальными и допустимыми.

Ссылки:
[1] https://tass.ru/obschestvo/14489179

#russia #it #policy #regulation
Обратите внимание, на 19 мая мы планируем в России провести конференцию по цифровой архивации - веб-архивы, архивы соцсетей и так далее. Я писал об этом ранее и подробности в канале @ruarxive. Будет две дискуссии - по сохранению цифровой культуры и по сохранению цифровых СМИ. А также будет столько докладов по 20 минут сколько мы сможем вместить.

Во первых, приглашаю послушать, зарегистрируйтесь на сайте.
Во вторых, если Вам есть что сказать то предложите доклад. Тайминг 20 минут, из которых 15 минут доклад + 5 минут ответов на вопросы. Пишите мне или по контактам на сайте.

От Инфокультуры (@infoculture) мы расскажем про национальный цифровой архив и наши инициативы архивации. Также я расскажу про 1-2 инструмента архивации которые ранее выкладывал в открытый доступ.

Ещё мы очень хотели позвать иностранных спикеров, но, с этим есть сложности сейчас, поэтому если не получится, то обязательно сделаем это к следующему мероприятию.

Программа очень скоро будет доступна, следите за новостями!

#digitalpreservation #webarchives
Приглашаем вас на конференцию по вопросам цифрового сохранения и веб-архивирования (conference.ruarxive.org).

В программе:
— Дискуссии на темы сохранения культурного сохранения и медиа.
— Серия коротких докладов о технических аспектах цифровой архивации.

Мы собираем программу. Если вы хотите принять участие в конференции, предложить тему, доклад и себя в качестве спикера, пишите нам на эл. почту [email protected].

Для кого
— Конференция практико-ориентирована и будет интересна профессионалам из области архивации, сохранения и исследований культурного наследия.
— В то же время в программе предусмотрены технические доклады, которые будут интересны активистам, волонтерам и другим энтузиастам — создателям цифровых копий и слепков контента и данных, чье участие в сохранении цифрового контента крайне важно.

Формат
Конференция состоится в гибридном формате, то есть можно прийти на конференцию лично, посетив площадку в Москве, или подключиться к онлайн-трансляции.

➡️ Подробности и регистрация
Очень интересный инструмент, проект и подход Zed [1] как сами создатели его описывают это Zed offers a new approach to data that makes it easier to manipulate and manage your data. А по сути команда компании Brim Data [2] разработали собственную модель данных [3] и, в привязке к ней, форматы файлов ZNG, ZST, ZSON, ZJSON которые, как они обещают, дают лучше скорость обработки данных, лучше хранят данные и так далее.

Я, как удачно, прямо сейчас занимался систематизацией кода DataCrafter'а с выделением в открытый код сборщика и преобразователя данных. И вот тут Zed кажется инструментом чрезвычайно подходящим для применения, но вначале его надо тщательно протестировать.

Ссылки:
[1] https://zed.brimdata.io
[2] https://www.brimdata.io/
[3] https://zed.brimdata.io/docs/formats/zed/

#data #datatools #opensource
Интересное чтение про обработку 22GB CSV файла с транзакциями с помощью Pandas [1] и к нему же в дополнение аналогичная задача решаемая с помощью движка Deephaven [2], автор декларирует 60-кратное ускорение её выполнения через преобразование данных в формат Parquet.

Интересно было бы увидеть и сравнение с другими инструментами, например, с тем же Zed [3], но общая мысль такова что надо использовать правильные инструменты для разных задач.

По своему опыту могу сказать что для задач дата-инженерии Pandas так себе инструмент, скорее узнаваемый, но не самый быстрый и для задач обработки больших данных есть другие подходы.

Идеальный сценарий при неограниченных ресурсах - это ELT подход, когда вначале тот же CSV файл загружается в базу первичных данных и далее уже с данными внутри СУБД делаются все необходимые манипуляции, например, через dbt.

Сценарии при неограниченных ресурсах начинаются с ревизии того где находятся наибольшие ограничения: процессор, память, дисковое хранилище и тд.

Например, в задачах обработки данных где есть построчная изоляция преобразования, а то есть результат преобразования зависит только от содержания данных в одно записи, и не зависит от других записей, самым очевидным оказывается разделение набора данных на потоковые батчи и обработка в n-ное число потоков или процессов.

Другой путь в преобразовании изначальных данных из CSV в форматы более пригодные для обработки, такие как тот же Parquet, собственно об этом и пишут в блоге Deephaven. Есть и много других способов, подходов, трюков.

Что я могу сказать, так то что многие задачи решаются не теми инструментами которыми пользуются каждый день. Например, обработка CSV файлов с помощью Pandas может оказаться куда медленнее чем с помощью консольных утилит вроде csvkit [4], xsv [5] и аналогов. Я когда-то специально для себя делал инструментарий и выносил его в открытый код в утилиту undatum [4] который умел разрезать на куски JSONlines и BSON файлы и, в добавок, поддерживал CSV файлы тоже. Это тоже частая задача, которую пытаются решать инструментами вроде Pandas.

Чего не хватает в индустрии дата-инженерии - это большого числа соревнований по преобразованию данных по аналогии с Global Data Compression Competition 2021[7]. Когда есть типовые требования к окружению, компьютер с заранее определенными ресурсами, и набор [не]типовых задач по преобразованию данных. Потому что одну и ту же задачу можно решить десятками разных способов и инструментов.

Ссылки:
[1] https://towardsdatascience.com/batch-processing-22gb-of-transaction-data-with-pandas-c6267e65ff36
[2] https://medium.com/@deephavendatalabs/make-pandas-60x-faster-c064ed26d3c1
[3] https://yangx.top/begtin/3807
[4] https://github.com/wireservice/csvkit
[5] https://github.com/BurntSushi/xsv
[6] https://github.com/datacoon/undatum
[7] https://www.gdcc.tech

#data #datatools #readings #dataengineering
Forwarded from addmeto (Grigory Bakunov 🧪)
Гугл теперь официально принимает запросы на удаление результатов поиска, содержащих персональную информацию (контакты, физический адрес, телефон, емейл, логин и тп). До этого причиной для удаления была только попытка украсть ваши деньги через использование вашего имени.

Вот список информации, которая может быть причиной для удаления:
- Номера, позволяющие вас идентифицировать (номер паспорта или SSN, наверное для некоторых СНИЛС)
- Номера банковских счетов
- Номера кредитных карт
- Фото рукописных подписей
- Фото других документов, удостоверяющих личность
- Очень личные данные, такие как медицинские записи
- Персональная контактная информация (физические адреса, номера телефонов и адреса электронной почты)
- Конфиденциальные учетные данные для входа (логины и пароли)

https://www.theverge.com/2022/4/27/23044951/google-search-results-personal-information-address-phone-number
Минцифры снова выложило реестр аккредитованных ИТ компаний, в формате ODS и пложенным к госуслуге "Отсрочка от армии"[1].

В реестре более 22 тысяч организаций, особенно стоит обратить внимание на:
- больницы
- университеты
- бюджетные учреждения

И ещё немало чего, особенно много изменений с начала марта 2022 года, догадайтесь сами почему.

Ссылки:
[1] https://www.gosuslugi.ru/armydelay

#government #registries #opendata
EPDS (he European Data Protection Supervisor) [1] анонсировали две новые социальные платформы с заботой о приватности EU Voice [2] и EU Video [3].

EU Voice основано на Mastodon, платформе для социальных сетей с открытым кодом.

EU Video работает на базе движка Peertube, также с открытым кодом.

А российское правительство могё'т развернуть свой экземпляр Mastodon или поддерживать бизнес товарища Дурова приоритетнее?;)

Ссылки:
[1] https://edps.europa.eu/press-publications/press-news/press-releases/2022/edps-launches-pilot-phase-two-social-media_en
[2] https://social.network.europa.eu/public
[3] https://tube.network.europa.eu/

#opensource #socialnetworks #eu #government #privacy
Я продолжаю писать на английском языке о инструментах для работы с данными которые делал последние несколько лет. Написал заметку [1] про утилиту APIBackuper используемую для извлечению данных из API. Не открою большого секрета если скажу что большая часть данных в DataCrafter[2] собрана с её помощью. Слишком многие данные в России доступны только как API.

Но в заметке пример сбора данных с недокументированного API аэропорта Берлина.

Ссылки:
[1] https://medium.com/@ibegtin/apibackuper-a-command-line-tool-to-archive-backup-data-api-calls-3eb0e98e1a3b

#tools #datatools #opensource #articles
Из свежего полезного чтения про оптимизацию работы с данными, заметка How to Build a Lossless Data Compression and Data Decompression Pipeline [1] о построении многопоточного компрессора bz2 на Python. Статья полезная, но лично мне так и хочется ехидно прокомментировать про то что "хипстеры обнаружили для себя многопоточность". Многопоточное сжатие и другие многопоточные операции это один из многих трюков отличающих общедоступные и коммерческие продукты по обработке данных. При правильно подобранном железе и иных оптимизациях оно даёт многократное ускорение.

При этом придумывать что-то своё совершенно необязательно. Есть реализация многопоточного Gzip на Python - pgzip [2] . Есть реализация многопоточности в python-zstandard [3] и это если только говорить про компрессию, а есть и другие многопоточные задачи используемые при обработке данных.

Другое чтение, про Software defined assets [4] про новый декларативный подход управления данными и оркестрацией от команды Dagster. Не могу сказать что с лёту мне удалось понять принципиальные преимущества подхода, но почитать точно стоит

Ссылки:
[1] https://python.plainenglish.io/lossless-data-compression-and-data-decompression-pipeline-2f5391a6b7e7
[2] https://github.com/pgzip/pgzip
[3] https://python-zstandard.readthedocs.io/en/latest/multithreaded.html
[4] https://dagster.io/blog/software-defined-assets

#readings #tools #datatools
Российский Forbes пишет что США планируют упростить получение виз для специалистов из России [1] ссылаясь на статью в Bloomberg [2] (закрыта пэйволом). Если кратко то теперь для ИТ специалистов и инженеров по ряду специальностей из России не потребуется наличие работодателя для получения рабочей визы. Это не отменяет того что из России напрямую в США сейчас не уехать, но для всех тех у кого сейчас российское гражданство и кто уже уехал или на низком старте - это будет возможность уехать, без сценариев возвращения.

У этой новости есть плохая и хорошая сторона.

Хорошая сторона в том что возможно градус культуры отмены русских (россиян) будет снижаться или сходить на нет, а акценты будут сделаны на культуре отмены российского пр-ва. Хорошая для ИТ специалистов из России, конечно, а не для России как страны.

Плохая сторона в том что как бы российские власти окончательно не перешли бы в режим коммуникации с ИТ рынком только от негатива. Не снижать налоги, а запрещать выезд. Не льготная ипотека, а усиление посадок и работа из тюрьмы и так далее.

Ссылки:
[1] https://www.forbes.ru/tekhnologii/464551-bloomberg-uznal-o-planah-ssa-uprostit-polucenie-viz-dla-specialistov-iz-rossii
[2] https://www.bloomberg.com/news/articles/2022-04-29/biden-seeks-to-rob-putin-of-his-top-scientists-with-visa-lure

#it #russia #market
Я ранее писал про реестр семантических типов данных registry.apicrafter.io [1], сегодня добавил к нему расширение схемы описания каждого такого типа.
Напомню, это реестр смысловых значений полей данных полезный для задач:
- идентификации персональных данных
- улучшения навигации по каталогам данных
- автоматическое документирование данных
- автоматические тестирование данных

Во первых - это связь типа данных со свойством из Wikidata [2], хотя в Wikidata далеко не всё, а только то что соотносится с данными Википедии, поэтому большая подборка идентификаторов библиографии, и не так много идентификаторов из физического мира или продуктов. Тем не менее одно из важнейших достоинств Wikidata - это хорошо систематизированные данные связываемые онтологическим образом. А для свойств присутствующих там также включены правила проверки и иные метаданные.

Например, код РНБ [3], для которого есть примеры и есть регулярное выражение для проверки [1-9]\d{3,8} и так ещё многие коды, в большей степени не российские, но некоторые российские тоже есть.

Когда смотришь на Wikidata кажется что казалось бы вот он идеальный источник осмысления данных, но устроен он так что это скорее его надо пополнять в будущем.

А во вторых - это примеры данных по каждому семантическому типу данных, чтобы было понятно как выглядят именно эти данные.

При этом многие не понимают до конца зачем нужно осмысление хранимых данных и, соответственно, автоматическая идентфикация их типов. Здесь явно нужна референсная реализация каталога данных или надстройки/расширение имеющегося, вроде CKAN. Потому что основное - это повышение качества data discovery.

Ссылки:
[1] http://registry.apicrafter.io
[2] https://wikidata.org
[3] https://www.wikidata.org/wiki/Property:P7029

#data #opendata #metadata #opensource
Президент подписал еще один Указ - на этот раз про ответные санкции, который запрещает любые сделки между российскими юрлицами и физлицами и иностранными лицами, список которых в течение 10 дней должен быть утвержден Постановлением Правительства. Согласно ст.153 ГК РФ "Сделками признаются действия граждан и юридических лиц, направленные на установление, изменение или прекращение гражданских прав и обязанностей". Иными словами, будет запрещено любое взаимодействие с санкционными лицами (абсолютно зеркальная американцам мера).

И теперь все зависит от того, что Правительство включит в список. Включить конкретные названия компаний и госорганов из недружественных стран? Будет чуть проще. Напишет про "любое лицо, поддержавшее санкции недружественных государств" и будет совсем нехорошо, так как под такое определение попадет, например, наличие учетки на Github или в Facebook, использование Threat Intelligence (даже в обход американских санкций), закидывание денег на Apple, участие в иностранной конференции онлайн (я вот RSAC хотел оплатить) и т.п. А еще под это определение попадает любой российский ИТ-специалист, который решил переждать неспокойные времена за пределами РФ и поработать на иностранные компании. То есть Минцифры вроде и говорит, что они не поддерживают запрет на отъезд айтишников из России, а Президент своим указом делает такой отъезд противозаконным, заставляя просить айтишников политического убежища (шутка... или нет?).

Так что ждем Постановления Правительства. К концу майских праздников, думаю, все решится. В интересные времена живем, граждане и товарищи 😊
Я еще напишу об этом, но по сути для зарубежных компаний это означает невозможность осуществления комплаенс процедур, им будет проще вообще не работать с российским рынком, чем рисковать невозможностью проверки контрагентов.
Forwarded from Shumanov
​​Хроники закрытия России. Подготовлен проект постановления Правительства РФ об исключении сведений об отдельных компаниях из Единого государственного реестра юридических лиц.

В случае принятия проекта постановления и засекречивания информации в ЕГРЮЛ о десятках тысяч российских компаний, экономика страны превратится в минное поле для любого добросовестного контрагента как из России, так и из-за рубежа. Уже многие иностранные банки для выполнения операций с любыми российскими компаниями и физлицами требуют справки об отсутствии связи с лицами, внесенными в санкционные списки. В случае, если этот проект постановления Правительства все-таки примут, то законным способом проверить, что в собственниках конкретной компании нет лиц, находящихся под санкциями просто будет невозможно. Если такие сведения будут нужны рынку, хотя даже российский рынок в таких сведениях остро нуждается, то должна появится теневая услуга проверки такой информации. Это прямой путь к коррупции.
Интересные продукты для работы с данными и не только

- PostgresML [1] реализация системы машинного обучения внутри Postgres, только через SQL. Для настоящих фанатов Postgres
- PyScript [2] реализация языка Python на Javascript
- HARI - The First Annotation And Dataset Analytics Platform [3] - интересный коммерческий продукт для визуализации и анализа алгоритмов распознвания видео. К сожалению описания маловато
- tinypandas [4] для тех кто привык к pandas, но хочет инструмент попроще. Не знаю кому такое может пригодится, но вдруг
- Metabase 0.43 [5] новая версия Metabase, самое интересное, на мой взгляд, поддержка JSON записей в Postgres, но много чего другого тоже есть
- Reconcilation [6] инструмент для создания сервисов обогащения данных для OpenRefine, написан на Python + Flask. Нужен для тех кто пользуется OpenRefine и хочет его расширять
- Squirel [7] свежая ETL на базе Python позиционируемая как инструмент для ML.

Ссылки:
[1] https://postgresml.org/
[2] https://pyscript.net/
[3] https://www.quality-match.com/hari
[4] https://talegari.github.io/tidypandas/_build/html/index.html
[5] https://github.com/metabase/metabase/releases/tag/v0.43.0
[6] https://github.com/preftech/reconciliation
[7] https://squirrel-core.readthedocs.io/en/latest/

#opensource #tools #datatools