Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Пожалуй, самое оригинальное про новую ИТ-ипотеку (можно еще и версию про разблокировку Youtube сделать):
«Приходит Чебурашка в Минцифры и говорит:
— Постановление по ипотеке вышло?
— Нет,— говорит Шадаев.— Как выйдет сообщу!
На следующий день Чебурашка снова приходит в минцифры и спрашивает:
— Постановление вышло?
А Шадаев говорит:
— Если ты еще хоть раз спросишь про постановление, я у тебя аккредитацию заберу!
На третий день Чебурашка приходит и спрашивает:
— А вы можете просто так аккредитацию забрать?
Нет, не можем,— отвечает Шадаев.
— А постановление по ипотеке вышло?»
(с) @mixmebar из ИТ-чата @MIT_union
«Приходит Чебурашка в Минцифры и говорит:
— Постановление по ипотеке вышло?
— Нет,— говорит Шадаев.— Как выйдет сообщу!
На следующий день Чебурашка снова приходит в минцифры и спрашивает:
— Постановление вышло?
А Шадаев говорит:
— Если ты еще хоть раз спросишь про постановление, я у тебя аккредитацию заберу!
На третий день Чебурашка приходит и спрашивает:
— А вы можете просто так аккредитацию забрать?
Нет, не можем,— отвечает Шадаев.
— А постановление по ипотеке вышло?»
(с) @mixmebar из ИТ-чата @MIT_union
Про разного рода технически сложные задачи и их решения.
Я тут регулярно пишу про разные форматы файлов данных и могу сказать что, конечно, файловых форматов как и стандартов какое-то бесконечное количество. Когда-то я и сам делал и периодически обновляю инструменты вроде undatum [1] по работе с некоторыми из них. Так в undatum я недавно добавил работу с множеством алгоритмов сжатия обработкой файлов с минимизацией объёма их хранения и нагрузкой на оперативную память, с быстрым преобразованием из JSON lines / BSON в аналогичные форматы со сжатием xzip, zstd и др. В общем-то из-за банальных задач уменьшения объёма хранения JSON lines файлов, но с возможностью работы с ними.
Однако вот сейчас я смотрю на задачу преобразования данных в условно "диком состоянии", а то есть в большинстве популярных форматов, среди которых, конечно, лидируют CSV и Excel файлы и могу сказать что самые типовые задачи решает DuckDB, а чуть более сложные DuckDB + Polars + Pandas + предобработка некоторых форматов файлов на входе.
Причём именно в такой комбинации. Почему так?
DuckDb - даёт большую скорость в работе с табличными и большей частью иерархичных данных. Но DuckDb не умеет читать файлы Excel, ORC, ORC и тд. Их умеют читать Pandas и Polars. И частично их писать.
Из фундаментальных проблем DuckDB - непонимание кодировок кроме utf-8 для CSV файлов что решается их предобработкой. Вторая проблема в том что DuckDB не умеет определять структуру CSV файлов если заголовки не в начале файла. Это вообще не все инструменты умеют и это, в принципе, умеют немногие инструменты, особенно с открытым кодом.
CSV самый распространённый формат, плохо стандартизированный в "диком виде", слишком часто CSV файлы лежат в открытом доступе после экспорта из Excel.
Еще один недостаток DuckDB при работе с CSV файлами - это отсутствие поддержки алгоритмов сжатия за исключением GZip. Если исходить из эффективности хранения и стоимости хранения - это важный фактор. Например, несколько сотен тысяч CSV файлов в Dateno - это около 4TB данных. Хранить их в оригинальном виде неэффективно, сжатыми GZip лучше, а ещё лучше в чём то вроде zstd или даже сразу в Parquet со сжатием. Что логично поскольку эти данные статичны.
Но в итоге именно DuckDB + Polars + Pandas + предобработка + постобоработка данных + хранение первичных данных в Parquet оказывается наиболее универсальным решением в таких задачах.
Ссылки:
[1] https://github.com/datacoon/undatum
#thoughts #data #datatools #fileformats #dateno
Я тут регулярно пишу про разные форматы файлов данных и могу сказать что, конечно, файловых форматов как и стандартов какое-то бесконечное количество. Когда-то я и сам делал и периодически обновляю инструменты вроде undatum [1] по работе с некоторыми из них. Так в undatum я недавно добавил работу с множеством алгоритмов сжатия обработкой файлов с минимизацией объёма их хранения и нагрузкой на оперативную память, с быстрым преобразованием из JSON lines / BSON в аналогичные форматы со сжатием xzip, zstd и др. В общем-то из-за банальных задач уменьшения объёма хранения JSON lines файлов, но с возможностью работы с ними.
Однако вот сейчас я смотрю на задачу преобразования данных в условно "диком состоянии", а то есть в большинстве популярных форматов, среди которых, конечно, лидируют CSV и Excel файлы и могу сказать что самые типовые задачи решает DuckDB, а чуть более сложные DuckDB + Polars + Pandas + предобработка некоторых форматов файлов на входе.
Причём именно в такой комбинации. Почему так?
DuckDb - даёт большую скорость в работе с табличными и большей частью иерархичных данных. Но DuckDb не умеет читать файлы Excel, ORC, ORC и тд. Их умеют читать Pandas и Polars. И частично их писать.
Из фундаментальных проблем DuckDB - непонимание кодировок кроме utf-8 для CSV файлов что решается их предобработкой. Вторая проблема в том что DuckDB не умеет определять структуру CSV файлов если заголовки не в начале файла. Это вообще не все инструменты умеют и это, в принципе, умеют немногие инструменты, особенно с открытым кодом.
CSV самый распространённый формат, плохо стандартизированный в "диком виде", слишком часто CSV файлы лежат в открытом доступе после экспорта из Excel.
Еще один недостаток DuckDB при работе с CSV файлами - это отсутствие поддержки алгоритмов сжатия за исключением GZip. Если исходить из эффективности хранения и стоимости хранения - это важный фактор. Например, несколько сотен тысяч CSV файлов в Dateno - это около 4TB данных. Хранить их в оригинальном виде неэффективно, сжатыми GZip лучше, а ещё лучше в чём то вроде zstd или даже сразу в Parquet со сжатием. Что логично поскольку эти данные статичны.
Но в итоге именно DuckDB + Polars + Pandas + предобработка + постобоработка данных + хранение первичных данных в Parquet оказывается наиболее универсальным решением в таких задачах.
Ссылки:
[1] https://github.com/datacoon/undatum
#thoughts #data #datatools #fileformats #dateno
У Михаила Емельяниникова в блоге публикация Уполномоченные операторы обработают персональные данные для вас и за вас? Точно?
о новой инициативе российских депутатов по формированию перечня уполномоченных операторов персональных данных которые умеют защищеннее/лучше/больше/быстрее обрабатывать персональные данные среднего и малого бизнеса.
Статья полезная могу порекомендовать её почитать и кое что добавить. Наделение специальных организаций полномочиями операторов персональных данных в мире есть и даже есть такое понятие как Data Custodians. Например, оно есть в Австралии и называется Data scheme.
Казалось бы лучшие практики? Но, в чём разница между российскими и австралийскими практиками. В том что в Австралии эти Data Custodians уполномочены на работу с персональными данными которыми трам-парам-парам владеет Правительство Австралии. А то есть, это те операторы которым Правительство страны доверяет и даёт им доступ и через них доступ к данным внутри государственных информационных систем.
В РФ всё это имеет нюанс, в том что депутаты обсуждают не доступ к госданным, а операторов для работы с данными бизнеса.
Чувствуете разницу?
В первом случае - это защищённый доступ бизнеса к госданным, во втором случае это дополнительное обременение на средний и малый бизнес.
Второй немаловажный нюанс этого регулирования - это попытка крупных владельцев персональных данных уйти от требований сдачи всех данных в государственную информационную систему. Это уже не столько про выгоду для цифровых олигополий, хотя и она есть, сколько про их попытку защитить собственные данные. Можно относится к инициативе как к одной из попыток "защитного GR" от наиболее худших последствий сдачи данных государству для "обезличивания".
#privacy #russia #regulation
о новой инициативе российских депутатов по формированию перечня уполномоченных операторов персональных данных которые умеют защищеннее/лучше/больше/быстрее обрабатывать персональные данные среднего и малого бизнеса.
Статья полезная могу порекомендовать её почитать и кое что добавить. Наделение специальных организаций полномочиями операторов персональных данных в мире есть и даже есть такое понятие как Data Custodians. Например, оно есть в Австралии и называется Data scheme.
Казалось бы лучшие практики? Но, в чём разница между российскими и австралийскими практиками. В том что в Австралии эти Data Custodians уполномочены на работу с персональными данными которыми трам-парам-парам владеет Правительство Австралии. А то есть, это те операторы которым Правительство страны доверяет и даёт им доступ и через них доступ к данным внутри государственных информационных систем.
В РФ всё это имеет нюанс, в том что депутаты обсуждают не доступ к госданным, а операторов для работы с данными бизнеса.
Чувствуете разницу?
В первом случае - это защищённый доступ бизнеса к госданным, во втором случае это дополнительное обременение на средний и малый бизнес.
Второй немаловажный нюанс этого регулирования - это попытка крупных владельцев персональных данных уйти от требований сдачи всех данных в государственную информационную систему. Это уже не столько про выгоду для цифровых олигополий, хотя и она есть, сколько про их попытку защитить собственные данные. Можно относится к инициативе как к одной из попыток "защитного GR" от наиболее худших последствий сдачи данных государству для "обезличивания".
#privacy #russia #regulation
Blogspot
Уполномоченные операторы обработают персональные данные для вас и за вас? Точно?
Портал RSpectr опубликовал статью о новой инициативе депутатов во главе с председателем комитета по информационной политике, информацио...
В качестве регулярного напоминания, в России уже 16 месяцев как отсутствует федеральный портал открытых данных data.gov.ru. Он был "закрыт на ремонт" Минэкономразвития РФ в марте 2023 года [1] и с тех пор не возвращён к жизни, несмотря на то что его "перенос на Гостех" должен был завершиться к январю 2024 года.
В истории Минэка - это не последняя плохая история в их информатизации и зоной ответственности, но очень показательная поскольку закрыли старую версию портала до того как открыли новую. В общем-то всем понятно что просто хотели закрыть.
Ссылки:
[1] https://yangx.top/begtin/4714
#opendata #closeddata #russia
В истории Минэка - это не последняя плохая история в их информатизации и зоной ответственности, но очень показательная поскольку закрыли старую версию портала до того как открыли новую. В общем-то всем понятно что просто хотели закрыть.
Ссылки:
[1] https://yangx.top/begtin/4714
#opendata #closeddata #russia
Telegram
Ivan Begtin
Свежая новость [1] и заметка в Коммерсанте [2] о том что "временно" приостанавливается работа федерального портала открытых данных data.gov.ru и что будет через какое-то время новая/лучшая версия портала, надо только подождать.
Мне так много есть что сказать…
Мне так много есть что сказать…
В качестве примера интерактивной визуально насыщенной инфографики свежее видео Стива Баллмера, бывшего главы Microsoft, про бюджет США [1]. Для тех кто не может посмотреть видео на Youtube я специально сделал набор скриншотов.
Рассказывает и показывает он весьма наглядно, не вдаваясь в идеи как менять ситуацию с растущим долгом и лишь указывая на факты.
Честно говоря я не знаю его политических целей, они наверняка есть в таком проекте, но сам проект USAFacts весьма любопытный, хотя и малоизвестный широкой публике.
Ссылки:
[1] https://usafacts.org/just-the-facts/budget/
#budget #government #usa #dataviz #infographics
Рассказывает и показывает он весьма наглядно, не вдаваясь в идеи как менять ситуацию с растущим долгом и лишь указывая на факты.
Честно говоря я не знаю его политических целей, они наверняка есть в таком проекте, но сам проект USAFacts весьма любопытный, хотя и малоизвестный широкой публике.
Ссылки:
[1] https://usafacts.org/just-the-facts/budget/
#budget #government #usa #dataviz #infographics
USAFacts
What Is the Federal Budget: Just the Facts | USAFacts
Learn about our US federal budget and how government revenue collection and spending decisions impact your daily life.
This media is not supported in your browser
VIEW IN TELEGRAM
Наглядная визуализация с открытым кодом того что происходит внутри LLM моделей [1]. Исходный код доступен [2] как и научная статья от авторов Transformer Explainer: Interactive Learning of Text-Generative Models [3]
Ссылки:
[1] https://poloclub.github.io/transformer-explainer/
[2] https://github.com/poloclub/transformer-explainer
[3] https://arxiv.org/abs/2408.04619
#opensource #llm #ai #datatools
Ссылки:
[1] https://poloclub.github.io/transformer-explainer/
[2] https://github.com/poloclub/transformer-explainer
[3] https://arxiv.org/abs/2408.04619
#opensource #llm #ai #datatools