Ivan Begtin
8.1K subscribers
2.03K photos
3 videos
102 files
4.76K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
В каждой профессии есть большие вызовы, иногда кажущиеся смешными, иногда невозможными. Например, в генетике восстановление вымерших видов может показаться невозможным или чертовски сложным, но, тем не менее учёные всё ближе к этому подступают. В статье Why ‘De-Extinction’ Is Impossible (But Could Work Anyway) [1] о том почему "воскрешение" уже несуществующих видов возможно если доступен генетический материал, а иногда и другими способами.

Очень скоро спасение вымирающих животных может заключаться в в ускоренном создании банков генетических данных чтобы будущие поколения могли бы восстановить их популяции в будущем.

Ссылки:
[1] https://www.quantamagazine.org/why-de-extinction-is-impossible-but-could-work-anyway-20220509/

#data #genetics
Для тех кто любит сжатие данных также как это люблю я, подборка полезных ссылок:
- про сжатие CSV файла в 22 ГБ в 1.5 ГБ файла Parquet [1] включает преобразование структур данных, сжатие zstd внутри файла parquet и тд. Для сравнения оригинальный сжатый файл был около 12GB. Для работы на ноутбуках и десктопах может быть значимо.
- Bzip3 [2] автор позиционирует как замену Bzip2. Сжимает существенно лучше чем Bzip2, немного лучше чем Xz и 7Zip (LZMA2), при этом не существенно теряет в скорости. В общем надо измерять.
- PLZip [3] и LZTurbo [4] два особо быстрых декомпрессора для lzip и lz77 соответственно, важно когда скорость сжатия некритична, а скорость распаковки важна

Ссылки:
[1] https://medium.com/@deephavendatalabs/the-r-place-dataset-bf4b0d70ce72
[2] https://github.com/kspalaiologos/bzip3
[3] https://www.nongnu.org/lzip/plzip.html
[4] https://sites.google.com/site/powturbo/home

#compression #tools #opensource
Проекты по открытости в России стали редкостью, честно говоря и наша команда довольно давно не запускала новых, но всегда есть возможность рассказать о таких проектах в мире.

ParlTrack [1] европейский проект мониторинга избранных представителей (депутатов) Европарламента - это база из 4166 депутатов (705 действующих), 20,3 тысяч рассмотрений, 33,7 тысяч фактов голосования, и более 958+ тысяч поправок.

Все данные доступны как открытые данные под лицензией ODbL [2], весь исходный код доступен на github [3].

Проект не развивается активно уже примерно два года, но концептуально он таков каким должны быть все подобные проекты:
- интерфейс для пользователя
- открытые данные
- открытый код
- свободные лицензии

А наиболее интересный и живой сейчас проект мониторинга парламентов - это OpenParliament.tv [4] с аннотированными видео выступлений депутатов Бундестага.

В России последний раз попытки создать подобные проекты были с 2009 по 2013 годы.

Ссылки:
[1] https://parltrack.org/
[2] https://parltrack.org/dumps
[3] https://github.com/parltrack/parltrack/
[4] https://de.openparliament.tv/

#opendata
📌 Хакатон Роскомсвободы Demhack 4

Роскомсвобода и Privacy Accelerator приглашают к участию в хакатоне DemHack 4.

Хакатон пройдет 21- 22 мая 2022 года в формате онлайн и объединит русскоязычных специалистов из России и любой другой точки планеты для решения задач в сфере приватности и доступа к информации.

Уже третий год команды на хакатоне находят технические решения, которые помогают гражданам защитить цифровые права и расширить цифровые возможности.

На хакатоне DemHack 4 будет представлено несколько треков задач. Участники можете выбрать для реализации одну из сформированных задач или предложить свой проект, релевантный теме трека: приватность, доступ к информации, доступ россиян к технологиям и др.

🔗Подробности и прием заявок на хакатон открыты до 16 мая включительно: https://demhack.ru.
В качестве небольшого преданонса, я доделываю анализ организаций входящих в реестр аккредитованных ИТ компаний, это займёт ещё какое-то время, может быть пару дней, может быть неделю, но много чего интересного там находится уже сейчас.

Думаю насколько публичными делать эти "находки" - максимально подробно и передать журналистам или только самое "странное". Для этого сейчас размещу опрос и попрошу в нём проголосовать.

Проголосовать вот тут 👉 https://yangx.top/begtin/3845

#thoughts
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Уже сегодня в 17 ч. будут объявлены и опубликованы результаты первого Global Data Barometer, в рамках которого проводилась оценка наличия и доступности данных в разных странах мира.

Мне удалось уже второй раз выступить в роли Researcher for Russia (предыдущий опыт был в рамках последнего издания Open Data Barometer), а Иван Бегтин (@begtin) выступил в роли регионального координатора.

По моему мнению, Open Data Barometer, а затем и Global Data Barometer, - наиболее продуманный и аргументированный международный рейтинг открытости из всех существующих (хотя даже в его методике есть те моменты, над которыми можно было бы еще подумать). С нетерпением жду результатов.

Регистрация на онлайн-мероприятие доступна по ссылке: https://us02web.zoom.us/webinar/register/WN_ekQ916ehSE6eK2Bh5CuWuA?_x_zm_rtaid=2L-izqTjQo2KX-Fmfo6i3g.1652270487891.30704ad0b6fcc8ae84f621f2356db628&_x_zm_rhtaid=86
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Результаты России в Global Data Barometer (https://globaldatabarometer.org/country/russian-federation/)
На сайте Минцифры России новость про создание госДатаХаба [1]. Пока кратко, я к этому проекту никакого отношения не имею, но подозреваю кто его делает и за него отвечает.

Пока лишь обращу внимание на фразу Государство будет мотивировать бизнес предоставлять обезличенные данные по отдельным направлениям, которые критически важны для системы госуправления.

Это именно то что делает этот проект плохим. Потому что вначале придумают позитивную мотивацию, потом окажется что она не работает, перейдут к негативной мотивации и заставят сдавать данные, а вместо открытия новых данных, начнут переводить имеющиеся в платный режим.

Чуть позже я напишу об этом подробнее.

Ссылки:
[1] https://digital.gov.ru/ru/events/41556/

#data #government
Если у Вас есть что рассказать про цифровую архивацию, пишите нам - есть слоты для докладов! Я бы лично хотел послушать доклады про архивации данных, а не только про них говорить самому. Найдутся желающие?
Серия докладов в программу конференции по цифровым архивам: принимаем заявки

Продолжается прием заявок на участие в секции коротких докладов по теме цифровой архивации. Это могут быть презентации:
— кейсов веб-архивирования и сохранения какого-либо ресурса;
— о разработанных инструментах с открытым исходным кодом по сохранению веб-контента;
— технических обзоров и гайдов по работе с какими-либо инструментами веб-архивирования.

Не обязательно на момент выступления иметь готовый и успешно завершенный проект — не менее интересны живые проекты, находящиеся в разработке, для реализации которых вы сможете запросить помощи у сообщества.

Формат участия: очно или онлайн.

Если вы хотите принять участие в секции, напишите нам подробнее о вашем докладе на эл. почту [email protected].

Подробнее о конференции и регистрация: https://conference.ruarxive.org.
По результатам голосования https://yangx.top/begtin/3846 с отрывом лидирует сделать результаты анализа реестра аккредитованных ИТ компаний общедоступными с данными, аналитикой (и лунным модулем).

А пока, чтобы поддержать интригу, предлагаю назвать единственные два органа власти органа власти в России зарегистрированные как аккредитованные ИТ компании (сотрудники тоже хотят льготную ипотеку, отнесемся с пониманием).

Ваши варианты в комментариях, подсказка, это не Минцифра РФ.

#it #questions
Про новость про госДатаХаб (Национальное озеро данных) [1] я напишу подробнее и тезисами.

1. Внутрикорпоративные (государственные) озёра данных, хабы данных уже существуют в нескольких регионах и органах власти (ФНС России, МЧС РФ и др). Они используются для агрегации отраслевых данных для внутренних аналитиков.
2. Корпоративные каталоги данных существуют во многих крупных холдингах, корпорациях. В основном они созданы для инвентаризации собственных данные, работы команд дата-сайентистов.
3. Национальное озеро данных - это идея, на сегодняшний день, у которой нет закрепления в какой-либо стратегии или ином концептуальном документе. Она проговаривалась непублично или не проговаривалась вовсе, не проходила обсуждения с экспертами и стейкхолдерами.
4. Идея объединения данных органов власти разумна для снижения издержек для аналитической работы, но несёт этические риски нарушения приватности даже на деперсонализированных данных. (см. Re-Identification). Именно поэтому проектирование такой системы требует вначале разработки концепции и далее уже определения пути её реализации.
5. Передача данных от бизнеса - это некоторая полу-насильственная форма изъятия данных у крупных компаний. Сейчас госорганы покупают агрегированные данные у сотовых операторов, крупных коммерческих компаний и тд. данные на коммерческих условиях. Давно идёт речь о снижении этих расходов, были разговоры о централизации закупок или что эти данные федеральная власть будет закупать для органов власти субъектов федерации.
6. Бизнесу в обмен предлагают данные которые находятся внутри государственных информационных систем и предполагается их предоставление за деньги. Не у всякого бизнеса, особенно малого и микро, будут ресурсы на покупку данных.
7. Очень велика вероятность что через госДата.хаб могут начать торговать теми данными которые сейчас открыты, аппелируя к выпадающим дохода бюджета.
8. Открытые данные - с коммерческой точки зрения, в первую очередь, предоставление данных для развития рынков, поддержки малого и среднего предпринимательства. Эта поддержка может значительно сократиться если данные будут переводить на платную основу.
9. Эти действия идут против тренда во всём мире, где коммерциализация госданных наоборот уступает подходу по их открытости. Постепенно открывают реестры недвижимости, конечных собственников, госконтрактов и тд., то что в России постепенно закрывается. Несмотря на то что текущий уровень открытости в России по многим направлениям, пока ещё, высокий.
10. Важно помнить что с точки зрения информационной безопасности, требования к которой будут только нарастать, многие данные не будут доступны вообще ни в какой форме. Ни бесплатно, ни открыто, ни платно. Потому что платность никак не защищает от их покупки вероятными геополитическими противниками. В этом смысле даже госДата.хаб не настолько плох, как полное закрытие всего и вся.
11. Проблема в непредсказуемости дальнейших действий могла бы быть решена созданием национальной стратегии работы с данными, как это сделано во многих странах. Там можно было бы определить и место национального озера данных. Но пока нет даже намёка что такую стратегию предполагается разрабатывать.
12. Увы нет ни слова кто за разработкой такого проекта стоит и кто проектирует и тд. В отрасли есть некоторое количество специалистов в работе с данными, с уклоном в данные в ИИ, или в данные в корп аналитику, но рядом с этим проектом никого из них нет. Почему так - это отдельный вопрос и касается не только отраслей работы с данными.
13. Что с этим всем делать ? Я ещё раз подчеркну что стратегия важнее тактики. То что вместо проектирования и продумывания опять "бегом-бегом", "быстро-быстро" потратить деньги на новую информационную систему - это выглядит как очередной бег на месте.

Ссылки:
[1] https://yangx.top/begtin/3854

#policy #it #government #digital #data #datastrategy
Публикуют ли библиотеки данные? Если, да, то зачем? Британская библиотека (The British Library) опубликовала 274 набора данных [1] в основном в формате CSV и XML. Эти данные включают, например, базу диссертаций в Великобритании [2] или тексты из оцифрованных карт Африки.

Эти наборы данных публикуются как часть работ исследователей библиотеки на портале The British Library's Research Repository [4] где всего размещено 1663 научных материала, включая эти наборы данных.

Многие библиотеки, музеи, исследовательские центры публикуют данные как часть политики открытого доступа, либо создавая отдельные репозитории, либо на централизованных ресурсах таких как Zenodo.

Ссылки:
[1] https://iro.bl.uk/catalog?f%5Bresource_type_label_ssim%5D%5B%5D=Dataset&locale=en&q=&search_field=all_fields
[2] https://bl.iro.bl.uk/concern/datasets/23ac0382-d423-4686-885b-4930040d3ed5
[3] https://bl.iro.bl.uk/concern/datasets/117ed6c1-d9ba-481a-bae6-74d389f6a441
[4] https://bl.iro.bl.uk

#opendata #datasets #libraries
Low code добралось и до инженерии данных. Стартап Prophecy.io [1] поднял в общей сложности $38.5M за 5 раундов инвестиций создавая платформу с минимальным программированием на базе Apache Spark и Apache Airlow. Эдакий подход - антихардкор, никакой командной строки, только работа мышкой.

Интересно до чего ещё докатится волна создания low-code продуктов?

Ссылки:
[1] https://www.prophecy.io/

#startups #dataengineering #tools