Ivan Begtin
8.1K subscribers
2.01K photos
3 videos
102 files
4.74K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
Большой доклад 5G
Geothenological competition in the digital age [1] вышел у Booz Allen Hamilton.

Доклад про текущее состояние технологий 5G с позиционированием их как продолжение критерия измерения технологического лидерства стран. Доклад с рекомендациями для США, с явным посылом что США делят первое/второе место с Китаем.

Россия там, также упомянута, так что нельзя сказать что у нас тут полная технологическая отсталость. Про технологии и ПО работы с данными в сетях 5G там немного, но тоже есть. И, нельзя не обратить внимание что у доклада добротная инфографика.

Ссылки:
[1] https://www.boozallen.com/content/dam/boozallen_site/ccg/pdf/publications/5g-policy-paper.pdf

#5g #tech
В рубрике интересные наборы данных, коллекция 25 Гигабайт изображений сервиса Unsplash [1]. Это больше 2-х миллионов изображений, 5 миллионов ключевых слов и 250 миллионов поисковых запросов. Если Вы разрабатываете разного рода алгоритмы распознавания образов и тд., то это хорошая точка старта, но, конечно, не единственная.

Набор данных свободен для любого некоммерческого использования.

Ссылки:
[1] https://unsplash.com/data

#opendata #images #datasets
Explorium, стартап по подготовке данных (data preparation) получил очередной раунд венчурного финансирования в 75 миллионов USD [1] что теперь составляет 127 миллионов USD вложенных инвесторами в этот продукт. Продукт у них интересный [2], в виде создания платформы для очистки, обработки и, что важно, обогащения данных для чего они используют множество открытых и коммерческих источников дополняя данные загруженные на их платформу сведениями о компаниях, статистике в геопривязке, информацию о людях и не только. У них весьма большая External Data Library [3].

Задачи которые они решают повсеместны, большинство решает их используя собственный код, а тут комплексное и, скорее всего, дорогое решение. В России, конечно,не применимое в силу импортозамещения и ограничений в обработке данных за пределами российской юрисдикции.

Интереснее то что таких инструментов всё больше и значительные инвестиции идут в облачные продукты.

Ссылки:
[1] https://venturebeat.com/2021/05/18/data-prep-platform-explorium-raises-75m/
[2] https://www.explorium.ai/
[3] https://www.explorium.ai/platform-data-engine/

#tools #software #startups
На самом деле я даже не знаю как это прокомментировать. Как то что в долларовом эквиваленте это около 7.4 миллионов и что это не так много для глобальной системы, так и то что за перечисленные работы это выглядит слегка ... многовато.

#fgis #itspending
Forwarded from Госзатраты
Министерство цифрового развития, связи и массовых коммуникаций РФ заключило крупный госконтракт. 407 млн рублей из федерального бюджета потратят на развитие ФГИС «Единая система идентификации и аутентификации в инфраструктуре, обеспечивающей информационно-технологическое взаимодействие информационных систем, используемых для предоставления государственных и муниципальных услуг в электронной форме» (ЕСИА).

Исполнителем в рамках соглашения выступает ПАО «Ростелеком». Закупка проводилась у единственного поставщика. Срок действия контракта — до 15 ноября 2021 года. За оставшиеся шесть месяцев, по условиям контракта, исполнитель среди прочего обязуется разработать дизайн-макеты для экрана раздела ЕСИА, разработать и модернизировать одну веб-страницу раздела ЕСИА, улучшить часть ее функций и мобильное приложение.

Подробности — на сайте «Госзатраты»: http://amp.gs/bvKC
Land Portal Foundation совместно с Open Data Charter опубликовали руководство по работе с открытыми данными о земле. Руководство ориентировано на власти стран ответственные за работу с земляными участками, это службы кадастров, министерства ответственные за лесную политику и так далее.

Авторы доклада одновременно являются создателями Land Portal [2], большого проекта по мониторингу использования земли по всему миру. России и развитых стран там нет, а вот страны третьего мира почти все.

А для тех кто интересуется этой темой, вдогонку, добавлю что есть такой проект ка LandMatrix [3] где осуществляют мониторинг сделок с землёй и вот тут про Россию есть данные. Например вот [4], контракт на посадку леса, похоже эти сведения собирают вручную. Судя по всему их региональный партнер на Украине, потому что именно по Украине более всего внесено сделок в восточной европе, а по России всего 381 сделка.

Вообще же проектов по мониторингу использования земли всё больше и эти два далеко не единственные.

Ссылки:
[1] https://landportal.org/library/resources/open-data-improved-land-governance
[2] https://landportal.org
[3] https://landmatrix.org
[4] https://landmatrix.org/deal/7836/

#opendata #land
Незаслуженно пропущенная мной новость, появление Berlin Declaration on Digital Society and Value-based Digital Government [1]
По русски можно перевести как берлинская декларация о цифровом обществе и Цифровом государстве (правительстве) основанном на ценностях.

Декларация про применение европейских ценностей и фундаментальных прав при реализации цифрового государства, подписана всеми странами членами Евросоюза.

В декларации чётко артикулируются вопросы открытости, в том числе поддержке развития открытости данных и открытости кода. Отдельно упоминаются value-based, human-centred AI systems (ценностные человекориентированные системы ИИ).

Документ полезный, для понимания стратегий Евросоюза, также стоит посмотреть на их интерактивную инфографику на портале открытых данных Испании [2].

Ссылки:
[1] https://digital-strategy.ec.europa.eu/en/news/berlin-declaration-digital-society-and-value-based-digital-government
[2] https://datos.gob.es/en/noticia/data-related-strategies-will-mark-2021

#opendata #opengov #opensource
Ещё один незаслуженно не упомянутый мною документ Silo Busting: The Challenges and Success Factors for Sharing Intergovernmental Data [1] от IBM Center for The Business of Government.

О том как устроены практики обмена данными между органами власти в США, какие продукты на данных создаются и как органы власти договариваются между собой. Весь документ про американский контекст, но с большим количеством примеров. Например, там есть о том что во всех штатах США есть системы Statewide Longitudinal Data Systems (SLDS) в которых собираются данные о человеке начиная со школы, продолжая высшим/профессиональным образованием и местами работы. Это не только позволяет делать неразрывной статистику образования и занятости, но и даёт возможность создания проектов кросс-секторного типа.

Пример: Massachusett’s Opioid Integrated Data Sharing Initiative где в одной базе собираются данные из десятков разных баз данных: баз ветеранов, баз раковых больных, тюремных систем, госпитальных систем, баз регистрации рождений, SLDS и ещё много чего.
И на основе этого принимаются решения по профилактике преступлений, индивидуальной поддержке и тд.

Там ещё много примеров, полезное чтение о том что возможно на данных когда это юридически возможно.

Честно говоря задача практически не решаемая простым образом на уровне региональных властей в России. Везде ограничения самым главным из которых является закон о персональных данных.

Ссылки:
[1] http://www.businessofgovernment.org/sites/default/files/Silo%20Busting.pdf

#opendata #data #sharing #ibm #usa #usecases
Департамент субсидирования мертвых лошадей
Департамент развития мертвых лошадей
Департамент финансирования мертвых лошадей
И мертволошадиный жокей

Как то собрались написать методические рекомендации
По ускоренному умервщлению лошадиной популяции
Редко, но теперь я буду разбавлять скучные новости скучными стихами из @ministryofpoems
28 мая в 19:00 пройдут публичные дебаты "Тотальные данные: контроль или удобство" организованные Политехом [1]. Дебатировать буду я и исполнительный директор по исследованию данных Sber AI Михаил Степнов.

Мою позицию про приватность большинство давно знают, я её в каком-то более концентрированном виде подготовлю к дебатам.
Дебаты будут, также, транслировать на канале Политеха [2]. Не проходите мимо, приходите и смотрите.

Ссылки:
[1] https://polymus.ru/ru/museum/news/total-data/
[2] https://www.youtube.com/user/polytechnicum

#data #privacy #debates
Свежий проект от команды Github'а - FlatData [1] как набор инструментов для сбора и обработки данных в git репозиториях. Это подход который когда-то продвигал Simon Wilson [2], автор многих инструментов и проектов на данных. Действительно Github с его набором действий очень подходит для автоматизации сбора данных. У него же есть пример автоматизации сбора данных о пожарах в Калифорнии [3].

Не менее интересный инструмент Flat Viewer для просмотра простых (плоских) файлов [4].

Инструменты интересные, и открытым кодом и интегрированностью в Github, хотя вот скажу честно для работы с относительно большими наборами данных они уже ограничены.

Я могу сказать что про эти инструменты что про десятки других что я видел за последние годы, у них примерно одна и та же проблема - работа с плоскими данными. Данные с которыми я и моя команда работаем, к примеру, почти всегда не_плоские. Это сложные JSON или XML объекты декомпозиция которых назад в плоские таблицы - это большая работа, трудоёмкая и ресурсозатратная. Часто проще с самого начала сохранять сложность первичных данных, преобразуя их только тогда когда есть в этом необходимость. Для такого не подходят CSV и плоский JSON, а скорее файлы построчного JSON lines и BSON (используется в MongoDB)

Я сам выложил в открытый код как минимум 2 инструмента с таким подходом:
- undatum [5] - утилита для обработки данных, с акцентом как раз на JSON lines и BSON.
- apibackuper [6] - утилита для автоматизации выгрузки наборов данных из API с экспортом данных в JSON lines.

С другой стороны я знаю немало инициатив как раз по отказу от платформ вроде Github'а для хранения данных и использованию альтернатив. Например, Giftless [7] от Datopian даёт возможность эмулировать Git LFS поверх локального хранилища и хранилищ Google, Amazon и Azure, тем самым мигрируя с хранилища Github.

В любом случае современные проекты на данных - это чаще конструкторы. Иногда можно и нужно писать свой код, но чаще итоговый продукт или решение - это сборная солянка из множество компонентов.

Ссылки:
[1] https://octo.github.com/projects/flat-data
[2] https://simonwillison.net/2020/Oct/9/git-scraping/
[3] https://github.com/simonw/ca-fires-history
[4] https://flatgithub.com/the-pudding/data
[5] https://github.com/datacoon/undatum/
[6] https://github.com/ruarxive/apibackuper
[7] https://github.com/datopian/giftless

#opendata #datatools #opensource #git #github
В рубрике интересные наборы данных Longitudinal Employer-Household Dynamics [1] база бюро переписи США с данными о переходах работников с одного места работы на другое, с трудоустройством выпускников ВУЗов, со сведениями о рабочей миграции.

Данные интересны во многих разрезах, но, особенно, в разрезе конкретного образовательного учреждения, выпускников по направлениям в сопоставлении с направлениями занятости и в контексте рабочей миграции между территориями, можно увидеть разрезе отрасли, города и вида занятости.

На этих и других данных в открытой части базы данных переписи в США есть такой проект как DataUSA [2] где собраны данные с детализацией до муниципалитетов в США (города, графства и тд.) и есть возможность увидеть данные по 7000+ университетам и колледжам и 319 индустриям в весьма детальных цифрах и разрезах.

В России единственным более-менее приближенным аналогом был проект Graduate.edu.ru (сайт более не работает). Но его Минобрнауки перестали поддерживать уже несколько лет назад, без объяснения причин

Ссылки:
[1] https://lehd.ces.census.gov
[2] https://datausa.io

#opendata #education #workforce
Статья в The Verge [1] о человеке в Чикаго по которому алгоритм выдал что он может оказаться по любую из сторону при стрельбе. Может быть жертвой или может использовать оружение сам. К нему пришли полицейские и соц работники в рамках профилактических мер, но интереснее всего то что алгоритмы предсказания преступлений применяются всё чаще и приводят к ситуациям вроде этой.

Кстати, не стоит думать что до России этот тренд не дойдёт. Скоринг граждан по социальным рискам (неизвестный самому гражданину) можно сказать неизбежен. Предиктивные системы для правоохранительных систем, также, довольно активно будут внедряться. С одной стороны это естественное развитие правоохранительной системы, а с другой всё зависит от вектора развития полиции.

Ссылки:
[1] https://www.theverge.com/22444020/chicago-pd-predictive-policing-heat-list

#opendata #predictive #policing
Когда открытых данных недостаточно (с) Исследователи проверили 25 научных статей отмеченных как публикуемые с открытыми данными обнаружили что только для 9 статей можно воспроизвести результаты без помощи авторов. Об этом в их статье Analytic reproducibility in articles receiving open data badges at the journal Psychological Science: an observational study [1].

Ссылки:
[1] https://royalsocietypublishing.org/doi/10.1098/rsos.201494

#opendata #openaccess
Напомню что сегодня вечером в 19:00 дебаты об использовании персональных данных. Моим оппонентом будет Михаил Степнов из Сбера.
Не буду сейчас рассказывать подробнее о том какие тезисы и аргументы буду приводить, скажу лишь что тема персональных данных, их использования, защиты прав граждан и интересов бизнеса - это всё сейчас очень острая тема. И о ней есть о чём поговорить.
Forwarded from Ivan Begtin (Ivan Begtin)
28 мая в 19:00 пройдут публичные дебаты "Тотальные данные: контроль или удобство" организованные Политехом [1]. Дебатировать буду я и исполнительный директор по исследованию данных Sber AI Михаил Степнов.

Мою позицию про приватность большинство давно знают, я её в каком-то более концентрированном виде подготовлю к дебатам.
Дебаты будут, также, транслировать на канале Политеха [2]. Не проходите мимо, приходите и смотрите.

Ссылки:
[1] https://polymus.ru/ru/museum/news/total-data/
[2] https://www.youtube.com/user/polytechnicum

#data #privacy #debates
Я не сильно люблю писать по теме информационной безопасности, но похоже что вся эта отрасль теперь стремительно политизируется (также как и ИТ). Это касается и недавних новостей НКЦКИ и Ростелеком-Солар об обнаружении "зловредов" в сетях органов власти в РФ [1] и совсем свежей новости с обвинением русских хакеров во взломе USAID и связанных с USAID организациями [2].

К сожалению, что в США, что в России сейчас всё идёт по пути поиска "внешнего врага" и, будем уж честными, активная "продажа угроз" взлома сетей, утечки данных и так далее и характерно что всё это началось как в период начала формирования бюджета на следующий год.

Проблема в том что, конечно, все публичные расследования политического толка важно делить в 2-3 раза. Потому что это та среда где на публику выносят только то в чём:
- или феерически облажались так что совсем не скрыть
- или то что собираются продавать как внешнюю угрозу

Ключевой вопрос - что нам продают? И насколько продаваемое близко к реальным проблемам, которые, безусловно есть и о которых на пресс-конференциях не говорят или, что ещё хуже, просто даже не знают.

Ссылки:
[1] https://safe-surf.ru/upload/%D0%BE%D1%82%D1%87%D0%B5%D1%82%20%D0%9D%D0%9A%D0%A6%D0%9A%D0%98%20%D0%B8%20%D0%A0%D0%BE%D1%81%D1%82%D0%B5%D0%BB%D0%B5%D0%BA%D0%BE%D0%BC-%D0%A1%D0%BE%D0%BB%D0%B0%D1%80_%D0%BE%D1%82%D0%BA%D1%80%D1%8B%D1%82%D1%8B%D0%B9.pdf
[2] https://www.nytimes.com/2021/05/28/us/politics/russia-hack-usaid.html

#privacy #security
Legal.Report пишут подробности о причинах ареста [1] бывшего начальника управления информационных технологий Росреестра Александра Бибикова и соучредителей IT-компании «Юнидата» Антона Евгеньева и Сергея Кузнецова.

У Юнидата, одних из немногих, есть репутация на рынке, так что событие весьма неприятное.

И, конечно, оно про то что "правила игры" на рынке ИТ интеграции были и остаются такими что посадить можно руководителей почти всех ИТ интеграторов, главное чтобы был свидетель с показаниями. Это, конечно, моё личное оценочное суждение (с)

Ссылки:
[1] https://legal.report/eks-glava-upravleniya-rosreestra-arestovan-po-delu-o-hishheniyah-pri-cifrovizacii-egrn/

#legal #data
Подборка полезных инструментов для тех кто работает с данными:
- NocoDB [1] - open source альтернатива Airtable. Превращает SQL базы данных в интерактивные таблицы, с возможностью совместного редактирования и другими функциями Airtable
- pyWhat [2] - утилита распознавания файлов и непонятных идентификаторов. Включает множество регулярных выражений и расшифровки данных. Создавалась для анализа разного рода "зловредов" и заточена под поиск идентификаторов в этом контексте.
- Immudb [3] - open source реализация криптографически защищённой СУБД с хранением всех предыдущих версий записи без возможности правки данных.
- Awesome privacy list [4] большая подборка инструментов ставящих приоритет на приватность. Поисковые системы, браузеры, социальные сети и, в том числе, приватные инструменты работы с неприватными сервисами. Большой и полезный список
- Profil3r [5] - инструмент OSINT проверки аккаунтов пользователя во множестве соцсетей и сервисов и, заодно, проверки в утечках данных
- Snoop [6] - ещё один инструмент OSINT проверки аккаунтов, но на русском языке и со многими российскими сервисами

Ссылки:
[1] https://www.nocodb.com
[2] https://github.com/bee-san/pyWhat
[3] https://github.com/codenotary/immudb
[4] https://github.com/pluja/awesome-privacy
[5] https://github.com/Rog3rSm1th/Profil3r
[6] https://github.com/snooppr/snoop

#opendata #opensource #tools #data
Forwarded from Инфокультура
Началась ежегодная конференция дата-журналистов LAMPA 2021 (https://lampa2021.tilda.ws). Подключиться к эфиру можно по ссылкам:

— Прямая трансляция на фейсбуке:

http://bit.ly/lampa2021_fb

— Прямая трансляция в ютубе:

http://bit.ly/lampa2021_yt

— Ссылка на дата-арт в ZOOM

http://bit.ly/lampa2021