Ivan Begtin
8.09K subscribers
1.99K photos
3 videos
102 files
4.7K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
Я приведу всё же ещё несколько ещё более конкретных примеров в качестве иллюстрации.

Реестры требований кредиторов также бывают в открытом доступе что можно увидеть своими глазами на примере сайта союза «Межрегиональный центр арбитражных управляющих» [1].

У сайта неактуальный сертификат, не скачиваются часть документов, но среди тех что доступны есть подробные файлы отчетов арбитражных управляющих и реестры кредиторов. В некоторых реестрах кредиторов только юр. лица, но во многих есть списки работников перед которыми не закрыты трудовые обязательства, вот к примеру [2].

Или вот пример как Департамент строительства и транспорта Белгородской области публикует реестры пострадавших граждан при долевом строительстве [3]. Видимо полагают что граждане пострадали недостаточно.

В аналогичном реестре в Республике Марий-Эл нет полных ФИО и паспортных данных [4], а в ростовской области только ФИО без иной идентифицирующей информации [5] и в Ленинградской области реестр вообще даже без ФИО [6]

В других регионах такие реестры просто не общедоступны.

Можно обратить внимание что часто объектами раскрытия данных являются не преступники, не те кто был уведомлен что их данные опубликуют, а рядовые граждане, виктимизируемые лишь тем что госорганы и иные организации в одностороннем порядке решили разместить их данные в открытом доступе.

А я не перестаю напоминать что это массовое явление за пределами фокуса интереса Роскомнадзора.

Ссылки:
[1] http://npmcau.ru
[2] http://www.npmcau.ru/upload/debsfiles/MAT_000000059_000001123_RTK%20Khitrinoy%20V.D..doc
[3] http://www.belgorodstroy.ru/media/uploads/%D0%A0%D0%95%D0%95%D0%A1%D0%A2%D0%A0_%D0%9F%D0%9E%D0%A1%D0%A2%D0%A0%D0%90%D0%94%D0%90%D0%92%D0%A8%D0%98%D0%A5_%D0%93%D0%A0%D0%90%D0%96%D0%94%D0%90%D0%9D_%D0%BD%D0%B0_%D1%81%D0%B0%D0%B9%D1%82.xls
[4] http://mari-el.gov.ru/minstroy/DocLib52/171123_01.xls
[5] http://www.bldnadz.donland.ru/Data/Sites/42/media/%D1%80%D0%B5%D0%B5%D1%81%D1%82%D1%80%D0%B3%D1%80%D0%B0%D0%B6%D0%B4%D0%B0%D0%BD/%D1%80%D0%B5%D0%B5%D1%81%D1%82%D1%80_%D0%B3%D1%80%D0%B0%D0%B6%D0%B4%D0%B0%D0%BD_%D0%B4%D0%BB%D1%8F_%D0%BE%D1%82%D0%BA%D1%80%D1%8B%D1%82%D0%BE%D0%B3%D0%BE_%D0%B4%D0%BE%D1%81%D1%82%D1%83%D0%BF%D0%B0_22.02.2019.xls
[6] http://expert.lenobl.ru/media/content/docs/6833/%D0%A0%D0%B5%D0%B5%D1%81%D1%82%D1%80%20%D0%B3%D1%80%D0%B0%D0%B6%D0%B4%D0%B0%D0%BD%2C%20%D0%BD%D0%B0%2001.10.2018.xls

#privacy #PersonalData
Кто-нибудь может поделиться во сколько Яндексу обошлась эта рекламная кампания и где можно найти ценник? Может я тоже хочу москвичам рекламных баллов раздать, знать бы условия, сколько там по деньгам, с кем разговаривать, на какие статьи КБК переводить, кто контролирует эти доходы в городской бюджет... простите увлёкся. В общем интересный кейс крупного онлайн ритейлера и его маркетинговых кампаний.
OpenLineage [1] - это относительно новый стандарт прослеживаемости данных, введенный в оборот в январе 2021 года и развиваемый The Linux Foundation в привязке к Apache Airflow и Apache Spark.

Основная идея в стандартизированном API для запуска задач, хранения данных, доступа к SQL и в том чтобы все это охватывалось универсальными метаданными.

Много подробностей в репозитории стандарта [2] и примеры продуктов таких как Marquez и Egeria которые OpenLineage поддерживают.

Ссылки:
[1] https://openlineage.io/
[2] https://github.com/OpenLineage/OpenLineage

#data #datapipelines #metadata
не могу подобрать комментарий
Роботы, роботы... Тысячи индусов у камер наблюдения и отслеживание работы сотрудников магазинов и ограблений. В Vice статья о Live Eye [1], компании которая подключает магазины к системе наблюдения за сотрудниками и сотрудники в конце дня отчитываются о всех действиях на камеру. А также там же про пример того как удалённый наблюдающий из динамиков угрожает вызвать полицию во время ограбления.

Статья скорее осуждающая, и я согласен в том что такая слежка 24/7 некомфортна для работников. Но каким будет её развитие? То же самое будут делать алгоритмы, автоматически определяющие что идёт ограбление магазина или иная экстренная ситуация.

Ссылки:
[1] https://www.vice.com/en/article/4avnnn/a-cctv-company-is-paying-remote-workers-in-india-to-yell-at-armed-robbers

#tech #surveillance
Сегодня с 12 часов модерирую круглый стол на ЦИПР
.
Ссылка на трансляцию 12:00 -13:30 “Экономика данных. Цифровое ускорение глобального сотрудничества”: https://youtu.be/H3NFpg040Ek

#data #datamarkets
Вышел доклад AI Watch - National strategies on Artificial Intelligence: A European perspective, 2021 edition [1] о инициативах ИИ в странах Евросоюза на основе базы данных EC-OECD.

Интересного там немало и, конечно же, практически все инициативы пересекаются с рынком данных на котором основан рынок ИИ.

Прямая ссылка на доклад [2]

Ссылки:
[1] https://publications.jrc.ec.europa.eu/repository/handle/JRC122684
[2] https://publications.jrc.ec.europa.eu/repository/bitstream/JRC122684/ai_watch_report_national_ai_strategies.pdf

#data #eu #regulation
В рубрике интересные наборы данных полный слепок данных с портала открытых данных Минкультуры России [1]. Всего 63 набора данных общим объёмом в архивной виде в 15.8 гигабайт, в формате JSON. Описание на хабе открытых данных [2].

Наибольший объём в архиве у госкаталога музейного фонда [3].

Зачем создан архив?
1) Для долгосрочного сохранения в виду частичного ухода команды в Минкультуры отвечавшей за открытость данных. На случай если они начнут исчезать с портала данных Минкультуры РФ.
2) Для возможности удобной выгрузки данных автоматизировано - достаточно взять значения из csv или json файла списка, добавить расширение .zip и выкачать по прямым ссылкам
3) Архивы каждого набора данных включают все версии набора данных и можно отследить изменения если есть такое желание.

Если Вы знаете наборы данных которые могут исчезнуть, находятся в зоне риска и тд. то пишите мне, они будут включены в план архивации и сохранены.

Ссылки:
[1] https://opendata.mkrf.ru
[2] https://hubofdata.ru/dataset/opendatamkrfru-archive
[3] https://cdn.ruarxive.org/public/datacollect/opendata.mkrf.ru/packages/7705851331-museum-exhibits.zip

#opendata #opengov #datasets
Продолжая тему городов и данных о них, проект Metroverse [1] навигатор по городской экономике нескольких сотен городов по всему миру, включая российские. Создан в Growth lab [2], Центр международного развития в Гарварде.

Данные о экономике у них из Dun and Bradstreet’s World Base, насколько это близко к российской реальности сказать не возьмусь.

А сам проект по визуализации и подходу очень похож на Atlas of Economic Compexity [3] , также происходящий из Гарварда и оценивающие экспорт и импорт стран для понимания структуры экономики.

Ссылки:
[1] https://metroverse.cid.harvard.edu
[2] https://growthlab.cid.harvard.edu
[3] https://atlas.cid.harvard.edu

#opendata #data #cities #dataviz
А вот и свежая новость о том что развитие очередной государственной информационной системы "Работа в России" пойдёт в сторону конкуренции с HeadHunter'ом, SuperJob'ом и так далее [1]

У меня всегда двоякое отношение к таким инициативам. Как человеку работающему с большим объёмом разных данных - это всегда интересно получить в руки большой набор данных и данные из госсистем получить легче чем из частных.

А как предприниматель и человек возглавляющий Ассоциацию предпринимателей по работе с данными (АУРД) не могу не отметить что чем больше государства на зрелых конкурентных не монопольных, а вполне живых рынках - тем хуже этим рынкам.

Ссыски:
[1] https://www.iksmedia.ru/news/5840066-Prezident-podpisal-zakon-o-edinoj.html

#opendata #opengov #data #jobs #fgis
Тем временем в Великобритании рапортуют о 500 тысячном расшифрованном геноме вируса [1] и новой технологии ускоренной расшифровки геномов вариантов вируса [2]. А также о том что правительство готово помогать другим странам в развертывании этой технологии.

Интересно выложат ли всю эту базу данных в открытый доступ в этом году? Думаю да

Ссылки:
[1] https://www.gov.uk/government/news/uk-surpasses-500000-coronavirus-covid-19-tests-genomically-sequenced
[2] https://www.gov.uk/government/news/groundbreaking-new-technology-to-detect-known-variants-of-concern

#data #covid19
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
7 июля в 15:00 проводим экспертную сессию "Подходы к общественному контролю государственных и муниципальных закупок".

Аналитики и команда проекта "Госзатраты" представят на семинаре:

- концепцию модуля "Контроль" (направленного на повышение прозрачности системы госзакупок в России путем формирования, обнародования и развития базы закупок/контрактов, потенциально содержащих признаки недолжных приемов и практик);

- методику выявления контрактов для контроля (источники и объекты рисков, категории рисков).

Подробнее о мероприятии по ссылке: https://infoculture.timepad.ru/event/1687385/ (мероприятие экспертное, поэтому для регистрации необходимо указывать организацию)
Свежая полезная книга Introduction to Modern Statistics [1] доступна онлайн под Creative Commons и за небольшие деньги можно заказать её в бумаге на сайте OpenIntro [2]. Сама книга/руководство как раз является частью проекта OpenIntro по повышению доступности качественных руководств по статистике и математике, а OpenIntro - это НКО в США [3]. За 2020 год они получили пожертвований на $63 тысячи [4] что очень немного с одной стороны, а с другой показывает что можно, в каком-то смысле, создавать качественные продукт для студентов и учителей без огромных расходов.

В России куда популярнее пиратство литературы и книги значительно дешевле и доступнее, поэтому, возможно, такое НКО ещё не актуально. А может быть актуально в какой-то другой форме и, на самом деле, в каких то формах существует.

Ссылки:
[1] https://openintro-ims.netlify.app
[2] https://www.openintro.org/book/ims/
[3] https://www.openintro.org
[4] https://www.causeiq.com/organizations/openintro,813557916/

#data #math #statistics
Facebook запускают [1] собственный сервис рассылки Bulletin [2] и, по факту, вступают в конкуренцию с Substack и Revue, причем Revue был куплен Twitter не так давно.

Лично мне, по прежнему, куда больше по душе Substack где я пишу, реже чем хотелось бы, в собственной рассылке [3], но сам тренд внимания к рассылкам и сервисам подписок весьма интересен.

И, кстати, не могу не отметить что большая часть подписок на госрассылки ужасны. Пресс-службы не умеют с ними работать, а чаще это только и исключительно автоматическая рассылка последних новостей.

Ссылки:
[1] https://www.theverge.com/2021/6/29/22555957/facebook-bulletin-newsletter-subscriptions-substack-competitor
[2] https://www.bulletin.com/
[3] https://begtin.substack.com/

#mailing #tech
В рубрике интересных наборов данных 440 записей голосов кошек в разных ситуациях в наборе данных CatMeows: A Publicly-Available Dataset of Cat Vocalizations [1] опубликованном исследователями университета Милана ещё в апреле 2020 года.

Данные записей систематизированы по кошкам, ситуациям, характеристикам животным и другим параметрам.

Записи звуков животных есть и в других коллекциях, например, их много на сервисе FreeSound [2], но без научной систематизации.

Ссылки:
[1] https://zenodo.org/record/4008297
[2] https://freesound.org/

#opendata #datasets
Продолжая рубрику интересных наборов данных, самое что ни на есть актуальное по COVID-19 - архивы русскоязычных чатов антипривочников. 1,1 млн записей (сообщений чуть меньше), 29к уникальных юзеров. Все данных сохранены в архив Хаба открытых данных [1], а также доступны в первоисточнике [2].

Источник публикации не указал условия распространения набора данных, поэтому он пока помечен как Public Domain.

Набор данных будет интересен многим исследователям социальной сферы во время COVID-19

Ссылки:
[1] https://hubofdata.ru/dataset/covid-19-antichat
[2] https://twitter.com/u_sockeye/status/1409224639713320960?s=09

#datasets #covid19
Дайджест полезного чтения про данные и открытые данные:
- Why So Many Data Scientists Quit Good Jobs at Great Companies [1] - мартовская заметка в Medium о том почему Data Scientist'ы так часто уходят с из компаний с большим именем. По мне так большая часть проблем поколенческая, вроде завышенных ожиданий и отсутствия готовности к работе в "кровавом энтерпрайзе", но здесь ещё важный аспект в том что дата сайентисты хотят интересных задач, а кучу времени тратят на чистку и поиск данных.
- NOAA weather data in Snowflake [2] - огромная ежедневно пополняемая база данных погодной службы США в облаке Snowflake. Продолжение тренда на то что крупные коммерческие игроки хостинга, PaaS и IaaS используют большие открытые данные чтобы снижать барьеры доступа к данным для клиентов.
- Who's downloading pirated papers? Everyone - статья 2016 года [3] за авторством John Bohannon, а к ней данные 2017 года со статистикой SciHub [4], как ни странно, ни разу не скачанные с Zenodo, скорее всего поскольку недавно только были туда загружены.

Ссылки:
[1] https://medium.com/swlh/why-so-many-data-scientists-quit-good-jobs-at-great-companies-429ea61fb566
[2] https://towardsdatascience.com/noaa-weather-data-in-snowflake-free-20e90ee916ed
[3] https://science.sciencemag.org/content/352/6285/508
[4] https://zenodo.org/record/5012994#.YN27v0xn2Ul

#opendata #datasets #data #datascience
В рубрике интересные наборы данных полный слепок наборов данных с портала открытых данных города Москвы data.mos.ru [1].

Слепок включает все метаданные к наборам данных и все версии каждого набора данных опубликованного на портале. Всё 981 набор данных, вместе это около 25ГБ в распакованном виде и 6 ГБ в архивированном виде.

Ссылки:
[1] https://hubofdata.ru/dataset/datamosru-archive

#opendata #archives
Весьма интересная новость и, как раз, затрагивающая весь глобальный бизнес крупных цифровых платформ.
Forwarded from ЗаТелеком 🌐
130 стран договорились о введении во всем мире налога для технологических корпораций не менее 15 процентов. Политики расценивают это достижение как самое важное налоговое соглашение за десятки лет, а то и за целый век.
В переговорах о глобальном минимальном налоге для крупных корпораций достигнут прорыв: по данным Организации экономического сотрудничества и развития (ОЭСР), в четверг, 2 июля, 130 стран, на долю которых приходится 90 процентов мировой экономики, договорились о том, что ставка такого налога будет составлять "не менее 15 процентов".

https://m.dw.com/ru/o-vvedenii-globalnogo-cifrovogo-naloga-dogovorilis-130-stran/a-58132242