Ivan Begtin
8.1K subscribers
2K photos
3 videos
102 files
4.72K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
К предыдущей моей публикации про исчезновение сайта Уставного суда Санкт-Петербурга. Нашёлся проект spb-elections.ru автор которого провел архивацию сайта суда в марте 2021 года [1]. Это хорошая новость потому что в России, всё таки, возникают проекты по цифровой архивации значимых данных. В данном случае значимость была у решений суда в отношении выборов в Санкт-Петербурге.

Лично я очень рад что архивация становится предметом общественного интереса и сам проект про выборы интересный, не в последнюю очередь ретроспективой до 1993 года.

Ссылки:
[1] https://spb-elections.ru/sites/sites_www.spbustavsud.ru_comment.html

#digitalheritage #digitalpreservation #webarchives
В открытом доступе появился препринт замечательной книжки Analyzing US Census Data: Methods, Maps, and Models in R [1] о том как обрабатывать данные переписи населения США с помощью языка R. Автор книги, Kyle Walker, создатель библиотеки tidycensus [2] для языка R для упрощения работы с данными переписи.

Книга чрезвычайно прикладная, со скриншотами ГИС систем и систем переписи населения, часто в стиле "откройте страницу (вот скриншот), нажмите туда, нажмите сюда, скачайте результат" и конечно же книга про эту библиотеку tidycensus и как с её помощью с данными переписи работать.

Здесь надо отметить что в США вокруг переписи населения выстроена довольно большая, как теперь говорят, экосистема. Чтобы работать с их данными необходимо получить ключ, просто зарегистрировавшись [3] и там же у US Census Bureau на сайте большой раздел для разработчиков [4] с руководствами, примерами, каталогом API, публичным форумом [5], чатом в слаке, рассылкой и так далее.


Ссылки:
[1] https://walker-data.com/census-r/
[2] https://github.com/walkerke/tidycensus
[3] https://api.census.gov/data/key_signup.html
[4] https://www.census.gov/data/developers.html
[5] https://gitter.im/uscensusbureau/home

#opendata #data #census #us
Forwarded from LegalTech
💻Из электронных трудовых некоторых россиян начал пропадать стаж.

Из электронных трудовых книжек стала исчезать информация о стаже работы на ликвидированных предприятиях. Из-за этого некоторые россияне рискуют остаться без положенной пенсии.

Для того чтобы восстановить пропавшие записи в цифровой трудовой, нужно потратить много времени, а также столкнуться с бумажной волокитой, отмечает издание. «Запись в трудовой книжке с 1 марта 2007 года, а в электронной трудовой — с 31 декабря 2007 года, то есть восемь месяцев потеряно», — рассказала москвичка Светлана Антонова.

Во второй компании, где она работала, Антонова обнаружила информацию в цифровой книжке о якобы прерывании стажа. «Теперь я, что ли, ежегодно должна проверять, все ли записи мне сделали в трудовую книжку? Это же ненормально!» — заявила собеседница издания.

В Пенсионном фонде России (ПФР) сказали, что обе компании были ликвидированы и помочь Антоновой будет проблематично. В ведомстве пообещали отправить запросы в архивы, но «не факт, что там что-то найдется». Женщина указала, что у нее имеется оригинал трудовой, где есть этот стаж со всеми печатями, но в ПФР заявили, что «просто трудовую книжку мы взять теперь не можем».

Устраиваться на работу с электронными трудовыми стало можно с 1 января 2021 года. Бумажная трудовая после получения электронной выдается на руки, однако ее необходимо сохранить, поскольку в цифровом формате будут содержаться сведения только начиная с 2020 года.
В рубрике интересных наборов данных, коллекция ботов для Twitter, Facebook, Tumblr, Slack и других сервисов собранных на платформе Botwiki [1]. На основе данных вики собран набор данных из наиболее популярных Twitter ботов и доступен на Kaggle [2].

Среди ботов есть те которые относятся к визуализации данных [3], а также много других, весьма любопытных. В принципе, Botwiki - это хорошая база идей по созданию альтернатив наиболее интересных/успешных ботов для других платформ.

При этом, там практически нет ни одного телеграм бота.

Ссылки:
[1] https://botwiki.org
[2] https://www.kaggle.com/fourtonfish/popular-twitter-bots
[3] https://botwiki.org/?s=dataviz&search-filters-options%5B%5D=everything

#data #datasets #bots
В Ведомостях статья " Банки столкнулись с проблемой блокировки переводов на запрещенных сайтах" [1] о том что у банков нет доступа реестру запрещённых сайтов и они не могут автоматически проверять своих клиентов и блокировать им переводы, по новым требованиям.

В статье, в принципе, скрытый, но чёткий намек что Роскомнадзор как бы, делает всё так, чтобы другим закон было выполнять неудобно. А это не абы что, а требования закона «О противодействии легализации доходов, полученных преступным путем, и финансированию терроризма» (115-ФЗ) поправки в который вступили в силу 13 июля и за невыполнение которого ЦБ может у банка вплоть до того что отозвать лицензию.

Всё это про два практических аспекта ведения этого самого реестра запрещённых сайтов:
1. Отсутствие в нём сведений о формальных основаниях блокировки, о чём есть в статье.
2. Недоступность его ни для кого кроме телеком операторов. Хотя, по хорошему, он вообще как открытые данные должен был бы публиковаться. Ну или в неком регламентированном режиме доступа, ограниченный не только телеком операторами.

Но технические подробности этого реестра и насколько хорошо (скорее плохо) его Роскомнадзор ведет я хочу сейчас отставить в сторону. Сам факт смешения борьбы с онлайн казино, незаконными операциями в интернет и использования реестра для политической цензуры довольно сильно дискредитирует эту затею.

А вот на что стоит обратить внимание так это на вот этот абзац



Кроме автоматизации доступа к реестру запрещенных сайтов, банки описали и другие проблемы, возникшие из-за новых требований.

Сейчас нет единого реестра доменных имен с информацией об их владельцах-юрлицах, а регистраторов доменных имен только в России больше 30, говорится в письме. Агрегированная информация от регистраторов о том, какому юрлицу или ИП принадлежит определенный домен, предоставляется только правоохранительным органам. Поэтому у банков возникает сложность с установлением наличия у клиента каких-либо доменных имен, зарегистрированных в зоне .ru или любой другой, отмечается в письме. Если клиент не сообщит о владении каким-либо доменом, установить полный и актуальный список сайтов, принадлежащих ему, невозможно. РКН ответил банкам, что у ведомства нет «специализированных механизмов», которые позволяют определить принадлежность домена или указателя страницы сайта лицу, оказывающему услуги в интернете.

Это очень прозрачный намек на будущее регулирование через создание такого реестра "конечных бенефициаров или аффилированных лиц' с интернет-доменами. Это только кажется сложной задачей провязать домены с компаниями и ИП, а на практике у этого много интересантов и тотальная гос-перепись доменов с их привязкой к юридическим лицам более чем возможна, весьма вероятно и весьма ожидаема.

Ссылки:
[1] https://www.vedomosti.ru/finance/articles/2021/09/01/884745-banki-blokirovki

#it #regulation #domains #data
Forwarded from APICrafter
В Tinkoff Journal статья Алексея Смагина о такси зарегистрированных в России и в Москве и области с цифрами статистики и не только https://journal.tinkoff.ru/taxi-stat/
и с данными о типах машин используемых таксистами.

От проекта Datacrafter мы предоставили редакции полный набор данных о такси в городе Москве и области https://beta.apicrafter.ru/tables/mostaxi/licenses

Если Вы журналист, работаете над материалом основанном на данных и эти данные у нас есть или мы можем их собрать - пишите нам на [email protected] и мы постараемся Вам помочь!
В США появился портал Evaluation.gov [1] посвящённый доказательной политике и составлению Annual evaluation plans и иным активностям вокруг этой темы. Например, в плане казначейства [2] есть такой пункт как "How are consumers using USAspending.gov?". Жаль таких вопросов мало по российским порталам и ГИСам

Ссылки:
[1] https://www.evaluation.gov/
[2] https://home.treasury.gov/system/files/266/Treasury-FY22-Annual-Evaluation-Plan.pdf

#data #us #evidence
В качестве небольшого оффтопика интересный патент на звуковое оружие подавляющее возможность говорить раскопало издание New Scientist [1] (закрыто пэйволом) и пишет об этом Interesting Engineering [2]. Сам патент на Acoustic hailing and disruption (AHAD) уже применяется и внедрент в ВМФ США.

Суть в том что акустические волны воспроизволят то что говорит человек и нарушают его способность говорить. Фактически дезориентируя людей ведущих любой разговор. Вместе с оружием выводящим из строя или блокирующим электронные устройства, можно воистину парализовать любое общение между людьми.

Ссылки:
[1] https://www.newscientist.com/article/2287973-sneaky-us-navy-feedback-device-could-stop-people-being-able-to-speak/
[2] https://interestingengineering.com/a-new-navy-weapon-actually-stops-you-from-talking

#tech #weapons
Digital Public Infrastructure не новый термин, но активно развивающийся в свежем докладе "Co-Develop: Digital Public Infrastructure for an Equitable Recovery" [1] от Rockfellr Foundation.

Там есть многое о том что государства, могут и должны бы создавать инфраструктуру для оперативного реагирования на кризисы, помощи бедным и пострадавшим и ещё многое и о том что это все непросто и поэтому открытые решения на базе открытого кода в том числе с созданием инфраструктуры несколькими странами сообща - вот то что нужно делать. Там же упоминаются Digital Common Goods как цифровые продукты пригодные для повторного использования.

Доклад полезный для понимания подходов которые будут продвигать на базе ООН в ближайшие годы.

А если перевести термин на русский язык, то он будет звучать как Общественная цифровая инфраструктура (ОЦИ) или "Цифровая общественная инфраструктура" (ЦОИ). Запомните эти названия, готов поспорить что в течении года кто-то в федеральном правительстве или крупных регионах запустят их в общественный оборот.

Главное чтобы не забыли что открытость кода, данных и доступа к инфраструктуре лежат в основе этой идеи.

Ссылки:
[1] https://www.rockefellerfoundation.org/report/co-develop-digital-public-infrastructure-for-an-equitable-recovery/

#opensouce #data #digital #opendata
Для тех кто интересуется веб архивацией и не только, подборка сервисов и ПО которые помогают в работе:
- Интернет-архив https://web.archive.org - помимо того что огромный архив наиболее популярных веб-страниц и веб-сайтов, также можно через него сохранять данные о сайтах отправляю туда конкретные страницы которых там нет
- Archive.Today https://archive.ph сохраняет веб страницы делая их полные слепки и скриншоты которые потом можно сохранить локально
- Time Travel http://yangx.toptravel.mementoweb.org сервис позволяющий находить слепки страницы веб-сайта в десятках веб архивов. Часть проекта Memento по стандартизации доступа к веб-архивам
- WARCreate https://chrome.google.com/webstore/detail/warcreate/kenncghfghgolcbmckhiljgaabnpcaaa?hl=en&gl=US расширение для Google Chrome по сохранению веб страницы в формате WARC
- ArchiveBox https://archivebox.io инструмент для создания личной коллекции архивов из закладок в браузере. Зрелый продукт с открытым кодом с многочисленными возможностями по сохранению веб-страниц
- Perma.cc https://perma.cc сервис сохранения веб страниц для использования в научных статьях. Бесплатные аккаунты для научных учреждений и платные для юридических фирм.
- Stillio https://www.stillio.com сервис регулярных, ежесуточных, скриншотов выбранных веб страниц. Платный, с частотой от ежемесячной до каждых 5 минут.

Все это полезно когда Вам надо сохранить, например, какую-либо веб-страницу и пока ещё не требуется её нотариальное заверение, но уже нужна 3-я подтверждающая сторона.

А также, для тех кто программирует Awesome Web Archiving https://github.com/iipc/awesome-web-archiving большая коллекция, в основном примеров кода, библиотек и инструментов по разным аспектам создания и работы с веб архивами.

#webarchives #tools #digitalpreservation
В Москве завтра проходит Московский финансовый форум. Я когда-то давно принимал в нём участие и не могу не отметить два важных изменения последнего времени:
1. Из программы форума исчезло всё что касается открытости [1]. Это, де факто, означает исчезновения открытости и прозрачности как приоритета. Осталось только инициативное бюджетирование, но в той форме каким оно было и осталось последние 7 лет. Значит ли это что открытость в госфинансах/финансах перестала быть частью мировой повестки? Нет. Только перестала быть часть повестки Минфина РФ.
2. Куда-то, исчезли материалы всех прошедших ранее форумов. На сайте пишут что форуму 5 лет [2], а материалов за эти 5 лет нету

Ссылки:
[1] https://mff.minfin.ru/forum/program/
[2] https://mff.minfin.ru

#govfinances #events #finances
Forwarded from ministryofpoems
Министерство финансов нашей с Вами любимой федерации
Вышло из состояния перманентной гибернации
Мониторинг закупок оно выпустило в свет [1]
И я читаю этот ... интересный документ

Первое на что стоит обратить внимание
На замену дотошностью понимания
Много цифр по разным, возможно, поводам
Имитируют удовлетворение информационного голода

На практике
Это тактика
Стратегия в вопросах куда более сложных
И потому незатронутых. Очень всё осторожно!

Например, зачем в законе смешаны госкомпании и бюджетные учреждения
Почему они в одинаковом положении?
Если у госкомпаний ещё могут быть секретные подрядчики
То какие, к лешему, они у остальных зайчиков?

Почему мы не знаем поставщиков университет
Если закупакет он по 223-ФЗ из внебюджета?

Впрочем есть и важные вопросы
Вокруг которых авторы отчета "наматывали тросы"
Это объём закупок у единственного исполнителя
Согласитесь, вопрос волнительный

Но и тут от смысла есть уклонения
Просто до недоумения
Важно не только кто там единоисполнитель
Но и кто его лееятель и хулитель

Группировать поставщиков важно и нужно
По их принадлежности к государственной службе
Не просто так ед исполнители на анаболиках
А учрежденные госухой субъекты госэкономики

Особенно когда ед исполнитель подвед у госзаказчика
Для заказчика это такой свой, управляемый зайчик
Одной рукой бабло ему подкидываешь в ненасытное рыло
Другой выбираешь чьё горло в этом рыле бы было

В общем, напомню, мониторинг там без смысловой части
Мало кому интересны вопросы реальной мат части
Богатые богаче, бедные беднее
Так описать ситуацию будет вернее

Ссылки:
[1] https://minfin.gov.ru/ru/document/?id_4=134177-monitoring_primeneniya_federalnogo_zakona_ot_18_iyulya_2011_g.__223-fz_o_zakupkakh_tovarov_rabot_uslug_otdelnymi_vidami_yuridicheskikh_lits_v_2020_godu#

#госзакупки #procurement #spending
О том как создаются открытые наборы данных чуть ли не с нуля. Dolthub, большой публичный каталог и сервис хостинга данных по аналогии с Github, объявили конкурс на создание набора данных по бизнесу зарегистрированному в США [1]. Для тех кто не знает, в США до сих пор нет централизованного реестра компаний, вместо этого есть множество реестров в штатах по отдельности и несколько реестров юридических лиц созданных частными компаниями и предоставляемыми за большие деньги. Вот и в Dolthub финансируют решение проблемы с общедоступностью реестра организаций в США.

Одно из компаний создающих коммерческие реестры юр. лиц является D&B (Dun & Bradstreet, Inc.) [2]. Именно их идентификатор с определенного момента стал обязательным для участия в государственных закупках в США. Для того чтобы стать подрядчиком для федеральной власти в США нужно иметь номер DUNS выдаваемый D&B и D&B также держат реестр с регистрационной информацией организации. Но дело этим не заканчивается, эту информацию они рассматривают как их интеллектуальную собственность и, поэтому, при сборе о компаниях, если эти сведения из D&B, то Вы не имеете права использовать их для воссоздания их продукта. На сайте USASpending.gov есть специальная оговорка [3] по поводу использования и сбора данных из D&B. То есть если они раскрываются правительством США на официальном сайте, ещё не факт что Вы имеете право это использовать как-либо в антикоррупционных целях или целях комплаенс.

Я не знаю как эту проблему будут решать в Dolthub и участники их конкурса, потому что код DUNS упоминается в структуре набора данных который они хотят создать, а его использование почти 100% приведет к требованиям от D&B о запрете использования такого сводного набора данных.

В качестве итога хочу сказать что всё познается в сравнении. Есть страны где реестродержатели базы юридических лиц - это коммерческие регистраторы, есть те где нет централизованного реестра, есть те где любые сведения стоят очень больших денег. Поэтому можно обратить внимание что в проектах вроде OpenCorporates [4] и OpenOwnership [5] участвует всё ещё ограниченное число стран, многие из которых на себя обязательства по раскрытию сведений в рамках инициатив по политической открытости / открытости в целях мониторинга отмывания среде приобретенных незаконным путем.

Если вернуться к проблеме с DUNS номерами, то правительство США планирует окончательно отказаться от них к 22 апреля 2022 года [6], немногим больше чем через полгода. Вместо этого всем поставщикам и получателем средств из федерального бюджета США будет присваиваться Unique Entity ID (SAM) в системе sam.gov, а для проверки достоверности сведений будет выбран сервис валидации (validation provider). Это уже к вопросу о качестве данных о юридических лицах в информационных системах и достоверности сведений.

Ссылки:
[1] https://www.dolthub.com/blog/2021-09-07-announcing-10000-usd-us-businesses-bounty/
[2] https://www.dnb.com/
[3] https://www.usaspending.gov/db_info
[4] https://opencorporates.com
[5] https://www.openownership.org
[6] https://www.gsa.gov/about-us/organization/federal-acquisition-service/office-of-systems-management/integrated-award-environment-iae/iae-systems-information-kit/unique-entity-identifier-update
[7] https://sam.gov

#opendata #datasets #procurement #usa
В рубрике интересные наборы данных, свежий, запущенный 1 сентября [1] проект Open Sanctions [2] который, как Вы уже догадались, про санкции и про лиц которые под санкцими или могут под них попасть.

В проекте собраны наборы данных из 22 источников, по 140 тысячам лиц разделенным на категории:
- Consolidated Sanctioned Entities
- Politically Exposed Persons (PEPs)
- Due Diligence List
- Warrants and Criminal Entities

В нем нет поиска, просмотра каждой записи и тд. Это проект именно про данные и все эти данные можно скачать в JSON, CSV, TXT форматах с перечнем всех объектов.

Как вы уже догадываетесь про Россию там много, очень много записей. Интересных для изучения, так что журналистам владеющим работой с данными есть где развернуться.

Например, в списке PEPS'ов [3] 964 человека из России, в Due Diligence List [4] из России 6272 человека, в списках Warrants and Criminal Entities [5] 2862 человека, в списках Consolidated Sanctioned Entities [6] 2446 человек.

И в этих списках почти во всех Россия лидирует, только PEPS'ов мало, но только потому что российских источников нет. А если будут, то будет много.

Ссылки:
[1] https://twitter.com/open_sanctions/status/1432977327282171904
[2] https://opensanctions.org/
[3] https://opensanctions.org/datasets/peps/
[4] https://opensanctions.org/datasets/default/
[5] https://opensanctions.org/datasets/crime/
[6] https://opensanctions.org/datasets/sanctions/

#opendata #sanctions #data #datasets #people
Forwarded from Инфокультура
🗺 С 10 по 30 сентября пройдет масштабный марафон по картографированию городов России в формате открытых данных с помощью OpenStreetMap! Инфокультура и APICrafter @apicrafter выступают партнерами мероприятия и предоставят специальные призы победителям.

Каждый желающий может оставить след на карте и помочь сотням исследователей и активистов собрать данные о стране.

🔹 Почему это важно?
В России большая проблема не только с самими дорогами, но и c данными по ним. Открытых источников данных практически нет, а те, что есть, часто неполные.
Провести анализ доступности транспорта, рассчитать число велодорожек, посмотреть, какие факторы больше всего влияют на число жертв в ДТП — все это возможно только на основе открытых карт OpenStreetMap, данные в которых пополняются самими пользователями.
Но даже накопленных за много лет данных недостаточно для улучшения улиц российских городов. Организаторы конкурса хотят сделать карты полнее, доступнее и лучше, объединив усилия сотен добровольцев со всех уголков страны.

🔹 Что надо фиксировать?
Организаторы выбрали самые важные факторы, влияющие на ДТП, качество городских пространств и общественного транспорта. Это простые, но важные объекты: число полос, скоростной режим, островки безопасности, пешеходные переходы и др., — анализ которых позволит сделать улицы комфортнее.

🏆 В конкурсе 2 номинации — новички и профессионалы. Победители получат денежные призы и специальные подарки от партнеров.

Для тех, кто никогда раньше не работал с картами, организаторы специально подготовили простые инструкции, а также поддержку менторов.

👉 Подробности о конкурсе и регистрация для участия на сайте: https://osm-competition.tilda.ws/
В рубрике интересные наборы данных, базы данных лицензий на программного обеспечения. Их не так уж мало и они, чаще всего, связаны с сервисами которые анализируют исходный код и дают рекомендации, выдают информацию об ограничениях, с ним связанными.

- ScanCode LicenseDB [1] - 1793 текста лицензии и сопроводительные метаданные с указанием компании, категории ПО и ссылки на оригинал.
- SPDX License list [2] - большая коллекция лицензий в многочисленных форматах, включая связанные данные
- Open Source Initiative (OSI) [3] - база лицензий одобренных как лицензии для открытого кода

Наверняка есть и другие базы лицензий, эти наиболее открытые. Им нехватает юридической декомпозиции лицензий и перевод их на понятный язык, но даже в таком виде они могут быть весьма полезны.

Здесь полезно вспомнить про сервис TOS DR (Terms of Service Didn't Read) [4] где авторы задались целью перевести в понятный язык сложновыдуманные условия использования наиболее популярных сервисов. В частности, там есть разбор условий использования Яндекса и Вконтакте, жаль нет других российских сервисов, но никто не мешает помочь им их добавить.

Ссылки:
[1] https://scancode-licensedb.aboutcode.org/index.html
[2] https://github.com/spdx/license-list-data
[3] https://opensource.org/licenses/alphabetical
[4] https://tosdr.org

#privacy #licenses #datasets #opendata
Подумать только, стоит написать про отсутствие архива сайта Московского финфорума как его возвращают. Может лучше его просто не прятать?;) Но на всякий случай мы его заархивируем и сохраним
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
На сайт Московского финансового форума вернули раздел "Архив", содержащий материалы всех предыдущих форумов https://mff.minfin.ru/archive/ ^_^
В Испании открылся единый портал инфраструктуры геопространственных данных IDEE [1]. Карты, кадастр, поиск и ещё многое. Интересно будет сравнить его с российским и аналогичными проектами в других странах. Испанцы обещают много открытых данных, что уже интересно.

Например, журналистам ищущим имущество олигархов и чиновников в Испании.

Ссылки:
[1] https://www.idee.es

#opendata #spain #geodata #eu