Ivan Begtin
8.1K subscribers
2K photos
3 videos
102 files
4.72K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
Вышел доклад Мирового банка об улучшении работы государств в части эффективности и прозрачности и борьбе с коррупцией
Enhancing Government Effectiveness and Transparency : The Fight Against Corruption [1]. Вернее вышел он ещё в октябре 2020 года, а я о нём пишу только сейчас.

Обширный и интересный документ с большим числом примеров, всячески рекомендую. Открытые данные там упоминаются регулярно во множестве проектов, а вот Россия лишь единожды, как Russian Laundromat. Что тут сказать, видимо в России с антикоррупционными практиками куда хуже чем с коррупционными.

Ссылки:
[1] https://documents.worldbank.org/en/publication/documents-reports/documentdetail/235541600116631094/enhancing-government-effectiveness-and-transparency-the-fight-against-corruption

#opendata #wb #russia #anticorruption
Свежая публикация об открытых данных в России в сборнике Open Government Data in Russia [1] за авторством Ольги Пархимович (@ahminfin). Много хороших примеров и изложение того что с открытыми государственными данными в России

Ссылки:
[1] https://link.springer.com/chapter/10.1007/978-3-030-42855-6_22

#opendata #opengov
Стартап Anomalo [1] специализируется на автоматизации проверки качества данных, как автоматически, так и через специально подготовленные правила проверки данных. Главный акцент в проверке и документировании данных без написания кода. Сам продукт пока недоступен, есть только скриншоты и анонсы в блоге. А также новость от 17 декабря о получении стартапом первых инвестиций в $5.95 миллионов [2].

Ключевое ноу-хау - это искусственный интеллект пишущий правила для проверки данных.

Подобный проект пока ещё маловероятен в России, слишком немногие компании держат данные в облачных базах данных, сама идея и направления реализации интересны.

Ссылки:
[1] https://www.anomalo.com/
[2] https://news.crunchbase.com/news/anomalo-raises-5-95m-to-validate-data/

#data #dataquality
Московское правительство модернизирует мобильное приложение "Доносчик Помощник Москвы" и за 76.8 миллионов рублей победитель тендера ООО "Программный продукт" доработают его для возможности следить не только за нарушителями парковки, но и за больными коронавирусом, о чём пишет Коммерсант в выпуске N231 [1]. Изначально приложение было разработано в ЦОДД Москвы, а теперь, по всей видимости, и функции ЦОДД расширяются для подобной слежки.

Для поощрения наиболее бдительных доносчиков помощников будет доработана система баллов и возможность обмена баллов на рюкзаки, футболки, кепки.

P.S. Тот редкий случай когда мне сложно сдержать если не эмоции, то иронию, когда изначально разумные идеи цифровизации вырождаются в инструменты слежки, социальной разобщённости и конфликтов. А что будет когда если база этих добровольных помощников утечёт из ЦОДД? Они возьмут на себя ответственность за последующий самосуд?

Ссылки:
[1] https://www.kommersant.ru/doc/4615863

#privacy #security #informers
В сегодняшнем анонсе Павла Дурова о монетизации Телеграм [1], ожидаемый выход его платформы на конкуренцию со Slack за корпоративных пользователей. Хочется надеяться что стоимость аккаунтов в Slack снизится и он начнёт, наконец-то, развиваться.

Поэтому новость позитивная, вполне логичная модель развития для популярного мессенжера с огромным числом ботов и лояльной аудитории. Остаётся вопрос "легализации в России", потому что чем легальнее, тем больше нормативно-правового давления.

Ссылки:
[1] https://yangx.top/durov_russia/29

#telegram #russia
Для тех кто помнит про сервис Keybase.io, его в мае 2020 года купил Zoom [1] и с той поры не понятно будет ли Keybase как-то развиваться, будет ли он в Zoom интегрирован или команда Keybase теперь занята основном продуктом Zoom. Поэтому осталось немало тревоги у сообщества и для тех кто особенно тревожен, появился новый проект Cyph [2] позиционирующий себя как альтернатива Keybase.

Плюсы:
- простая миграция, рассылают приглашения уже зарегистрированным в Keybase
- воспроизведение ключевых функций Keybase: мессенжера, заметок и хранения файлов

Минусы:
- юридическое лицо в штате Вирджиния (State of VA) и, как следствие, настоящих криптопанков это отпугнёт
- устойчивого финансирования пока нет. Есть инвестиции в $1 миллион [3] и некая бизнес модель через платные аккаунты.

Предварительный вывод: интересно понаблюдать и тестировать, но пока не для активного использования

Ссылки:
[1] https://keybase.io/blog/keybase-joins-zoom
[2] http://cyph.com
[3] https://www.crunchbase.com/organization/cyph

#privacy #crypto
Data trusts in Germany and under the GDPR [1] публикация Anouk Ruhaak из Algorithm Watch о том как устроено регулирование через альтернативные модели управления данными под названием "трасты данных" (data trusts). Трасты данных - это специальные организации уполномоченные правительством или пользователями на доверительное хранение и предоставление данных по запросу. В Австралии, к примеру, под data trust понимается предоставление государством доступа к данным которые обычно недоступны, а в контексте GDPR это модель когда Ваши данные хранятся не в дата-корпорации, а в специальной организации посреднике. Кстати, отечественную модель цифрового профиля можно отнести к таким трастам данных, только в данном случае он под контролем государства/ЦБ.

А в данном случае короткая записка на 19 страниц качественного исследования и рекомендаций по корректировке госполитики в Германии. Для России интересно тем что в Германии не общее, а континентальное право и больше вероятности что на него будут смотреть будущие регуляторы/законотворцы.

Ссылки:
[1] https://algorithmwatch.org/wp-content/uploads/2020/12/Data-trusts-in-Germany-and-under-the-GDPR-Anouk-Ruhaak-AlgorithmWatch-2020.pdf

#privacy #data #germany
Хорошая новость что на сайте Минцифры начал обновляться реестр аккредитованных ИТ компаний [1] - за что им спасибо.

И не такая хорошая новость в том что реестр отечественного ПО и реестр заявок на регистрацию не публикуется как открытые данные и по сей день.

Поскольку реестр заявок изначально полнее чем реестр ПО, там и включенные и не включенные заявления, то по ссылке [2] можно скачать его с нашего портала открытых данных в форматах BSON или JSON lines.
В обычный эксель это не загрузишь, у одной заявки может быть более одного заявителя, так что используйте специальное ПО и загружайте данные, например, в MongoDB. Для всех кто хочет вручную или автоматически проанализировать зарегистрированное, поискать аномалии и тд. - это самое то.

Ну а на десерт дамп организаций зарегистрированных на портале Душевная Москва [3] который ведёт Комитет общественных связей Москвы. С их описанием, сайтами, контактами и тд. Мы это уже загружали и далее добавляем в наш общественный проект Открытые НКО [4] где можно работать с данными некоммерческих организаций, а заодно и каждый желающий может поработать с этими данными отдельно в этом дампе.


Ссылки:
[1] https://digital.gov.ru/opendata/7710474375-registergosaccred/
[2] https://ngodata.ru/dataset/reestrporeq
[3] https://ngodata.ru/dataset/dushmosorgs
[4] http://openngo.ru

#opendata #ngo #reestrpo #digital
На сайте Международного бюджетного партнерства (International Budget Partnership) появился набор данных из 171 некоммерческой организации занятых темой налогового равенства [1].
Никого из России там, ожидаемо, нет.

Сама инициатива налогового равенства инициирована IBP ещё в апреле 2020 года [2], с оглядкой на то насколько справедлива государственная налоговая политика в рамках COVID-19.

Ссылки:
[1] https://www.internationalbudget.org/dataset-for-global-scan-of-civil-society-work-on-taxation/
[2] https://www.internationalbudget.org/wp-content/uploads/tax-equity-initiative-strategy-note-april-2020.pdf

#opengov #budgets
Для тех кто одновременно является исследователем и работает в НКО - @infoculture Информационная культура проводит конкурс "Исследователь" - https://ngo-research.ru/contest. Конкурс идёт до конца февраля, времени ещё много.

А я напомню что портал Данные НКО - http://ngodata.ru - это один из порталов данных созданных Инфокультурой для публикации открытых данных. Например, многочисленные наборы данных самой НКО опубликованы там на странице организации http://ngodata.ru/organization/infoculture.

Например, я туда регулярно выкладываю данные из собственных архивов и относящиеся к некоммерческой деятельности и сектору НКО в частности, а из нескольких проектов АНО Инфокультура туда данные выгружаются автоматически, например, из проекта Открытые НКО http://ngodata.ru/dataset/ngo-dumps или данные субсидий из проекта Госзатраты http://ngodata.ru/dataset/subs-dumps

Возвращаясь к конкурсу исследований - если есть идеи, предложения и варианты партнерства, пишите на [email protected]

#opendata #opengov #ngo #contests
Forwarded from Инфокультура
Приглашаем некоммерческие организации к участию в первом независимом конкурсе «Исследователь», организованном Информационной культурой при поддержке Фонда президентских грантов.

Работа некоммерческих организаций сложная и многогранная — она связана с необходимостью искать оптимальные решения в условиях ограниченных ресурсов. Для получения данных о социальных проблемах НКО зачастую проводят собственные исследования. Это позволяет сделать деятельность организации более выверенной, четко направленной и эффективной.

Информационная культура считает, что данные и другие информационные материалы, производимые НКО, опубликованные в открытом доступе, помогают в распространении общественно-полезной информации и способствуют информационному сотрудничеству между некоммерческими организациями, донорами и исследовательскими центрами.

Чтобы привлечь широкое внимание к результатам исследований НКО и полученным выводам, Инфокультура проводит конкурс «Исследователь».

Принять участие в нем могут российские некоммерческие организации, проводившие исследования в период с января 2017 по ноябрь 2020 года.
Конкурс проходит с 25 декабря по 25 февраля. Сбор заявок продлится до 31 января.

Победители конкурса получат возможность поработать под руководством профессионалов над результатами своего исследования с использованием современных аналитических и цифровых методов — разработать медиапроект, создать инфографику, визуализацию, интерактивный отчет и проч.

Подать заявку: https://ngo-research.ru/contest.
О разных подходах к цифровой архивации.

Я под конец года думаю, анализирую и свожу вместе краткий отчет по Национальному цифровому архиву России (ruarxive.org) который будет развиваться на следующий год и вообще много всего запланировано по нашим проектам как внутри СП РФ (госзакупки, госфинансы и др.) так и в общественном пространстве (НКО, архивы, каталоги данных и тд). Но конкретно архивы много лет были моим хобби, наконец-то хочется дать этому хобби институциональную опору.

Постепенно я буду буду больше и чаще писать про цифровую архивацию, тема плохо развита у нас в стране, а потребность в ней всё выше. При этом во всем мире с ней довольно много проблем именно в последние годы


Например, очень многие сведения, данные, документы, ресурсы не поддаются классической веб-архивации. Они либо концентрируются в конкретных платформах со своими ограничениями для краулеров, либо закрыты через технологии вроде Ajax, каптчу и ещё многими разными способами.

Вот пример того что не поддается классической веб-архивации:
- социальные сети (Facebook, VK, Odnoklassniki, Twitter, Instagram)
- файловые хранилища: Yandex.Disk, Google Drive,
- мессенжеры (публичные каналы и чаты): Telegram, Viber, WhatsApp и др.
- видео и аудиохостинги: Youtube, Vimeo, Soundcloud и др. (самый тяжёлый контент)
- мобильные приложения: Google Store, AppStore и др.
- порталы данных: на базе CKAN, DKAN, JKAN, OpenDataSoft и других.
и, в целом, с каждым годом такого всё больше.

Как с этим бороться?
Нужны специальные программы сбора данных с конкретных платформ, но платформы этому активно мешают. Instagram и Twitter ужесточают требования на доступ к API, Facebook изначально ничего не отдаёт, меняются требования по доступу к другим ресурсам.

Есть коммерческие решения по сбору данных с платформ, но очень дорогие. Есть некоммерческие, но далеко не все и не все актуально работающие.

Как делать такие программы?
Развилки и возможности таковы:
1. Делать своими силами, привлечь 1-2 программистов и работа по ТЗ
2. Разместить задачи на сайтах для фрилансеров, опять же надо подготовить ТЗ.
3. Устроить конкурс для разработчиков с денежными призами
4. "Вписаться в большую движуху" вроде Google Summer of Code и дать туда свои задачи по цифровой архивации
5. Придумать способ договариваться с платформами чтобы они давали возможность получать экспорт данных наиболее значимых ресурсов хранимых у них?


#archives #digitalpreservation #webarchive
В регионах проблема с доступностью открытых данных даже хуже чем на федеральном уровне. Ну а проблема всё та же, на открытые данные все в субъектах федерации "забили" сразу после окончания срока президентства Дмитрия Медведева, да и до этого, двигалось всё очень тяжело.

Но хорошо что есть издания, НКО и просто активные люди кто обращает на это внимание и хорошо что, всё же, есть и те госорганы которые понимают что открытость - это нормально и, более того, можно использовать в своей работе чтобы привлекать ИТ сообщества к решению общих проблем.

Но вот город Владимир отличился, создать раздел открытые данные и не обновлять его 8 лет.

#opendata #opengov
Forwarded from ПроВладимир (Kirill)
На сайте администрации Владимирской области есть раздел «Открытые данные». Последнее обновление в нем − от 2012 года. Другого Big Data у них нет ни для внешнего пользования, ни для внутреннего.

Издатель ПроВладимира Алексей Шляпужников на экспертном совете в РАНХиГС затронул проблему использования современных технологий анализа данных, точнее, ее неиспользования администрацией Владимирской области.

«Система сбора анализа данных, которые сегодня работают в регионе, они не связаны друг с другом. Чуть ли не каждый департамент использует свою собственную систему, свой набор данных, который не линкуется. Из этого, конечно, происходит тот самый (недавно, то ли придумано, то ли вспомнено Медведевым) разнотык. И, конечно, Владимирская область, к моему величайшему сожалению, выглядит столицей разнотыка».

https://provladimir.ru/2020/12/24/aleksej-shljapuzhnikov-likero-vodochnyj-magazin-luchshe-znaet-svoego-pokupatelja-chem-administracija-vladimirskoj-oblasti-zhitelej/
Я за этот год очень много чего плохого (недоброжелательного) написал про Мэрию Москвы, особенно в части работы с данными, но это не значит что "всё плохо". Есть и то за что можно и нужно хвалить. Например, Главархив Москвы разместил у себя на сайте все церковные метрические книги [1] с 1726 года по 1932 год. Об этом есть новость на сайте Мэрии Москвы [2] и обещают в следующем году оцифровать ревизские сказки - переписи населения того времени.

В следующем году мы будем перезапускать наш проект Национального цифрового архива [3] и запускать его подпроекты и эти книги мы также обязательно будем интегрировать в наш архив.

В любом случае - это новость Мэрии Здорового Человека, хорошо что такая оцифровка идёт, хорошо что такие материалы доступны.

Ссылки:
[1] https://cgamos.ru/metric-books/
[2] https://www.mos.ru/news/item/84607073/
[3] http://ruarxive.org

#archives #digitalpreservation #moscow
Пока мы в России, относительно мирно, справляем новый год, в США GoDaddy, известный сервис регистрации доменных имён, разослали сотрудникам фишинговое письмо с предложением получить годовой бонус в $650 и более 500 сотрудников кликнули на ссылку в письме [1] после чего получили ещё одно письмо о необходимости пройти курс о том как устроена социальная инженерия вместо обещанного бонуса.

Не они первые так делают, ранее такие письма рассылали в Tribune Publishing [1] и чем, как и в случае GoDaddy, порядком разозлили сотрудников.

С одной стороны - это весьма неэтичный способ обучать персонал, а с другой, весьма показательный и демонстративный пример с чем могут столкнуться многие компании к новому году, но уже от лица реальных злоумышленников.

Так что берегите себя и не спешите нажимать на ссылки с обещаниями бонус/премий/подарков от Вашей компании, а то может оказаться что следующий год начнётся с тренинга по безопасности или со взломанной электронной почты.

Ссылки:
[1] https://coppercourier.com/story/godaddy-employees-holiday-bonus-secruity-test/

#happynewyear #security #badpractices
Для тех кто работает с данными по частотам слов, например, фамилий, имён, отчеств для определения пола человека или с другими целями, свежий вычищенный набор данных созданный на основе данных ФИО о персонах в ЕГРЮЛ и ЕГРИП [1].

В наборе данных представлены 3 таблицы:

midnames - отчества, 7040 записей
names - имена, 4874 записи
surnames - фамилии, 48 540 Записей

это покрывает: 96% всех персон по именам, 95% всех персон по отчествам и около 82.5% всех персон по фамилиям

Все таблицы сформированы из первичных данных из 22 млн 617 тыс. записях о персонах с отсевом записей встречающихся не реже 50 раз, прошедшие последующую пост обработку, вычистку мусорных и неверных записей, а также обогащённые данные по полу, поле gender.
Для отчеств пол указан в однозначных значениях: m - мужской, f - женский Для фамилий пол указан в однозначных значениях: m - мужской, f - женский, u - нейтральный (пол невозможно идентифицировать) Для имён пол указан как: m - мужской, f - женский и добавлено поле gender_p - частотное измерение в процентах вероятности что имя относится к данному полу. Например, для имени "Джиргал", пол будет указан как женский "f", а точность будет как 57.97% что будет означать что для всего объёма записей о персонах у 57.97% это были лица женского пола, а остальные мужского.
Общие поля таблиц:

text - имя/фамилия/отчество в зависимости от таблиц
num - число записей где встречается
gender - пол (f - женский, m - мужской, u - невозможно определить)
regorgs - частота встречаемости по кодам субъектов федерации, на основе данных ИНН юридических лиц и ИП
regfl - частота встречаемости по кодам субъектов федерации на основе ИНН физического лица - ИП или руководителя организации


Дополнительные поля
Для таблицы midnames (отчетства)

fname - имя от которого порождено отчество

Для таблицы surnames (фамилии)

f_form - женская форма фамилии
m_form - мужская форма фамилии
fname - имя, если фамилия происходит от имени. Например, для фамилии "Иванов" это будет имя "Иван"

Все данные представлены в формате JSON lines, могут быть загружены в СУБД, например, в MongoDB через утилиту mongoimport или любым иным способом.

Эти таблицы могут использоваться взамен таблиц с неочищенными данными проекта с открытым кодом с одноимённым названием russiannames [2] и, соответственно, использоваться для задач связанных с парсингом и идентификацией форм записи ФИО или же определением пола лица за пределами самых очевидных случаев наиболее популярных имён и когда отчество, к примеру, отсутствует или внесено неправильно.

Ещё раз отмечу что это уже очищенные данные, прошедшие неоднократные тесты, если кто-то захочет поработать и проанализировать менее чистые данные, то пишите мне. Это будет в общей сложности 104 тысячи имён, 196 тысяч отчеств и 760 тысяч фамилий. В них много, очень много ошибок потому что, как выяснилось, ЕГРЮЛ и ЕГРИП содержат огромное число ошибок и иных проблем с данными по ФИО. Но для алгоритмов автоматической очистки данных они могут быть полезны.

Ссылки:
[1] https://ngodata.ru/dataset/russiannames
[2] https://github.com/datacoon/russiannames

#opendata #data #persons #datasets #dataset
Я ранее публиковал базу получателей средств от Фонда содействия инновациям (известный также как Фонд Бортника) [1]
Эта база построена на основе реестра контрактов по ссылке [2] где публикуется 5921 контракт, но, как выяснилось, это далеко не полный их список. Хотя данные оттуда собрать было очень легко

Полный список из 12731 проекта/получателя средств пока ещё публикуется по ссылке https://online.fasie.ru/Contracts.aspx [3], которая устроена гораздо хуже и требует привлечения специалиста по скрейпингу данных из систем где используется .NET.

Необходимо по этой ссылке собрать данные по всем проектам и сделать таблицу с такими данными:
- Номер договора
- Конкурс
- Название
- Исполнитель
- Ссылка на сайт исполнителя
- Регион
- Цена
- Закрыт
- Претензия/Иск

Сохранить надо это всё в формат CSV или JSON lines.
Все эти данные потому будут опубликованы в открытом доступе как архивные.

В моей команде ребята практически все заняты ещё до конца года и середины января, поэтому:

- если есть кто-то готовый сделать это как волонтёр, то было бы прекрасно. Присылайте сразу данные)
- если готовы сделать за небольшие деньги как фриланс, напишите, если они в пределах разумного, то быстро договоримся.

Пока пишу у себя в блоге и на каналах, если не найдется волонтер/фрилансер, то тогда уже сами соберем до середины января. Очень надеюсь что до того момента Правительство не прикроет Фонд содействия инновациям и все данные не исчезнут;)

Ссылки:
[1] https://ngodata.ru/dataset/fasie-orgs
[2] https://online.fasie.ru/m/public-contracts/registry
[3] https://online.fasie.ru/Contracts.aspx

#opendata #data #helpneeded
CatchJS [1], небольшой стартап по оптимизации кода веб-приложений через отлавливание ошибок в JavaScript, выложили у себя в блоге результаты мониторинга ошибок на более чем 1 миллионе веб-страниц [2] и опубликовали полный набор данных на Kaggle [3]

Набор не самый большой, исследование не самое детальное, хотя и полезное, для веб-разработчиков. В этом смысле Kaggle постепенно превращается в один из крупнейших порталов открытых данных в мире, с более чем 66 тысячами наборов данных [4], чаще публикуемых коммерческими компаниями чем госорганами.

Для любых данных на английском языке где нужно вовлечение большого числа исследователей - Kaggle сейчас одна из лучших площадок.

Ссылки:
[1] https://catchjs.com/
[2] https://catchjs.com/Blog/PerformanceInTheWild
[3] https://www.kaggle.com/indexhtml/web-performance-metrics
[4] https://www.kaggle.com/datasets

#opendata #data
Один из важных вопросов в том какая политика в отношении открытости будет у Администрации Байдена, в США. Тот же Дональд Трамп сразу после прихода в Белый Дом отменил многие инициативы Барака Обамы (но не все) по открытости собственной администрации. И пока мы не знаем будет ли перезапуск открытости в США, CODE (Center of Open Data Enterprise) опубликовали доклад о необходимо открывать данные о COVID-19 и системе здравоохранения [1]. CODE - это НКО из Вашингтона (лоббисты и консультанты в общем). Среди их рекомендаций раскрытие сведений о социальных определяющих здоровья и установление информационно-координационного центра / клиринговый центр (clearinghouse) по обмену данными.

Очень похоже на модель Data Trusts в Европейском Союзе и в других странах. Похоже что в следующем году будет много интересного в области регулирования данных в мире. Во всяком случае лоббисты уже работают во всю.

Доклад в PDF можно прочитать по ссылке [2].

Ссылки:
[1] https://www.fedscoop.com/open-data-critical-tool-new-administrations-covid-19-strategy/
[2] https://healthdatasharing.org/wp-content/uploads/2020/12/COVID-SDOH-Summary-Report-Final.pdf

#opendata #data #health #usa
Éric Bothorel, депутат Национального собрания Франции, представил результат полугодовой работы по формированию единой госполитики в области данных. В докладе Pour une politique publique de la donnée [1] описаны ключевые подходы, текущая практика, результаты консультаций и много иных полезных материалов и рекомендаций.

Вся работа над докладом шла в публичном режиме, материалы публиковались на посвящённом ему сайте [2], а сама работа шла по прямому поручению премьер-министра Франции.

В докладе очень много всего и про открытые данные, и про открытый код, и сам он хорошо оформлен и структурирован, единственное что усложняет - это французский язык поскольку, на английском доклада этого нет. Признаться читать тексты на французском требует куда больше усилий чем на английском или испанском, но возможно именно этот доклад стоит того чтобы в него вчитаться.

Ссылки:
[1] https://acteurspublics.fr/upload/media/default/0001/32/602a4ef6c2a2d5b0231eb08706a240503fe08a1b.pdf
[2] https://www.mission-open-data.fr/

#opendata #france