Вышел доклад Мирового банка об улучшении работы государств в части эффективности и прозрачности и борьбе с коррупцией
Enhancing Government Effectiveness and Transparency : The Fight Against Corruption [1]. Вернее вышел он ещё в октябре 2020 года, а я о нём пишу только сейчас.
Обширный и интересный документ с большим числом примеров, всячески рекомендую. Открытые данные там упоминаются регулярно во множестве проектов, а вот Россия лишь единожды, как Russian Laundromat. Что тут сказать, видимо в России с антикоррупционными практиками куда хуже чем с коррупционными.
Ссылки:
[1] https://documents.worldbank.org/en/publication/documents-reports/documentdetail/235541600116631094/enhancing-government-effectiveness-and-transparency-the-fight-against-corruption
#opendata #wb #russia #anticorruption
Enhancing Government Effectiveness and Transparency : The Fight Against Corruption [1]. Вернее вышел он ещё в октябре 2020 года, а я о нём пишу только сейчас.
Обширный и интересный документ с большим числом примеров, всячески рекомендую. Открытые данные там упоминаются регулярно во множестве проектов, а вот Россия лишь единожды, как Russian Laundromat. Что тут сказать, видимо в России с антикоррупционными практиками куда хуже чем с коррупционными.
Ссылки:
[1] https://documents.worldbank.org/en/publication/documents-reports/documentdetail/235541600116631094/enhancing-government-effectiveness-and-transparency-the-fight-against-corruption
#opendata #wb #russia #anticorruption
World Bank
Enhancing Government Effectiveness and Transparency : The Fight Against Corruption
News headlines over the last few years have been filled with global scandals involving corruption on an unprecedented scale. They touch virtuallyevery continent, from .
Свежая публикация об открытых данных в России в сборнике Open Government Data in Russia [1] за авторством Ольги Пархимович (@ahminfin). Много хороших примеров и изложение того что с открытыми государственными данными в России
Ссылки:
[1] https://link.springer.com/chapter/10.1007/978-3-030-42855-6_22
#opendata #opengov
Ссылки:
[1] https://link.springer.com/chapter/10.1007/978-3-030-42855-6_22
#opendata #opengov
SpringerLink
Open Government Data in Russia
This chapter provides a brief overview of the history and current state of open government data in Russia. First, it discusses the concept of “open data” and defines the basic principles of open government data. It further describes the institutional,...
Стартап Anomalo [1] специализируется на автоматизации проверки качества данных, как автоматически, так и через специально подготовленные правила проверки данных. Главный акцент в проверке и документировании данных без написания кода. Сам продукт пока недоступен, есть только скриншоты и анонсы в блоге. А также новость от 17 декабря о получении стартапом первых инвестиций в $5.95 миллионов [2].
Ключевое ноу-хау - это искусственный интеллект пишущий правила для проверки данных.
Подобный проект пока ещё маловероятен в России, слишком немногие компании держат данные в облачных базах данных, сама идея и направления реализации интересны.
Ссылки:
[1] https://www.anomalo.com/
[2] https://news.crunchbase.com/news/anomalo-raises-5-95m-to-validate-data/
#data #dataquality
Ключевое ноу-хау - это искусственный интеллект пишущий правила для проверки данных.
Подобный проект пока ещё маловероятен в России, слишком немногие компании держат данные в облачных базах данных, сама идея и направления реализации интересны.
Ссылки:
[1] https://www.anomalo.com/
[2] https://news.crunchbase.com/news/anomalo-raises-5-95m-to-validate-data/
#data #dataquality
Anomalo
Home
Anomalo's Data Quality Software uses automated AI to detect data quality issues and understand their root causes, before anyone else. Get started today!
Московское правительство модернизирует мобильное приложение "Доносчик Помощник Москвы" и за 76.8 миллионов рублей победитель тендера ООО "Программный продукт" доработают его для возможности следить не только за нарушителями парковки, но и за больными коронавирусом, о чём пишет Коммерсант в выпуске N231 [1]. Изначально приложение было разработано в ЦОДД Москвы, а теперь, по всей видимости, и функции ЦОДД расширяются для подобной слежки.
Для поощрения наиболее бдительныхдоносчиков помощников будет доработана система баллов и возможность обмена баллов на рюкзаки, футболки, кепки.
P.S. Тот редкий случай когда мне сложно сдержать если не эмоции, то иронию, когда изначально разумные идеи цифровизации вырождаются в инструменты слежки, социальной разобщённости и конфликтов. А что будеткогда если база этих добровольных помощников утечёт из ЦОДД? Они возьмут на себя ответственность за последующий самосуд?
Ссылки:
[1] https://www.kommersant.ru/doc/4615863
#privacy #security #informers
Для поощрения наиболее бдительных
P.S. Тот редкий случай когда мне сложно сдержать если не эмоции, то иронию, когда изначально разумные идеи цифровизации вырождаются в инструменты слежки, социальной разобщённости и конфликтов. А что будет
Ссылки:
[1] https://www.kommersant.ru/doc/4615863
#privacy #security #informers
Коммерсантъ
Доброжелатель Москвы
Мэрия Москвы заказала за 76,8 млн руб. модернизацию системы «Помощник Москвы», с помощью которой сейчас можно жаловаться на нарушителей правил парковки. Новые функции позволят пользователям сообщать через мобильное приложение и о других нарушениях, включая…
В сегодняшнем анонсе Павла Дурова о монетизации Телеграм [1], ожидаемый выход его платформы на конкуренцию со Slack за корпоративных пользователей. Хочется надеяться что стоимость аккаунтов в Slack снизится и он начнёт, наконец-то, развиваться.
Поэтому новость позитивная, вполне логичная модель развития для популярного мессенжера с огромным числом ботов и лояльной аудитории. Остаётся вопрос "легализации в России", потому что чем легальнее, тем больше нормативно-правового давления.
Ссылки:
[1] https://yangx.top/durov_russia/29
#telegram #russia
Поэтому новость позитивная, вполне логичная модель развития для популярного мессенжера с огромным числом ботов и лояльной аудитории. Остаётся вопрос "легализации в России", потому что чем легальнее, тем больше нормативно-правового давления.
Ссылки:
[1] https://yangx.top/durov_russia/29
#telegram #russia
Telegram
Павел Дуров
По мере того, как Telegram приближается к отметке в 500 миллионов активных пользователей, многие задают вопрос: кто будет платить за этот рост? Ведь чем больше пользователей, тем больше расходов на серверы и трафик. А поддержка проектов нашего масштаба обходится…
Для тех кто помнит про сервис Keybase.io, его в мае 2020 года купил Zoom [1] и с той поры не понятно будет ли Keybase как-то развиваться, будет ли он в Zoom интегрирован или команда Keybase теперь занята основном продуктом Zoom. Поэтому осталось немало тревоги у сообщества и для тех кто особенно тревожен, появился новый проект Cyph [2] позиционирующий себя как альтернатива Keybase.
Плюсы:
- простая миграция, рассылают приглашения уже зарегистрированным в Keybase
- воспроизведение ключевых функций Keybase: мессенжера, заметок и хранения файлов
Минусы:
- юридическое лицо в штате Вирджиния (State of VA) и, как следствие, настоящих криптопанков это отпугнёт
- устойчивого финансирования пока нет. Есть инвестиции в $1 миллион [3] и некая бизнес модель через платные аккаунты.
Предварительный вывод: интересно понаблюдать и тестировать, но пока не для активного использования
Ссылки:
[1] https://keybase.io/blog/keybase-joins-zoom
[2] http://cyph.com
[3] https://www.crunchbase.com/organization/cyph
#privacy #crypto
Плюсы:
- простая миграция, рассылают приглашения уже зарегистрированным в Keybase
- воспроизведение ключевых функций Keybase: мессенжера, заметок и хранения файлов
Минусы:
- юридическое лицо в штате Вирджиния (State of VA) и, как следствие, настоящих криптопанков это отпугнёт
- устойчивого финансирования пока нет. Есть инвестиции в $1 миллион [3] и некая бизнес модель через платные аккаунты.
Предварительный вывод: интересно понаблюдать и тестировать, но пока не для активного использования
Ссылки:
[1] https://keybase.io/blog/keybase-joins-zoom
[2] http://cyph.com
[3] https://www.crunchbase.com/organization/cyph
#privacy #crypto
keybase.io
Keybase joins Zoom
Official blog of Keybase
Data trusts in Germany and under the GDPR [1] публикация Anouk Ruhaak из Algorithm Watch о том как устроено регулирование через альтернативные модели управления данными под названием "трасты данных" (data trusts). Трасты данных - это специальные организации уполномоченные правительством или пользователями на доверительное хранение и предоставление данных по запросу. В Австралии, к примеру, под data trust понимается предоставление государством доступа к данным которые обычно недоступны, а в контексте GDPR это модель когда Ваши данные хранятся не в дата-корпорации, а в специальной организации посреднике. Кстати, отечественную модель цифрового профиля можно отнести к таким трастам данных, только в данном случае он под контролем государства/ЦБ.
А в данном случае короткая записка на 19 страниц качественного исследования и рекомендаций по корректировке госполитики в Германии. Для России интересно тем что в Германии не общее, а континентальное право и больше вероятности что на него будут смотреть будущие регуляторы/законотворцы.
Ссылки:
[1] https://algorithmwatch.org/wp-content/uploads/2020/12/Data-trusts-in-Germany-and-under-the-GDPR-Anouk-Ruhaak-AlgorithmWatch-2020.pdf
#privacy #data #germany
А в данном случае короткая записка на 19 страниц качественного исследования и рекомендаций по корректировке госполитики в Германии. Для России интересно тем что в Германии не общее, а континентальное право и больше вероятности что на него будут смотреть будущие регуляторы/законотворцы.
Ссылки:
[1] https://algorithmwatch.org/wp-content/uploads/2020/12/Data-trusts-in-Germany-and-under-the-GDPR-Anouk-Ruhaak-AlgorithmWatch-2020.pdf
#privacy #data #germany
Хорошая новость что на сайте Минцифры начал обновляться реестр аккредитованных ИТ компаний [1] - за что им спасибо.
И не такая хорошая новость в том что реестр отечественного ПО и реестр заявок на регистрацию не публикуется как открытые данные и по сей день.
Поскольку реестр заявок изначально полнее чем реестр ПО, там и включенные и не включенные заявления, то по ссылке [2] можно скачать его с нашего портала открытых данных в форматах BSON или JSON lines.
В обычный эксель это не загрузишь, у одной заявки может быть более одного заявителя, так что используйте специальное ПО и загружайте данные, например, в MongoDB. Для всех кто хочет вручную или автоматически проанализировать зарегистрированное, поискать аномалии и тд. - это самое то.
Ну а на десерт дамп организаций зарегистрированных на портале Душевная Москва [3] который ведёт Комитет общественных связей Москвы. С их описанием, сайтами, контактами и тд. Мы это уже загружали и далее добавляем в наш общественный проект Открытые НКО [4] где можно работать с данными некоммерческих организаций, а заодно и каждый желающий может поработать с этими данными отдельно в этом дампе.
Ссылки:
[1] https://digital.gov.ru/opendata/7710474375-registergosaccred/
[2] https://ngodata.ru/dataset/reestrporeq
[3] https://ngodata.ru/dataset/dushmosorgs
[4] http://openngo.ru
#opendata #ngo #reestrpo #digital
И не такая хорошая новость в том что реестр отечественного ПО и реестр заявок на регистрацию не публикуется как открытые данные и по сей день.
Поскольку реестр заявок изначально полнее чем реестр ПО, там и включенные и не включенные заявления, то по ссылке [2] можно скачать его с нашего портала открытых данных в форматах BSON или JSON lines.
В обычный эксель это не загрузишь, у одной заявки может быть более одного заявителя, так что используйте специальное ПО и загружайте данные, например, в MongoDB. Для всех кто хочет вручную или автоматически проанализировать зарегистрированное, поискать аномалии и тд. - это самое то.
Ну а на десерт дамп организаций зарегистрированных на портале Душевная Москва [3] который ведёт Комитет общественных связей Москвы. С их описанием, сайтами, контактами и тд. Мы это уже загружали и далее добавляем в наш общественный проект Открытые НКО [4] где можно работать с данными некоммерческих организаций, а заодно и каждый желающий может поработать с этими данными отдельно в этом дампе.
Ссылки:
[1] https://digital.gov.ru/opendata/7710474375-registergosaccred/
[2] https://ngodata.ru/dataset/reestrporeq
[3] https://ngodata.ru/dataset/dushmosorgs
[4] http://openngo.ru
#opendata #ngo #reestrpo #digital
ngodata.ru
Реестр запросов на регистрацию отечественного ПО - Данные НКО
Реестр запросов на регистрацию ПО в реестре отечественного ПО с официального сайта реестра отчечественного ПО https://reestr.minsvyaz.ru/request/
Более 9000 записей, данные в форматах JSON lines и...
Более 9000 записей, данные в форматах JSON lines и...
На сайте Международного бюджетного партнерства (International Budget Partnership) появился набор данных из 171 некоммерческой организации занятых темой налогового равенства [1].
Никого из России там, ожидаемо, нет.
Сама инициатива налогового равенства инициирована IBP ещё в апреле 2020 года [2], с оглядкой на то насколько справедлива государственная налоговая политика в рамках COVID-19.
Ссылки:
[1] https://www.internationalbudget.org/dataset-for-global-scan-of-civil-society-work-on-taxation/
[2] https://www.internationalbudget.org/wp-content/uploads/tax-equity-initiative-strategy-note-april-2020.pdf
#opengov #budgets
Никого из России там, ожидаемо, нет.
Сама инициатива налогового равенства инициирована IBP ещё в апреле 2020 года [2], с оглядкой на то насколько справедлива государственная налоговая политика в рамках COVID-19.
Ссылки:
[1] https://www.internationalbudget.org/dataset-for-global-scan-of-civil-society-work-on-taxation/
[2] https://www.internationalbudget.org/wp-content/uploads/tax-equity-initiative-strategy-note-april-2020.pdf
#opengov #budgets
International Budget Partnership
Dataset for global scan of civil society work on taxation | International Budget Partnership
This dataset is a part of our new Tax Equity Initiative’s effort to map civil society engagement with issues of domestic taxation globally. This database was populated by conducting a broad global search for names of civil society organizations working on…
Для тех кто одновременно является исследователем и работает в НКО - @infoculture Информационная культура проводит конкурс "Исследователь" - https://ngo-research.ru/contest. Конкурс идёт до конца февраля, времени ещё много.
А я напомню что портал Данные НКО - http://ngodata.ru - это один из порталов данных созданных Инфокультурой для публикации открытых данных. Например, многочисленные наборы данных самой НКО опубликованы там на странице организации http://ngodata.ru/organization/infoculture.
Например, я туда регулярно выкладываю данные из собственных архивов и относящиеся к некоммерческой деятельности и сектору НКО в частности, а из нескольких проектов АНО Инфокультура туда данные выгружаются автоматически, например, из проекта Открытые НКО http://ngodata.ru/dataset/ngo-dumps или данные субсидий из проекта Госзатраты http://ngodata.ru/dataset/subs-dumps
Возвращаясь к конкурсу исследований - если есть идеи, предложения и варианты партнерства, пишите на [email protected]
#opendata #opengov #ngo #contests
А я напомню что портал Данные НКО - http://ngodata.ru - это один из порталов данных созданных Инфокультурой для публикации открытых данных. Например, многочисленные наборы данных самой НКО опубликованы там на странице организации http://ngodata.ru/organization/infoculture.
Например, я туда регулярно выкладываю данные из собственных архивов и относящиеся к некоммерческой деятельности и сектору НКО в частности, а из нескольких проектов АНО Инфокультура туда данные выгружаются автоматически, например, из проекта Открытые НКО http://ngodata.ru/dataset/ngo-dumps или данные субсидий из проекта Госзатраты http://ngodata.ru/dataset/subs-dumps
Возвращаясь к конкурсу исследований - если есть идеи, предложения и варианты партнерства, пишите на [email protected]
#opendata #opengov #ngo #contests
ngo-research.ru
Конкурс Исследователь
Независимый конкурс исследований, проводимых некоммерческими организациями. Выиграй поддержку экспертов на разработку цифровых итогов своего исследования.
Forwarded from Инфокультура
Приглашаем некоммерческие организации к участию в первом независимом конкурсе «Исследователь», организованном Информационной культурой при поддержке Фонда президентских грантов.
Работа некоммерческих организаций сложная и многогранная — она связана с необходимостью искать оптимальные решения в условиях ограниченных ресурсов. Для получения данных о социальных проблемах НКО зачастую проводят собственные исследования. Это позволяет сделать деятельность организации более выверенной, четко направленной и эффективной.
Информационная культура считает, что данные и другие информационные материалы, производимые НКО, опубликованные в открытом доступе, помогают в распространении общественно-полезной информации и способствуют информационному сотрудничеству между некоммерческими организациями, донорами и исследовательскими центрами.
Чтобы привлечь широкое внимание к результатам исследований НКО и полученным выводам, Инфокультура проводит конкурс «Исследователь».
Принять участие в нем могут российские некоммерческие организации, проводившие исследования в период с января 2017 по ноябрь 2020 года.
Конкурс проходит с 25 декабря по 25 февраля. Сбор заявок продлится до 31 января.
Победители конкурса получат возможность поработать под руководством профессионалов над результатами своего исследования с использованием современных аналитических и цифровых методов — разработать медиапроект, создать инфографику, визуализацию, интерактивный отчет и проч.
Подать заявку: https://ngo-research.ru/contest.
Работа некоммерческих организаций сложная и многогранная — она связана с необходимостью искать оптимальные решения в условиях ограниченных ресурсов. Для получения данных о социальных проблемах НКО зачастую проводят собственные исследования. Это позволяет сделать деятельность организации более выверенной, четко направленной и эффективной.
Информационная культура считает, что данные и другие информационные материалы, производимые НКО, опубликованные в открытом доступе, помогают в распространении общественно-полезной информации и способствуют информационному сотрудничеству между некоммерческими организациями, донорами и исследовательскими центрами.
Чтобы привлечь широкое внимание к результатам исследований НКО и полученным выводам, Инфокультура проводит конкурс «Исследователь».
Принять участие в нем могут российские некоммерческие организации, проводившие исследования в период с января 2017 по ноябрь 2020 года.
Конкурс проходит с 25 декабря по 25 февраля. Сбор заявок продлится до 31 января.
Победители конкурса получат возможность поработать под руководством профессионалов над результатами своего исследования с использованием современных аналитических и цифровых методов — разработать медиапроект, создать инфографику, визуализацию, интерактивный отчет и проч.
Подать заявку: https://ngo-research.ru/contest.
ngo-research.ru
Конкурс Исследователь
Независимый конкурс исследований, проводимых некоммерческими организациями. Выиграй поддержку экспертов на разработку цифровых итогов своего исследования.
О разных подходах к цифровой архивации.
Я под конец года думаю, анализирую и свожу вместе краткий отчет по Национальному цифровому архиву России (ruarxive.org) который будет развиваться на следующий год и вообще много всего запланировано по нашим проектам как внутри СП РФ (госзакупки, госфинансы и др.) так и в общественном пространстве (НКО, архивы, каталоги данных и тд). Но конкретно архивы много лет были моим хобби, наконец-то хочется дать этому хобби институциональную опору.
Постепенно я буду буду больше и чаще писать про цифровую архивацию, тема плохо развита у нас в стране, а потребность в ней всё выше. При этом во всем мире с ней довольно много проблем именно в последние годы
Например, очень многие сведения, данные, документы, ресурсы не поддаются классической веб-архивации. Они либо концентрируются в конкретных платформах со своими ограничениями для краулеров, либо закрыты через технологии вроде Ajax, каптчу и ещё многими разными способами.
Вот пример того что не поддается классической веб-архивации:
- социальные сети (Facebook, VK, Odnoklassniki, Twitter, Instagram)
- файловые хранилища: Yandex.Disk, Google Drive,
- мессенжеры (публичные каналы и чаты): Telegram, Viber, WhatsApp и др.
- видео и аудиохостинги: Youtube, Vimeo, Soundcloud и др. (самый тяжёлый контент)
- мобильные приложения: Google Store, AppStore и др.
- порталы данных: на базе CKAN, DKAN, JKAN, OpenDataSoft и других.
и, в целом, с каждым годом такого всё больше.
Как с этим бороться?
Нужны специальные программы сбора данных с конкретных платформ, но платформы этому активно мешают. Instagram и Twitter ужесточают требования на доступ к API, Facebook изначально ничего не отдаёт, меняются требования по доступу к другим ресурсам.
Есть коммерческие решения по сбору данных с платформ, но очень дорогие. Есть некоммерческие, но далеко не все и не все актуально работающие.
Как делать такие программы?
Развилки и возможности таковы:
1. Делать своими силами, привлечь 1-2 программистов и работа по ТЗ
2. Разместить задачи на сайтах для фрилансеров, опять же надо подготовить ТЗ.
3. Устроить конкурс для разработчиков с денежными призами
4. "Вписаться в большую движуху" вроде Google Summer of Code и дать туда свои задачи по цифровой архивации
5. Придумать способ договариваться с платформами чтобы они давали возможность получать экспорт данных наиболее значимых ресурсов хранимых у них?
#archives #digitalpreservation #webarchive
Я под конец года думаю, анализирую и свожу вместе краткий отчет по Национальному цифровому архиву России (ruarxive.org) который будет развиваться на следующий год и вообще много всего запланировано по нашим проектам как внутри СП РФ (госзакупки, госфинансы и др.) так и в общественном пространстве (НКО, архивы, каталоги данных и тд). Но конкретно архивы много лет были моим хобби, наконец-то хочется дать этому хобби институциональную опору.
Постепенно я буду буду больше и чаще писать про цифровую архивацию, тема плохо развита у нас в стране, а потребность в ней всё выше. При этом во всем мире с ней довольно много проблем именно в последние годы
Например, очень многие сведения, данные, документы, ресурсы не поддаются классической веб-архивации. Они либо концентрируются в конкретных платформах со своими ограничениями для краулеров, либо закрыты через технологии вроде Ajax, каптчу и ещё многими разными способами.
Вот пример того что не поддается классической веб-архивации:
- социальные сети (Facebook, VK, Odnoklassniki, Twitter, Instagram)
- файловые хранилища: Yandex.Disk, Google Drive,
- мессенжеры (публичные каналы и чаты): Telegram, Viber, WhatsApp и др.
- видео и аудиохостинги: Youtube, Vimeo, Soundcloud и др. (самый тяжёлый контент)
- мобильные приложения: Google Store, AppStore и др.
- порталы данных: на базе CKAN, DKAN, JKAN, OpenDataSoft и других.
и, в целом, с каждым годом такого всё больше.
Как с этим бороться?
Нужны специальные программы сбора данных с конкретных платформ, но платформы этому активно мешают. Instagram и Twitter ужесточают требования на доступ к API, Facebook изначально ничего не отдаёт, меняются требования по доступу к другим ресурсам.
Есть коммерческие решения по сбору данных с платформ, но очень дорогие. Есть некоммерческие, но далеко не все и не все актуально работающие.
Как делать такие программы?
Развилки и возможности таковы:
1. Делать своими силами, привлечь 1-2 программистов и работа по ТЗ
2. Разместить задачи на сайтах для фрилансеров, опять же надо подготовить ТЗ.
3. Устроить конкурс для разработчиков с денежными призами
4. "Вписаться в большую движуху" вроде Google Summer of Code и дать туда свои задачи по цифровой архивации
5. Придумать способ договариваться с платформами чтобы они давали возможность получать экспорт данных наиболее значимых ресурсов хранимых у них?
#archives #digitalpreservation #webarchive
В регионах проблема с доступностью открытых данных даже хуже чем на федеральном уровне. Ну а проблема всё та же, на открытые данные все в субъектах федерации "забили" сразу после окончания срока президентства Дмитрия Медведева, да и до этого, двигалось всё очень тяжело.
Но хорошо что есть издания, НКО и просто активные люди кто обращает на это внимание и хорошо что, всё же, есть и те госорганы которые понимают что открытость - это нормально и, более того, можно использовать в своей работе чтобы привлекать ИТ сообщества к решению общих проблем.
Но вот город Владимир отличился, создать раздел открытые данные и не обновлять его 8 лет.
#opendata #opengov
Но хорошо что есть издания, НКО и просто активные люди кто обращает на это внимание и хорошо что, всё же, есть и те госорганы которые понимают что открытость - это нормально и, более того, можно использовать в своей работе чтобы привлекать ИТ сообщества к решению общих проблем.
Но вот город Владимир отличился, создать раздел открытые данные и не обновлять его 8 лет.
#opendata #opengov
Forwarded from ПроВладимир (Kirill)
На сайте администрации Владимирской области есть раздел «Открытые данные». Последнее обновление в нем − от 2012 года. Другого Big Data у них нет ни для внешнего пользования, ни для внутреннего.
Издатель ПроВладимира Алексей Шляпужников на экспертном совете в РАНХиГС затронул проблему использования современных технологий анализа данных, точнее, ее неиспользования администрацией Владимирской области.
«Система сбора анализа данных, которые сегодня работают в регионе, они не связаны друг с другом. Чуть ли не каждый департамент использует свою собственную систему, свой набор данных, который не линкуется. Из этого, конечно, происходит тот самый (недавно, то ли придумано, то ли вспомнено Медведевым) разнотык. И, конечно, Владимирская область, к моему величайшему сожалению, выглядит столицей разнотыка».
https://provladimir.ru/2020/12/24/aleksej-shljapuzhnikov-likero-vodochnyj-magazin-luchshe-znaet-svoego-pokupatelja-chem-administracija-vladimirskoj-oblasti-zhitelej/
Издатель ПроВладимира Алексей Шляпужников на экспертном совете в РАНХиГС затронул проблему использования современных технологий анализа данных, точнее, ее неиспользования администрацией Владимирской области.
«Система сбора анализа данных, которые сегодня работают в регионе, они не связаны друг с другом. Чуть ли не каждый департамент использует свою собственную систему, свой набор данных, который не линкуется. Из этого, конечно, происходит тот самый (недавно, то ли придумано, то ли вспомнено Медведевым) разнотык. И, конечно, Владимирская область, к моему величайшему сожалению, выглядит столицей разнотыка».
https://provladimir.ru/2020/12/24/aleksej-shljapuzhnikov-likero-vodochnyj-magazin-luchshe-znaet-svoego-pokupatelja-chem-administracija-vladimirskoj-oblasti-zhitelej/
Я за этот год очень много чего плохого (недоброжелательного) написал про Мэрию Москвы, особенно в части работы с данными, но это не значит что "всё плохо". Есть и то за что можно и нужно хвалить. Например, Главархив Москвы разместил у себя на сайте все церковные метрические книги [1] с 1726 года по 1932 год. Об этом есть новость на сайте Мэрии Москвы [2] и обещают в следующем году оцифровать ревизские сказки - переписи населения того времени.
В следующем году мы будем перезапускать наш проект Национального цифрового архива [3] и запускать его подпроекты и эти книги мы также обязательно будем интегрировать в наш архив.
В любом случае - это новость Мэрии Здорового Человека, хорошо что такая оцифровка идёт, хорошо что такие материалы доступны.
Ссылки:
[1] https://cgamos.ru/metric-books/
[2] https://www.mos.ru/news/item/84607073/
[3] http://ruarxive.org
#archives #digitalpreservation #moscow
В следующем году мы будем перезапускать наш проект Национального цифрового архива [3] и запускать его подпроекты и эти книги мы также обязательно будем интегрировать в наш архив.
В любом случае - это новость Мэрии Здорового Человека, хорошо что такая оцифровка идёт, хорошо что такие материалы доступны.
Ссылки:
[1] https://cgamos.ru/metric-books/
[2] https://www.mos.ru/news/item/84607073/
[3] http://ruarxive.org
#archives #digitalpreservation #moscow
Пока мы в России, относительно мирно, справляем новый год, в США GoDaddy, известный сервис регистрации доменных имён, разослали сотрудникам фишинговое письмо с предложением получить годовой бонус в $650 и более 500 сотрудников кликнули на ссылку в письме [1] после чего получили ещё одно письмо о необходимости пройти курс о том как устроена социальная инженерия вместо обещанного бонуса.
Не они первые так делают, ранее такие письма рассылали в Tribune Publishing [1] и чем, как и в случае GoDaddy, порядком разозлили сотрудников.
С одной стороны - это весьма неэтичный способ обучать персонал, а с другой, весьма показательный и демонстративный пример с чем могут столкнуться многие компании к новому году, но уже от лица реальных злоумышленников.
Так что берегите себя и не спешите нажимать на ссылки с обещаниями бонус/премий/подарков от Вашей компании, а то может оказаться что следующий год начнётся с тренинга по безопасности или со взломанной электронной почты.
Ссылки:
[1] https://coppercourier.com/story/godaddy-employees-holiday-bonus-secruity-test/
#happynewyear #security #badpractices
Не они первые так делают, ранее такие письма рассылали в Tribune Publishing [1] и чем, как и в случае GoDaddy, порядком разозлили сотрудников.
С одной стороны - это весьма неэтичный способ обучать персонал, а с другой, весьма показательный и демонстративный пример с чем могут столкнуться многие компании к новому году, но уже от лица реальных злоумышленников.
Так что берегите себя и не спешите нажимать на ссылки с обещаниями бонус/премий/подарков от Вашей компании, а то может оказаться что следующий год начнётся с тренинга по безопасности или со взломанной электронной почты.
Ссылки:
[1] https://coppercourier.com/story/godaddy-employees-holiday-bonus-secruity-test/
#happynewyear #security #badpractices
Copper Courier
GoDaddy Employees Were Told They Were Getting a Holiday Bonus. It Was Actually a Phishing Test.
Roughly 500 employees failed the test, which claimed they would receive a $650 bonus in lieu of a holiday party.
Для тех кто работает с данными по частотам слов, например, фамилий, имён, отчеств для определения пола человека или с другими целями, свежий вычищенный набор данных созданный на основе данных ФИО о персонах в ЕГРЮЛ и ЕГРИП [1].
В наборе данных представлены 3 таблицы:
midnames - отчества, 7040 записей
names - имена, 4874 записи
surnames - фамилии, 48 540 Записей
это покрывает: 96% всех персон по именам, 95% всех персон по отчествам и около 82.5% всех персон по фамилиям
Все таблицы сформированы из первичных данных из 22 млн 617 тыс. записях о персонах с отсевом записей встречающихся не реже 50 раз, прошедшие последующую пост обработку, вычистку мусорных и неверных записей, а также обогащённые данные по полу, поле gender.
Для отчеств пол указан в однозначных значениях: m - мужской, f - женский Для фамилий пол указан в однозначных значениях: m - мужской, f - женский, u - нейтральный (пол невозможно идентифицировать) Для имён пол указан как: m - мужской, f - женский и добавлено поле gender_p - частотное измерение в процентах вероятности что имя относится к данному полу. Например, для имени "Джиргал", пол будет указан как женский "f", а точность будет как 57.97% что будет означать что для всего объёма записей о персонах у 57.97% это были лица женского пола, а остальные мужского.
Общие поля таблиц:
text - имя/фамилия/отчество в зависимости от таблиц
num - число записей где встречается
gender - пол (f - женский, m - мужской, u - невозможно определить)
regorgs - частота встречаемости по кодам субъектов федерации, на основе данных ИНН юридических лиц и ИП
regfl - частота встречаемости по кодам субъектов федерации на основе ИНН физического лица - ИП или руководителя организации
Дополнительные поля
Для таблицы midnames (отчетства)
fname - имя от которого порождено отчество
Для таблицы surnames (фамилии)
f_form - женская форма фамилии
m_form - мужская форма фамилии
fname - имя, если фамилия происходит от имени. Например, для фамилии "Иванов" это будет имя "Иван"
Все данные представлены в формате JSON lines, могут быть загружены в СУБД, например, в MongoDB через утилиту mongoimport или любым иным способом.
Эти таблицы могут использоваться взамен таблиц с неочищенными данными проекта с открытым кодом с одноимённым названием russiannames [2] и, соответственно, использоваться для задач связанных с парсингом и идентификацией форм записи ФИО или же определением пола лица за пределами самых очевидных случаев наиболее популярных имён и когда отчество, к примеру, отсутствует или внесено неправильно.
Ещё раз отмечу что это уже очищенные данные, прошедшие неоднократные тесты, если кто-то захочет поработать и проанализировать менее чистые данные, то пишите мне. Это будет в общей сложности 104 тысячи имён, 196 тысяч отчеств и 760 тысяч фамилий. В них много, очень много ошибок потому что, как выяснилось, ЕГРЮЛ и ЕГРИП содержат огромное число ошибок и иных проблем с данными по ФИО. Но для алгоритмов автоматической очистки данных они могут быть полезны.
Ссылки:
[1] https://ngodata.ru/dataset/russiannames
[2] https://github.com/datacoon/russiannames
#opendata #data #persons #datasets #dataset
В наборе данных представлены 3 таблицы:
midnames - отчества, 7040 записей
names - имена, 4874 записи
surnames - фамилии, 48 540 Записей
это покрывает: 96% всех персон по именам, 95% всех персон по отчествам и около 82.5% всех персон по фамилиям
Все таблицы сформированы из первичных данных из 22 млн 617 тыс. записях о персонах с отсевом записей встречающихся не реже 50 раз, прошедшие последующую пост обработку, вычистку мусорных и неверных записей, а также обогащённые данные по полу, поле gender.
Для отчеств пол указан в однозначных значениях: m - мужской, f - женский Для фамилий пол указан в однозначных значениях: m - мужской, f - женский, u - нейтральный (пол невозможно идентифицировать) Для имён пол указан как: m - мужской, f - женский и добавлено поле gender_p - частотное измерение в процентах вероятности что имя относится к данному полу. Например, для имени "Джиргал", пол будет указан как женский "f", а точность будет как 57.97% что будет означать что для всего объёма записей о персонах у 57.97% это были лица женского пола, а остальные мужского.
Общие поля таблиц:
text - имя/фамилия/отчество в зависимости от таблиц
num - число записей где встречается
gender - пол (f - женский, m - мужской, u - невозможно определить)
regorgs - частота встречаемости по кодам субъектов федерации, на основе данных ИНН юридических лиц и ИП
regfl - частота встречаемости по кодам субъектов федерации на основе ИНН физического лица - ИП или руководителя организации
Дополнительные поля
Для таблицы midnames (отчетства)
fname - имя от которого порождено отчество
Для таблицы surnames (фамилии)
f_form - женская форма фамилии
m_form - мужская форма фамилии
fname - имя, если фамилия происходит от имени. Например, для фамилии "Иванов" это будет имя "Иван"
Все данные представлены в формате JSON lines, могут быть загружены в СУБД, например, в MongoDB через утилиту mongoimport или любым иным способом.
Эти таблицы могут использоваться взамен таблиц с неочищенными данными проекта с открытым кодом с одноимённым названием russiannames [2] и, соответственно, использоваться для задач связанных с парсингом и идентификацией форм записи ФИО или же определением пола лица за пределами самых очевидных случаев наиболее популярных имён и когда отчество, к примеру, отсутствует или внесено неправильно.
Ещё раз отмечу что это уже очищенные данные, прошедшие неоднократные тесты, если кто-то захочет поработать и проанализировать менее чистые данные, то пишите мне. Это будет в общей сложности 104 тысячи имён, 196 тысяч отчеств и 760 тысяч фамилий. В них много, очень много ошибок потому что, как выяснилось, ЕГРЮЛ и ЕГРИП содержат огромное число ошибок и иных проблем с данными по ФИО. Но для алгоритмов автоматической очистки данных они могут быть полезны.
Ссылки:
[1] https://ngodata.ru/dataset/russiannames
[2] https://github.com/datacoon/russiannames
#opendata #data #persons #datasets #dataset
ngodata.ru
База наиболее частых имён, отчеств и фамилий - Данные НКО
База частот имён, отчеств и фамилий собранная на основе сведений об учредителях и руководителях юридических лиц из ЕГРЮЛ и сведений о физ. лицах ИП из ЕГРИП. Представлены 3 таблицы: midnames -...
Я ранее публиковал базу получателей средств от Фонда содействия инновациям (известный также как Фонд Бортника) [1]
Эта база построена на основе реестра контрактов по ссылке [2] где публикуется 5921 контракт, но, как выяснилось, это далеко не полный их список. Хотя данные оттуда собрать было очень легко
Полный список из 12731 проекта/получателя средств пока ещё публикуется по ссылке https://online.fasie.ru/Contracts.aspx [3], которая устроена гораздо хуже и требует привлечения специалиста по скрейпингу данных из систем где используется .NET.
Необходимо по этой ссылке собрать данные по всем проектам и сделать таблицу с такими данными:
- Номер договора
- Конкурс
- Название
- Исполнитель
- Ссылка на сайт исполнителя
- Регион
- Цена
- Закрыт
- Претензия/Иск
Сохранить надо это всё в формат CSV или JSON lines.
Все эти данные потому будут опубликованы в открытом доступе как архивные.
В моей команде ребята практически все заняты ещё до конца года и середины января, поэтому:
- если есть кто-то готовый сделать это как волонтёр, то было бы прекрасно. Присылайте сразу данные)
- если готовы сделать за небольшие деньги как фриланс, напишите, если они в пределах разумного, то быстро договоримся.
Пока пишу у себя в блоге и на каналах, если не найдется волонтер/фрилансер, то тогда уже сами соберем до середины января. Очень надеюсь что до того момента Правительство не прикроет Фонд содействия инновациям и все данные не исчезнут;)
Ссылки:
[1] https://ngodata.ru/dataset/fasie-orgs
[2] https://online.fasie.ru/m/public-contracts/registry
[3] https://online.fasie.ru/Contracts.aspx
#opendata #data #helpneeded
Эта база построена на основе реестра контрактов по ссылке [2] где публикуется 5921 контракт, но, как выяснилось, это далеко не полный их список. Хотя данные оттуда собрать было очень легко
Полный список из 12731 проекта/получателя средств пока ещё публикуется по ссылке https://online.fasie.ru/Contracts.aspx [3], которая устроена гораздо хуже и требует привлечения специалиста по скрейпингу данных из систем где используется .NET.
Необходимо по этой ссылке собрать данные по всем проектам и сделать таблицу с такими данными:
- Номер договора
- Конкурс
- Название
- Исполнитель
- Ссылка на сайт исполнителя
- Регион
- Цена
- Закрыт
- Претензия/Иск
Сохранить надо это всё в формат CSV или JSON lines.
Все эти данные потому будут опубликованы в открытом доступе как архивные.
В моей команде ребята практически все заняты ещё до конца года и середины января, поэтому:
- если есть кто-то готовый сделать это как волонтёр, то было бы прекрасно. Присылайте сразу данные)
- если готовы сделать за небольшие деньги как фриланс, напишите, если они в пределах разумного, то быстро договоримся.
Пока пишу у себя в блоге и на каналах, если не найдется волонтер/фрилансер, то тогда уже сами соберем до середины января. Очень надеюсь что до того момента Правительство не прикроет Фонд содействия инновациям и все данные не исчезнут;)
Ссылки:
[1] https://ngodata.ru/dataset/fasie-orgs
[2] https://online.fasie.ru/m/public-contracts/registry
[3] https://online.fasie.ru/Contracts.aspx
#opendata #data #helpneeded
online.fasie.ru
Реестр заключенных договоров
Система АС Фонд-М предназначена для проведения конкурсов и сборов заинтересованностей по актуальным направлениям науки и техники с целью поддержки малых предприятий.
CatchJS [1], небольшой стартап по оптимизации кода веб-приложений через отлавливание ошибок в JavaScript, выложили у себя в блоге результаты мониторинга ошибок на более чем 1 миллионе веб-страниц [2] и опубликовали полный набор данных на Kaggle [3]
Набор не самый большой, исследование не самое детальное, хотя и полезное, для веб-разработчиков. В этом смысле Kaggle постепенно превращается в один из крупнейших порталов открытых данных в мире, с более чем 66 тысячами наборов данных [4], чаще публикуемых коммерческими компаниями чем госорганами.
Для любых данных на английском языке где нужно вовлечение большого числа исследователей - Kaggle сейчас одна из лучших площадок.
Ссылки:
[1] https://catchjs.com/
[2] https://catchjs.com/Blog/PerformanceInTheWild
[3] https://www.kaggle.com/indexhtml/web-performance-metrics
[4] https://www.kaggle.com/datasets
#opendata #data
Набор не самый большой, исследование не самое детальное, хотя и полезное, для веб-разработчиков. В этом смысле Kaggle постепенно превращается в один из крупнейших порталов открытых данных в мире, с более чем 66 тысячами наборов данных [4], чаще публикуемых коммерческими компаниями чем госорганами.
Для любых данных на английском языке где нужно вовлечение большого числа исследователей - Kaggle сейчас одна из лучших площадок.
Ссылки:
[1] https://catchjs.com/
[2] https://catchjs.com/Blog/PerformanceInTheWild
[3] https://www.kaggle.com/indexhtml/web-performance-metrics
[4] https://www.kaggle.com/datasets
#opendata #data
Catchjs
JavaScript Error Tracking and Performance Monitoring | CatchJS
Get JavaScript error tracking, web performance monitoring and simple analytics in one tiny, but powerful package.
Один из важных вопросов в том какая политика в отношении открытости будет у Администрации Байдена, в США. Тот же Дональд Трамп сразу после прихода в Белый Дом отменил многие инициативы Барака Обамы (но не все) по открытости собственной администрации. И пока мы не знаем будет ли перезапуск открытости в США, CODE (Center of Open Data Enterprise) опубликовали доклад о необходимо открывать данные о COVID-19 и системе здравоохранения [1]. CODE - это НКО из Вашингтона (лоббисты и консультанты в общем). Среди их рекомендаций раскрытие сведений о социальных определяющих здоровья и установление информационно-координационного центра / клиринговый центр (clearinghouse) по обмену данными.
Очень похоже на модель Data Trusts в Европейском Союзе и в других странах. Похоже что в следующем году будет много интересного в области регулирования данных в мире. Во всяком случае лоббисты уже работают во всю.
Доклад в PDF можно прочитать по ссылке [2].
Ссылки:
[1] https://www.fedscoop.com/open-data-critical-tool-new-administrations-covid-19-strategy/
[2] https://healthdatasharing.org/wp-content/uploads/2020/12/COVID-SDOH-Summary-Report-Final.pdf
#opendata #data #health #usa
Очень похоже на модель Data Trusts в Европейском Союзе и в других странах. Похоже что в следующем году будет много интересного в области регулирования данных в мире. Во всяком случае лоббисты уже работают во всю.
Доклад в PDF можно прочитать по ссылке [2].
Ссылки:
[1] https://www.fedscoop.com/open-data-critical-tool-new-administrations-covid-19-strategy/
[2] https://healthdatasharing.org/wp-content/uploads/2020/12/COVID-SDOH-Summary-Report-Final.pdf
#opendata #data #health #usa
FedScoop
Open data: A critical tool for the new administration’s COVID-19 strategy
In a contributed op-ed, members of the Center for Open Data Enterprise give recommendations for ways the next administration can use social determinants of health data to fight COVID-19.
Éric Bothorel, депутат Национального собрания Франции, представил результат полугодовой работы по формированию единой госполитики в области данных. В докладе Pour une politique publique de la donnée [1] описаны ключевые подходы, текущая практика, результаты консультаций и много иных полезных материалов и рекомендаций.
Вся работа над докладом шла в публичном режиме, материалы публиковались на посвящённом ему сайте [2], а сама работа шла по прямому поручению премьер-министра Франции.
В докладе очень много всего и про открытые данные, и про открытый код, и сам он хорошо оформлен и структурирован, единственное что усложняет - это французский язык поскольку, на английском доклада этого нет. Признаться читать тексты на французском требует куда больше усилий чем на английском или испанском, но возможно именно этот доклад стоит того чтобы в него вчитаться.
Ссылки:
[1] https://acteurspublics.fr/upload/media/default/0001/32/602a4ef6c2a2d5b0231eb08706a240503fe08a1b.pdf
[2] https://www.mission-open-data.fr/
#opendata #france
Вся работа над докладом шла в публичном режиме, материалы публиковались на посвящённом ему сайте [2], а сама работа шла по прямому поручению премьер-министра Франции.
В докладе очень много всего и про открытые данные, и про открытый код, и сам он хорошо оформлен и структурирован, единственное что усложняет - это французский язык поскольку, на английском доклада этого нет. Признаться читать тексты на французском требует куда больше усилий чем на английском или испанском, но возможно именно этот доклад стоит того чтобы в него вчитаться.
Ссылки:
[1] https://acteurspublics.fr/upload/media/default/0001/32/602a4ef6c2a2d5b0231eb08706a240503fe08a1b.pdf
[2] https://www.mission-open-data.fr/
#opendata #france