Ivan Begtin
9.13K subscribers
2.03K photos
3 videos
102 files
4.76K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
Sony представили [1] [2] Gastronomy Flagship Project по применению искусственного интеллекта в разработке гастрономических рецептов. Хорошее направление для ИИ и такой помощник на кухне это ровно то чего не хватает. Правда от ИИ до полноценного ассистента надо ещё будет подождать, но хочется надеяться.

И, до сих пор актуально преодоление двух сложностей - это сенсоры вкуса и запахов. Вот когда и это произойдёт то будет большой прорыв.

Ссылки:
[1] https://www.zdnet.com/article/sony-ai-launches-new-project-dedicated-to-gastronomy-research/
[2] https://ai.sony/projects/

#ai #data
Свежий отчет по зрелости открытых данных в Европе за 2020 год [1]. Лучшие результаты в Дании, Испании и Франции. Худшие у Лихтенштейна, Грузии и Азербайджана. Последние хотя и не входят в ЕС, но оцениваются в данном исследовании в рамках "Eastern Partnership" .

Краткие выводы: уровень развития открытых данных высокий в большинстве стран довольно высокий и сама тема развивается и становится более зрелой, как в обеспечении качества данных, так и оперативности их публикации.

Цифры и факты:
- у 96% стран ЕС есть принятые стратегии открытости данных или эквивалентные им законы определяющие эти стратегии. Например, в Венгрии принята 2020 AI Strategy [2] включающая тему открытых данных.
- в феврале 2020 года в Нидерландах принята Национальная API стратегия по предоставлению данных и сервисов через интерфейсы API
- у 78% стран есть определение влияния открытых данных и у 70% есть национальные методики измерения этого влияния
- у 30% стран данные обновляются не позднее одного дня после обновления в первоисточнике
- в 78% странах метаданные поддерживаются в актуальном состоянии
- в 89% стран осуществляется мониторинг качества метаданных
- в 74% стран порталы соответствуют требованиям публикации обязательных полей стандарта DCAT-AP используемого для публикации каталогов данных

А также там же ещё много примеров, цифр и фактов на которые стоит обратить внимание.

Ссылки:
[1] https://www.europeandataportal.eu/en/dashboard/2020
[2] https://ai-hungary.com/en

#opendata #data #eu
А это вдогонку, о том что с открытыми данными на федеральном уровне творится в России. Я давно говорю что если отдать портал открытых данных и полномочия тому же Минкультуры РФ или Минцифре РФ, то хуже бы точно не было, а лучше могло бы.
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Минэкономразвития отключило портал открытых данных
Я регулярно хвалю зарубежный опыт, то там делают что-то полезное, то там, в общем может показаться что всё замечательно. Недавно я приводил пример с проблемами в доступности сведений о судебных решений в США, а в этот раз будет пример из Польши.

В Польше есть портал открытых данных Otwarte Dane [1] имеющий довольно высокие оценки в оценках зрелости открытых данных в странах Европейского союза [2], но обратим внимание на такой факт как то что на портале декларируется 18765 наборов данных ( Liczba danych ) от 138 поставщиков.

Но заглянув в раздел фильтры можно увидеть что там фильтр по категориям охватывает только около 1 тысячи наборов данных.

В итоге выяснилось что из 18 тысяч наборов данных чуть более 7500 - это маленькие файлы CSV помесячных данных опубликованных патентным ведомством Польши [3]. Конечно нет никаких оснований публиковать их с такой дробностью, а не одним набором.

Вот так делать не надо.

Ссылки:
[1] https://dane.gov.pl/pl
[2] https://yangx.top/begtin/2371

#data #opendata #poland
Я помню этот портал ещё с 2013 года, в 2014 году я писал о нём [1] и за все эти годы я про этот портал не могу сказать ничего хорошего.

Конечно, подобное можно пронаблюдать за многими государственными информационными системами. Но федеральный портал открытых данных - это "наша боль" вот уже 6 лет. Он был плохо сделан изначально и очень тяжело развивается (разваливается) все эти годы. И проблемы технические там вторичны по сравнению со смыслом организации портала и отрицательным отбором поставщиков его обслуживающих.

И в последние годы я перестал писать о нём только по причине того что было очевидно что его не "поддерживать и развивать" надо, а радикально переделывать и не совмещать технические работы с экспертными работами. Но на это Минэкономразвития решиться всё никак не может.

Так что мне про data.gov.ru писать уже надоело много лет, а вот Оле @ahminfin всё ещё не надоедает, за что ей и спасибо. Может и я когда-нибудь напишу на эту тему очень большой лонгрид.

Ссылки:
[1] https://old.begtin.tech/2014/03/27/ministerstvodraniheconomicheskihkotov/

#data #opendata #opengov
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Хорошая новость: Минэкономразвития восстановил портал открытых данных (ну как "восстановил", реестра наборов данных как не было, так и нет).
Плохая новость: На портале открытых данных "задними числами" размещены новости (как будто они размещались на протяжении первого этапа госконтракта). Похоже, без РНП, ФАС и других органов и в этом году не обойтись. Главный вопрос: кто занимался "подделкой" публикации новостей: заказчик или поставщик?
В The Bell вышла заметка про стоимость расследования отравления Навального [1] с оценками того что как и сколько стоит на чёрном рынке купить информацию о человеке [1]. Всё это, не так дорого, в общей сложности сбор данных на 11 человек обошёлся чуть более миллиона. Что, впрочем, в любом случае было с нарушением российского законодательства, но показательно то насколько доступны эти данные и насколько отечественные правоохранители не способны предотвращать доступ к ним.

И здесь же, специально для тех кто считает что рядовому человеку ничего не грозит, в Lenta.ru время от времени проскакивают любопытные лонгриды и один из них «Тюрьма — это самый дорогой отель» [2] про профессионального мошенника. Чтение весьма познавательно и, если людям с небольшими доходами опасаться (возможно) почти нечего, то людям с доходами выше среднего ещё как есть чего бояться.

Я сам очень не люблю приводить примеры того как можно злоупотреблять персональными данными, но тут раз уж опубликовано, то почитайте.

Ссылки:
[1] https://thebell.io/million-za-vseh-skolko-stoilo-rassledovanie-bellingcat-o-navalnom
[2] https://lenta.ru/articles/2020/12/14/baltazar/

#privacy #crime #personaldata
Я, кстати, ранее это упоминал и не жаль напомнить ещё раз что один из лучших в мире порталов открытых данных с очень чётким целеполаганием - это Humanitarian Data Exchange [1] портал созданный UN OCHA (Управление по координации гуманитарных вопросов ООН) и где публикуется более 18 тысяч наборов данных необходимых в создании инструментов координации НКО оказывающих помощь на местах катастроф и бедствий.

Почему проект хорош и полезен? Помимо чёткого целеполагания, они реализуют:
- инструмент проверки данных [2]
- стандарт HXL для тегов для разметки запутанных данных [3]
- разметка данных по территориям [4], например, с Россией связаны 74 набора данных [5]
- кроме государственных и общественных организаций, многие наборы данные публикуются частными компаниями, например [6] [7]

Этот и подобные проекты - это ответ на вопрос "Может ли бизнес публиковать открытые данные?". Есть много случаев когда может и желает. Например, когда это хороший ценностный проект.

Ссылки:
[1] https://data.humdata.org/
[2] https://tools.humdata.org/wizard/#datacheck
[3] https://tools.humdata.org/examples/hxl/
[4] https://data.humdata.org/group
[5] https://data.humdata.org/group/rus
[6] https://data.humdata.org/organization/alhasan-systems-private-limited
[7] https://data.humdata.org/organization/esri

#opendata #opengov #un
Есть ли у цифровой архивации персональный контур? Как собирать личные архивы страниц? Как сохранять букмарки даже если ссылки на них пропадут и исчезнут?

Инструментов довольно много, например, Conifer [1] от Rhizome, но есть один с открытым кодом и уже достаточно зрелый для удобного использования - это ArchiveBox [2].

ArchiveBox - это сервер и утилита для архивации закладок и просто ссылок, он не просто сохраняет веб-страницу, а делает это сразу во многих форматах:
- скриншот
- полная страница одним файлом (внутри всё, включая скрипты и изображения)
- файл веб-архивации WARC
- просто веб-страница

Для совсем полной идеальности ему нехватает интеграции через расширение для браузера, но и так он вполне неплох.

Ссылки:
[1] https://conifer.rhizome.org/
[2] https://archivebox.io/

#archives #personal #webarchive
Комментировать совсем не хочется, хочется задаться одним лишь вопросом - а откуда таки эта утечка?
Forwarded from in2security
Очередная крупная утечка персональных данных россиян.

На популярном англоязычном теневом форуме выставили на продажу персональные данные более 23 миллионов жителей Москвы и Московской области. База данных фонда обязательного медицинского страхования, содержащая ФИО, дату рождения, пол, регион проживания, регион страхования, номер и дату выдачи полиса ОМС, а также другие сведения, предлагается всем желающим всего за 990 долларов США. Согласно данным продавца, источником утечки является: ffoms.gov.ru.

Размещенный в открытом доступе образец продаваемых данных содержит сведения о 100 тысячах москвичей и жителях МО.
@In4security
Дайджест материалов про открытые данные и проекты на данных в мире:
- data.ed.gov [1] - портал открытых данных в сфере образования в США, включая данные по каждому колледжу, статистику и результаты мониторинга. Всего 226 наборов данных.
- неравенство чистого воздуха [2] публикация в Нью-Йорк таймс о разнице в загрязненности воздуха у двух детей в Индии: из бедной семьи и зажиточной. Очень наглядно и хорошо сделано
- визуализация контрактов на расходы при COVID-19 в Великобритании [3]
- реформа госконтрактации в Великобритании [4] в стороны большей открытости и простоты

Ссылки:
[1] https://data.ed.gov/
[2] https://www.nytimes.com/interactive/2020/12/17/world/asia/india-pollution-inequality.html
[3] https://www.nytimes.com/interactive/2020/12/17/world/europe/britain-covid-contracts.html
[4] https://www.gov.uk/government/news/new-plans-set-out-to-transform-procurement-providing-more-value-for-money-and-benefitting-small-business

#opendata #finances #government
Свежий текст в рассылке: #10. Инвентаризация государственных ИТ ресурсов

Инвентаризация чего-бы то ни было чем занимается государство во всей его совокупности органов власти, учреждений и иных организаций - это само по себе большая работа. Часто сопряженная с наказанием виновных и невиновных в отсутствии искомого.

12 декабря Правительством Михаила Мишустина была анонсирована большая инвентаризация ИТ систем в ведении органов власти. Это большая задача, скорее нужная и важная, чем бесполезная. В каком-то смысле запоздалая, но это претензия к предыдущему Правительству Д. Медведева. А вот сроки этой инвентаризации обозначены крайне жесткие, до 31 марта 2021 года необходимо проинвентаризировать практически все ИТ ресурсы ФОИВов. Сроки, скажу честно почти невыполнимые, но, в любом случае, надо смотреть на результаты.

Я ранее немного рассказывал про инвентаризацию государственных доменов, а сейчас настала пора поговорить об инвентаризации ИТ в государстве более серьёзно. В каких-то вопросах я буду излагать начиная с самых азов, для погружения в контекст ситуации и, по возможности, простыми словами.

Подробнее [1]

P.S. Несмотря на длинный текст он получился неполным и в ближайшие месяцы я ещё не раз вернусь к этой теме.

Ссылки:
[1] https://begtin.substack.com/p/10-

#it #inventory #data
15 декабря вышло Постановление Правительства №2109 [1] О Правительственной комиссии, уполномоченной на принятие решения об аккредитации удостоверяющих центров.

Те кто лучше погружён в эту тему, я уверен, лучше меня прокомментируют о том что это означает для рынка, регулирования в целом и так далее, а я обращу Ваше внимание на следующий абзац:

Предельное количество членов Правительственной комиссии составляет 22 человека, в том числе7 уполномоченных представителей автономной некоммерческой организации, на которую в соответствии с решением Правительства Российской Федерации возложены функции по мониторингу развития цифровой экономики и цифровых технологий и формированию прогнозов развития цифровой экономики и цифровых технологий

Что это за организация догадаться несложно, другой вопрос прецедента модели формирования Правительственных комиссий. Не решением внутри Аппарата Правительства, а на уровне НКО с частичным (или уже полным?) государственным участием и частичным корпоративным участием. Как я помню у других, более "ассоциативных" объединений предпринимателей, вроде РСПП или ТПП РФ, никогда таких полномочий не было.

Ссылки:
[1] http://government.ru/news/41147/#

#government #regulation
Вышел доклад Мирового банка об улучшении работы государств в части эффективности и прозрачности и борьбе с коррупцией
Enhancing Government Effectiveness and Transparency : The Fight Against Corruption [1]. Вернее вышел он ещё в октябре 2020 года, а я о нём пишу только сейчас.

Обширный и интересный документ с большим числом примеров, всячески рекомендую. Открытые данные там упоминаются регулярно во множестве проектов, а вот Россия лишь единожды, как Russian Laundromat. Что тут сказать, видимо в России с антикоррупционными практиками куда хуже чем с коррупционными.

Ссылки:
[1] https://documents.worldbank.org/en/publication/documents-reports/documentdetail/235541600116631094/enhancing-government-effectiveness-and-transparency-the-fight-against-corruption

#opendata #wb #russia #anticorruption
Свежая публикация об открытых данных в России в сборнике Open Government Data in Russia [1] за авторством Ольги Пархимович (@ahminfin). Много хороших примеров и изложение того что с открытыми государственными данными в России

Ссылки:
[1] https://link.springer.com/chapter/10.1007/978-3-030-42855-6_22

#opendata #opengov
Стартап Anomalo [1] специализируется на автоматизации проверки качества данных, как автоматически, так и через специально подготовленные правила проверки данных. Главный акцент в проверке и документировании данных без написания кода. Сам продукт пока недоступен, есть только скриншоты и анонсы в блоге. А также новость от 17 декабря о получении стартапом первых инвестиций в $5.95 миллионов [2].

Ключевое ноу-хау - это искусственный интеллект пишущий правила для проверки данных.

Подобный проект пока ещё маловероятен в России, слишком немногие компании держат данные в облачных базах данных, сама идея и направления реализации интересны.

Ссылки:
[1] https://www.anomalo.com/
[2] https://news.crunchbase.com/news/anomalo-raises-5-95m-to-validate-data/

#data #dataquality
Московское правительство модернизирует мобильное приложение "Доносчик Помощник Москвы" и за 76.8 миллионов рублей победитель тендера ООО "Программный продукт" доработают его для возможности следить не только за нарушителями парковки, но и за больными коронавирусом, о чём пишет Коммерсант в выпуске N231 [1]. Изначально приложение было разработано в ЦОДД Москвы, а теперь, по всей видимости, и функции ЦОДД расширяются для подобной слежки.

Для поощрения наиболее бдительных доносчиков помощников будет доработана система баллов и возможность обмена баллов на рюкзаки, футболки, кепки.

P.S. Тот редкий случай когда мне сложно сдержать если не эмоции, то иронию, когда изначально разумные идеи цифровизации вырождаются в инструменты слежки, социальной разобщённости и конфликтов. А что будет когда если база этих добровольных помощников утечёт из ЦОДД? Они возьмут на себя ответственность за последующий самосуд?

Ссылки:
[1] https://www.kommersant.ru/doc/4615863

#privacy #security #informers