Ivan Begtin
9.13K subscribers
2.03K photos
3 videos
102 files
4.76K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
В Wired статья [1] о Search Atlas [2] исследовании и инструменте сравнения поисковой выдачи Google по множеству стран. Исследователи поискали по слову "бог" для разных стран и на разных языках и задокументировали разницу в выдаче. А журналисты Wired проверили ещё несколько тем. Вкратце - Google выдаёт разные результаты исходя из культурных предположений о жителях страны. Search Atlas пока работает в режиме private beta, но возможно авторы скоро откроют его для широкой публики.

Ссылки:
[1] https://www.wired.com/story/tool-shows-google-results-vary-world/
[2] https://searchatlas.org/

#privacy #search
Вчера закрылась Команда 29 и многочисленные их проекты, а сама команда предупредила что лучше удалить ссылки на их материалы поскольку закрываются они из-за обвинений в связях с нежелательной организацией Společnost Svobody Informace, НКО из Чехии.

Я, скажу честно, не ко всем проектам команды 29 относился с симпатией. У меня было немало претензий к их подходам к оценке открытости информации по 8-ФЗ и лично к Ивану Павлову, когда ещё в 2014 году в оценки открытости в России в Open Data Index его сотрудники пытались внести искажения которые показали бы состояние открытых данных в России лучше чем это было на самом деле. Но у них это тогда не получилоась, а то ради чего это делалось, пусть будет на их совести.

Как бы то ни было, несмотря на моё личное отрицательное отношение к деятельности многих в Команде 29, если от этого личного отношения отстраниться, то, конечно, они были одними из немногих кто занимался вопросами открытости в России. Мои личные антипатии не означает что я не могу признать большой и важной работы которую эта команда делала. Больше того, ещё недавно многие госорганы ссылались на результаты их исследований. На сайте Минфина России есть специальный раздел где ещё в декабре 2020 года они публиковали "сертификаты системы Инфометр" (за что я их отдельно критиковал, в том числе). Так что же теперь у нас Минфин России популяризирует материалы иностранного агента?

Я по прежнему настаиваю на том тезисе что открытость данных и государства в целом бессмысленна в условиях ликвидации потребителей этой открытости.

#opengov #opendata
В Мексике произошла предположительная утечка данных о 91 миллионе избирателей [1]. На теневых форумах продают эти данные и утверждают что они содержат все личные данные мексиканских избирателей на 2021 год.

Характерны комментарии в треде обсуждения "и вот так же они будут хранить наши биометрические данные?".

Ссылки:
[1] https://twitter.com/UnderTheBreach/status/1416664889603526660

#privacy #leaks #voters
Свежий дайджест по работе с данными:
- Netflix открыли код Data Explorer [1] инструмента для навигации по хранилищам данных Redis, Cassandra, Dynomite
- команда конструктора аналитики Cube.js с открытым кодом получила $15.5 миллионов инвестиций [2] на развитие их API на данных. Ранее компания уже привлекла $6.2 миллиона в прошлом году [3]
- статья MacKinsey о том почему важно работать с данными для разработки стратегий компаний [4]
- о вреде разметки данных вручную в статье Hand Labeling Considered Harmful [5] команды ORelly, там же ссылка на полезную статью 2017 года Software 2.0 [6]


Ссылкти:
[1] https://github.com/Netflix/nf-data-explorer
[2] https://venturebeat.com/2021/07/19/cube-dev-raises-15-5m-to-commercialize-its-open-source-data-api-platform/
[3] https://www.crunchbase.com/organization/cube-dev/company_financials
[4] https://www.mckinsey.com/business-functions/strategy-and-corporate-finance/our-insights/the-strategy-analytics-revolution
[5] https://www.oreilly.com/radar/arguments-against-hand-labeling/
[6] https://karpathy.medium.com/software-2-0-a64152b37c35

#data #digest
Многочисленные напоминания для тех кто не знает чем я занимаюсь.

Коммерческие проекты:
- https://apicrafter.ru (коммерческие API к ЕГРЮЛ, госзакупкам и тд.)
-https://beta.apicrafter.ru - DataCrafter, публичный первичных данных доступных как открытые данные и API.

Общественные проекты Инфокультуры:
- Госзатраты https://clearspending.ru
- Открытые НКО https://openngo.ru
- Хаб открытых данных https://hubofdata.ru
- Простой язык https://plainrussian.ru
- Национальный цифровой архив https://ruarxive.org
- Данные НКО https://ngodata.ru

Телеграм каналы
- Мой канал в телеграм где я регулярно пишу о данных, государстве, госзакупках, технологиях и ещё много о чём https://yangx.top/begtin
- Телеграм канал APICrafter'а https://yangx.top/apicrafter
- Телеграм канал Инфокультуры https://yangx.top/infoculture
- Телеграм канал ассоциации АУРД https://yangx.top/aurdata

Открытый код
- мой открытый код https://github.com/ivbeg
- открытый код Инфокультуры https://github.com/infoculture
- открытый код Нацархива https://github.com/ruarxive
- открытый код APICrafter'а https://github.com/apicrafter и https://github.com/datacoon

Рассылки:
- моя рассылка про данные https://begtin.substack.com
- рассылка Инфокультуры https://infoculture.ru
Я регулярно пишу о том существует ли в России практика раскрытия исходного кода и вот пополнение, оказывается у Института системного программирования им. В.П. Иванникова РАН есть открытый аккаунт в Github [1], добавил их в специальный список Awesome list of Russian government open source repositories and projects [2]. Примеров таких исключительно мало, даже неизвестно насколько официальный статус имеет этот аккаунт потому что на сайте ИСП РАН ссылки на Github нет [3], а с другой стороны на Github'е довольно большая команда.

Я, кстати, не могу не напомнить что большая часть общедоступного исходного кода в развитых странах раскрывается именно в рамках открытости научных исследований. Да и открытых данных, кстати, тоже.

Ссылки:
[1] https://github.com/ispras
[2] https://github.com/infoculture/awesome-gov-opensource-russia
[3] https://www.ispras.ru

#opensource #government
К вопросу об актуализации технологий и в продолжение раскрытия государственного кода. Несколько лет назад ДИТ Москвы инициативно раскрыли исходный код нескольких проектов на блокчейн которые используются для голосования в Москве, для заявок в реестр ярмарок и так далее. Всё это подавалось как прозрачные проекты с раскрытием кода и с возможностью проверить записи в блокчейне. Но, не прошло и пары лет, а этот код уже не работает. Пример, код для проверки блокчейн записей о заявках на ярмарки в Москве [1] был основан на продукте Parity Shell, который уже устарен пару лет назад [2], больше не работает и не обновляется код проекта. Как результат не работает и код раскрытый ДИТ Москвы.

Почему? Потому что открытый код - это не однократное его раскрытие, а работа с сообществом над его улучшением. Вот они раскрыли тогда код - хорошо. На тот момент хорошо, а на сегодня уже неработает.

Ссылки:
[1] https://github.com/moscow-technologies/fairs-blockchain
[2] https://github.com/parity-js/shell/

#opensource #moscow
Лично я не могу прокомментировать в подробностях этот проект НПА поскольку не работает regulation.gov.ru, но всё что я успел прочитать о нём очень печально. Как скоро книги о космосе будут изымать из магазинов? Как скоро будут закрывать сайты посвящённые космосу и армии? Уголовное преследование за несекретную информацию звучит очень и очень нехорошо, не только потому что будут пострадавшие, а ещё и потому что это выглядит как какая-то предвоенная мера. А вот чего-чего, а войны, в ближайшем будущем и в любом будущем совсем бы не хотелось.
Проект приказа директора ФСБ Александра Бортникова, опубликованный 19 июля для общественного обсуждения на Федеральном портале проектов нормативных правовых актов меньше, чем за сутки собрал рекордное количество просмотров.

Похоже, портал не выдержал такого наплыва посетителей и еще утром 20 июля перестал работать.
В службе технической поддержки весь день сообщали, что “ведутся работы по восстановлению работоспособности портала”.

В итоге ознакомиться с резонансным проектом стало возможно лишь после окончания рабочего дня. На момент написания этого поста у проекта около 13,8 тысяч просмотров и их количество продолжает расти. Хотя другие опубликованные в этот день проекты привлекли всего лишь десятки, в редких случаях – несколько сотен пользователей.

В документе содержится широкий перечень не секретных сведений в области военной и военно-технической деятельности России, которые при получении их иностранным источником могут быть использованы против национальной безопасности.

В 61 пункт перечня входят, в том числе, сведения о “соблюдении законности и морально-психологическом климате” или “о ходе и результатах рассмотрения сообщений о преступлениях и предварительного расследования” в армии, а также о закупках товаров, работ и услуг для нужд военных и даже о результатах научно-технического уровня изучения космоса иностранными организациями.

За сбор таких сведений человек – если он получает от иностранных источников деньги, имущество или любую "организационно-методическую" помощь – должен под угрозой уголовной ответственности признать себя иностранным агентом и зарегистрироваться в соответствующем перечне Минюста. За нарушение этого требования он может получить 5 лет лишения свободы.

Перечень разработан в соответствии с законом, принятым Госдумой в конце 2020 года. Общественное обсуждение проекта продлится до 2 августа, независимая экспертиза – до 25 июля.
В свежем расследовании Сергея Шпилькина про 29 миллионов переболевших [1] важно не только само расследование, к нему уже есть комментарии разбирающие его [2], важнее то что нет смысловой/содержательной/осмысленной реакции Минздрава РФ да и оперштаба тоже. Важная российская особенность в том что с начала пандемии российским Правительством / Минздравом / Оперштабами не опубликовано ни одного набора данных относящихся к COVID-19. Всё что есть было собрано активистами с сайтов вроде стопкоронавирус.рф, из поисковой выдачи поисковых систем, по другим косвенным признакам. Мы от Инфокультуры контактировали с теми кто такие данные собирал и выкладывали их на Humanitarian Data Exchange [3], фактически, выполняя ту работу которую должны делать правительственные и региональные чиновники.

Я хочу обратить внимание что за эти годы весь социальный блок органов власти в нашей стране по закрытости мог бы соревноваться разьве что с МВД или другими правоохранительными органами. Данные не раскрываются не только о COVID-19, в принципе медицинская статистика, даже региональная, а уж о более гранулярной и речи ещё нет, не публикуется. Диалога с обществом о доступности данных не ведётся и, не велось даже во время открытого пр-ва, сопротивление со стороны Минздрава, Минобра и др. было коллосальным.

Что хуже - это то что шло и идёт вымывание профессионалов из очень многих областей госусправления. Вот этот пример с номерами переболевших очень показателен. Может ли со стороны Минздрава кто-то содержательно подробно прокомментировать откуда возникла такая ситуация? Проблема в том что нет, не могут. Также как и в десятках других отраслей. В ИТ сфере это выражается в вымывании самого понятия архитектуры государственных ИТ решений причем в долгосрочном плане. Все настолько увлечены тактическими планами что "поговорить не с кем".

Ссылки:
[1] https://holod.media/2021/07/20/unrz/
[2] https://www.facebook.com/alexx.dragan/posts/4263649057027571
[3] https://data.humdata.org/organization/infoculture

#opendata #investigations
В продолжение про данные о Covid-19, Минцифра заключила контракт с AT Consulting по доработке НСУД и там в документе ТЗ начиная с 43 страницы есть таблица со списком "Базовые наборы данных для первичной загрузки в Подсистему информационно-аналитического обеспечения"

Это не секретные данные, под проект приказа ФСБ не попадают, так почему они до сих пор не открыты? Всего в списке 62 набора данных, если ещё остались журналисты запрашивающие данные у органов власти, то вот вам наводка у какой организации что запрашивать.

#opendata #nsud #contracts
Свежее исследование Forrester Wave со сравнением 12 облачных провайдеров управления данными: Aim, Alation, Ataccama, Collibra, Congruity360, data.world, erwin, Infogix, OneTrust, SAP, Solix, Syniti [1]

В лидерах они упоминают Colibra, Alation, Infogix, Atacamma.

И ещё многих других в "догоняющих". Большая часть этих продуктов в России не представлены потому что все потенциальные их клиенты под прессингом "импортозамещения", но обзор весьма полезен для улавливания трендов в data governance.


Ссылки:
[1] https://reprints2.forrester.com/#/assets/2/1946/RES161533/report

#datacatalogs #clouds
Закрылся ещё один портал открытых данных - Портал открытых данных Приморского края [1], возможно довольно давно, пристально за ним не следили. Вместо этого теперь на сайте администрации края появился раздел "Открытые данные" [2] с 5 тестовыми наборами данных.

Когда-то этот портал анонсировали NextGIS [3] и он позиционировался как портал на базе движка CKAN доработанный для работы с геоданными.

Ссылки:
[1] https://opendata25.primorsky.ru/
[2] https://www.primorsky.ru/opendata2/
[3] https://nextgis.ru/blog/opengeodata-portal/

#opendata #primorsky #datadegradation
Статистика по заболеваемости COVID-19 — одна из самых злободневных тем в России. Граждане не доверяют государственным органам, активисты и СМИ проводят расследования, где утверждается, что число переболевших уже перевалило за 29 миллионов. Не буду сейчас утверждать, правдивы ли официальные данные или надо верить альтернативным оценкам. Однако факт в том, что за последние десятилетия наше государство, в особенности социальный блок правительства, не сделало ничего, чтобы этого доверия стало больше. Данные о качестве жизни скрываются столь же тщательно, как, например, статистика преступлений...

В Forbes вышла моя колонка " Нездоровая закрытость: почему государство не спешит делиться данными с гражданами" [1]

Ссылки:
[1] https://www.forbes.ru/obshchestvo/435565-nezdorovaya-zakrytost-pochemu-gosudarstvo-ne-speshit-delitsya-dannymi-s

#opendata #covid19 #data
К этой "сочной" статистике о повальной неграмотности нормотворцев в исполнительной власти хочется добавить ещё и бесконечный поток нормативки порождаемой органами власти. Ничем не обоснованный поток
Forwarded from Майский указ
👎 Вице-премьер Дмитрий Григоренко оценил качество проектов актов, подготовленных и внесенных бюрократами в Правительство за первые пять месяцев 2021 года. Выяснилось, что аж 52% поступивших проектов не соответствуют регламенту, содержат недостатки правового и лингвистического характера, грамматические и орфографические ошибки.
 
Топ-10 критических нарушений выглядит так:
1) Отсутствие обязательных заключений/результатов экспертиз – 37%;
2) Наплевательское отношение к пояснительной записке – 23%;
3) Отсутствие необходимых согласований – 20%;
4) Непредоставление обязательного протокола заседания Правкомиссии по проведению административной реформы – 18%;
5) Нахальное внесение актов с неурегулированными разногласиями – 13%;
6) Отсутствие внятного обоснования самой необходимости акта – 10%;
7) Отсутствие финансово-экономического обоснования – 10%;
8) Наплевательское отношение к процедуре ОРВ – 9%;
9) Внесение акта неуполномоченным самозванцем – 4%;
10) Наплевательское отношение к процедуре общественного слушания – 4%.
 
В аппарате Правительства устали исправлять документы, которые содержат:
1) Глупые лингвистические и стилистические ошибки – 45%;
2) Грамматические и орфографические ошибки – 43%;
3) Неверные ссылки на источник – 43%;
4) Ошибки правового характера – 32%;
5) Несоблюдение сформированных подходов и сложившейся практики – 22%;
6) Ошибки при форматировании текста – 22%;
7) Ошибки в таблицах – 11%;
8) Дублирование предложений, по которым уже приняты решения – 3%.
 
Дмитрий Юрьевич считает: из-за того, что ряд бюрократов не способен подготовить качественные документы в срок возникают репутационные риски для всего Правительства, а также замедляется развитие российской экономики. От самых обнаглевших чиновников господин Григоренко потребовал прекратить ставить куда ни попадя пометку «Для служебного пользования» ради очевидного обхода обязательной процедуры общественных обсуждений. А всем остальным он поручил тщательно прорабатывать как суть, так и непосредственные тексты вносимых актов, и помнить: в Правительстве фиксируют «косяки» каждого исполнителя по документу, а также его руководителя.
Вот пришёл конец цифровой экономике (c). Да, платформы могут отказаться выполнять эти требования, да у российских разработчиков и не только наступит выбор - регистрируешь юр. лицо за рубежом или сворачиваешь бизнес. А кроме разработчиков ещё много чего и кого от платформ зависят. Да чего уж там, у всех кого почта для домена на Google, к примеру, что им делать?

Готов спорить что эти сроки будут переносить ещё не раз, но даже сам анонс таких мер, это самоудушение экономики.
Forwarded from DRC LAW: IT-юристы
Минцифры опубликовало проект постановления, дополняющего закон об обязанности иностранных цифровых платформ открывать представительства. Если IT-гиганты не выполнят требования до 1 января 2022 года, им заблокируют проведение финансовых операций через российские банки.

Михаил Третьяк рассказал, что в нынешней редакции закон может сильно ударить по российским разработчикам, рекламодателям и обычным пользователям. Как именно — читайте в «Секрете» ➡️ https://secretmag.ru/news/zhizn-bez-google-play-kak-i-pochemu-zakon-o-prizemlenii-inostrannykh-it-gigantov-navredit-rossiyanam.htm

#комментарии_экспертов