Пока мы в России, относительно мирно, справляем новый год, в США GoDaddy, известный сервис регистрации доменных имён, разослали сотрудникам фишинговое письмо с предложением получить годовой бонус в $650 и более 500 сотрудников кликнули на ссылку в письме [1] после чего получили ещё одно письмо о необходимости пройти курс о том как устроена социальная инженерия вместо обещанного бонуса.
Не они первые так делают, ранее такие письма рассылали в Tribune Publishing [1] и чем, как и в случае GoDaddy, порядком разозлили сотрудников.
С одной стороны - это весьма неэтичный способ обучать персонал, а с другой, весьма показательный и демонстративный пример с чем могут столкнуться многие компании к новому году, но уже от лица реальных злоумышленников.
Так что берегите себя и не спешите нажимать на ссылки с обещаниями бонус/премий/подарков от Вашей компании, а то может оказаться что следующий год начнётся с тренинга по безопасности или со взломанной электронной почты.
Ссылки:
[1] https://coppercourier.com/story/godaddy-employees-holiday-bonus-secruity-test/
#happynewyear #security #badpractices
Не они первые так делают, ранее такие письма рассылали в Tribune Publishing [1] и чем, как и в случае GoDaddy, порядком разозлили сотрудников.
С одной стороны - это весьма неэтичный способ обучать персонал, а с другой, весьма показательный и демонстративный пример с чем могут столкнуться многие компании к новому году, но уже от лица реальных злоумышленников.
Так что берегите себя и не спешите нажимать на ссылки с обещаниями бонус/премий/подарков от Вашей компании, а то может оказаться что следующий год начнётся с тренинга по безопасности или со взломанной электронной почты.
Ссылки:
[1] https://coppercourier.com/story/godaddy-employees-holiday-bonus-secruity-test/
#happynewyear #security #badpractices
Copper Courier
GoDaddy Employees Were Told They Were Getting a Holiday Bonus. It Was Actually a Phishing Test.
Roughly 500 employees failed the test, which claimed they would receive a $650 bonus in lieu of a holiday party.
Для тех кто работает с данными по частотам слов, например, фамилий, имён, отчеств для определения пола человека или с другими целями, свежий вычищенный набор данных созданный на основе данных ФИО о персонах в ЕГРЮЛ и ЕГРИП [1].
В наборе данных представлены 3 таблицы:
midnames - отчества, 7040 записей
names - имена, 4874 записи
surnames - фамилии, 48 540 Записей
это покрывает: 96% всех персон по именам, 95% всех персон по отчествам и около 82.5% всех персон по фамилиям
Все таблицы сформированы из первичных данных из 22 млн 617 тыс. записях о персонах с отсевом записей встречающихся не реже 50 раз, прошедшие последующую пост обработку, вычистку мусорных и неверных записей, а также обогащённые данные по полу, поле gender.
Для отчеств пол указан в однозначных значениях: m - мужской, f - женский Для фамилий пол указан в однозначных значениях: m - мужской, f - женский, u - нейтральный (пол невозможно идентифицировать) Для имён пол указан как: m - мужской, f - женский и добавлено поле gender_p - частотное измерение в процентах вероятности что имя относится к данному полу. Например, для имени "Джиргал", пол будет указан как женский "f", а точность будет как 57.97% что будет означать что для всего объёма записей о персонах у 57.97% это были лица женского пола, а остальные мужского.
Общие поля таблиц:
text - имя/фамилия/отчество в зависимости от таблиц
num - число записей где встречается
gender - пол (f - женский, m - мужской, u - невозможно определить)
regorgs - частота встречаемости по кодам субъектов федерации, на основе данных ИНН юридических лиц и ИП
regfl - частота встречаемости по кодам субъектов федерации на основе ИНН физического лица - ИП или руководителя организации
Дополнительные поля
Для таблицы midnames (отчетства)
fname - имя от которого порождено отчество
Для таблицы surnames (фамилии)
f_form - женская форма фамилии
m_form - мужская форма фамилии
fname - имя, если фамилия происходит от имени. Например, для фамилии "Иванов" это будет имя "Иван"
Все данные представлены в формате JSON lines, могут быть загружены в СУБД, например, в MongoDB через утилиту mongoimport или любым иным способом.
Эти таблицы могут использоваться взамен таблиц с неочищенными данными проекта с открытым кодом с одноимённым названием russiannames [2] и, соответственно, использоваться для задач связанных с парсингом и идентификацией форм записи ФИО или же определением пола лица за пределами самых очевидных случаев наиболее популярных имён и когда отчество, к примеру, отсутствует или внесено неправильно.
Ещё раз отмечу что это уже очищенные данные, прошедшие неоднократные тесты, если кто-то захочет поработать и проанализировать менее чистые данные, то пишите мне. Это будет в общей сложности 104 тысячи имён, 196 тысяч отчеств и 760 тысяч фамилий. В них много, очень много ошибок потому что, как выяснилось, ЕГРЮЛ и ЕГРИП содержат огромное число ошибок и иных проблем с данными по ФИО. Но для алгоритмов автоматической очистки данных они могут быть полезны.
Ссылки:
[1] https://ngodata.ru/dataset/russiannames
[2] https://github.com/datacoon/russiannames
#opendata #data #persons #datasets #dataset
В наборе данных представлены 3 таблицы:
midnames - отчества, 7040 записей
names - имена, 4874 записи
surnames - фамилии, 48 540 Записей
это покрывает: 96% всех персон по именам, 95% всех персон по отчествам и около 82.5% всех персон по фамилиям
Все таблицы сформированы из первичных данных из 22 млн 617 тыс. записях о персонах с отсевом записей встречающихся не реже 50 раз, прошедшие последующую пост обработку, вычистку мусорных и неверных записей, а также обогащённые данные по полу, поле gender.
Для отчеств пол указан в однозначных значениях: m - мужской, f - женский Для фамилий пол указан в однозначных значениях: m - мужской, f - женский, u - нейтральный (пол невозможно идентифицировать) Для имён пол указан как: m - мужской, f - женский и добавлено поле gender_p - частотное измерение в процентах вероятности что имя относится к данному полу. Например, для имени "Джиргал", пол будет указан как женский "f", а точность будет как 57.97% что будет означать что для всего объёма записей о персонах у 57.97% это были лица женского пола, а остальные мужского.
Общие поля таблиц:
text - имя/фамилия/отчество в зависимости от таблиц
num - число записей где встречается
gender - пол (f - женский, m - мужской, u - невозможно определить)
regorgs - частота встречаемости по кодам субъектов федерации, на основе данных ИНН юридических лиц и ИП
regfl - частота встречаемости по кодам субъектов федерации на основе ИНН физического лица - ИП или руководителя организации
Дополнительные поля
Для таблицы midnames (отчетства)
fname - имя от которого порождено отчество
Для таблицы surnames (фамилии)
f_form - женская форма фамилии
m_form - мужская форма фамилии
fname - имя, если фамилия происходит от имени. Например, для фамилии "Иванов" это будет имя "Иван"
Все данные представлены в формате JSON lines, могут быть загружены в СУБД, например, в MongoDB через утилиту mongoimport или любым иным способом.
Эти таблицы могут использоваться взамен таблиц с неочищенными данными проекта с открытым кодом с одноимённым названием russiannames [2] и, соответственно, использоваться для задач связанных с парсингом и идентификацией форм записи ФИО или же определением пола лица за пределами самых очевидных случаев наиболее популярных имён и когда отчество, к примеру, отсутствует или внесено неправильно.
Ещё раз отмечу что это уже очищенные данные, прошедшие неоднократные тесты, если кто-то захочет поработать и проанализировать менее чистые данные, то пишите мне. Это будет в общей сложности 104 тысячи имён, 196 тысяч отчеств и 760 тысяч фамилий. В них много, очень много ошибок потому что, как выяснилось, ЕГРЮЛ и ЕГРИП содержат огромное число ошибок и иных проблем с данными по ФИО. Но для алгоритмов автоматической очистки данных они могут быть полезны.
Ссылки:
[1] https://ngodata.ru/dataset/russiannames
[2] https://github.com/datacoon/russiannames
#opendata #data #persons #datasets #dataset
ngodata.ru
База наиболее частых имён, отчеств и фамилий - Данные НКО
База частот имён, отчеств и фамилий собранная на основе сведений об учредителях и руководителях юридических лиц из ЕГРЮЛ и сведений о физ. лицах ИП из ЕГРИП. Представлены 3 таблицы: midnames -...
Я ранее публиковал базу получателей средств от Фонда содействия инновациям (известный также как Фонд Бортника) [1]
Эта база построена на основе реестра контрактов по ссылке [2] где публикуется 5921 контракт, но, как выяснилось, это далеко не полный их список. Хотя данные оттуда собрать было очень легко
Полный список из 12731 проекта/получателя средств пока ещё публикуется по ссылке https://online.fasie.ru/Contracts.aspx [3], которая устроена гораздо хуже и требует привлечения специалиста по скрейпингу данных из систем где используется .NET.
Необходимо по этой ссылке собрать данные по всем проектам и сделать таблицу с такими данными:
- Номер договора
- Конкурс
- Название
- Исполнитель
- Ссылка на сайт исполнителя
- Регион
- Цена
- Закрыт
- Претензия/Иск
Сохранить надо это всё в формат CSV или JSON lines.
Все эти данные потому будут опубликованы в открытом доступе как архивные.
В моей команде ребята практически все заняты ещё до конца года и середины января, поэтому:
- если есть кто-то готовый сделать это как волонтёр, то было бы прекрасно. Присылайте сразу данные)
- если готовы сделать за небольшие деньги как фриланс, напишите, если они в пределах разумного, то быстро договоримся.
Пока пишу у себя в блоге и на каналах, если не найдется волонтер/фрилансер, то тогда уже сами соберем до середины января. Очень надеюсь что до того момента Правительство не прикроет Фонд содействия инновациям и все данные не исчезнут;)
Ссылки:
[1] https://ngodata.ru/dataset/fasie-orgs
[2] https://online.fasie.ru/m/public-contracts/registry
[3] https://online.fasie.ru/Contracts.aspx
#opendata #data #helpneeded
Эта база построена на основе реестра контрактов по ссылке [2] где публикуется 5921 контракт, но, как выяснилось, это далеко не полный их список. Хотя данные оттуда собрать было очень легко
Полный список из 12731 проекта/получателя средств пока ещё публикуется по ссылке https://online.fasie.ru/Contracts.aspx [3], которая устроена гораздо хуже и требует привлечения специалиста по скрейпингу данных из систем где используется .NET.
Необходимо по этой ссылке собрать данные по всем проектам и сделать таблицу с такими данными:
- Номер договора
- Конкурс
- Название
- Исполнитель
- Ссылка на сайт исполнителя
- Регион
- Цена
- Закрыт
- Претензия/Иск
Сохранить надо это всё в формат CSV или JSON lines.
Все эти данные потому будут опубликованы в открытом доступе как архивные.
В моей команде ребята практически все заняты ещё до конца года и середины января, поэтому:
- если есть кто-то готовый сделать это как волонтёр, то было бы прекрасно. Присылайте сразу данные)
- если готовы сделать за небольшие деньги как фриланс, напишите, если они в пределах разумного, то быстро договоримся.
Пока пишу у себя в блоге и на каналах, если не найдется волонтер/фрилансер, то тогда уже сами соберем до середины января. Очень надеюсь что до того момента Правительство не прикроет Фонд содействия инновациям и все данные не исчезнут;)
Ссылки:
[1] https://ngodata.ru/dataset/fasie-orgs
[2] https://online.fasie.ru/m/public-contracts/registry
[3] https://online.fasie.ru/Contracts.aspx
#opendata #data #helpneeded
online.fasie.ru
Реестр заключенных договоров
Система АС Фонд-М предназначена для проведения конкурсов и сборов заинтересованностей по актуальным направлениям науки и техники с целью поддержки малых предприятий.
CatchJS [1], небольшой стартап по оптимизации кода веб-приложений через отлавливание ошибок в JavaScript, выложили у себя в блоге результаты мониторинга ошибок на более чем 1 миллионе веб-страниц [2] и опубликовали полный набор данных на Kaggle [3]
Набор не самый большой, исследование не самое детальное, хотя и полезное, для веб-разработчиков. В этом смысле Kaggle постепенно превращается в один из крупнейших порталов открытых данных в мире, с более чем 66 тысячами наборов данных [4], чаще публикуемых коммерческими компаниями чем госорганами.
Для любых данных на английском языке где нужно вовлечение большого числа исследователей - Kaggle сейчас одна из лучших площадок.
Ссылки:
[1] https://catchjs.com/
[2] https://catchjs.com/Blog/PerformanceInTheWild
[3] https://www.kaggle.com/indexhtml/web-performance-metrics
[4] https://www.kaggle.com/datasets
#opendata #data
Набор не самый большой, исследование не самое детальное, хотя и полезное, для веб-разработчиков. В этом смысле Kaggle постепенно превращается в один из крупнейших порталов открытых данных в мире, с более чем 66 тысячами наборов данных [4], чаще публикуемых коммерческими компаниями чем госорганами.
Для любых данных на английском языке где нужно вовлечение большого числа исследователей - Kaggle сейчас одна из лучших площадок.
Ссылки:
[1] https://catchjs.com/
[2] https://catchjs.com/Blog/PerformanceInTheWild
[3] https://www.kaggle.com/indexhtml/web-performance-metrics
[4] https://www.kaggle.com/datasets
#opendata #data
Catchjs
JavaScript Error Tracking and Performance Monitoring | CatchJS
Get JavaScript error tracking, web performance monitoring and simple analytics in one tiny, but powerful package.
Один из важных вопросов в том какая политика в отношении открытости будет у Администрации Байдена, в США. Тот же Дональд Трамп сразу после прихода в Белый Дом отменил многие инициативы Барака Обамы (но не все) по открытости собственной администрации. И пока мы не знаем будет ли перезапуск открытости в США, CODE (Center of Open Data Enterprise) опубликовали доклад о необходимо открывать данные о COVID-19 и системе здравоохранения [1]. CODE - это НКО из Вашингтона (лоббисты и консультанты в общем). Среди их рекомендаций раскрытие сведений о социальных определяющих здоровья и установление информационно-координационного центра / клиринговый центр (clearinghouse) по обмену данными.
Очень похоже на модель Data Trusts в Европейском Союзе и в других странах. Похоже что в следующем году будет много интересного в области регулирования данных в мире. Во всяком случае лоббисты уже работают во всю.
Доклад в PDF можно прочитать по ссылке [2].
Ссылки:
[1] https://www.fedscoop.com/open-data-critical-tool-new-administrations-covid-19-strategy/
[2] https://healthdatasharing.org/wp-content/uploads/2020/12/COVID-SDOH-Summary-Report-Final.pdf
#opendata #data #health #usa
Очень похоже на модель Data Trusts в Европейском Союзе и в других странах. Похоже что в следующем году будет много интересного в области регулирования данных в мире. Во всяком случае лоббисты уже работают во всю.
Доклад в PDF можно прочитать по ссылке [2].
Ссылки:
[1] https://www.fedscoop.com/open-data-critical-tool-new-administrations-covid-19-strategy/
[2] https://healthdatasharing.org/wp-content/uploads/2020/12/COVID-SDOH-Summary-Report-Final.pdf
#opendata #data #health #usa
FedScoop
Open data: A critical tool for the new administration’s COVID-19 strategy
In a contributed op-ed, members of the Center for Open Data Enterprise give recommendations for ways the next administration can use social determinants of health data to fight COVID-19.
Éric Bothorel, депутат Национального собрания Франции, представил результат полугодовой работы по формированию единой госполитики в области данных. В докладе Pour une politique publique de la donnée [1] описаны ключевые подходы, текущая практика, результаты консультаций и много иных полезных материалов и рекомендаций.
Вся работа над докладом шла в публичном режиме, материалы публиковались на посвящённом ему сайте [2], а сама работа шла по прямому поручению премьер-министра Франции.
В докладе очень много всего и про открытые данные, и про открытый код, и сам он хорошо оформлен и структурирован, единственное что усложняет - это французский язык поскольку, на английском доклада этого нет. Признаться читать тексты на французском требует куда больше усилий чем на английском или испанском, но возможно именно этот доклад стоит того чтобы в него вчитаться.
Ссылки:
[1] https://acteurspublics.fr/upload/media/default/0001/32/602a4ef6c2a2d5b0231eb08706a240503fe08a1b.pdf
[2] https://www.mission-open-data.fr/
#opendata #france
Вся работа над докладом шла в публичном режиме, материалы публиковались на посвящённом ему сайте [2], а сама работа шла по прямому поручению премьер-министра Франции.
В докладе очень много всего и про открытые данные, и про открытый код, и сам он хорошо оформлен и структурирован, единственное что усложняет - это французский язык поскольку, на английском доклада этого нет. Признаться читать тексты на французском требует куда больше усилий чем на английском или испанском, но возможно именно этот доклад стоит того чтобы в него вчитаться.
Ссылки:
[1] https://acteurspublics.fr/upload/media/default/0001/32/602a4ef6c2a2d5b0231eb08706a240503fe08a1b.pdf
[2] https://www.mission-open-data.fr/
#opendata #france
Постепенно приближается время подводить итоги и писать о планах на следующий год.
Подвести итоги за один раз у меня не получится, слишком много разных тем, деятельности, проектов в которых участвую и я сам и моя команда.
Я могу пока точно обозначить цель на следующий год - это систематизация, интеграция и институциональное закрепление всего что делалось за многие годы. Какие то проекты будут объединяться, для каких-то привлекаться партнеры, какие-то новые проекты будут включать ранее сделанные и так далее. Самое сложное во всем этом именно в институциональном закреплении и построение долгосрочной стратегии: финансирования, постоянной деятельности и отдельных проектов. Всё это будет непросто, но давно уже пора.
Можно сказать что сейчас не время собирать камни и не время разбрасывать, а время сортировать камни, строить из них дома и заселять людьми.
Всё это будет вокруг тем открытости, данных, цифровых архивов и приватности.
#opendata #newyear
Подвести итоги за один раз у меня не получится, слишком много разных тем, деятельности, проектов в которых участвую и я сам и моя команда.
Я могу пока точно обозначить цель на следующий год - это систематизация, интеграция и институциональное закрепление всего что делалось за многие годы. Какие то проекты будут объединяться, для каких-то привлекаться партнеры, какие-то новые проекты будут включать ранее сделанные и так далее. Самое сложное во всем этом именно в институциональном закреплении и построение долгосрочной стратегии: финансирования, постоянной деятельности и отдельных проектов. Всё это будет непросто, но давно уже пора.
Можно сказать что сейчас не время собирать камни и не время разбрасывать, а время сортировать камни, строить из них дома и заселять людьми.
Всё это будет вокруг тем открытости, данных, цифровых архивов и приватности.
#opendata #newyear
Яндекс закрыл социальную сеть Яндекс.Район, об этом можно прочитать в официальном анонсе [1] и в заметке на Roem [2]. Можно было предположить что закрытие, во многом, связано с ужесточением регулирования медиа, контента, а может быть, действительно, то что касается краудсорсинга контента и социальных сетей а даётся Яндексу с трудом. Та же соцсеть Аура также не взлетела и была закрыта, как и многие другие проекты Яндекса в этой области.
При этом, безусловно, жаль закрытия. Яндекс.Район - это один из немногих гиперлокальных проектов в России действующих на уровне конкретного района, города, поселения. И он, конечно, был бы куда полезнее, простите, довольно бессмысленного Яндекс.Кью и, несомненно прибыльного, но весьма неприятного Дзен.
Успешных гиперлокальных проектов в мире немного, из наиболее известных можно вспомнить Patch [3] в США, купленный AOL в 2009 году за неназванную сумму, но к концу 2018-2019 года он оценивался как [4] вполне прибыльный и приносящий до $20 дохода, в его сеть входило 1200 локальных сайтов, 150 сотрудников и 110 журналистов, включая журналистов национальных медиа.
Можно ли создать гиперлокальный проект не создавая полноценное медиа? Я не очень в это верю, а в России - это превращается из коммерческого проекта в проект управления рисками. Но что можно было бы сказать это то что Яндекс.Район мог бы быть совсем другим если бы не был соцсетью. У Яндекса много сервисов локального уровня, собрать их вместе на гиперлокальном уровне, партнёрство с муниципальными органами, интеграция открытых данных могли бы сделать проект/продукт куда более востребованным.
Ссылки:
[1] https://local.yandex.ru/moscow/top?event_id=4422133
[2] https://roem.ru/30-12-2020/284517/yandex-local-closed/
[3] https://patch.com
[4] https://en.wikipedia.org/wiki/Patch_(website)
#opendata #yandex #projects #hyperlocal
При этом, безусловно, жаль закрытия. Яндекс.Район - это один из немногих гиперлокальных проектов в России действующих на уровне конкретного района, города, поселения. И он, конечно, был бы куда полезнее, простите, довольно бессмысленного Яндекс.Кью и, несомненно прибыльного, но весьма неприятного Дзен.
Успешных гиперлокальных проектов в мире немного, из наиболее известных можно вспомнить Patch [3] в США, купленный AOL в 2009 году за неназванную сумму, но к концу 2018-2019 года он оценивался как [4] вполне прибыльный и приносящий до $20 дохода, в его сеть входило 1200 локальных сайтов, 150 сотрудников и 110 журналистов, включая журналистов национальных медиа.
Можно ли создать гиперлокальный проект не создавая полноценное медиа? Я не очень в это верю, а в России - это превращается из коммерческого проекта в проект управления рисками. Но что можно было бы сказать это то что Яндекс.Район мог бы быть совсем другим если бы не был соцсетью. У Яндекса много сервисов локального уровня, собрать их вместе на гиперлокальном уровне, партнёрство с муниципальными органами, интеграция открытых данных могли бы сделать проект/продукт куда более востребованным.
Ссылки:
[1] https://local.yandex.ru/moscow/top?event_id=4422133
[2] https://roem.ru/30-12-2020/284517/yandex-local-closed/
[3] https://patch.com
[4] https://en.wikipedia.org/wiki/Patch_(website)
#opendata #yandex #projects #hyperlocal
Яндекс
Найдётся всё
Хочу сказать спасибо всем откликнувшимся с помощью в сборе данных о контрактах Фонда содействия инновациям https://yangx.top/begtin/2403, желающих было неожиданно много и задачу сделали несколько раз, что даёт гарантию что данные о контрактах не будут утеряны, а мы применим их в рамках проектов по анализу госфинансов и, конечно, они должны быть доступны как открытые данные.
У наших проектов таких задач много, а критериями для конкурса могут быть: полнота решённой задачи и чистота кода.
Так что я даже задумался не стоит ли регулярно проводить такие мини-конкурсы по созданию парсеров для сложных и несложных данных и для общественного блага.
#opendata #opengov
У наших проектов таких задач много, а критериями для конкурса могут быть: полнота решённой задачи и чистота кода.
Так что я даже задумался не стоит ли регулярно проводить такие мини-конкурсы по созданию парсеров для сложных и несложных данных и для общественного блага.
#opendata #opengov
Telegram
Ivan Begtin
Я ранее публиковал базу получателей средств от Фонда содействия инновациям (известный также как Фонд Бортника) [1]
Эта база построена на основе реестра контрактов по ссылке [2] где публикуется 5921 контракт, но, как выяснилось, это далеко не полный их список.…
Эта база построена на основе реестра контрактов по ссылке [2] где публикуется 5921 контракт, но, как выяснилось, это далеко не полный их список.…
Счётная палата США (The U.S. Government Accountability Office, GAO) опубликовали доклад DATA GOVERNANCE Agencies Made Progress in Establishing Governance, but Need to Address Key Milestones [1] посвящённый анализу практик работы с данными в органах власти США.
Доклад короткий, 59 страниц, ясно написанный, четко сформулированный, хотя и описывает для нас совершенно другую политическую, бюрократическую и организационную конструкцию управления данными, тем менее полезный для изучения.
На что стоит обратить внимание, с оглядкой на то что у нас:
1. В США координацией работы с данными в госорганах занимается совет CDO (CDO council) - это группа руководителей занимающихся _только данными_. Не цифровой трансформацией, не ИТ инфраструктурой, а именно данными. Я постепенно всё более убеждаюсь что российская конструкция с CDTO совмещающим функции "швеца, жнеца и на дуде игреца" уходит не в ту сторону. Но стоит ли транслировать опыт США как-есть тоже сомневаюсь>
2. Этот совет CDO отчитывается перед конгрессом и OMB (Office of Management and Budget, Административно бюджетное управление) в форме отчета. Кстати, необходимость ежегодного отчета для подобных органов хорошая практика. Жаль что ни один из председателей государственных комиссий и советов перед парламентом не отчитываются и годовые отчеты не составляют.
Текст также можно прочитать на сайте GAO в HTML формате и структурированных рекомендациях [2]
Ссылки:
[1] https://www.gao.gov/assets/720/711325.pdf
[2] https://www.gao.gov/products/GAO-21-152
#opendata #opengov #accounting #datagovernance
Доклад короткий, 59 страниц, ясно написанный, четко сформулированный, хотя и описывает для нас совершенно другую политическую, бюрократическую и организационную конструкцию управления данными, тем менее полезный для изучения.
На что стоит обратить внимание, с оглядкой на то что у нас:
1. В США координацией работы с данными в госорганах занимается совет CDO (CDO council) - это группа руководителей занимающихся _только данными_. Не цифровой трансформацией, не ИТ инфраструктурой, а именно данными. Я постепенно всё более убеждаюсь что российская конструкция с CDTO совмещающим функции "швеца, жнеца и на дуде игреца" уходит не в ту сторону. Но стоит ли транслировать опыт США как-есть тоже сомневаюсь>
2. Этот совет CDO отчитывается перед конгрессом и OMB (Office of Management and Budget, Административно бюджетное управление) в форме отчета. Кстати, необходимость ежегодного отчета для подобных органов хорошая практика. Жаль что ни один из председателей государственных комиссий и советов перед парламентом не отчитываются и годовые отчеты не составляют.
Текст также можно прочитать на сайте GAO в HTML формате и структурированных рекомендациях [2]
Ссылки:
[1] https://www.gao.gov/assets/720/711325.pdf
[2] https://www.gao.gov/products/GAO-21-152
#opendata #opengov #accounting #datagovernance
Желаю всем
Чтобы Новый год был новым
Чтобы дом был Домом
Чтобы счастья много и регулярно
Чтобы спокойствия постоянно
Желаю всем реальной, а не имитационной трансформации
Осторожной цифровой адаптации
С наступающим новым годом!
Пусть радости будет много, а горя немного
Чтобы Новый год был новым
Чтобы дом был Домом
Чтобы счастья много и регулярно
Чтобы спокойствия постоянно
Желаю всем реальной, а не имитационной трансформации
Осторожной цифровой адаптации
С наступающим новым годом!
Пусть радости будет много, а горя немного
То что все боялись по поводу госслежки во время пандемии таки случилось, хотя и не в России. В Сингапуре полиция намерена использовать данные приложения TraceTogether в криминальных расследованиях [1] [2].
И, хотя и обещают что, данные будут хранится в безопасной платформе и доступ будет только у ограниченного числа полицейских, а за незаконный доступ к данным штрафы будут достигать S$5000 (примерно - 280 тысяч рублей) или заключением до 2-х лет, тем не менее факт остаётся фактом, данные будут накапливаться и применяться в официальных расследованиях.
Здесь важно напомнить что в Сингапуре используется не анонимизирующее API от Google/Apple на основе которого работают приложения правительств большинства стран, а собственное приложение и устройство TraceTogether работающее по Bluetooth [3] и предполагающее неанонимизированное отслеживание контактов.
Пример Сингапура имеет сразу несколько прецендентов:
1. То что государство может в любой момент изменить статус доступа к данным и что даже условия приватности в созданных системах могут поменяться очень быстро и имеют обратную силу.
2. То что действия Google/Apple по блокировке любых приложений использующих отслеживание не через их API было обосновано. TraceTogether обходит это ограничение за счёт внешнего устройства.
Ссылки:
[1] https://sg.news.yahoo.com/trace-together-data-criminal-investigations-desmond-tan-080806396.html
[2] https://www.channelnewsasia.com/news/singapore/singapore-police-force-can-obtain-tracetogether-data-covid-19-13889914
[3] https://www.tracetogether.gov.sg/
#govenment #singapore #data #privacy
И, хотя и обещают что, данные будут хранится в безопасной платформе и доступ будет только у ограниченного числа полицейских, а за незаконный доступ к данным штрафы будут достигать S$5000 (примерно - 280 тысяч рублей) или заключением до 2-х лет, тем не менее факт остаётся фактом, данные будут накапливаться и применяться в официальных расследованиях.
Здесь важно напомнить что в Сингапуре используется не анонимизирующее API от Google/Apple на основе которого работают приложения правительств большинства стран, а собственное приложение и устройство TraceTogether работающее по Bluetooth [3] и предполагающее неанонимизированное отслеживание контактов.
Пример Сингапура имеет сразу несколько прецендентов:
1. То что государство может в любой момент изменить статус доступа к данным и что даже условия приватности в созданных системах могут поменяться очень быстро и имеют обратную силу.
2. То что действия Google/Apple по блокировке любых приложений использующих отслеживание не через их API было обосновано. TraceTogether обходит это ограничение за счёт внешнего устройства.
Ссылки:
[1] https://sg.news.yahoo.com/trace-together-data-criminal-investigations-desmond-tan-080806396.html
[2] https://www.channelnewsasia.com/news/singapore/singapore-police-force-can-obtain-tracetogether-data-covid-19-13889914
[3] https://www.tracetogether.gov.sg/
#govenment #singapore #data #privacy
Yahoo News
TraceTogether data can be used for criminal investigations: Desmond Tan
The Singapore police are empowered under the Criminal Procedure Code to obtain TraceTogether data for criminal investigations.
31 декабря вышел свежий пакет поручений Президента РФ, в том числе и среди поручения по развитию искусственного интеллекта есть пункт про данные [1]
—
в) в целях ускоренного создания отечественного программного обеспечения и программно-аппаратных комплексов на основе технологий искусственного интеллекта обеспечить внесение в законодательство Российской Федерации изменений, предусматривающих предоставление (при условии обеспечения защиты персональных данных) организациям, разрабатывающим технологические решения на основе искусственного интеллекта, доступа к наборам данных, содержащимся в том числе в государственных информационных системах, а также возможности использования указанными организациями таких данных.
Срок – 1 июля 2021 г.;
—
Поручение это дано Правительству РФ и вопросов по нему очень много.
- Как будут предоставляться наборы данных? Будут ли они общедоступны как открытые данные или же ограничены авторизацией?
- Если ограничены авторизацией то какой будет процедура доступа к данным?
- К данным каких именно государственно информационным системам будет организован доступ? Напомню что только федеральных более 800 штук
- Как будет организован доступ к данным в ГИС субъектов федерации?
- Что значит изменения в законодательстве? Будут менять федеральные законы? Но не все ГИС созданы и эксплуатируются на основании отдельных федеральных законов.
Из этого поручения становится понятнее спешка с инвентаризацией ГИС, но, как бы сказать, надо ещё посмотреть на результаты этой инвентаризации. Начиная с методики того как она должна проводиться.
Ссылки:
[1] http://kremlin.ru/acts/assignments/orders/64859
#opendata #data #ai #laws
—
в) в целях ускоренного создания отечественного программного обеспечения и программно-аппаратных комплексов на основе технологий искусственного интеллекта обеспечить внесение в законодательство Российской Федерации изменений, предусматривающих предоставление (при условии обеспечения защиты персональных данных) организациям, разрабатывающим технологические решения на основе искусственного интеллекта, доступа к наборам данных, содержащимся в том числе в государственных информационных системах, а также возможности использования указанными организациями таких данных.
Срок – 1 июля 2021 г.;
—
Поручение это дано Правительству РФ и вопросов по нему очень много.
- Как будут предоставляться наборы данных? Будут ли они общедоступны как открытые данные или же ограничены авторизацией?
- Если ограничены авторизацией то какой будет процедура доступа к данным?
- К данным каких именно государственно информационным системам будет организован доступ? Напомню что только федеральных более 800 штук
- Как будет организован доступ к данным в ГИС субъектов федерации?
- Что значит изменения в законодательстве? Будут менять федеральные законы? Но не все ГИС созданы и эксплуатируются на основании отдельных федеральных законов.
Из этого поручения становится понятнее спешка с инвентаризацией ГИС, но, как бы сказать, надо ещё посмотреть на результаты этой инвентаризации. Начиная с методики того как она должна проводиться.
Ссылки:
[1] http://kremlin.ru/acts/assignments/orders/64859
#opendata #data #ai #laws
Президент России
Перечень поручений по итогам конференции по искусственному интеллекту • Президент России
Новости, стенограммы, фото и видеозаписи, документы, подписанные Президентом России, информация о деятельности Администрации
Правительство РФ утвердило список из 28 приложений обязательных к предустановке с 1 апреля 2021 года [1].
Список включает:
- 16 приложений для смартфонов из которых 16 для Android и 14 для iPhone
- 1 приложение для Windows - пакет МойОфис
- 11 приложений для "умных" телевизоров
На что стоит обратить внимание:
- 4 приложения Яндекса и 7 приложений от Mail.ru и компаний входящих в Mail.ru Group
- 2 госприложения от структур подчинённых федеральному правительству, для смартфонов: Госуслуги и AppList.ru. Для телевизоров приложения Wink от Ростелекома и Смотрим от ФГУП ВГТРК
- судя по описанию AppList.ru - это аггрегатор для доступа к социальным ресурсам, сервисное приложение, возможно аналог AppStore или Google Play, хотя и до конца непонятно, пока его нет в открытом доступе.
Что остаётся за кадром:
- В регулировании пока нет упоминания будут ли приложения неудаляемыми, а если будут удаляемыми, то можно ли это будет сделать одной кнопкой или потребуется удалять каждое
- Что, в итоге, с политикой Apple по поводу предустановки приложений. Это вопрос уже не регулирования, а готовности компании это регулирование выполнять и процедур выполнения.
- ничего нет про региональный контур, мобильные приложения имеющие привязку к субъектам федерации, то же Пр-во Москвы полным ходом разрабатывает свой набор мобильных приложений.
P.S.
Небольшое отступление
Не могу не отметить что до сих пор, несмотря на то что уже 2021 год, цифровизация и всё такое, документы Правительства сначала доступны сканами, и только через недели в виде текстов. На сайте Правительства документы публикуются с задержкой в 3 недели, последние публиковались 19 декабря, а в системе НПА Минюста России в 2 недели, последние документы публиковались 23 декабря. Только на publication.pravo.gov.ru они публикуются относительно оперативно, но исключительно в отсканированном виде с неприличным названием "документы для качественной печати". Очень хочется надеяться что так будет не всегда.
Ссылки:
[1] http://publication.pravo.gov.ru/Document/View/0001202101060012?index=0&rangeSize=1
#government #apps #regulation
Список включает:
- 16 приложений для смартфонов из которых 16 для Android и 14 для iPhone
- 1 приложение для Windows - пакет МойОфис
- 11 приложений для "умных" телевизоров
На что стоит обратить внимание:
- 4 приложения Яндекса и 7 приложений от Mail.ru и компаний входящих в Mail.ru Group
- 2 госприложения от структур подчинённых федеральному правительству, для смартфонов: Госуслуги и AppList.ru. Для телевизоров приложения Wink от Ростелекома и Смотрим от ФГУП ВГТРК
- судя по описанию AppList.ru - это аггрегатор для доступа к социальным ресурсам, сервисное приложение, возможно аналог AppStore или Google Play, хотя и до конца непонятно, пока его нет в открытом доступе.
Что остаётся за кадром:
- В регулировании пока нет упоминания будут ли приложения неудаляемыми, а если будут удаляемыми, то можно ли это будет сделать одной кнопкой или потребуется удалять каждое
- Что, в итоге, с политикой Apple по поводу предустановки приложений. Это вопрос уже не регулирования, а готовности компании это регулирование выполнять и процедур выполнения.
- ничего нет про региональный контур, мобильные приложения имеющие привязку к субъектам федерации, то же Пр-во Москвы полным ходом разрабатывает свой набор мобильных приложений.
P.S.
Небольшое отступление
Не могу не отметить что до сих пор, несмотря на то что уже 2021 год, цифровизация и всё такое, документы Правительства сначала доступны сканами, и только через недели в виде текстов. На сайте Правительства документы публикуются с задержкой в 3 недели, последние публиковались 19 декабря, а в системе НПА Минюста России в 2 недели, последние документы публиковались 23 декабря. Только на publication.pravo.gov.ru они публикуются относительно оперативно, но исключительно в отсканированном виде с неприличным названием "документы для качественной печати". Очень хочется надеяться что так будет не всегда.
Ссылки:
[1] http://publication.pravo.gov.ru/Document/View/0001202101060012?index=0&rangeSize=1
#government #apps #regulation
Ультиматум от WhatsApp "Либо делишься данными с Facebook, либо перестаёшь пользоваться приложением" в Arstechnica статья о том что WhatsApp поменяли правила использования [1]. С рекомендациями о том что пора переходить на другие мессенжеры, например, Signal.
Не отвлекаясь от темы WhatsApp'а, как нельзя кстати, новость на BBC о том что в спецбатальоне МВД собирали данные о передвижении Президента РФ именно через WhatsApp [2]. В данном случае не хочется даже иронизировать, потому что слов нет.
Ссылки:
[1] https://arstechnica.com/tech-policy/2021/01/whatsapp-users-must-share-their-data-with-facebook-or-stop-using-the-app/
[2] https://www.bbc.com/russian/news-55496368
#whatsapp
Не отвлекаясь от темы WhatsApp'а, как нельзя кстати, новость на BBC о том что в спецбатальоне МВД собирали данные о передвижении Президента РФ именно через WhatsApp [2]. В данном случае не хочется даже иронизировать, потому что слов нет.
Ссылки:
[1] https://arstechnica.com/tech-policy/2021/01/whatsapp-users-must-share-their-data-with-facebook-or-stop-using-the-app/
[2] https://www.bbc.com/russian/news-55496368
Ars Technica
WhatsApp gives users an ultimatum: Share data with Facebook or stop using the app
The Facebook-owned messenger with 2 billion users revamps its privacy policy.
Короткое, 15-страничное, исследование о децентрализованной модели публикации данных вышло в декабре прошлого года от Open Data Institute [1]. Исследование о том как устроена публикация данных в рамках "инициатив по децентрализованной публикации данных" которые расшифровываются как соответствующие следующим критериям:
- данные публикуются децентрализованным образом: провайдеры данных делают данные доступными через их собственную инфраструктуру
- провайдеры данных публикуют данные об одинаковых типах данных, например, данных о расходах
- данные можно использовать или они открытые
- есть единый общий стандарт используемый всеми организациями с помощью которого данные публикуются схожим образом;
- инициатива предоставляет инструкции, инструменты и технологии для помощи в публикации данных, например, центральный реестр для помощи в их обнаружении
Таких инициатив немало, в данном случае в основном, были международные инициативы и инициативы в UK, такие как Open Contracting и Open Banking.
Обзор, хотя и сжатый и без деталей анализа каждого кейса, не бесполезный.
Ссылки:
[1] https://theodi.org/article/comparing-decentralised-data-publishing-initiatives-report/
#opendata
- данные публикуются децентрализованным образом: провайдеры данных делают данные доступными через их собственную инфраструктуру
- провайдеры данных публикуют данные об одинаковых типах данных, например, данных о расходах
- данные можно использовать или они открытые
- есть единый общий стандарт используемый всеми организациями с помощью которого данные публикуются схожим образом;
- инициатива предоставляет инструкции, инструменты и технологии для помощи в публикации данных, например, центральный реестр для помощи в их обнаружении
Таких инициатив немало, в данном случае в основном, были международные инициативы и инициативы в UK, такие как Open Contracting и Open Banking.
Обзор, хотя и сжатый и без деталей анализа каждого кейса, не бесполезный.
Ссылки:
[1] https://theodi.org/article/comparing-decentralised-data-publishing-initiatives-report/
#opendata
theodi.org
Comparing decentralised data publishing initiatives [report] – The ODI
Стартап Deliveroo проиграл суд трём профсоюзам в Италии [1]. В основе обвинения лежит алгоритмическая дискриминация самозанятых (self-employed) работников в Deliveroo и нарушение местных законов из-за несоблюдения условий труда. Обвинения включали то что алгоритмы нагружающие курьеров не учитывали что они имеют право болеть или же их право на забастовку.
Мой комментарий
Возможны ли подобные ситуации у российских сервисов доставки? Лично я сомневаюсь, российские профсоюзы не являются активным политическом/общественным игроком, а есть ли они у курьеров - большой вопрос. Важно то что критерием юридической оценки роботизированных систем является то кто является их владельцем и выгодоприобретателем и отмазка "Это не мы, а алгоритм и мы тут не при чём, не работает". Впрочем, всё европейское регулирование движется в сторону ответственности разработчиков и эксплуатантов алгоритмов.
Ссылки:
[1] https://techcrunch.com/2021/01/04/italian-court-rules-against-discriminatory-deliveroo-rider-ranking-algorithm/
#ai #court #legislation #italy
Мой комментарий
Возможны ли подобные ситуации у российских сервисов доставки? Лично я сомневаюсь, российские профсоюзы не являются активным политическом/общественным игроком, а есть ли они у курьеров - большой вопрос. Важно то что критерием юридической оценки роботизированных систем является то кто является их владельцем и выгодоприобретателем и отмазка "Это не мы, а алгоритм и мы тут не при чём, не работает". Впрочем, всё европейское регулирование движется в сторону ответственности разработчиков и эксплуатантов алгоритмов.
Ссылки:
[1] https://techcrunch.com/2021/01/04/italian-court-rules-against-discriminatory-deliveroo-rider-ranking-algorithm/
#ai #court #legislation #italy
TechCrunch
Italian court rules against ‘discriminatory’ Deliveroo rider-ranking algorithm
A court in Italy has dealt a blow to unalloyed algorithmic management after a legal challenge brought by three unions. The Bologna court ruled that a reputational-ranking algorithm used by on-demand food delivery platform Deliveroo discriminated against gigging…
Команда Jupyter выпустили новую версию Jupyter Lab 3.0 [1], системы для ведения научных блокнотов дата сайентистами по всему миру.
Из полезных изменений:
- визуальный дебаггер
- поддержка упрощённого интерфейса
- table of contents по умолчанию
- улучшенная работа с расширениями
В целом ощущение что всё больше движение в сторону executive papers, по крайней мере, в части подключения table of contents по умолчанию.
Лично я ещё не успел оценить все возможности по достоинству, но активно использую.
#datascience #tools
Из полезных изменений:
- визуальный дебаггер
- поддержка упрощённого интерфейса
- table of contents по умолчанию
- улучшенная работа с расширениями
В целом ощущение что всё больше движение в сторону executive papers, по крайней мере, в части подключения table of contents по умолчанию.
Лично я ещё не успел оценить все возможности по достоинству, но активно использую.
#datascience #tools
Незаслуженно упущенный мной из внимания доклад Public Provider versus Big Brother [1] о госполитике на основе современных технологий сбора данных. Подготовлен OPSI (Observatory of Public Service Information), структурой при ОЭСР и MBRCGI (Mohammed Bin Rashid Centre for Government Innovation) центром инноваций в госуправлении Саудовской Аравии.
Доклад, как можно догадаться из его названия, посвящён теме того как государства используют биометрию и сбор данных, для создания новых сервисов или же для систем слежки нового поколения. При том что я лично не восторге текстов и докладов публикуемых ОЭСР, в данном случае, он весьма лаконично и хорошо оформлен, с чёткими, хотя и очевидными рекомендациями, которые, если их перевести, выглядят так:
1. Активно занимайтесь вопросами, поднятыми этими технологиями.
2. Уделяйте приоритетное внимание завоеванию доверия со стороны общественности, чтобы успешно внедрять услуги, использующие эти технологии.
3. Работайте совместно не взирая на национальные границы, чтобы понять ограничения, подводные камни и возможности этих технологий.
Впрочем, в подобных международных докладах всегда самое интересное - это собранные со всего мира кейсы.
Например, такие как:
- сбор данных мобильных операторов в Чили для повышения безопасности женщин в общественном транспорте (Чили)
- системы идентификации по лицу для госуслуг и банковских сервисов (Сингапур)
- выработка политики сбора биометрии для гуманитарной помощи (Международный Красный Крест)
- проект HOPE по сбору гиперлокальных данных по качеству воздуха (Финляндия, Хельсинки)
- отправка дронов для снятия видео с мест происшествий/инцидентов (США, полиция Сан-Диего)
Про многие применения я лично, честно говоря, не знал и тем больше люблю читать про те примеры о которых ничего не знаю.
Ссылки:
[1] https://trends.oecd-opsi.org/trend-reports/public-provider-versus-big-brother
#data #privacy #government #policy
Доклад, как можно догадаться из его названия, посвящён теме того как государства используют биометрию и сбор данных, для создания новых сервисов или же для систем слежки нового поколения. При том что я лично не восторге текстов и докладов публикуемых ОЭСР, в данном случае, он весьма лаконично и хорошо оформлен, с чёткими, хотя и очевидными рекомендациями, которые, если их перевести, выглядят так:
1. Активно занимайтесь вопросами, поднятыми этими технологиями.
2. Уделяйте приоритетное внимание завоеванию доверия со стороны общественности, чтобы успешно внедрять услуги, использующие эти технологии.
3. Работайте совместно не взирая на национальные границы, чтобы понять ограничения, подводные камни и возможности этих технологий.
Впрочем, в подобных международных докладах всегда самое интересное - это собранные со всего мира кейсы.
Например, такие как:
- сбор данных мобильных операторов в Чили для повышения безопасности женщин в общественном транспорте (Чили)
- системы идентификации по лицу для госуслуг и банковских сервисов (Сингапур)
- выработка политики сбора биометрии для гуманитарной помощи (Международный Красный Крест)
- проект HOPE по сбору гиперлокальных данных по качеству воздуха (Финляндия, Хельсинки)
- отправка дронов для снятия видео с мест происшествий/инцидентов (США, полиция Сан-Диего)
Про многие применения я лично, честно говоря, не знал и тем больше люблю читать про те примеры о которых ничего не знаю.
Ссылки:
[1] https://trends.oecd-opsi.org/trend-reports/public-provider-versus-big-brother
#data #privacy #government #policy
Embracing Innovation
in Government Global Trends 2020
in Government Global Trends 2020
Public Provider versus Big Brother | Embracing Innovation
in Government Global Trends 2020
in Government Global Trends 2020
Amazon в след за Google и Apple добивают социальную сеть Parler куда мигрировал Трамп после блокировки в Twitter, Facebook и Instagram. Об этом пишут сейчас практически все СМИ в США, Arstechnica[1], NYT [2] и многие другие. Фактически Amazon поставили Parler ультиматум и нет гарантии что новый хостинг куда Parler может мигрировать не предъявит аналогичных требований.
Только Electronic Frontier Foundation пишут о том что права человека первичны [3], впрочем борьба с цензурой интернет платформ - это достаточно давняя их позиция.
Это, конечно, очень важная ситуация резкой политизации компании Кремниевой долины и технологических компаний. Список "сетевых цензоров" теперь состоит как минимум в виде Apple, Google и Amazon. Причём, если первые просто отрезают компании/сервисы от своей экосистемы, то Amazon не даёт другого выбора кроме поиска другого провайдера.
Честно говоря интересно что будет дальше. Поступят ли также облачные CDN вроде Cloudflare? Поступит ли также AT&T фильтруя трафик к сайтам со сторонниками Трампа? Иначе говоря, есть ли пределы подобной технологической цензуре.
Ссылки:
[1] https://arstechnica.com/tech-policy/2021/01/amazon-cuts-off-parlers-web-hosting-following-apple-google-bans/
[2] https://www.nytimes.com/2021/01/09/technology/apple-google-parler.html
[3] https://www.eff.org/deeplinks/2021/01/eff-response-social-media-companies-decision-block-president-trumps-accounts
#censorship #politics #trump
Только Electronic Frontier Foundation пишут о том что права человека первичны [3], впрочем борьба с цензурой интернет платформ - это достаточно давняя их позиция.
Это, конечно, очень важная ситуация резкой политизации компании Кремниевой долины и технологических компаний. Список "сетевых цензоров" теперь состоит как минимум в виде Apple, Google и Amazon. Причём, если первые просто отрезают компании/сервисы от своей экосистемы, то Amazon не даёт другого выбора кроме поиска другого провайдера.
Честно говоря интересно что будет дальше. Поступят ли также облачные CDN вроде Cloudflare? Поступит ли также AT&T фильтруя трафик к сайтам со сторонниками Трампа? Иначе говоря, есть ли пределы подобной технологической цензуре.
Ссылки:
[1] https://arstechnica.com/tech-policy/2021/01/amazon-cuts-off-parlers-web-hosting-following-apple-google-bans/
[2] https://www.nytimes.com/2021/01/09/technology/apple-google-parler.html
[3] https://www.eff.org/deeplinks/2021/01/eff-response-social-media-companies-decision-block-president-trumps-accounts
#censorship #politics #trump
Ars Technica
Amazon cuts off Parler’s Web hosting following Apple, Google bans
The app will need to find new Web hosting by Sunday or go offline.