Ассоциация участников рынка данных
96 subscribers
52 photos
1 video
87 links
Пишем о рынке данных в России. http://aurd.ru
加入频道
Forwarded from Инфокультура
Счетная палата – драйвер открытости государства в России сегодня. Контрольное ведомство стало первым среди госструктур, кто опубликовал исходный код проектов. Первыми откроют код системы по автоматизации работы инспекторов и сотрудников. Но ключевая цель публикации исходного кода – просветительская. Репозиторий кода содержит обучающие материалы по работе с открытыми финансовыми данными. Хранилище будет регулярно обновляться и пополнится пакетами для дизайнеров и программистов.

«Открывая репозитории, мы демонстрируем свою открытость, говорим о том, что разработчики могут сообщать об ошибках, участвовать. Это работа сделает Счетную палату более привлекательной для аналитиков и разработчиков. В репозитории кода есть целый блок «Образовательные ресурсы», есть исторические архивные данные. Например, архив бюллетеня Счетной палаты с 1999 по 2010 год. Их на официальном сайте сейчас нет. А также код сбора и обработки данных из государственных информационных систем. Мы будем выкладывать туда дизайн-макет, код аналитических инструментов и многое другое. Информация будет обновляться не реже, чем раз в месяц, а далее на постоянной основе», - уточнил эксперт Счетной палаты Иван Бегтин.

Исходный код проектов Счетной палаты публикуется по ссылке: https://code.ach.gov.ru/public.

Новость: http://audit.gov.ru/press_center/news/37677.
Forwarded from Инфокультура
16-22 июня 2019 года состоялся хакатон «Цифровой рост», организованный РАНХиГС, АНО «Информационная культура» и Ассоциацией участников рынка данных.

В хакатоне принимали участие выпускники бакалавриата ИТ-специальностей, а также начинающие специалисты, которые хотят продолжить свое обучение в магистратуре РАНХиГС. Участники соревновались в решении задач на машинное обучение и текстовый анализ, а также в создании различных проектов на основе открытых финансовых данных.

Подробнее об итогах хакатона читайте на нашем сайте https://www.infoculture.ru/2019/07/03/hackathon_ranepa/
Публикуем материалы дата-среды, посвященной особенностям извлечения данных с сайтов, их очистке и структуризации.

Сергей Бершадский, backend-разработчик и в прошлом системный архитектор таких проектов, как медицинский портал ЕМИАС.инфо, Play2Live, toptal и др., рассказал об опыте веб-скрейпинга с использованием библиотек Python Scrapy, Beautiful Soup, Asyncio.

http://aurd.ru/robo-vs-humans-data
Центр подготовки руководителей цифровой трансформации запустил подкаст «Циферкаст» о трендах в цифровом мире.

Первый гость подскаста Иван Ниненко затронул тему этики в эпоху тотальной цифровой трансформации и рассказал об этических проблемах в таких явлениях, как:
- банковский скоринг;
- внедрение беспилотников на дороги;
- этика и найджинг;
- феномен социального рейтинга в Китае.

Слушайте «Циферкаст» с помощью Google Podcasts (https://clck.ru/HENAc), Яндекс Музыка (https://clck.ru/HENML), Apple Podcasts (https://clck.ru/HENH7) и на Spreaker.com ( https://clck.ru/HENJg).
В рамках нацпрограммы «Цифровая экономика» до 2022 года власти планируют перевести все бумажные паспорта в электронную форму в виде пластиковой карты.

Кроме привычных паспортных данных (ФИО, дата и место рождения, адрес прописки) на новые ID россиян запишут данные миграционного учета, водительских прав, СНИЛС, ИНН, электронную подпись и биометрические параметры.

Председатель Ассоциации участников рынков данных Иван Бегтин поделился с Новой газетой опасениями о вероятных рисках и проблемах с безопасностью хранения персональных данных россиян в новом формате паспортов:

«Цифровой профиль — это сверхконцентратор данных о человеке, поэтому кибербезопасность является главной проблемой электронных паспортов. В Эстонии относительно недавно перевыпускали карточки электронного гражданина, потому что там были проблемы с криптографической основой. Но Эстония — это маленькая страна, они справились с перевыпуском. А если такая же проблема с криптоалгоритмом произойдет у нас, то, боюсь, масштабы будут несопоставимы».

Подробнее: https://www.novayagazeta.ru/articles/2019/07/18/81287-vsya-zhizn-v-odnom-chipe
На информационной портале RSpectr.com опубликована статья, в которой эксперты попытались разобраться в сути создания единого федерального информационного ресурса с данными о населении Российской Федерации. Эксперты рассказали, чем опасна такая централизация данных, какие существуют риски и что нужно учесть в системе информационной безопасности. Но остались и неотвеченные вопросы. Как законопроект Минфина России о разработке федерального информационного ресурса о россиянах связан с концепциями Минкомсвязи России «Цифровой профиль гражданина» и «Национальная система управления данными»? Сколько это будет стоить федеральному бюджету?

#нацпроекты #цифроваяэкономика

Читать: https://www.rspectr.com/articles/536/vseh-poschitayut-kakoj-budet-baza-dannyh-grazhdan-rf
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
На сайте ФНС России опубликованы наборы открытых данных о компаниях за 2018 год. Опубликованы данные о:

- среднесписочной численности работников компаний (https://www.nalog.ru/opendata/7707329152-sshr/);

- специальных налоговых режимах(https://www.nalog.ru/opendata/7707329152-snr/);

- участии в консолидированной группе налогоплательщиков (https://www.nalog.ru/opendata/7707329152-kgn/).

По информации из пресс-релиза к данным, опубликованным в прошлом году, обратились 262 тыс. пользователей.

Напомню, что данные о компаниях публикуются в три этапа - 1.08, 1.10, 1.12, и самое интересное нас ждет в декабре.
Коммерсант сообщает, что ВТБ купил компанию «Первый ОФД» (АО «Энергетические системы и коммуникации»).

В реестре операторов фискальных данных ФНС числится 21 компания. «Первый ОФД» передает фискальные данные в оперативном режиме, от контрольно-кассовой техники в ФНС. Компания обслуживает порядка 400 тыс. касс и входит в тройку крупнейших операторов фискальных данных России с долей рынка 16%.
Сделка позволит усилить позиции ВТБ на рынке эквайринга и даст доступ к массивам данных о конкретных тратах граждан. Совмещение финансовых данных и данных ОФД позволит построить точный профиль клиента и оценить риски.

Источник: https://www.kommersant.ru/doc/4053659
«ФРН повернут к государству, а цифровой профиль – к людям»

Замдиректор департамента развития цифрового государства Минкомсвязи Александр Тютрюмов рассказал, как концепция «Цифровой профиль гражданина» будет связан с проектом Минфина России Федеральным реестром населения (ФРН), который на базе данных ЗАГСов будет создавать Федеральная налоговая служба.

На разработку цифрового профиля из федерального бюджета выделят 235 млн руб, из которых:
- 184 млн рублей пойдут на модернизацию существующих механизмов в программной архитектуре ЕСИА (Единая система идентификации и аутентификации);
- 51 млн рублей пойдут на разработку системы управлением правами на предоставление сведений и правами на «цифровой ID».

В проекте примут участие ФСБ и ФСТЭК.

Подробнее: http://www.cnews.ru/news/top/2019-08-06_tsifrovoj_profil_grazhdan_podeshevel_v_13_razkogda
ФГБУ «Центр геодезии, картографии и инфраструктуры пространственных данных», подвед Росреестра, станет ответственным за создание государственной информационной системы ведения единой электронной картографической основы и за федеральный портал пространственных данных.

Подробнее: http://d-russia.ru/rosreestr-ofitsialno-naznachil-otvetstvennogo-za-edinuyu-elektronnuyu-kartograficheskuyu-osnovu.html
Фонд содействия инновациям до 9 сентября принимает заявки на участие в конкурсе «Старт – Цифровые технологии».

Направления:
- Искусственный интеллект;
- Технологии виртуальной и дополненной реальностей;
- Новые производственные технологии;
- Компоненты робототехники и сенсорика;
- Технологии беспроводной связи;
- Системы распределенного реестра;
- Квантовые технологии.

Главные условия:
- разница между моментом подачи заявки и датой регистрации организации — не более 2-х лет.
- организация-заявитель и ее ключевые сотрудники ранее не получали финансовую поддержку Фонда.

Подробнее: http://fasie.ru/press/fund/start-dataeconomy.
16 августа состоялось экспертное обсуждение с объявленной темой «Концепция создания и функционирования Единой технологической архитектуры информсистем органов исполнительной власти».

Одна из цитат в ходе дискуссии Ивана Бегтина: «Мы все продвигаем идею data-driven decisions - решений, основанных на данных. Давайте будем честными - сейчас то, что вы описали в презентации, это некоторое благопожелание, потому что цифр, подсчета, аналитики у вас, по крайней мере, в презентации не было, - добавил Бегтин. - У вас есть ФГИС координации информатизации, вы, в принципе, знаете - что и как. Материалы там размещены, и у Минкомсвязи туда полный доступ. Хотя, еще в 2015 году Олег Пак обещал, как я помню, что это будет общедоступная система. Давайте для начала вы: «а» - ее откроете, «б» - все утверждения, которые вы делаете, подкрепите ссылками на те материалы, доступ к которым у вас есть. Было ли хоть одно исследование с указанием конкретно - где неоптимально, где что можно использовать? Вообще, насколько у нас пестрая текущая ИТ-архитектура, что нужно менять? На мой взгляд, ключевое — это проблема ИТ-закупок, вообще всего процесса бюджетирования, включая согласование с Минкомсвязью. Вот сверху до низу - от планирования (еще от планирования на уровне постановлений Правительства или поручения Президента) и до постановки на баланс. Архитектура, на мой взгляд, это важный момент, но не ключевой. Мы решаем, что у нас болит, или лечим здоровые органы».

Полный текст: http://www.tadviser.ru/index.php/Статья:Единая_технологическая_архитектура_информационных_систем_органов_исполнительной_власти_(ЕТА_ИС_ОИВ_РФ)
Forwarded from Now-ka
Когда данные используются для каких-то исследований, из них убирается личная информация: имена, даты и места рождения, адреса и прочие подробности, однозначно определяющие конкретного человека. Однако, согласно последним исследованиям, оставшейся информации почти всегда хватает, чтобы точно идентифицировать личность. Да, многие живут в вашем районе, но далеко не у многих такая же собака, машина, цвет глаз и частота походов в магазин за молоком. Эти данные не считаются приватными и даже могут использоваться публично. А ведь это дает гораздо больше информации, чем то, зовут вас Джон или Константин.

(Будем реалистами: анонимность не гарантирует анонимность)

https://www.imperial.ac.uk/news/192112/anonymising-personal-data-enough-protect-privacy/
Forwarded from Инфокультура (Ksenija V. Orlova)
С 10 сентября по 10 октября Центр перспективных управленческих решений проводит конкурс грантов на исследования в сфере governance в России.

Результатом исследования в том числе должны стать практические рекомендации для органов власти.

Одно из грантовых направлений касается темы цифровой трансформации государственного управления.

Подробности: http://cpur.ru/grants.
Правовой прецедент. Апелляционный суд США постановил, что компания HiQ Labs не нарушила федеральный закон CFAA, когда собирала (web-scraping) данные с сайта LinkedIn. Подробнее новость: https://www.eff.org/deeplinks/2019/09/victory-ruling-hiq-v-linkedin-protects-scraping-public-data.

HiQ Labs — компания по анализу данных, которая собирала информацию с аккаунтов пользователей LinkedIn, доступной открыто для широкой публики без авторизации на сайте. Компания объединяла собранные данные с другими и продавала компаниям. В то же время LinkedIn желала монетизировать данные самостоятельно.

Решение суда: http://cdn.ca9.uscourts.gov/datastore/opinions/2019/09/09/17-16783.pdf.

Ученый в области компьютерного права и интернет-слежки Орин Самуэль Керр считает, что это в том числе большой шаг в направлении открытости: https://reason.com/2019/09/09/scraping-a-public-website-doesnt-violate-the-cfaa-ninth-circuit-mostly-holds.
У НСУД(национальная система управления данными) не будет закона

Правительство отказалось от разработки отдельного законопроекта о создании национальной системы управления данных (НСУД).Отдельные положения законопроекта будут включены в подготовленный Минфином проект, что позволит исключить дублирование информации, а также "обеспечить полноту и взаимосвязь" различных информресурсов на базе единого реестра.

На одном из заседаний президиума правительственной комиссии по цифровому развитию было принято решение объединить два законопроекта (проект закона о систематизации и гармонизации информации в РФ,разработанный Минфином;
и законопроект о НСУД, разработанный Минэкономики и АЦ) в один для их оптимизации и формирования единых подходов к регулированию в сфере управления госданными.

Оказалось, Разработанные Минфином правки в 149-ФЗ идеологически пересекаются с проектом ФЗ о национальной системе управления данными.

Изначально проект министерства финансов не включал все возможные вопросы регулирования данных, поэтому необходимо дополнение законопроекта положениями из проекта ФЗ о НСУД.

Принято решение, что на базе Минэкономразвития РФ произойдёт свод предложений по правкам в 149 ФЗ, в котором будут учтены правки Минфина и положения о НСУДе.
Работу над объединением проектов планируется завершить до 30 сентября.
Forwarded from Ivan Begtin (Ivan Begtin)
Сразу 2 новости об ОФД, хорошая и не очень.

Хорошая
1-ОФД выложили открытый код [1] их BigData analytics platform: Yupana
Лично я ещё не пробовал, но любой хороший и открытый продукт по анализу данных всегда найдет применение. Что радует - создатели дают подробное описание и много примеров

Не очень хорошая
У ОФД "Дримкас" [2] утекло 14 миллионов записей и, признаться, реакция этого ОФД на событие необоснованно вялая. Будем надеяться что все ОФД проведут ревизию мер обеспечения безопасности.

Ссылки:
[1] https://github.com/rusexpertiza-llc/yupana
[2] https://iz.ru/921673/vadim-arapov/ushli-iz-bazy-v-set-utekli-14-mln-zapisei-kompanii-i-pokupatelei

#data #dataleaks #leaks
Коллеги из Центра подготовки руководителей цифровой трансформации опубликовали новый выпуск подкаста «Циферкаст». В программе ведущий эксперт Центра Павел Потеев рассказывает, что такое управление изменениями в организации, и в чем выражается их специфика в эпоху цифровой трансформации.

«Организации трансформируются быстро и изменения отражаются на людях – новые должности, роли, требования к знаниям и навыкам, даже к тому, как человек себя ведет (при трансформации культуры)», – объяснил Павел Потеев актуальность темы управления изменениями.

Подкаст доступен для прослушивания на платформах:
• Google Podcasts (https://clck.ru/HENAc)
• Яндекс Музыка (https://clck.ru/HENML)
• Apple Podcasts (https://clck.ru/J969v)
Депутаты Госдумы в первом чтении приняли законопроект о создании единой базы данных о населении, следует из информации на сайте нижней палаты парламента. Новый информационный ресурс предполагает создание базы данных, где содержится информация от ФИО до семейных связей.https://sozd.duma.gov.ru/bill/759897-7
Обзор рынка дата-инструментов в 2019 году:
- Облачные хранилища данных, дата-конвейеры и платформы для анализа данных;
- Инструменты для бизнес аналитики;
- Инструменты для анализа данных с открытым исходным кодом;
- Новые области и решения, например, собственные сервисы размещения тетрадок (self-hosted notebooks), сервисы управления версиями данных (компании Pachyderm и DVC) и совместной работы (Domino, Dataiku), аналитика в облаке (Sigma Computing) и инструменты для экономии времени на разработку документации API (компании Matillion и Fivetran);
- Функции дата-отдела и чем между собой отличаются дата-аналитики, дата-сайентисты, бизнес-аналитики и дата-инженеры.

Подробнее: https://medium.com/public-comps/data-tooling-market-2019-580e38b7475e
Частная компания построила в США систему массовой слежки за автомобилями. Машины, оборудованные специальными камерами с распознаванием номерных знаков, колесят по стране и фиксируют номера всех машин, которые попадаются на их пути. В базе системы уже более 9 миллиардов записей.

Клиенты компании — частные сыщики и страховые компании. "Пробить номер" стоит всего $20, за $70 можно получить оповещение, если искомая машина будет где-то обнаружена. История перемещения автомобиля может многое рассказать о его владельце: местонахождение его дома и работы, круг общения, бытовые привычки и паттерны поведения.

Журналисты Vice получили доступ к системе и убедились, насколько просто это сделать — достаточно заплатить деньги или найти пользователя системы, который поможет вам найти кого надо.

Правовые нюансы позволяют такой системе слежки легально работать в США: компания успешно защитила своё право работать в нескольких штатах, где на неё подавали в суд. Все фотографии машин сделаны в публичных местах, а это абсолютно законно. Сейчас у системы более 1000 платящих пользователей, после этой публикации наверняка станет больше.

Такова жизнь в современном городе — твои перемещения по городу могут отследить не только городские власти по камерам, но и частные лица по номерам авто. Никакой приватности.