Ассоциация участников рынка данных
97 subscribers
52 photos
1 video
87 links
Пишем о рынке данных в России. http://aurd.ru
加入频道
Робот-судья в Эстонии мелкие иски будет рассматривать искусственный интеллект (ИИ), у судьи-человека будет право пересмотреть его решения

Предполагается, что робот будет принимать решения — ИИ будет анализировать лишь юридические документы, не глядя подсудимым в глаза (взятку ему тоже не дать).

Эстония, крошечная европейская страна, где живет 1,4 млн человек, — самое продвинутое государство, здесь электронное практически все. Естественно, госуслуги.

Искусственный интеллект сканирует резюме уволенных людей, чтобы найти им работу, анализирует спутниковые снимки, чтобы понять, правильно ли используются правительственные субсидии на сельское хозяйство. Но в автоматизации юридических услуг Эстония не первая. Британский чат-бот уже оспорил больше 100 000 штрафов за парковку в Лондоне и Нью-Йорке.

https://www.weforum.org/agenda/2019/03/estonia-is-building-a-robot-judge-to-help-clear-legal-backlog?utm_source=Facebook%20Videos&utm_medium=Facebook%20Videos&utm_campaign=Facebook%20Video%20Blogs&fbclid=IwAR0LYPTkW7zJ5GKLQkhpXXECxQuupkoptW87EdOEXQkO-gSlB0MTzkXLiGw
2-3 марта АУРД участвовала в ежегодном международном событии «День открытых данных» (International Open Data Day). Это инициатива помогает продвигать концепцию информационной открытости и прозрачной деятельности органов государственной власти, бизнес-корпораций, некоммерческих организаций и других участников общественной жизни. В честь Дня открытых данных по всему миру проходят встречи, лекции и хакатоны.

В этой публикации собраны презентации и видеозаписи выступлений спикеров направления «Государство и бизнес: участники рынка данных».

Подробнее: http://aurd.ru/gov_and_business.
На форуме Big Data 2019 состоялась дискуссия «Нерешенный вопрос: право на данные». Представители государства и бизнеса обсудили проблемы использования данных в госуправлении, медицине и других областях. Эксперты постарались ответить на вопрос, как нужно изменить правовое регулирование, чтобы развивать рынок данных в России.

- Что такое рынок данных и как его можно измерить?
- Что значит «государство как платформа» и зачем гражданину «цифровой профиль»?
- Кому принадлежат данные пациентов?
- Как право регулирует применение искусственного интеллекта и кто такие техно-оптимисты?

Подробнее: http://aurd.ru/big_data_forum_2019.
Внутри ссылки на презентацию и видеозаписи выступлений эксперта о работе в инструменте анализа данных — Orange.
Forwarded from Инфокультура
Интерактивный data mining: возможности Orange — продукта с открытым исходным кодом
https://www.infoculture.ru/2019/04/15/interaktivnyj-data-mining-vozmozhnosti-orange-produkta-s-otkrytym-ishodnym-kodom/

3 апреля 2019 состоялась дата-среда из цикла «Большие данные в экономике», который совместно организуют АНО «Инфокультура», Ассоциация участников рынка данных и РАНХиГС. Об основах интерактивного data mining рассказал Дмитрий Стефановский, директор «Центра компетенций по цифровой прослеживаемости и консалтингу» РАНХиГС, кандидат технических наук, специалист в области
прикладных исследований по цифровой трансформации.
24 апреля состоится дата-среда «Семантический анализ текста в неевклидовой геометрии». Рассматриваемый метод может быть применен в таких задачах, как определение тематики и тональности новостных сообщений или предсказывание размера заработной платы по описанию вакансии.

Артур Федоров, специалист по машинному анализу естественного языка в группе операционного моделирования Yandex.Market, расскажет о такой модели для семантического анализа, которая сохраняет скрытую иерархическую структуру текста. На мастер-классе лектор сравнит стандартные методы нахождения векторных представлений текстов с методом, основанным на неевклидовых геометриях. Эксперт покажет, как решение таких задач, как машинный перевод или анализ тональности текстов становится более точным, если сохраняется контекстное значение омонимов.

Дата-среда будет интересна бизнес-аналитикам, академическим исследователям, а также тем, кто только осваивает компьютерный анализ текста.

Регистрация: https://infoculture.timepad.ru/event/959116.
Центр перспективных управленческих решений (http://cpur.ru/) вместе с Антикоррупционным центром НИУ ВШЭ изучили практики «недолжного поведения» игроков госзакупок. Под этим авторы имеют в виду такие методы, при которых заказчик становится перед выбором: «обеспечить точное соблюдение закона, серьезно рискуя получить неприемлемый результат, или обеспечить необходимый результат, рискуя быть привлеченным к ответственности за нарушение законодательства». Исследователи предупреждают, что не все выявленные практики являются признаками криминала и коррупции. Доклад представили на XX Апрельской конференции.

Читайте подробнее: https://www.kommersant.ru/doc/3940453.
В новом выпуске рассылки Ассоциации участников рынка данных:

- Государство как пират.
- Утекай: открытые персональные данные.
- Право на данные: регулирование, искусственный интеллект и технооптимисты.
- Цифровая трансформация государства: медицина, надзорные органы, статистика и госзакупки для стран ЕАЭС.
- Открытые лекции цикла «Большие данные в экономике» в рамках проекта «Дата-среда» (http://www.datasreda.ru) Информационная культура и магистерских программ РАНХиГС.
- Курсы повышения квалификации «Цифровая трансформация и цифровая экономика: подходы к обучению» Центра подготовки руководителей цифровой трансформации.

Читать подробнее: https://mailchi.mp/4c404c6ff33b/aurd_5.

Подписывайтесь на рассылку АУРД. Мы стараемся включать только полезную информацию и пишем не чаще одного раза в неделю. Подписаться: http://eepurl.com/gevPCn.
Forwarded from Ivan Begtin (Ivan Begtin)
В РБК вышла статья по доступности персональных данных на электронных торговых площадках [1]. Более 2,2 миллиона записей и это продолжение результатов моего исследования о персональных данных в удостоверяющих центрах [2].

В этот раз я, вместо того чтобы самому публиковать, передал коллегам из РБК чтобы появился полноценный материал с комментариями экспертов.

В третьей части самое ключевое - государственные информационные системы и то какие персональные доступны через них. Но это уже самая серьёзная история

Ссылки:
[1] https://www.rbc.ru/politics/29/04/2019/5cc2df569a7947c83b69b0d5
[2] https://begtin.tech/pdleaks-p1-uc/

#data #personaldata #privacy #leaks
АУРД и Национальная база медицинских знаний подписали соглашение о сотрудничестве. Соглашение подразумевает систематическое и комплексное взаимодействие по развитию рынка данных и внедрению проектов цифрового здравоохранения преимущественно на основе отечественных разработок. Рабочие группы будут заниматься формированием механизмов нормативного регулирования отрасли и разработкой технических стандартов в сфере применения новых технологий. Вопрос о праве на данные остается ключевым для развития технологии искусственного интеллекта в медицине.

Источник: http://nbmz.ru/2019/05/03/samyj-nasushhnyj-vopros-o-prave-na-dannye.
«Сейчас Минкомсвязи занялось идеей создания персональных электронных профилей граждан. Единый реестр населения от Минфина и ФНС. То есть пара-тройка крупных баз, где будет вообще вся информация обо всех. Всё это должно работать в реальном времени. Связывать разные источники. Многие опасаются, что это будут использовать спецслужбы. Но лично у меня это опасение на втором или третьем уровне страхов. На первом же – мотивация законодателей и исполнительной власти в целом. Это значит сокращение обязательств государства и рост налогов. Дальше: властям нужно заниматься извлечением денег из граждан. Предположим, налоговая служба уже сейчас может проанализировать доходы, расходы и оплату налогов гражданина. Сравнить с теми льготами, которые человек имеет. Устанавливают категорию граждан, которая имеет льготы, но получает доход выше допустимого для получения льгот. Какой будет реакция депутатов? А давайте мы у определённой категории граждан по определенным критериям эти льготы уберём. Или это вопрос отслеживания налогов. Сейчас очень многие заняты фрилансом. С фриланса налоги не платятся. И история про самозанятых может превратиться в то, что эти отношения будут автоматизированы. Придумают реестр, сделают автоматическое присвоение статуса самозанятый. Это отслеживание реальной экономической деятельности гражданина. Так что все первые опасения – про деньги. Государство захочет и будет оптимизировать свои соцобязательства. С высокой долей вероятности захочет оптимизировать налоги».

https://www.fontanka.ru/2019/04/30/120
Forwarded from Ivan Begtin (Ivan Begtin)
На всякий случай напоминаю что помимо того что я тут веду канал и пишу на всякие разные темы, я ещё и являюсь директором Инфокультуры (@infoculture).

У нас в Информационой культуре идёт много проектов и прямо сейчас мы расширяем команду. Нужны разработчики и аналитик по работе с данными. Все проекты которые мы делаем, или про общественную пользу, или сами по себе общественной пользой являются.

Вот тут можно увидеть вакансии подробно - https://moikrug.ru/companies/infoculture а вопросы задавать мне в личке в телеграм https://yangx.top/ibegtin или на почту [email protected]

#jobs #data
Коммерсант сообщает, что agile-подход в управлении нацпроектами плохо сочетается с традиционным бюджетным процессом Минфина России. Данные о реализации программы «Цифровая экономика» не смогли во время загрузить в систему «Электронный бюджет», которая контролирует исполнение национальных проектов.

Общий объем финансирования всех нацпроектов, который блокируется отсутствием необходимых нормативных документов в системе, оценивается в 3,6 млрд руб. в 2019 году.

Подробнее: https://www.kommersant.ru/doc/3965481.
Forwarded from Городские данные (Anna Barinova)
https://www.infrastructure.aws/

Ух ты: у AWS, оказывается, есть карта серверной инфраструктуры (можно посмотреть в виде глобуса или флэтмэп). Впрочем, карта эта слегка «обфусцирована»: локации датацентров указаны приблизительно, но получить представление о глобальном распределении можно.

The Verge на эту карту посмотрел и сделал выводы. «Невидимая серверная империя» Amazon действительно очень масштабна (вспомнилось, что, например, на мировом «облачном» рынке AWS имеет долю аж в 32%). Распределённость сети серверов AWS делает компанию готовой почти к любой ситуации; и всё же утверждение «если Амазон исчезнет, исчезнет большая часть интернета» кажется излишне драматичным: https://www.theverge.com/2019/5/10/18563485/amazon-web-services-internet-location-map-data-center
На шестом прошедшем Data Fest'е обсудили национальную стратегию развития искусственного интеллекта (машинного обучения) в России. Как государство может способствовать этому? Что важнее? Оказать поддержку или устранить барьеры? Что делать с регионами?

Александр Крайнов, руководитель компьютерного зрения в Яндекс:
«Я уверен, что получится документ, за который будет не стыдно. Давайте не будем мерить наш успех в развитии искусственного интеллекта замещением импортного программного обеспечения отечественным, давайте его мерить количеством наших публикаций на международных конференциях и вкладом в open source».

Владимир Авербах, CEO Сбербанка России, упомянул в своей презентации, что из-за приоритетности принципов доступности и скорости при развитии ИИ делается ставка на хранение данных в облаке и разработку соответствующей инфраструктуры.

Максим Федоров, директор Центра по научным и инженерным вычислительным технологиям для задач с большими массивами данных Сколтеха, считает, что для развития исследовательского потенциала страны необходимо поощрять и фиксировать создание open sourse ПО и открытых датасетов, а также победы в конкурсах (типа Kaggle) и хакатонах должны засчитываться наравне с научными публикациями.

Школы, конференции, синергия индустрии и образовательных программ, курсы переподготовки, грантовая поддержка на исследования, обмен опытом с зарубежными коллегами и многое другое – всё это нужно включать в стратегию развития ИИ и дата-сообщества.

Добавим от себя, что в России рынок образовательных, просветительских, каких-угодно других событий и возможностей для развития ИИ и конкретно получения навыков работы с данными сильно сосредоточен и достаточно перенасыщен в Москве.Чтобы охватить все регионы, нужны не только создание центров развития, образовательных кластеров и федеральных коворкинг-центров, но и масштабная поддержка низовых инициатив и неформальных объединений.

Видео: https://youtu.be/YSfvzIenl8s?t=1227.
Иван Бегтин проанализировал данные с сайтов информационных госсистем и выявил утечку персональных данных:

- Реестр субсидий федерального бюджета Минфина —50 тыс. записей.
- Реестр отчетов некоммерческих организаций Минюста — 10 тыс. записей.
- Реестр обращений граждан на портале «Онлайн Инспектор» Роструда — 1 тыс. записей.
- Информационная система «Правовые акты ФАС России» — 2 тыс. записей.
- Портал торгов по госимуществу ФАС — 2 тыс.
- Портал управления многоквартирными домами Москвы — 1–2 тыс. записей.
- Столичный портал госзакупок — 2,5 тыс. записей.
- Портал государственного и муниципального заказа Федерального Казначейства — 300 тыс. записей.

В открытом доступе оказались персональные данные бывших вице-премьеров и вице-спикера Госдумы.

Иван Бегтин считает, что утечки возникают из-за ошибок в законодательстве, просчетов разработчиков и недостаточно продуманной работы регулирующих и контролирующих органов:

«Причина — в нежелании официальных лиц что-либо делать, хотя они знают о ситуации и непрофессионализме при разработке ИТ-систем», — говорит Иван.

Подробнее на РБК:
https://www.rbc.ru/politics/15/05/2019/5cdac8469a79479a27bd4eca
Forwarded from Инфокультура
22 мая приглашаем на третью дата-среду из цикла «Большие данные в экономике». Тема встречи — «Сбор данных и методы обхода защиты сайтов от парсинга».

Проведет дата-среду Сергей Бершадский, ведущий backend-разработчик и системный архитектор, работал с различными проектами, среди которых медицинский портал ЕМИАС.инфо, Play2Live, toptal.com и др. Эксперт расскажет об особенностях извлечения данных из сайтов, их очистки и структуризации. Во время встречи будет рассмотрен весь процесс извлечения данных: веб-скрейпинг, обработка данных, очистка данных, а также способы break-the-wall на примере Yandex и Google.

Предложенные кейсы основаны на использовании библиотек python scrapy, beautiful soup, asyncio. Будут рассмотрены подходы, позволяющие имитировать браузер, автоматическое использование имеющегося браузера, а также использование headless-браузеров (например, PhantomJS).

Для участия необходимо зарегистрироваться: http://datasreda.ru.
Росстат планирует провести перепись населения в 2020 году с помощью бигдаты. Этот способ обойдется государству дополнительно в 1,2 млрд рублей из бюджетных средств. В качестве возможных ответственных компаний указаны Сбербанк, OneFactor, «Форпост» (входит в «ИКС Холдинг») и операторы связи, среди органов власти — Минэкономики и Росстат.

Подробнее: https://www.kommersant.ru/doc/3969625.