Ассоциация участников рынка данных
96 subscribers
52 photos
1 video
87 links
Пишем о рынке данных в России. http://aurd.ru
加入频道
2-3 марта АУРД участвовала в ежегодном международном событии «День открытых данных» (International Open Data Day). Это инициатива помогает продвигать концепцию информационной открытости и прозрачной деятельности органов государственной власти, бизнес-корпораций, некоммерческих организаций и других участников общественной жизни. В честь Дня открытых данных по всему миру проходят встречи, лекции и хакатоны.

В этой публикации собраны презентации и видеозаписи выступлений спикеров направления «Государство и бизнес: участники рынка данных».

Подробнее: http://aurd.ru/gov_and_business.
На форуме Big Data 2019 состоялась дискуссия «Нерешенный вопрос: право на данные». Представители государства и бизнеса обсудили проблемы использования данных в госуправлении, медицине и других областях. Эксперты постарались ответить на вопрос, как нужно изменить правовое регулирование, чтобы развивать рынок данных в России.

- Что такое рынок данных и как его можно измерить?
- Что значит «государство как платформа» и зачем гражданину «цифровой профиль»?
- Кому принадлежат данные пациентов?
- Как право регулирует применение искусственного интеллекта и кто такие техно-оптимисты?

Подробнее: http://aurd.ru/big_data_forum_2019.
Внутри ссылки на презентацию и видеозаписи выступлений эксперта о работе в инструменте анализа данных — Orange.
Forwarded from Инфокультура
Интерактивный data mining: возможности Orange — продукта с открытым исходным кодом
https://www.infoculture.ru/2019/04/15/interaktivnyj-data-mining-vozmozhnosti-orange-produkta-s-otkrytym-ishodnym-kodom/

3 апреля 2019 состоялась дата-среда из цикла «Большие данные в экономике», который совместно организуют АНО «Инфокультура», Ассоциация участников рынка данных и РАНХиГС. Об основах интерактивного data mining рассказал Дмитрий Стефановский, директор «Центра компетенций по цифровой прослеживаемости и консалтингу» РАНХиГС, кандидат технических наук, специалист в области
прикладных исследований по цифровой трансформации.
24 апреля состоится дата-среда «Семантический анализ текста в неевклидовой геометрии». Рассматриваемый метод может быть применен в таких задачах, как определение тематики и тональности новостных сообщений или предсказывание размера заработной платы по описанию вакансии.

Артур Федоров, специалист по машинному анализу естественного языка в группе операционного моделирования Yandex.Market, расскажет о такой модели для семантического анализа, которая сохраняет скрытую иерархическую структуру текста. На мастер-классе лектор сравнит стандартные методы нахождения векторных представлений текстов с методом, основанным на неевклидовых геометриях. Эксперт покажет, как решение таких задач, как машинный перевод или анализ тональности текстов становится более точным, если сохраняется контекстное значение омонимов.

Дата-среда будет интересна бизнес-аналитикам, академическим исследователям, а также тем, кто только осваивает компьютерный анализ текста.

Регистрация: https://infoculture.timepad.ru/event/959116.
Центр перспективных управленческих решений (http://cpur.ru/) вместе с Антикоррупционным центром НИУ ВШЭ изучили практики «недолжного поведения» игроков госзакупок. Под этим авторы имеют в виду такие методы, при которых заказчик становится перед выбором: «обеспечить точное соблюдение закона, серьезно рискуя получить неприемлемый результат, или обеспечить необходимый результат, рискуя быть привлеченным к ответственности за нарушение законодательства». Исследователи предупреждают, что не все выявленные практики являются признаками криминала и коррупции. Доклад представили на XX Апрельской конференции.

Читайте подробнее: https://www.kommersant.ru/doc/3940453.
В новом выпуске рассылки Ассоциации участников рынка данных:

- Государство как пират.
- Утекай: открытые персональные данные.
- Право на данные: регулирование, искусственный интеллект и технооптимисты.
- Цифровая трансформация государства: медицина, надзорные органы, статистика и госзакупки для стран ЕАЭС.
- Открытые лекции цикла «Большие данные в экономике» в рамках проекта «Дата-среда» (http://www.datasreda.ru) Информационная культура и магистерских программ РАНХиГС.
- Курсы повышения квалификации «Цифровая трансформация и цифровая экономика: подходы к обучению» Центра подготовки руководителей цифровой трансформации.

Читать подробнее: https://mailchi.mp/4c404c6ff33b/aurd_5.

Подписывайтесь на рассылку АУРД. Мы стараемся включать только полезную информацию и пишем не чаще одного раза в неделю. Подписаться: http://eepurl.com/gevPCn.
Forwarded from Ivan Begtin (Ivan Begtin)
В РБК вышла статья по доступности персональных данных на электронных торговых площадках [1]. Более 2,2 миллиона записей и это продолжение результатов моего исследования о персональных данных в удостоверяющих центрах [2].

В этот раз я, вместо того чтобы самому публиковать, передал коллегам из РБК чтобы появился полноценный материал с комментариями экспертов.

В третьей части самое ключевое - государственные информационные системы и то какие персональные доступны через них. Но это уже самая серьёзная история

Ссылки:
[1] https://www.rbc.ru/politics/29/04/2019/5cc2df569a7947c83b69b0d5
[2] https://begtin.tech/pdleaks-p1-uc/

#data #personaldata #privacy #leaks
АУРД и Национальная база медицинских знаний подписали соглашение о сотрудничестве. Соглашение подразумевает систематическое и комплексное взаимодействие по развитию рынка данных и внедрению проектов цифрового здравоохранения преимущественно на основе отечественных разработок. Рабочие группы будут заниматься формированием механизмов нормативного регулирования отрасли и разработкой технических стандартов в сфере применения новых технологий. Вопрос о праве на данные остается ключевым для развития технологии искусственного интеллекта в медицине.

Источник: http://nbmz.ru/2019/05/03/samyj-nasushhnyj-vopros-o-prave-na-dannye.
«Сейчас Минкомсвязи занялось идеей создания персональных электронных профилей граждан. Единый реестр населения от Минфина и ФНС. То есть пара-тройка крупных баз, где будет вообще вся информация обо всех. Всё это должно работать в реальном времени. Связывать разные источники. Многие опасаются, что это будут использовать спецслужбы. Но лично у меня это опасение на втором или третьем уровне страхов. На первом же – мотивация законодателей и исполнительной власти в целом. Это значит сокращение обязательств государства и рост налогов. Дальше: властям нужно заниматься извлечением денег из граждан. Предположим, налоговая служба уже сейчас может проанализировать доходы, расходы и оплату налогов гражданина. Сравнить с теми льготами, которые человек имеет. Устанавливают категорию граждан, которая имеет льготы, но получает доход выше допустимого для получения льгот. Какой будет реакция депутатов? А давайте мы у определённой категории граждан по определенным критериям эти льготы уберём. Или это вопрос отслеживания налогов. Сейчас очень многие заняты фрилансом. С фриланса налоги не платятся. И история про самозанятых может превратиться в то, что эти отношения будут автоматизированы. Придумают реестр, сделают автоматическое присвоение статуса самозанятый. Это отслеживание реальной экономической деятельности гражданина. Так что все первые опасения – про деньги. Государство захочет и будет оптимизировать свои соцобязательства. С высокой долей вероятности захочет оптимизировать налоги».

https://www.fontanka.ru/2019/04/30/120
Forwarded from Ivan Begtin (Ivan Begtin)
На всякий случай напоминаю что помимо того что я тут веду канал и пишу на всякие разные темы, я ещё и являюсь директором Инфокультуры (@infoculture).

У нас в Информационой культуре идёт много проектов и прямо сейчас мы расширяем команду. Нужны разработчики и аналитик по работе с данными. Все проекты которые мы делаем, или про общественную пользу, или сами по себе общественной пользой являются.

Вот тут можно увидеть вакансии подробно - https://moikrug.ru/companies/infoculture а вопросы задавать мне в личке в телеграм https://yangx.top/ibegtin или на почту [email protected]

#jobs #data
Коммерсант сообщает, что agile-подход в управлении нацпроектами плохо сочетается с традиционным бюджетным процессом Минфина России. Данные о реализации программы «Цифровая экономика» не смогли во время загрузить в систему «Электронный бюджет», которая контролирует исполнение национальных проектов.

Общий объем финансирования всех нацпроектов, который блокируется отсутствием необходимых нормативных документов в системе, оценивается в 3,6 млрд руб. в 2019 году.

Подробнее: https://www.kommersant.ru/doc/3965481.
Forwarded from Городские данные (Anna Barinova)
https://www.infrastructure.aws/

Ух ты: у AWS, оказывается, есть карта серверной инфраструктуры (можно посмотреть в виде глобуса или флэтмэп). Впрочем, карта эта слегка «обфусцирована»: локации датацентров указаны приблизительно, но получить представление о глобальном распределении можно.

The Verge на эту карту посмотрел и сделал выводы. «Невидимая серверная империя» Amazon действительно очень масштабна (вспомнилось, что, например, на мировом «облачном» рынке AWS имеет долю аж в 32%). Распределённость сети серверов AWS делает компанию готовой почти к любой ситуации; и всё же утверждение «если Амазон исчезнет, исчезнет большая часть интернета» кажется излишне драматичным: https://www.theverge.com/2019/5/10/18563485/amazon-web-services-internet-location-map-data-center
На шестом прошедшем Data Fest'е обсудили национальную стратегию развития искусственного интеллекта (машинного обучения) в России. Как государство может способствовать этому? Что важнее? Оказать поддержку или устранить барьеры? Что делать с регионами?

Александр Крайнов, руководитель компьютерного зрения в Яндекс:
«Я уверен, что получится документ, за который будет не стыдно. Давайте не будем мерить наш успех в развитии искусственного интеллекта замещением импортного программного обеспечения отечественным, давайте его мерить количеством наших публикаций на международных конференциях и вкладом в open source».

Владимир Авербах, CEO Сбербанка России, упомянул в своей презентации, что из-за приоритетности принципов доступности и скорости при развитии ИИ делается ставка на хранение данных в облаке и разработку соответствующей инфраструктуры.

Максим Федоров, директор Центра по научным и инженерным вычислительным технологиям для задач с большими массивами данных Сколтеха, считает, что для развития исследовательского потенциала страны необходимо поощрять и фиксировать создание open sourse ПО и открытых датасетов, а также победы в конкурсах (типа Kaggle) и хакатонах должны засчитываться наравне с научными публикациями.

Школы, конференции, синергия индустрии и образовательных программ, курсы переподготовки, грантовая поддержка на исследования, обмен опытом с зарубежными коллегами и многое другое – всё это нужно включать в стратегию развития ИИ и дата-сообщества.

Добавим от себя, что в России рынок образовательных, просветительских, каких-угодно других событий и возможностей для развития ИИ и конкретно получения навыков работы с данными сильно сосредоточен и достаточно перенасыщен в Москве.Чтобы охватить все регионы, нужны не только создание центров развития, образовательных кластеров и федеральных коворкинг-центров, но и масштабная поддержка низовых инициатив и неформальных объединений.

Видео: https://youtu.be/YSfvzIenl8s?t=1227.
Иван Бегтин проанализировал данные с сайтов информационных госсистем и выявил утечку персональных данных:

- Реестр субсидий федерального бюджета Минфина —50 тыс. записей.
- Реестр отчетов некоммерческих организаций Минюста — 10 тыс. записей.
- Реестр обращений граждан на портале «Онлайн Инспектор» Роструда — 1 тыс. записей.
- Информационная система «Правовые акты ФАС России» — 2 тыс. записей.
- Портал торгов по госимуществу ФАС — 2 тыс.
- Портал управления многоквартирными домами Москвы — 1–2 тыс. записей.
- Столичный портал госзакупок — 2,5 тыс. записей.
- Портал государственного и муниципального заказа Федерального Казначейства — 300 тыс. записей.

В открытом доступе оказались персональные данные бывших вице-премьеров и вице-спикера Госдумы.

Иван Бегтин считает, что утечки возникают из-за ошибок в законодательстве, просчетов разработчиков и недостаточно продуманной работы регулирующих и контролирующих органов:

«Причина — в нежелании официальных лиц что-либо делать, хотя они знают о ситуации и непрофессионализме при разработке ИТ-систем», — говорит Иван.

Подробнее на РБК:
https://www.rbc.ru/politics/15/05/2019/5cdac8469a79479a27bd4eca
Forwarded from Инфокультура
22 мая приглашаем на третью дата-среду из цикла «Большие данные в экономике». Тема встречи — «Сбор данных и методы обхода защиты сайтов от парсинга».

Проведет дата-среду Сергей Бершадский, ведущий backend-разработчик и системный архитектор, работал с различными проектами, среди которых медицинский портал ЕМИАС.инфо, Play2Live, toptal.com и др. Эксперт расскажет об особенностях извлечения данных из сайтов, их очистки и структуризации. Во время встречи будет рассмотрен весь процесс извлечения данных: веб-скрейпинг, обработка данных, очистка данных, а также способы break-the-wall на примере Yandex и Google.

Предложенные кейсы основаны на использовании библиотек python scrapy, beautiful soup, asyncio. Будут рассмотрены подходы, позволяющие имитировать браузер, автоматическое использование имеющегося браузера, а также использование headless-браузеров (например, PhantomJS).

Для участия необходимо зарегистрироваться: http://datasreda.ru.
Росстат планирует провести перепись населения в 2020 году с помощью бигдаты. Этот способ обойдется государству дополнительно в 1,2 млрд рублей из бюджетных средств. В качестве возможных ответственных компаний указаны Сбербанк, OneFactor, «Форпост» (входит в «ИКС Холдинг») и операторы связи, среди органов власти — Минэкономики и Росстат.

Подробнее: https://www.kommersant.ru/doc/3969625.
Опубликовали материалы лекции в открытом доступе. Внутри: презентация, код, видеозапись и ссылки на научные публикации. Можете изучить новый метод!

24 апреля состоялась вторая дата-среда, посвященная нестандартным методам семантического анализа текстов. Артур Федоров, специалист по машинному анализу естественного языка в группе операционного моделирования Yandex.Market, рассказал о модели Пуанкаре — гиперболического пространства для текстового анализа, которая сохраняет скрытую иерархическую структуру текста. Лектор сравнил стандартные методы нахождения векторных представлений текстов с методом, основанным на неевклидовых геометриях. Эксперт показал, как решение таких задач, как машинный перевод или анализ тональности текстов становится более точным, если сохраняется контекстное значение омонимов.

Подробности по ссылке: https://www.infoculture.ru/2019/05/21/semanticheskij-analiz-teksta-v-neevklidovoj-geometrii-video.

Организаторы цикла дата-сред «Большие данные в экономике»: Инфокультура, Ассоциация участников рынка данных и РАНХиГС.

Дата-среды – это серия бесплатных просветительских и обучающих встреч для журналистов, разработчиков, аналитиков и дизайнеров, на которых эксперты из разных сфер рассказывают о методах и инструментах работы с данными и делятся опытом. Материалы прошлых выступлений вы можете найти на странице проекта: http://datasreda.ru.