Ассоциация участников рынка данных

2-3 марта АУРД участвовала в ежегодном международном событии «День открытых данных» (International Open Data Day). Это инициатива помогает продвигать концепцию информационной открытости и прозрачной деятельности органов государственной власти, бизнес-корпораций, некоммерческих организаций и других участников общественной жизни. В честь Дня открытых данных по всему миру проходят встречи, лекции и хакатоны.

В этой публикации собраны презентации и видеозаписи выступлений спикеров направления «Государство и бизнес: участники рынка данных».

Подробнее: http://aurd.ru/gov_and_business.

62 views10:38

На форуме Big Data 2019 состоялась дискуссия «Нерешенный вопрос: право на данные». Представители государства и бизнеса обсудили проблемы использования данных в госуправлении, медицине и других областях. Эксперты постарались ответить на вопрос, как нужно изменить правовое регулирование, чтобы развивать рынок данных в России.

- Что такое рынок данных и как его можно измерить?
- Что значит «государство как платформа» и зачем гражданину «цифровой профиль»?
- Кому принадлежат данные пациентов?
- Как право регулирует применение искусственного интеллекта и кто такие техно-оптимисты?

Подробнее: http://aurd.ru/big_data_forum_2019.

1.7K views09:59

Ассоциация участников рынка данных

Внутри ссылки на презентацию и видеозаписи выступлений эксперта о работе в инструменте анализа данных — Orange.

49 views15:02

Ассоциация участников рынка данных

Forwarded from Инфокультура

Интерактивный data mining: возможности Orange — продукта с открытым исходным кодом
https://www.infoculture.ru/2019/04/15/interaktivnyj-data-mining-vozmozhnosti-orange-produkta-s-otkrytym-ishodnym-kodom/

3 апреля 2019 состоялась дата-среда из цикла «Большие данные в экономике», который совместно организуют АНО «Инфокультура», Ассоциация участников рынка данных и РАНХиГС. Об основах интерактивного data mining рассказал Дмитрий Стефановский, директор «Центра компетенций по цифровой прослеживаемости и консалтингу» РАНХиГС, кандидат технических наук, специалист в области
прикладных исследований по цифровой трансформации.

АНО "Информационная культура"

Интерактивный data mining: возможности Orange - продукта с открытым исходным кодом

3 апреля 2019 состоялась дата-среда из цикла «Большие данные в экономике», который совместно организуют АНО «Инфокультура», Ассоциация участников рынка данных и РАНХиГС.

Об основах интерактивного data mining рассказал Дмитрий Стефановский, директор «Центра…

3 views15:02

Ассоциация участников рынка данных

24 апреля состоится дата-среда «Семантический анализ текста в неевклидовой геометрии». Рассматриваемый метод может быть применен в таких задачах, как определение тематики и тональности новостных сообщений или предсказывание размера заработной платы по описанию вакансии.

Артур Федоров, специалист по машинному анализу естественного языка в группе операционного моделирования Yandex.Market, расскажет о такой модели для семантического анализа, которая сохраняет скрытую иерархическую структуру текста. На мастер-классе лектор сравнит стандартные методы нахождения векторных представлений текстов с методом, основанным на неевклидовых геометриях. Эксперт покажет, как решение таких задач, как машинный перевод или анализ тональности текстов становится более точным, если сохраняется контекстное значение омонимов.

Дата-среда будет интересна бизнес-аналитикам, академическим исследователям, а также тем, кто только осваивает компьютерный анализ текста.

Регистрация: https://infoculture.timepad.ru/event/959116.

infoculture.timepad.ru

Дата-среда: «Семантический анализ текста в неевклидовой геометрии» / События на TimePad.ru

24 апреля 2019 приглашаем на дата-среду из цикла «Большие данные в экономике». Тема второй встречи цикла — «Преимущества векторных представлений слов в неевклидовых геометриях».

58 viewsedited 12:30

Ассоциация участников рынка данных

68 views12:30

Ассоциация участников рынка данных

Центр перспективных управленческих решений (http://cpur.ru/) вместе с Антикоррупционным центром НИУ ВШЭ изучили практики «недолжного поведения» игроков госзакупок. Под этим авторы имеют в виду такие методы, при которых заказчик становится перед выбором: «обеспечить точное соблюдение закона, серьезно рискуя получить неприемлемый результат, или обеспечить необходимый результат, рискуя быть привлеченным к ответственности за нарушение законодательства». Исследователи предупреждают, что не все выявленные практики являются признаками криминала и коррупции. Доклад представили на XX Апрельской конференции.

Читайте подробнее: https://www.kommersant.ru/doc/3940453.

259 views12:41

Ассоциация участников рынка данных

В новом выпуске рассылки Ассоциации участников рынка данных:

- Государство как пират.
- Утекай: открытые персональные данные.
- Право на данные: регулирование, искусственный интеллект и технооптимисты.
- Цифровая трансформация государства: медицина, надзорные органы, статистика и госзакупки для стран ЕАЭС.
- Открытые лекции цикла «Большие данные в экономике» в рамках проекта «Дата-среда» (http://www.datasreda.ru) Информационная культура и магистерских программ РАНХиГС.
- Курсы повышения квалификации «Цифровая трансформация и цифровая экономика: подходы к обучению» Центра подготовки руководителей цифровой трансформации.

Читать подробнее: https://mailchi.mp/4c404c6ff33b/aurd_5.

Подписывайтесь на рассылку АУРД. Мы стараемся включать только полезную информацию и пишем не чаще одного раза в неделю. Подписаться: http://eepurl.com/gevPCn.

56 views12:35

Ассоциация участников рынка данных

Forwarded from Ivan Begtin (Ivan Begtin)

В РБК вышла статья по доступности персональных данных на электронных торговых площадках [1]. Более 2,2 миллиона записей и это продолжение результатов моего исследования о персональных данных в удостоверяющих центрах [2].

В этот раз я, вместо того чтобы самому публиковать, передал коллегам из РБК чтобы появился полноценный материал с комментариями экспертов.

В третьей части самое ключевое - государственные информационные системы и то какие персональные доступны через них. Но это уже самая серьёзная история

Ссылки:
[1] https://www.rbc.ru/politics/29/04/2019/5cc2df569a7947c83b69b0d5
[2] https://begtin.tech/pdleaks-p1-uc/

#data #personaldata #privacy #leaks

РБК

Личные данные миллионов россиян утекли через торговые площадки

Электронные площадки выкладывают в открытый доступ незашифрованные персональные данные участников аукционов. Из-за этого общедоступны более 2,2 млн записей, в том числе номера СНИЛС, паспортов и

3 views06:58

Ассоциация участников рынка данных

АУРД и Национальная база медицинских знаний подписали соглашение о сотрудничестве. Соглашение подразумевает систематическое и комплексное взаимодействие по развитию рынка данных и внедрению проектов цифрового здравоохранения преимущественно на основе отечественных разработок. Рабочие группы будут заниматься формированием механизмов нормативного регулирования отрасли и разработкой технических стандартов в сфере применения новых технологий. Вопрос о праве на данные остается ключевым для развития технологии искусственного интеллекта в медицине.

Источник: http://nbmz.ru/2019/05/03/samyj-nasushhnyj-vopros-o-prave-na-dannye.

Ассоциация разработчиков и пользователей искусственного интеллекта Национальная база медицинских знаний

Национальная база медицинских знаний

Официальный сайт ассоциации разработчиков и пользователей искусственного интеллекта Национальная база медицинских знаний

53 views09:52

Ассоциация участников рынка данных

«Сейчас Минкомсвязи занялось идеей создания персональных электронных профилей граждан. Единый реестр населения от Минфина и ФНС. То есть пара-тройка крупных баз, где будет вообще вся информация обо всех. Всё это должно работать в реальном времени. Связывать разные источники. Многие опасаются, что это будут использовать спецслужбы. Но лично у меня это опасение на втором или третьем уровне страхов. На первом же – мотивация законодателей и исполнительной власти в целом. Это значит сокращение обязательств государства и рост налогов. Дальше: властям нужно заниматься извлечением денег из граждан. Предположим, налоговая служба уже сейчас может проанализировать доходы, расходы и оплату налогов гражданина. Сравнить с теми льготами, которые человек имеет. Устанавливают категорию граждан, которая имеет льготы, но получает доход выше допустимого для получения льгот. Какой будет реакция депутатов? А давайте мы у определённой категории граждан по определенным критериям эти льготы уберём. Или это вопрос отслеживания налогов. Сейчас очень многие заняты фрилансом. С фриланса налоги не платятся. И история про самозанятых может превратиться в то, что эти отношения будут автоматизированы. Придумают реестр, сделают автоматическое присвоение статуса самозанятый. Это отслеживание реальной экономической деятельности гражданина. Так что все первые опасения – про деньги. Государство захочет и будет оптимизировать свои соцобязательства. С высокой долей вероятности захочет оптимизировать налоги».

https://www.fontanka.ru/2019/04/30/120

Фонтанка.ру

«Все первые опасения – про деньги»: автор исследования о доступности персональных данных россиян

России нужен глобальный аудит документооборота, чтобы персональные данные не надо было прописывать «на каждый чих», считает председатель Ассоциации участников рынков данных Иван Бегтин, обнаруживший в легальном интернет-доступе паспорта сотен тысяч бизнесменов.

71 views09:17

Ассоциация участников рынка данных

Forwarded from Ivan Begtin (Ivan Begtin)

На всякий случай напоминаю что помимо того что я тут веду канал и пишу на всякие разные темы, я ещё и являюсь директором Инфокультуры (@infoculture).

У нас в Информационой культуре идёт много проектов и прямо сейчас мы расширяем команду. Нужны разработчики и аналитик по работе с данными. Все проекты которые мы делаем, или про общественную пользу, или сами по себе общественной пользой являются.

Вот тут можно увидеть вакансии подробно - https://moikrug.ru/companies/infoculture а вопросы задавать мне в личке в телеграм https://yangx.top/ibegtin или на почту [email protected]

#jobs #data

3 views11:56

Ассоциация участников рынка данных

Коммерсант сообщает, что agile-подход в управлении нацпроектами плохо сочетается с традиционным бюджетным процессом Минфина России. Данные о реализации программы «Цифровая экономика» не смогли во время загрузить в систему «Электронный бюджет», которая контролирует исполнение национальных проектов.

Общий объем финансирования всех нацпроектов, который блокируется отсутствием необходимых нормативных документов в системе, оценивается в 3,6 млрд руб. в 2019 году.

Подробнее: https://www.kommersant.ru/doc/3965481.

68 views14:15

Ассоциация участников рынка данных

Forwarded from Городские данные (Anna Barinova)

https://www.infrastructure.aws/

Ух ты: у AWS, оказывается, есть карта серверной инфраструктуры (можно посмотреть в виде глобуса или флэтмэп). Впрочем, карта эта слегка «обфусцирована»: локации датацентров указаны приблизительно, но получить представление о глобальном распределении можно.

The Verge на эту карту посмотрел и сделал выводы. «Невидимая серверная империя» Amazon действительно очень масштабна (вспомнилось, что, например, на мировом «облачном» рынке AWS имеет долю аж в 32%). Распределённость сети серверов AWS делает компанию готовой почти к любой ситуации; и всё же утверждение «если Амазон исчезнет, исчезнет большая часть интернета» кажется излишне драматичным: https://www.theverge.com/2019/5/10/18563485/amazon-web-services-internet-location-map-data-center

5 views15:35

Ассоциация участников рынка данных

На шестом прошедшем Data Fest'е обсудили национальную стратегию развития искусственного интеллекта (машинного обучения) в России. Как государство может способствовать этому? Что важнее? Оказать поддержку или устранить барьеры? Что делать с регионами?

Александр Крайнов, руководитель компьютерного зрения в Яндекс:
«Я уверен, что получится документ, за который будет не стыдно. Давайте не будем мерить наш успех в развитии искусственного интеллекта замещением импортного программного обеспечения отечественным, давайте его мерить количеством наших публикаций на международных конференциях и вкладом в open source».

Владимир Авербах, CEO Сбербанка России, упомянул в своей презентации, что из-за приоритетности принципов доступности и скорости при развитии ИИ делается ставка на хранение данных в облаке и разработку соответствующей инфраструктуры.

Максим Федоров, директор Центра по научным и инженерным вычислительным технологиям для задач с большими массивами данных Сколтеха, считает, что для развития исследовательского потенциала страны необходимо поощрять и фиксировать создание open sourse ПО и открытых датасетов, а также победы в конкурсах (типа Kaggle) и хакатонах должны засчитываться наравне с научными публикациями.

Школы, конференции, синергия индустрии и образовательных программ, курсы переподготовки, грантовая поддержка на исследования, обмен опытом с зарубежными коллегами и многое другое – всё это нужно включать в стратегию развития ИИ и дата-сообщества.

Добавим от себя, что в России рынок образовательных, просветительских, каких-угодно других событий и возможностей для развития ИИ и конкретно получения навыков работы с данными сильно сосредоточен и достаточно перенасыщен в Москве.Чтобы охватить все регионы, нужны не только создание центров развития, образовательных кластеров и федеральных коворкинг-центров, но и масштабная поддержка низовых инициатив и неформальных объединений.

Видео: https://youtu.be/YSfvzIenl8s?t=1227.

YouTube

DATA FEST 6 / 10 мая 2019 / Main stage

76 views14:30

Ассоциация участников рынка данных

78 views14:30

Ассоциация участников рынка данных

Иван Бегтин проанализировал данные с сайтов информационных госсистем и выявил утечку персональных данных:

- Реестр субсидий федерального бюджета Минфина —50 тыс. записей.
- Реестр отчетов некоммерческих организаций Минюста — 10 тыс. записей.
- Реестр обращений граждан на портале «Онлайн Инспектор» Роструда — 1 тыс. записей.
- Информационная система «Правовые акты ФАС России» — 2 тыс. записей.
- Портал торгов по госимуществу ФАС — 2 тыс.
- Портал управления многоквартирными домами Москвы — 1–2 тыс. записей.
- Столичный портал госзакупок — 2,5 тыс. записей.
- Портал государственного и муниципального заказа Федерального Казначейства — 300 тыс. записей.

В открытом доступе оказались персональные данные бывших вице-премьеров и вице-спикера Госдумы.

Иван Бегтин считает, что утечки возникают из-за ошибок в законодательстве, просчетов разработчиков и недостаточно продуманной работы регулирующих и контролирующих органов:

«Причина — в нежелании официальных лиц что-либо делать, хотя они знают о ситуации и непрофессионализме при разработке ИТ-систем», — говорит Иван.

Подробнее на РБК:
https://www.rbc.ru/politics/15/05/2019/5cdac8469a79479a27bd4eca

РБК

Паспортные данные Дворковича и Чубайса попали в открытый доступ

В информационных системах госорганов — от реестра НКО Минюста до московского портала госзакупок — в открытом доступе размещены 360 тыс. записей с личными данными, в том числе сведения о бывших

236 viewsedited 08:52

Ассоциация участников рынка данных

Иван Бегтин раскрыл публичную часть исследования об утечке персональных данных из государственных информационных систем, по мотивам которого была опубликована статья на РБК.

Документ исследования можно скачать по ссылке: http://files.begtin.tech/f/f75964ea1fe94f2d8d61/?dl=1.

Ivan Begtin blog

Утечки персональных данных из государственных информационных систем. Открытая часть доклада

Хорошо ли государство умеет защищать персональные данные граждан? Достаточно ли сертификатов ФСТЭК и ФСБ для подрядчика и аттестации системы по классу защиты чтобы мы были уверены что наши данные оттуда не пропадут?

67 views10:08

Ассоциация участников рынка данных

Forwarded from Инфокультура

22 мая приглашаем на третью дата-среду из цикла «Большие данные в экономике». Тема встречи — «Сбор данных и методы обхода защиты сайтов от парсинга».

Проведет дата-среду Сергей Бершадский, ведущий backend-разработчик и системный архитектор, работал с различными проектами, среди которых медицинский портал ЕМИАС.инфо, Play2Live, toptal.com и др. Эксперт расскажет об особенностях извлечения данных из сайтов, их очистки и структуризации. Во время встречи будет рассмотрен весь процесс извлечения данных: веб-скрейпинг, обработка данных, очистка данных, а также способы break-the-wall на примере Yandex и Google.

Предложенные кейсы основаны на использовании библиотек python scrapy, beautiful soup, asyncio. Будут рассмотрены подходы, позволяющие имитировать браузер, автоматическое использование имеющегося браузера, а также использование headless-браузеров (например, PhantomJS).

Для участия необходимо зарегистрироваться: http://datasreda.ru.

7 views12:20

Ассоциация участников рынка данных

Росстат планирует провести перепись населения в 2020 году с помощью бигдаты. Этот способ обойдется государству дополнительно в 1,2 млрд рублей из бюджетных средств. В качестве возможных ответственных компаний указаны Сбербанк, OneFactor, «Форпост» (входит в «ИКС Холдинг») и операторы связи, среди органов власти — Минэкономики и Росстат.

Подробнее: https://www.kommersant.ru/doc/3969625.

149 viewsedited 15:22

Ассоциация участников рынка данных

Опубликовали материалы лекции в открытом доступе. Внутри: презентация, код, видеозапись и ссылки на научные публикации. Можете изучить новый метод!

24 апреля состоялась вторая дата-среда, посвященная нестандартным методам семантического анализа текстов. Артур Федоров, специалист по машинному анализу естественного языка в группе операционного моделирования Yandex.Market, рассказал о модели Пуанкаре — гиперболического пространства для текстового анализа, которая сохраняет скрытую иерархическую структуру текста. Лектор сравнил стандартные методы нахождения векторных представлений текстов с методом, основанным на неевклидовых геометриях. Эксперт показал, как решение таких задач, как машинный перевод или анализ тональности текстов становится более точным, если сохраняется контекстное значение омонимов.

Подробности по ссылке: https://www.infoculture.ru/2019/05/21/semanticheskij-analiz-teksta-v-neevklidovoj-geometrii-video.

Организаторы цикла дата-сред «Большие данные в экономике»: Инфокультура, Ассоциация участников рынка данных и РАНХиГС.

Дата-среды – это серия бесплатных просветительских и обучающих встреч для журналистов, разработчиков, аналитиков и дизайнеров, на которых эксперты из разных сфер рассказывают о методах и инструментах работы с данными и делятся опытом. Материалы прошлых выступлений вы можете найти на странице проекта: http://datasreda.ru.

АНО "Информационная культура"

Семантический анализ текста в неевклидовой геометрии. Видео

24 апреля состоялась дата-среда из цикла «Большие данные в экономике», который совместно организуют АНО «Инфокультура», Ассоциация участников рынка данных и РАНХиГС.
На дата-среде Артур Федоров, специалист по машинному анализу естественного языка в группе…

65 views16:15

About

Blog

Apps

Platform