2-3 марта АУРД участвовала в ежегодном международном событии «День открытых данных» (International Open Data Day). Это инициатива помогает продвигать концепцию информационной открытости и прозрачной деятельности органов государственной власти, бизнес-корпораций, некоммерческих организаций и других участников общественной жизни. В честь Дня открытых данных по всему миру проходят встречи, лекции и хакатоны.
В этой публикации собраны презентации и видеозаписи выступлений спикеров направления «Государство и бизнес: участники рынка данных».
Подробнее: http://aurd.ru/gov_and_business.
В этой публикации собраны презентации и видеозаписи выступлений спикеров направления «Государство и бизнес: участники рынка данных».
Подробнее: http://aurd.ru/gov_and_business.
На форуме Big Data 2019 состоялась дискуссия «Нерешенный вопрос: право на данные». Представители государства и бизнеса обсудили проблемы использования данных в госуправлении, медицине и других областях. Эксперты постарались ответить на вопрос, как нужно изменить правовое регулирование, чтобы развивать рынок данных в России.
- Что такое рынок данных и как его можно измерить?
- Что значит «государство как платформа» и зачем гражданину «цифровой профиль»?
- Кому принадлежат данные пациентов?
- Как право регулирует применение искусственного интеллекта и кто такие техно-оптимисты?
Подробнее: http://aurd.ru/big_data_forum_2019.
- Что такое рынок данных и как его можно измерить?
- Что значит «государство как платформа» и зачем гражданину «цифровой профиль»?
- Кому принадлежат данные пациентов?
- Как право регулирует применение искусственного интеллекта и кто такие техно-оптимисты?
Подробнее: http://aurd.ru/big_data_forum_2019.
Внутри ссылки на презентацию и видеозаписи выступлений эксперта о работе в инструменте анализа данных — Orange.
Forwarded from Инфокультура
Интерактивный data mining: возможности Orange — продукта с открытым исходным кодом
https://www.infoculture.ru/2019/04/15/interaktivnyj-data-mining-vozmozhnosti-orange-produkta-s-otkrytym-ishodnym-kodom/
3 апреля 2019 состоялась дата-среда из цикла «Большие данные в экономике», который совместно организуют АНО «Инфокультура», Ассоциация участников рынка данных и РАНХиГС. Об основах интерактивного data mining рассказал Дмитрий Стефановский, директор «Центра компетенций по цифровой прослеживаемости и консалтингу» РАНХиГС, кандидат технических наук, специалист в области
прикладных исследований по цифровой трансформации.
https://www.infoculture.ru/2019/04/15/interaktivnyj-data-mining-vozmozhnosti-orange-produkta-s-otkrytym-ishodnym-kodom/
3 апреля 2019 состоялась дата-среда из цикла «Большие данные в экономике», который совместно организуют АНО «Инфокультура», Ассоциация участников рынка данных и РАНХиГС. Об основах интерактивного data mining рассказал Дмитрий Стефановский, директор «Центра компетенций по цифровой прослеживаемости и консалтингу» РАНХиГС, кандидат технических наук, специалист в области
прикладных исследований по цифровой трансформации.
АНО "Информационная культура"
Интерактивный data mining: возможности Orange - продукта с открытым исходным кодом
3 апреля 2019 состоялась дата-среда из цикла «Большие данные в экономике», который совместно организуют АНО «Инфокультура», Ассоциация участников рынка данных и РАНХиГС.
Об основах интерактивного data mining рассказал Дмитрий Стефановский, директор «Центра…
Об основах интерактивного data mining рассказал Дмитрий Стефановский, директор «Центра…
24 апреля состоится дата-среда «Семантический анализ текста в неевклидовой геометрии». Рассматриваемый метод может быть применен в таких задачах, как определение тематики и тональности новостных сообщений или предсказывание размера заработной платы по описанию вакансии.
Артур Федоров, специалист по машинному анализу естественного языка в группе операционного моделирования Yandex.Market, расскажет о такой модели для семантического анализа, которая сохраняет скрытую иерархическую структуру текста. На мастер-классе лектор сравнит стандартные методы нахождения векторных представлений текстов с методом, основанным на неевклидовых геометриях. Эксперт покажет, как решение таких задач, как машинный перевод или анализ тональности текстов становится более точным, если сохраняется контекстное значение омонимов.
Дата-среда будет интересна бизнес-аналитикам, академическим исследователям, а также тем, кто только осваивает компьютерный анализ текста.
Регистрация: https://infoculture.timepad.ru/event/959116.
Артур Федоров, специалист по машинному анализу естественного языка в группе операционного моделирования Yandex.Market, расскажет о такой модели для семантического анализа, которая сохраняет скрытую иерархическую структуру текста. На мастер-классе лектор сравнит стандартные методы нахождения векторных представлений текстов с методом, основанным на неевклидовых геометриях. Эксперт покажет, как решение таких задач, как машинный перевод или анализ тональности текстов становится более точным, если сохраняется контекстное значение омонимов.
Дата-среда будет интересна бизнес-аналитикам, академическим исследователям, а также тем, кто только осваивает компьютерный анализ текста.
Регистрация: https://infoculture.timepad.ru/event/959116.
infoculture.timepad.ru
Дата-среда: «Семантический анализ текста в неевклидовой геометрии» / События на TimePad.ru
24 апреля 2019 приглашаем на дата-среду из цикла «Большие данные в экономике». Тема второй встречи цикла — «Преимущества векторных представлений слов в неевклидовых геометриях».
Центр перспективных управленческих решений (http://cpur.ru/) вместе с Антикоррупционным центром НИУ ВШЭ изучили практики «недолжного поведения» игроков госзакупок. Под этим авторы имеют в виду такие методы, при которых заказчик становится перед выбором: «обеспечить точное соблюдение закона, серьезно рискуя получить неприемлемый результат, или обеспечить необходимый результат, рискуя быть привлеченным к ответственности за нарушение законодательства». Исследователи предупреждают, что не все выявленные практики являются признаками криминала и коррупции. Доклад представили на XX Апрельской конференции.
Читайте подробнее: https://www.kommersant.ru/doc/3940453.
Читайте подробнее: https://www.kommersant.ru/doc/3940453.
В новом выпуске рассылки Ассоциации участников рынка данных:
- Государство как пират.
- Утекай: открытые персональные данные.
- Право на данные: регулирование, искусственный интеллект и технооптимисты.
- Цифровая трансформация государства: медицина, надзорные органы, статистика и госзакупки для стран ЕАЭС.
- Открытые лекции цикла «Большие данные в экономике» в рамках проекта «Дата-среда» (http://www.datasreda.ru) Информационная культура и магистерских программ РАНХиГС.
- Курсы повышения квалификации «Цифровая трансформация и цифровая экономика: подходы к обучению» Центра подготовки руководителей цифровой трансформации.
Читать подробнее: https://mailchi.mp/4c404c6ff33b/aurd_5.
Подписывайтесь на рассылку АУРД. Мы стараемся включать только полезную информацию и пишем не чаще одного раза в неделю. Подписаться: http://eepurl.com/gevPCn.
- Государство как пират.
- Утекай: открытые персональные данные.
- Право на данные: регулирование, искусственный интеллект и технооптимисты.
- Цифровая трансформация государства: медицина, надзорные органы, статистика и госзакупки для стран ЕАЭС.
- Открытые лекции цикла «Большие данные в экономике» в рамках проекта «Дата-среда» (http://www.datasreda.ru) Информационная культура и магистерских программ РАНХиГС.
- Курсы повышения квалификации «Цифровая трансформация и цифровая экономика: подходы к обучению» Центра подготовки руководителей цифровой трансформации.
Читать подробнее: https://mailchi.mp/4c404c6ff33b/aurd_5.
Подписывайтесь на рассылку АУРД. Мы стараемся включать только полезную информацию и пишем не чаще одного раза в неделю. Подписаться: http://eepurl.com/gevPCn.
Forwarded from Ivan Begtin (Ivan Begtin)
В РБК вышла статья по доступности персональных данных на электронных торговых площадках [1]. Более 2,2 миллиона записей и это продолжение результатов моего исследования о персональных данных в удостоверяющих центрах [2].
В этот раз я, вместо того чтобы самому публиковать, передал коллегам из РБК чтобы появился полноценный материал с комментариями экспертов.
В третьей части самое ключевое - государственные информационные системы и то какие персональные доступны через них. Но это уже самая серьёзная история
Ссылки:
[1] https://www.rbc.ru/politics/29/04/2019/5cc2df569a7947c83b69b0d5
[2] https://begtin.tech/pdleaks-p1-uc/
#data #personaldata #privacy #leaks
В этот раз я, вместо того чтобы самому публиковать, передал коллегам из РБК чтобы появился полноценный материал с комментариями экспертов.
В третьей части самое ключевое - государственные информационные системы и то какие персональные доступны через них. Но это уже самая серьёзная история
Ссылки:
[1] https://www.rbc.ru/politics/29/04/2019/5cc2df569a7947c83b69b0d5
[2] https://begtin.tech/pdleaks-p1-uc/
#data #personaldata #privacy #leaks
РБК
Личные данные миллионов россиян утекли через торговые площадки
Электронные площадки выкладывают в открытый доступ незашифрованные персональные данные участников аукционов. Из-за этого общедоступны более 2,2 млн записей, в том числе номера СНИЛС, паспортов и
АУРД и Национальная база медицинских знаний подписали соглашение о сотрудничестве. Соглашение подразумевает систематическое и комплексное взаимодействие по развитию рынка данных и внедрению проектов цифрового здравоохранения преимущественно на основе отечественных разработок. Рабочие группы будут заниматься формированием механизмов нормативного регулирования отрасли и разработкой технических стандартов в сфере применения новых технологий. Вопрос о праве на данные остается ключевым для развития технологии искусственного интеллекта в медицине.
Источник: http://nbmz.ru/2019/05/03/samyj-nasushhnyj-vopros-o-prave-na-dannye.
Источник: http://nbmz.ru/2019/05/03/samyj-nasushhnyj-vopros-o-prave-na-dannye.
Ассоциация разработчиков и пользователей искусственного интеллекта Национальная база медицинских знаний
Национальная база медицинских знаний
Официальный сайт ассоциации разработчиков и пользователей искусственного интеллекта Национальная база медицинских знаний
«Сейчас Минкомсвязи занялось идеей создания персональных электронных профилей граждан. Единый реестр населения от Минфина и ФНС. То есть пара-тройка крупных баз, где будет вообще вся информация обо всех. Всё это должно работать в реальном времени. Связывать разные источники. Многие опасаются, что это будут использовать спецслужбы. Но лично у меня это опасение на втором или третьем уровне страхов. На первом же – мотивация законодателей и исполнительной власти в целом. Это значит сокращение обязательств государства и рост налогов. Дальше: властям нужно заниматься извлечением денег из граждан. Предположим, налоговая служба уже сейчас может проанализировать доходы, расходы и оплату налогов гражданина. Сравнить с теми льготами, которые человек имеет. Устанавливают категорию граждан, которая имеет льготы, но получает доход выше допустимого для получения льгот. Какой будет реакция депутатов? А давайте мы у определённой категории граждан по определенным критериям эти льготы уберём. Или это вопрос отслеживания налогов. Сейчас очень многие заняты фрилансом. С фриланса налоги не платятся. И история про самозанятых может превратиться в то, что эти отношения будут автоматизированы. Придумают реестр, сделают автоматическое присвоение статуса самозанятый. Это отслеживание реальной экономической деятельности гражданина. Так что все первые опасения – про деньги. Государство захочет и будет оптимизировать свои соцобязательства. С высокой долей вероятности захочет оптимизировать налоги».
https://www.fontanka.ru/2019/04/30/120
https://www.fontanka.ru/2019/04/30/120
Фонтанка.ру
«Все первые опасения – про деньги»: автор исследования о доступности персональных данных россиян
России нужен глобальный аудит документооборота, чтобы персональные данные не надо было прописывать «на каждый чих», считает председатель Ассоциации участников рынков данных Иван Бегтин, обнаруживший в легальном интернет-доступе паспорта сотен тысяч бизнесменов.
Forwarded from Ivan Begtin (Ivan Begtin)
На всякий случай напоминаю что помимо того что я тут веду канал и пишу на всякие разные темы, я ещё и являюсь директором Инфокультуры (@infoculture).
У нас в Информационой культуре идёт много проектов и прямо сейчас мы расширяем команду. Нужны разработчики и аналитик по работе с данными. Все проекты которые мы делаем, или про общественную пользу, или сами по себе общественной пользой являются.
Вот тут можно увидеть вакансии подробно - https://moikrug.ru/companies/infoculture а вопросы задавать мне в личке в телеграм https://yangx.top/ibegtin или на почту [email protected]
#jobs #data
У нас в Информационой культуре идёт много проектов и прямо сейчас мы расширяем команду. Нужны разработчики и аналитик по работе с данными. Все проекты которые мы делаем, или про общественную пользу, или сами по себе общественной пользой являются.
Вот тут можно увидеть вакансии подробно - https://moikrug.ru/companies/infoculture а вопросы задавать мне в личке в телеграм https://yangx.top/ibegtin или на почту [email protected]
#jobs #data
Коммерсант сообщает, что agile-подход в управлении нацпроектами плохо сочетается с традиционным бюджетным процессом Минфина России. Данные о реализации программы «Цифровая экономика» не смогли во время загрузить в систему «Электронный бюджет», которая контролирует исполнение национальных проектов.
Общий объем финансирования всех нацпроектов, который блокируется отсутствием необходимых нормативных документов в системе, оценивается в 3,6 млрд руб. в 2019 году.
Подробнее: https://www.kommersant.ru/doc/3965481.
Общий объем финансирования всех нацпроектов, который блокируется отсутствием необходимых нормативных документов в системе, оценивается в 3,6 млрд руб. в 2019 году.
Подробнее: https://www.kommersant.ru/doc/3965481.
Forwarded from Городские данные (Anna Barinova)
https://www.infrastructure.aws/
Ух ты: у AWS, оказывается, есть карта серверной инфраструктуры (можно посмотреть в виде глобуса или флэтмэп). Впрочем, карта эта слегка «обфусцирована»: локации датацентров указаны приблизительно, но получить представление о глобальном распределении можно.
The Verge на эту карту посмотрел и сделал выводы. «Невидимая серверная империя» Amazon действительно очень масштабна (вспомнилось, что, например, на мировом «облачном» рынке AWS имеет долю аж в 32%). Распределённость сети серверов AWS делает компанию готовой почти к любой ситуации; и всё же утверждение «если Амазон исчезнет, исчезнет большая часть интернета» кажется излишне драматичным: https://www.theverge.com/2019/5/10/18563485/amazon-web-services-internet-location-map-data-center
Ух ты: у AWS, оказывается, есть карта серверной инфраструктуры (можно посмотреть в виде глобуса или флэтмэп). Впрочем, карта эта слегка «обфусцирована»: локации датацентров указаны приблизительно, но получить представление о глобальном распределении можно.
The Verge на эту карту посмотрел и сделал выводы. «Невидимая серверная империя» Amazon действительно очень масштабна (вспомнилось, что, например, на мировом «облачном» рынке AWS имеет долю аж в 32%). Распределённость сети серверов AWS делает компанию готовой почти к любой ситуации; и всё же утверждение «если Амазон исчезнет, исчезнет большая часть интернета» кажется излишне драматичным: https://www.theverge.com/2019/5/10/18563485/amazon-web-services-internet-location-map-data-center
На шестом прошедшем Data Fest'е обсудили национальную стратегию развития искусственного интеллекта (машинного обучения) в России. Как государство может способствовать этому? Что важнее? Оказать поддержку или устранить барьеры? Что делать с регионами?
Александр Крайнов, руководитель компьютерного зрения в Яндекс:
«Я уверен, что получится документ, за который будет не стыдно. Давайте не будем мерить наш успех в развитии искусственного интеллекта замещением импортного программного обеспечения отечественным, давайте его мерить количеством наших публикаций на международных конференциях и вкладом в open source».
Владимир Авербах, CEO Сбербанка России, упомянул в своей презентации, что из-за приоритетности принципов доступности и скорости при развитии ИИ делается ставка на хранение данных в облаке и разработку соответствующей инфраструктуры.
Максим Федоров, директор Центра по научным и инженерным вычислительным технологиям для задач с большими массивами данных Сколтеха, считает, что для развития исследовательского потенциала страны необходимо поощрять и фиксировать создание open sourse ПО и открытых датасетов, а также победы в конкурсах (типа Kaggle) и хакатонах должны засчитываться наравне с научными публикациями.
Школы, конференции, синергия индустрии и образовательных программ, курсы переподготовки, грантовая поддержка на исследования, обмен опытом с зарубежными коллегами и многое другое – всё это нужно включать в стратегию развития ИИ и дата-сообщества.
Добавим от себя, что в России рынок образовательных, просветительских, каких-угодно других событий и возможностей для развития ИИ и конкретно получения навыков работы с данными сильно сосредоточен и достаточно перенасыщен в Москве.Чтобы охватить все регионы, нужны не только создание центров развития, образовательных кластеров и федеральных коворкинг-центров, но и масштабная поддержка низовых инициатив и неформальных объединений.
Видео: https://youtu.be/YSfvzIenl8s?t=1227.
Александр Крайнов, руководитель компьютерного зрения в Яндекс:
«Я уверен, что получится документ, за который будет не стыдно. Давайте не будем мерить наш успех в развитии искусственного интеллекта замещением импортного программного обеспечения отечественным, давайте его мерить количеством наших публикаций на международных конференциях и вкладом в open source».
Владимир Авербах, CEO Сбербанка России, упомянул в своей презентации, что из-за приоритетности принципов доступности и скорости при развитии ИИ делается ставка на хранение данных в облаке и разработку соответствующей инфраструктуры.
Максим Федоров, директор Центра по научным и инженерным вычислительным технологиям для задач с большими массивами данных Сколтеха, считает, что для развития исследовательского потенциала страны необходимо поощрять и фиксировать создание open sourse ПО и открытых датасетов, а также победы в конкурсах (типа Kaggle) и хакатонах должны засчитываться наравне с научными публикациями.
Школы, конференции, синергия индустрии и образовательных программ, курсы переподготовки, грантовая поддержка на исследования, обмен опытом с зарубежными коллегами и многое другое – всё это нужно включать в стратегию развития ИИ и дата-сообщества.
Добавим от себя, что в России рынок образовательных, просветительских, каких-угодно других событий и возможностей для развития ИИ и конкретно получения навыков работы с данными сильно сосредоточен и достаточно перенасыщен в Москве.Чтобы охватить все регионы, нужны не только создание центров развития, образовательных кластеров и федеральных коворкинг-центров, но и масштабная поддержка низовых инициатив и неформальных объединений.
Видео: https://youtu.be/YSfvzIenl8s?t=1227.
YouTube
DATA FEST 6 / 10 мая 2019 / Main stage
Иван Бегтин проанализировал данные с сайтов информационных госсистем и выявил утечку персональных данных:
- Реестр субсидий федерального бюджета Минфина —50 тыс. записей.
- Реестр отчетов некоммерческих организаций Минюста — 10 тыс. записей.
- Реестр обращений граждан на портале «Онлайн Инспектор» Роструда — 1 тыс. записей.
- Информационная система «Правовые акты ФАС России» — 2 тыс. записей.
- Портал торгов по госимуществу ФАС — 2 тыс.
- Портал управления многоквартирными домами Москвы — 1–2 тыс. записей.
- Столичный портал госзакупок — 2,5 тыс. записей.
- Портал государственного и муниципального заказа Федерального Казначейства — 300 тыс. записей.
В открытом доступе оказались персональные данные бывших вице-премьеров и вице-спикера Госдумы.
Иван Бегтин считает, что утечки возникают из-за ошибок в законодательстве, просчетов разработчиков и недостаточно продуманной работы регулирующих и контролирующих органов:
«Причина — в нежелании официальных лиц что-либо делать, хотя они знают о ситуации и непрофессионализме при разработке ИТ-систем», — говорит Иван.
Подробнее на РБК:
https://www.rbc.ru/politics/15/05/2019/5cdac8469a79479a27bd4eca
- Реестр субсидий федерального бюджета Минфина —50 тыс. записей.
- Реестр отчетов некоммерческих организаций Минюста — 10 тыс. записей.
- Реестр обращений граждан на портале «Онлайн Инспектор» Роструда — 1 тыс. записей.
- Информационная система «Правовые акты ФАС России» — 2 тыс. записей.
- Портал торгов по госимуществу ФАС — 2 тыс.
- Портал управления многоквартирными домами Москвы — 1–2 тыс. записей.
- Столичный портал госзакупок — 2,5 тыс. записей.
- Портал государственного и муниципального заказа Федерального Казначейства — 300 тыс. записей.
В открытом доступе оказались персональные данные бывших вице-премьеров и вице-спикера Госдумы.
Иван Бегтин считает, что утечки возникают из-за ошибок в законодательстве, просчетов разработчиков и недостаточно продуманной работы регулирующих и контролирующих органов:
«Причина — в нежелании официальных лиц что-либо делать, хотя они знают о ситуации и непрофессионализме при разработке ИТ-систем», — говорит Иван.
Подробнее на РБК:
https://www.rbc.ru/politics/15/05/2019/5cdac8469a79479a27bd4eca
РБК
Паспортные данные Дворковича и Чубайса попали в открытый доступ
В информационных системах госорганов — от реестра НКО Минюста до московского портала госзакупок — в открытом доступе размещены 360 тыс. записей с личными данными, в том числе сведения о бывших
Иван Бегтин раскрыл публичную часть исследования об утечке персональных данных из государственных информационных систем, по мотивам которого была опубликована статья на РБК.
Документ исследования можно скачать по ссылке: http://files.begtin.tech/f/f75964ea1fe94f2d8d61/?dl=1.
Документ исследования можно скачать по ссылке: http://files.begtin.tech/f/f75964ea1fe94f2d8d61/?dl=1.
Ivan Begtin blog
Утечки персональных данных из государственных информационных систем. Открытая часть доклада
Хорошо ли государство умеет защищать персональные данные граждан? Достаточно ли сертификатов ФСТЭК и ФСБ для подрядчика и аттестации системы по классу защиты чтобы мы были уверены что наши данные оттуда не пропадут?
Forwarded from Инфокультура
22 мая приглашаем на третью дата-среду из цикла «Большие данные в экономике». Тема встречи — «Сбор данных и методы обхода защиты сайтов от парсинга».
Проведет дата-среду Сергей Бершадский, ведущий backend-разработчик и системный архитектор, работал с различными проектами, среди которых медицинский портал ЕМИАС.инфо, Play2Live, toptal.com и др. Эксперт расскажет об особенностях извлечения данных из сайтов, их очистки и структуризации. Во время встречи будет рассмотрен весь процесс извлечения данных: веб-скрейпинг, обработка данных, очистка данных, а также способы break-the-wall на примере Yandex и Google.
Предложенные кейсы основаны на использовании библиотек python scrapy, beautiful soup, asyncio. Будут рассмотрены подходы, позволяющие имитировать браузер, автоматическое использование имеющегося браузера, а также использование headless-браузеров (например, PhantomJS).
Для участия необходимо зарегистрироваться: http://datasreda.ru.
Проведет дата-среду Сергей Бершадский, ведущий backend-разработчик и системный архитектор, работал с различными проектами, среди которых медицинский портал ЕМИАС.инфо, Play2Live, toptal.com и др. Эксперт расскажет об особенностях извлечения данных из сайтов, их очистки и структуризации. Во время встречи будет рассмотрен весь процесс извлечения данных: веб-скрейпинг, обработка данных, очистка данных, а также способы break-the-wall на примере Yandex и Google.
Предложенные кейсы основаны на использовании библиотек python scrapy, beautiful soup, asyncio. Будут рассмотрены подходы, позволяющие имитировать браузер, автоматическое использование имеющегося браузера, а также использование headless-браузеров (например, PhantomJS).
Для участия необходимо зарегистрироваться: http://datasreda.ru.
Росстат планирует провести перепись населения в 2020 году с помощью бигдаты. Этот способ обойдется государству дополнительно в 1,2 млрд рублей из бюджетных средств. В качестве возможных ответственных компаний указаны Сбербанк, OneFactor, «Форпост» (входит в «ИКС Холдинг») и операторы связи, среди органов власти — Минэкономики и Росстат.
Подробнее: https://www.kommersant.ru/doc/3969625.
Подробнее: https://www.kommersant.ru/doc/3969625.
Опубликовали материалы лекции в открытом доступе. Внутри: презентация, код, видеозапись и ссылки на научные публикации. Можете изучить новый метод!
24 апреля состоялась вторая дата-среда, посвященная нестандартным методам семантического анализа текстов. Артур Федоров, специалист по машинному анализу естественного языка в группе операционного моделирования Yandex.Market, рассказал о модели Пуанкаре — гиперболического пространства для текстового анализа, которая сохраняет скрытую иерархическую структуру текста. Лектор сравнил стандартные методы нахождения векторных представлений текстов с методом, основанным на неевклидовых геометриях. Эксперт показал, как решение таких задач, как машинный перевод или анализ тональности текстов становится более точным, если сохраняется контекстное значение омонимов.
Подробности по ссылке: https://www.infoculture.ru/2019/05/21/semanticheskij-analiz-teksta-v-neevklidovoj-geometrii-video.
Организаторы цикла дата-сред «Большие данные в экономике»: Инфокультура, Ассоциация участников рынка данных и РАНХиГС.
Дата-среды – это серия бесплатных просветительских и обучающих встреч для журналистов, разработчиков, аналитиков и дизайнеров, на которых эксперты из разных сфер рассказывают о методах и инструментах работы с данными и делятся опытом. Материалы прошлых выступлений вы можете найти на странице проекта: http://datasreda.ru.
24 апреля состоялась вторая дата-среда, посвященная нестандартным методам семантического анализа текстов. Артур Федоров, специалист по машинному анализу естественного языка в группе операционного моделирования Yandex.Market, рассказал о модели Пуанкаре — гиперболического пространства для текстового анализа, которая сохраняет скрытую иерархическую структуру текста. Лектор сравнил стандартные методы нахождения векторных представлений текстов с методом, основанным на неевклидовых геометриях. Эксперт показал, как решение таких задач, как машинный перевод или анализ тональности текстов становится более точным, если сохраняется контекстное значение омонимов.
Подробности по ссылке: https://www.infoculture.ru/2019/05/21/semanticheskij-analiz-teksta-v-neevklidovoj-geometrii-video.
Организаторы цикла дата-сред «Большие данные в экономике»: Инфокультура, Ассоциация участников рынка данных и РАНХиГС.
Дата-среды – это серия бесплатных просветительских и обучающих встреч для журналистов, разработчиков, аналитиков и дизайнеров, на которых эксперты из разных сфер рассказывают о методах и инструментах работы с данными и делятся опытом. Материалы прошлых выступлений вы можете найти на странице проекта: http://datasreda.ru.
АНО "Информационная культура"
Семантический анализ текста в неевклидовой геометрии. Видео
24 апреля состоялась дата-среда из цикла «Большие данные в экономике», который совместно организуют АНО «Инфокультура», Ассоциация участников рынка данных и РАНХиГС.
На дата-среде Артур Федоров, специалист по машинному анализу естественного языка в группе…
На дата-среде Артур Федоров, специалист по машинному анализу естественного языка в группе…