Можно ли узнать о том станет ли человек преступником до того как он им стал? Как выявить предрасположенность к преступной жизни? По истории посещений сайтов? По отклонениям в работе мозга? По социальной среде и основному кругу общения?
В статье "Автоматический логический вывод о криминальности используя изображения лиц" [1], ее авторы, Xiaolin Wu и Xi Zhang предлагают использовать алгоритмы анализа лиц для определения является ли человек преступником или нет. В статье утверждается что их разработка позволяет с высокой точностью отделить фотографии преступников от фотографий тех кто ими не является.
Множество этических, социальных и профессиональных вопросов возникает по итогам. Лучше всех их изложила Katherine Bailey [2] проводя параллели с исследованиями Чезаре Ломброзо [3] и поднимая вопрос о том что же такое "криминальность".
Пока же нам стоит ожидать что правоохранительные системы в мире, еще вполне могут ожидать и не такие новации. Наряду с социальными рейтингами могут разрабатываться универсальные "криминальные рейтинги" для каждого человека, показывающие вероятность совершения им преступления.
Будет ли частью этого рейтинга результат оценки его криминальности по лицу? Кто знает.
Ссылки:
[1] “Automated Inference on Criminality using Face Images,” Xiaolin Wu and Xi Zhang, https://arxiv.org/pdf/1611.04135v1.pdf
[2] https://backchannel.com/put-away-your-machine-learning-hammer-criminality-is-not-a-nail-1309c84bb899
[3] https://ru.wikipedia.org/wiki/%D0%9B%D0%BE%D0%BC%D0%B1%D1%80%D0%BE%D0%B7%D0%BE,_%D0%A7%D0%B5%D0%B7%D0%B0%D1%80%D0%B5
#opendata #machinelearning #crimedata
В статье "Автоматический логический вывод о криминальности используя изображения лиц" [1], ее авторы, Xiaolin Wu и Xi Zhang предлагают использовать алгоритмы анализа лиц для определения является ли человек преступником или нет. В статье утверждается что их разработка позволяет с высокой точностью отделить фотографии преступников от фотографий тех кто ими не является.
Множество этических, социальных и профессиональных вопросов возникает по итогам. Лучше всех их изложила Katherine Bailey [2] проводя параллели с исследованиями Чезаре Ломброзо [3] и поднимая вопрос о том что же такое "криминальность".
Пока же нам стоит ожидать что правоохранительные системы в мире, еще вполне могут ожидать и не такие новации. Наряду с социальными рейтингами могут разрабатываться универсальные "криминальные рейтинги" для каждого человека, показывающие вероятность совершения им преступления.
Будет ли частью этого рейтинга результат оценки его криминальности по лицу? Кто знает.
Ссылки:
[1] “Automated Inference on Criminality using Face Images,” Xiaolin Wu and Xi Zhang, https://arxiv.org/pdf/1611.04135v1.pdf
[2] https://backchannel.com/put-away-your-machine-learning-hammer-criminality-is-not-a-nail-1309c84bb899
[3] https://ru.wikipedia.org/wiki/%D0%9B%D0%BE%D0%BC%D0%B1%D1%80%D0%BE%D0%B7%D0%BE,_%D0%A7%D0%B5%D0%B7%D0%B0%D1%80%D0%B5
#opendata #machinelearning #crimedata
Backchannel
Put Away Your Machine Learning Hammer, Criminality Is Not A Nail
A new paper uses flawed methods to predict likely criminals based on their facial features.
December 15, 2016
Я, по старинке, значительную часть новостей читаю в почтовых рассылках и почти на все новости по работе с открытыми данными и данными вообще стараюсь подписываться. К счастью,большая часть этих рассылок вполне этичны и не спамят сотнями писем в неделю.
Вот список того на что я лично подписан:
- ORelly Data https://www.oreilly.com/topics/data для подписки надо завести там аккаунт и подписаться на тему "Data"
- DataElixir http://dataelixir.com/ еженедельные письма со ссылками по Data Science
- StackShare https://stackshare.io/news позволяет искать новости по инструментам разработки в том числе с данными. Темы Big Data Tools, Data Transfer, Real-time data processing, Data Science Tools позволяют подписаться на наиболее актуальные статьи по утилитам и продуктам по этой теме
- Towards Data Science https://towardsdatascience.com/ ежедневно статьи о работе с данными. Работает на базе Medium и после авторизации даёт возможность получать письма на почту
- Data Science Roundup http://roundup.fishtownanalytics.com/ больше акцента на аналитике и алгоритмах
- Data Science Weekly https://www.datascienceweekly.org/ аналогично больше про Data Science
- KD Nuggets https://www.kdnuggets.com не только про алгоритмы и большие данные, но и про курсы, обучение, работу, вакансии и многое другое
- Mode Analytics Newsletter https://about.modeanalytics.com/newsletter/ больше про аналитику от создателей платформы облачной аналитики
- Data Digest https://page.data.world/data-digest от Data.world, еженедельная рассылка с новостями и примерами работы с данными
- Center for data innovation newsletter http://www.datainnovation.org/ в основном рассылка про индустрию
- Kaggle blog newsletter http://blog.kaggle.com/ подписка на блог Kaggle, о их платформе, машинном обучении и не только.
В завершение добавлю упоминание нашей рассылки Инфокультуры, которая, кроме всего прочего охватывает и темы открытых данных в России. Прямая ссылка на подписку тут http://infoculture.us7.list-manage.com/subscribe?u=2e38b8af0d8a547b51427dc9b&id=dadb533f05
#opendata #machinelearning #newsletters
Вот список того на что я лично подписан:
- ORelly Data https://www.oreilly.com/topics/data для подписки надо завести там аккаунт и подписаться на тему "Data"
- DataElixir http://dataelixir.com/ еженедельные письма со ссылками по Data Science
- StackShare https://stackshare.io/news позволяет искать новости по инструментам разработки в том числе с данными. Темы Big Data Tools, Data Transfer, Real-time data processing, Data Science Tools позволяют подписаться на наиболее актуальные статьи по утилитам и продуктам по этой теме
- Towards Data Science https://towardsdatascience.com/ ежедневно статьи о работе с данными. Работает на базе Medium и после авторизации даёт возможность получать письма на почту
- Data Science Roundup http://roundup.fishtownanalytics.com/ больше акцента на аналитике и алгоритмах
- Data Science Weekly https://www.datascienceweekly.org/ аналогично больше про Data Science
- KD Nuggets https://www.kdnuggets.com не только про алгоритмы и большие данные, но и про курсы, обучение, работу, вакансии и многое другое
- Mode Analytics Newsletter https://about.modeanalytics.com/newsletter/ больше про аналитику от создателей платформы облачной аналитики
- Data Digest https://page.data.world/data-digest от Data.world, еженедельная рассылка с новостями и примерами работы с данными
- Center for data innovation newsletter http://www.datainnovation.org/ в основном рассылка про индустрию
- Kaggle blog newsletter http://blog.kaggle.com/ подписка на блог Kaggle, о их платформе, машинном обучении и не только.
В завершение добавлю упоминание нашей рассылки Инфокультуры, которая, кроме всего прочего охватывает и темы открытых данных в России. Прямая ссылка на подписку тут http://infoculture.us7.list-manage.com/subscribe?u=2e38b8af0d8a547b51427dc9b&id=dadb533f05
#opendata #machinelearning #newsletters
O’Reilly Media
AI & ML - O’Reilly
Few technologies have the potential to change the nature of work and how we live as artificial intelligence (AI) and machine learning (ML).
May 1, 2018
Свежая публикация от Boston Consulting Group о том как государства могут использовать искусственный интеллект и о том как это воспринимается гражданами и экспертами [1].
Множество примеров в том как AI может помочь в:
- управлении трафиком
- идентификации болезней глаз
- автоматическое определение подходит ли соискатель на вакансию
и многое другое.
Более всего всех беспокоит использование AI в определении виновности и в решениях о дострочном освобождении. А наибольший консенсус в использовании в задачах управления городом в реальном времени.
Материал интересный и не стоит полагать что неактуальный для России. Есть как минимум две области в которых у Российского государства есть коллосальная мотивация использовать технологии AI, машинного обучения и не только.
Это сбор налогов и управление социальными обязательствами.
- в первом случае налогоплательщик должен быть готов к тому что на смену выездным проверкам приходит тотальная слежка.
- во втором случае сопоставление доходов и расходов, льгот, владения имуществом и не только неизбежно приведет к микроструктурированию социальных обязательств. Механизмы выплат компенсаций, пенсий, медицинского страхования и образования кстати тоже придут к модели социального скоринга.
Ссылки:
[1] https://www.bcg.com/publications/2019/citizen-perspective-use-artificial-intelligence-government-digital-benchmarking.aspx
#ai #machinelearning #digitalgov
Множество примеров в том как AI может помочь в:
- управлении трафиком
- идентификации болезней глаз
- автоматическое определение подходит ли соискатель на вакансию
и многое другое.
Более всего всех беспокоит использование AI в определении виновности и в решениях о дострочном освобождении. А наибольший консенсус в использовании в задачах управления городом в реальном времени.
Материал интересный и не стоит полагать что неактуальный для России. Есть как минимум две области в которых у Российского государства есть коллосальная мотивация использовать технологии AI, машинного обучения и не только.
Это сбор налогов и управление социальными обязательствами.
- в первом случае налогоплательщик должен быть готов к тому что на смену выездным проверкам приходит тотальная слежка.
- во втором случае сопоставление доходов и расходов, льгот, владения имуществом и не только неизбежно приведет к микроструктурированию социальных обязательств. Механизмы выплат компенсаций, пенсий, медицинского страхования и образования кстати тоже придут к модели социального скоринга.
Ссылки:
[1] https://www.bcg.com/publications/2019/citizen-perspective-use-artificial-intelligence-government-digital-benchmarking.aspx
#ai #machinelearning #digitalgov
March 5, 2019
Для тех кто давно хочет поэкспериментировать с машинным переводом, Translator API [1] полностью с открытым кодом на Github, легко модифицируется, поддерживает 150 языков и работает на основе языковой модели Language Technology Research Group at the University of Helsinki [2].
Всё вместе работает на основе Cortex [3], решения с открытым кодом по развертыванию моделей машинного обучения.
Очень интересно было бы сравнить с автоматизированными облачными переводчиками.
Ссылки:
[1] https://github.com/cortexlabs/cortex/tree/translator-example/examples/model-caching/python/translator
[2] https://huggingface.co/Helsinki-NLP
[3] https://www.cortex.dev/
#ml #machinelearning #datascience #cooltools #data
Всё вместе работает на основе Cortex [3], решения с открытым кодом по развертыванию моделей машинного обучения.
Очень интересно было бы сравнить с автоматизированными облачными переводчиками.
Ссылки:
[1] https://github.com/cortexlabs/cortex/tree/translator-example/examples/model-caching/python/translator
[2] https://huggingface.co/Helsinki-NLP
[3] https://www.cortex.dev/
#ml #machinelearning #datascience #cooltools #data
December 11, 2020
В рубрике интересных больших наборов данных OpenAlex [1], полностью открытая база о глобальной системе исследований включающая данных о исследователях, журналах, работах, институтах. Основано на Microsoft Academic Graph [2], далее поддерживается и развивается НКО OurResearch [3], создающими многие инструменты для исследователей.
Кроме того что данные доступны в виде API, также они выложены как наборы данных на Amazon AWS [4] в рамках проекта AWS Open Data Sponsorship Program [5], это когда Amazon спонсирует раскрытие больших наборов открытых данных на их инфраструктуре через покрытие стоимости их передачи и хранения.
Для всех кто исследует то устроена система исследований в мире - этот набор данных определенно будет очень интересен.
И, вдогонку к этому интереснейшему набору данных, один из крупнейших по объёму, а не количеству данных, источник - это Academic Torrents [6], сервисы раздачи датасетов для исследователей. Включает датасеты до 4.8ТБ, в основном для машинного обучения и число наборов данных там только растёт. Уже более 127ТБ в 867 наборах данных. Скажу что ни один государственный портал открытых данных в мире по объёмам с ним не сравнится. Кроме, может быть, data.gov в США где основной объём данных, также, составляют исследовательские данные крупнейших государственных научных центров.
Ссылки:
[1] https://docs.openalex.org/
[2] https://www.microsoft.com/en-us/research/project/microsoft-academic-graph/
[3] https://ourresearch.org/
[4] https://registry.opendata.aws/openalex/
[5] https://aws.amazon.com/opendata/open-data-sponsorship-program/
[6] https://academictorrents.com/
#opendata #academy #openscience #machinelearning #datasets
Кроме того что данные доступны в виде API, также они выложены как наборы данных на Amazon AWS [4] в рамках проекта AWS Open Data Sponsorship Program [5], это когда Amazon спонсирует раскрытие больших наборов открытых данных на их инфраструктуре через покрытие стоимости их передачи и хранения.
Для всех кто исследует то устроена система исследований в мире - этот набор данных определенно будет очень интересен.
И, вдогонку к этому интереснейшему набору данных, один из крупнейших по объёму, а не количеству данных, источник - это Academic Torrents [6], сервисы раздачи датасетов для исследователей. Включает датасеты до 4.8ТБ, в основном для машинного обучения и число наборов данных там только растёт. Уже более 127ТБ в 867 наборах данных. Скажу что ни один государственный портал открытых данных в мире по объёмам с ним не сравнится. Кроме, может быть, data.gov в США где основной объём данных, также, составляют исследовательские данные крупнейших государственных научных центров.
Ссылки:
[1] https://docs.openalex.org/
[2] https://www.microsoft.com/en-us/research/project/microsoft-academic-graph/
[3] https://ourresearch.org/
[4] https://registry.opendata.aws/openalex/
[5] https://aws.amazon.com/opendata/open-data-sponsorship-program/
[6] https://academictorrents.com/
#opendata #academy #openscience #machinelearning #datasets
docs.openalex.org
Overview | OpenAlex technical documentation
August 3, 2022
Регулярное полезное чтение про данные, технологии и не только:
- IKEA’s Knowledge Graph and Why It Has Three Layers [1] о том как устроен граф знаний в ИКЕА с точки зрения хранения данных. Актуально для всех кто работает с похожими системами и проектами
- Presto Parquet Column Encryption [2] о том как устроено колоночное шифрование в файлах Parquet в Presto, со ссылками на другие продукты, тексты, описания и тд. про это же.
- MLPerf Results Show Advances in Machine Learning Inference [3] обновление результатов MLPerf по сравнению моделей машинного обучения
- Unsung Saga of MLOps [4] про MLOps в Walmart, в основном про всякое организационное, и тем интереснее.
- In conversation with AI: building better language models [5] научная статья о том как могут развиваться способы коммуникации человека и ИИ, с оглядкой на языковые модели, но с рассмотрением других способов коммуникации также.
Ссылки:
[1] https://medium.com/flat-pack-tech/ikeas-knowledge-graph-and-why-it-has-three-layers-a38fca436349
[2] https://prestodb.io/blog/2022/07/10/presto-parquet-column-encryption
[3] https://mlcommons.org/en/news/mlperf-inference-v21/
[4] https://medium.com/walmartglobaltech/unsung-saga-of-mlops-1b494f587638
[5] https://www.deepmind.com/blog/in-conversation-with-ai-building-better-language-models
#data #machinelearning #readings
- IKEA’s Knowledge Graph and Why It Has Three Layers [1] о том как устроен граф знаний в ИКЕА с точки зрения хранения данных. Актуально для всех кто работает с похожими системами и проектами
- Presto Parquet Column Encryption [2] о том как устроено колоночное шифрование в файлах Parquet в Presto, со ссылками на другие продукты, тексты, описания и тд. про это же.
- MLPerf Results Show Advances in Machine Learning Inference [3] обновление результатов MLPerf по сравнению моделей машинного обучения
- Unsung Saga of MLOps [4] про MLOps в Walmart, в основном про всякое организационное, и тем интереснее.
- In conversation with AI: building better language models [5] научная статья о том как могут развиваться способы коммуникации человека и ИИ, с оглядкой на языковые модели, но с рассмотрением других способов коммуникации также.
Ссылки:
[1] https://medium.com/flat-pack-tech/ikeas-knowledge-graph-and-why-it-has-three-layers-a38fca436349
[2] https://prestodb.io/blog/2022/07/10/presto-parquet-column-encryption
[3] https://mlcommons.org/en/news/mlperf-inference-v21/
[4] https://medium.com/walmartglobaltech/unsung-saga-of-mlops-1b494f587638
[5] https://www.deepmind.com/blog/in-conversation-with-ai-building-better-language-models
#data #machinelearning #readings
Medium
IKEA’s Knowledge Graph and Why It Has Three Layers
At IKEA we are building a knowledge graph to improve the overall experience of our customers in the physical and digital space. I like to…
September 12, 2022
Полезное чтение про данные, технологии и не только։
- NormConf: Selected talks and lessons learned [1] в блоге Prefect про конференцию Normconf и избранные выступления про машинное обучение. Там же ссылки на все выступления и, в принципе, интересная конференция с разными докладами про данные и ML
- List of AI and ML Conferences in 2023 [2] большая подборка конференций по ИИ и машинному обучению в 2023 году. Большая часть в США и Европе, несколько в Восточной Азии.
- Uber’s Facial Recognition Is Locking Indian Drivers Out of Their Accounts [3] о том как алгоритмы блокировали доступ водителей в Индии к их аккаунтам в Uber из-за невозможности их идентифицировать после изменения стрижки, к примеру. Обзор влияния применения распознавания по лицам для "gig workers" (курьеров, водителей и иных схожих уберизированных профессий).
- Updating dbt Cloud pricing to support long-term community growth [4] команда продукта dbt обновила его ценовую модель, как бы красиво они не подавали изменения в ценах, в реальности для небольших команд цена вырастает в 100%, если пользоваться их онлайн облаком и IDE. Это важно поскольку dbt превратился в один из ключевых инфраструктурных проектов в современных стеках работы с данными.
- A Zero ETL Future [5] о будущем ETL продуктов и о том что вероятна весьма скорая их замена владельцами крупнейших онлайн хранилищ. Об этом давно идут разговоры, что если Snowflake и AWS добавят ETL функции в их продукты, то весь рынок облачных ETL быстро развалится.
- Daath AI Parser [6] необычный парсер HTML который на вход получает HTML код и с помощью OpenAI разбирает видимые элементы и возвращает данные. Я уже думал о подобной штуке, а тут автор напрямую начал её реализовывать. Для многих задач у неё хороший потенциал.
Ссылки։
[1] https://medium.com/the-prefect-blog/what-i-learned-from-normconf-2022-f8b3c88f0de7
[2] https://tryolabs.com/blog/machine-learning-deep-learning-conferences
[3] https://pulitzercenter.org/stories/ubers-facial-recognition-locking-indian-drivers-out-their-accounts
[4] https://www.getdbt.com/blog/dbt-cloud-package-update/
[5] https://seattledataguy.substack.com/p/a-zero-etl-future
[6] https://github.com/kagermanov27/daath-ai-parser
#opensource #ai #machinelearning #dbt #dataengineering #etl
- NormConf: Selected talks and lessons learned [1] в блоге Prefect про конференцию Normconf и избранные выступления про машинное обучение. Там же ссылки на все выступления и, в принципе, интересная конференция с разными докладами про данные и ML
- List of AI and ML Conferences in 2023 [2] большая подборка конференций по ИИ и машинному обучению в 2023 году. Большая часть в США и Европе, несколько в Восточной Азии.
- Uber’s Facial Recognition Is Locking Indian Drivers Out of Their Accounts [3] о том как алгоритмы блокировали доступ водителей в Индии к их аккаунтам в Uber из-за невозможности их идентифицировать после изменения стрижки, к примеру. Обзор влияния применения распознавания по лицам для "gig workers" (курьеров, водителей и иных схожих уберизированных профессий).
- Updating dbt Cloud pricing to support long-term community growth [4] команда продукта dbt обновила его ценовую модель, как бы красиво они не подавали изменения в ценах, в реальности для небольших команд цена вырастает в 100%, если пользоваться их онлайн облаком и IDE. Это важно поскольку dbt превратился в один из ключевых инфраструктурных проектов в современных стеках работы с данными.
- A Zero ETL Future [5] о будущем ETL продуктов и о том что вероятна весьма скорая их замена владельцами крупнейших онлайн хранилищ. Об этом давно идут разговоры, что если Snowflake и AWS добавят ETL функции в их продукты, то весь рынок облачных ETL быстро развалится.
- Daath AI Parser [6] необычный парсер HTML который на вход получает HTML код и с помощью OpenAI разбирает видимые элементы и возвращает данные. Я уже думал о подобной штуке, а тут автор напрямую начал её реализовывать. Для многих задач у неё хороший потенциал.
Ссылки։
[1] https://medium.com/the-prefect-blog/what-i-learned-from-normconf-2022-f8b3c88f0de7
[2] https://tryolabs.com/blog/machine-learning-deep-learning-conferences
[3] https://pulitzercenter.org/stories/ubers-facial-recognition-locking-indian-drivers-out-their-accounts
[4] https://www.getdbt.com/blog/dbt-cloud-package-update/
[5] https://seattledataguy.substack.com/p/a-zero-etl-future
[6] https://github.com/kagermanov27/daath-ai-parser
#opensource #ai #machinelearning #dbt #dataengineering #etl
Medium
What I learned from NormConf 2022
Summary of selected talks and lessons learned
December 21, 2022
Свежий обзор платформ для соревнований в машинном обучении The State of Competitive Machine Learning 2022 Edition [1] в форме подробного сравнения и отчета за год. Авторы сравнивали Kaggle, Tianchi, CodaLab, Zindi и других, всего 11 платформ.
Самое любопытное։
- безусловная лидирующая платформа это Kaggle с более чем 10+ миллионами участников и общим годовым призовым фондом за 2022 год в 1.7 миллиона долларов
- конкурсы академических структур менее популярные чем от коммерческих компаний и самих платформ
- Python - язык победителей. Почти все кто выигрывал соревнования писали на Python, за редким исключением соревнований где использовался C++
- авторы выявили так называемый winning toolkit [2] технологический стек которым преимущественно пользуются победители соревнований
- примерно 50% победителей в конкурсах - это одиночки
- некоторые участники серьёзно вкладываются в оборудование для победы, но, при этом, многие до сих пор выигрывают даже за счёт бесплатных или очень дешёвых онлайн серверов.
Ссылки:
[1] https://mlcontests.com/state-of-competitive-machine-learning-2022/
[2] https://mlcontests.com/winning-toolkit/
#machinelearning #stateof #reports #readings
Самое любопытное։
- безусловная лидирующая платформа это Kaggle с более чем 10+ миллионами участников и общим годовым призовым фондом за 2022 год в 1.7 миллиона долларов
- конкурсы академических структур менее популярные чем от коммерческих компаний и самих платформ
- Python - язык победителей. Почти все кто выигрывал соревнования писали на Python, за редким исключением соревнований где использовался C++
- авторы выявили так называемый winning toolkit [2] технологический стек которым преимущественно пользуются победители соревнований
- примерно 50% победителей в конкурсах - это одиночки
- некоторые участники серьёзно вкладываются в оборудование для победы, но, при этом, многие до сих пор выигрывают даже за счёт бесплатных или очень дешёвых онлайн серверов.
Ссылки:
[1] https://mlcontests.com/state-of-competitive-machine-learning-2022/
[2] https://mlcontests.com/winning-toolkit/
#machinelearning #stateof #reports #readings
ML Contests
The State of Competitive Machine Learning | ML Contests
We summarise the state of the competitive landscape and analyse the 200+ competitions that took place in 2022. Plus a deep dive analysis of 67 winning solutions to figure out the best strategies to win at competitive ML.
March 15, 2023
Пока идёт опрос в котором пока явно лидирует интерес к тому где найти значимые источники данных, подборка каталогов данных для машинного обучения
- Kaggle kaggle.com/datasets - крупнейший по числу наборов данных каталог на платформ Kaggle
- Hagging Face huggingface.co/datasets/ - не такой большой количественно, но хорошо структурированный каталог на платформе Hagging Face
- Registry of Open Data on AWS registry.opendata.aws - данных особенно большого объёма в специальном каталоге открытых данных расположенных на платформе Amazon AWS
- Azure Open Datasets https://learn.microsoft.com/en-us/azure/open-datasets/dataset-catalog - данные особенно большого объёма на платформе Azure, тоже открытые
- OpenML Datasets openml.org - много данных - каталог данных на платформе OpenML
- UCL Machine learning repository archive-beta.ics.uci.edu - академический репозиторий данных для машинного обучения
- Radiant ML Hub mlhub.earth - каталог геоданных для машинного обучения
Я добавлю также что помимо каталога данных по России и ряде постсоветских стран datacatalogs.ru у нас есть пока непубличный каталог каталогов по всему миру. Но если datacatalogs.ru был сверхдетальным, с долгим поиском не только региональных каталогов данных, но и, например, реестров данных на сайтах городов и муниципалитетов, то каталог международных данных выглядит иначе и включает информацию о ПО на котором он сделан и фокус сбора на каталогах открытых данных, статистических базах, геопорталах с данными (почти все или на Geonetwork, или на ArcGIS Hub), каталогах микроданных и ещё много всего.
Итоговый результат - это не только сам каталог, но и постепенное приближение к созданию открытого глобального индекса доступных данных и поисковой системы поверх него.
Сам каталог каталогов будет доступен сильно позже, после сборки хотя бы 1000+ таких каталогов, будет собрано.
#opendata #datasets #machinelearning
- Kaggle kaggle.com/datasets - крупнейший по числу наборов данных каталог на платформ Kaggle
- Hagging Face huggingface.co/datasets/ - не такой большой количественно, но хорошо структурированный каталог на платформе Hagging Face
- Registry of Open Data on AWS registry.opendata.aws - данных особенно большого объёма в специальном каталоге открытых данных расположенных на платформе Amazon AWS
- Azure Open Datasets https://learn.microsoft.com/en-us/azure/open-datasets/dataset-catalog - данные особенно большого объёма на платформе Azure, тоже открытые
- OpenML Datasets openml.org - много данных - каталог данных на платформе OpenML
- UCL Machine learning repository archive-beta.ics.uci.edu - академический репозиторий данных для машинного обучения
- Radiant ML Hub mlhub.earth - каталог геоданных для машинного обучения
Я добавлю также что помимо каталога данных по России и ряде постсоветских стран datacatalogs.ru у нас есть пока непубличный каталог каталогов по всему миру. Но если datacatalogs.ru был сверхдетальным, с долгим поиском не только региональных каталогов данных, но и, например, реестров данных на сайтах городов и муниципалитетов, то каталог международных данных выглядит иначе и включает информацию о ПО на котором он сделан и фокус сбора на каталогах открытых данных, статистических базах, геопорталах с данными (почти все или на Geonetwork, или на ArcGIS Hub), каталогах микроданных и ещё много всего.
Итоговый результат - это не только сам каталог, но и постепенное приближение к созданию открытого глобального индекса доступных данных и поисковой системы поверх него.
Сам каталог каталогов будет доступен сильно позже, после сборки хотя бы 1000+ таких каталогов, будет собрано.
#opendata #datasets #machinelearning
Telegram
Ivan Begtin
Регулярный опрос с обратной связью. О чём чаще писать на канале? (можно несколько ответов)
Больше про открытые данные в мире / Больше про стартапы и развитие технологий работы с данными / Больше технического, примеры, код, гайды / Про открывание/закрывание…
Больше про открытые данные в мире / Больше про стартапы и развитие технологий работы с данными / Больше технического, примеры, код, гайды / Про открывание/закрывание…
March 28, 2023
Вчера команда Твиттера выложила в открытый доступ описание [1] их рекомендательного алгоритма с подробностями и описанием его работы. И, более того, они выложили два репозитория открытого кода их рекомендательной системы и модели для машинного обучения [2] [3].
Здесь важно понимать правильно этот шаг, это не открытые библиотеки кода для совместной разработки или проект с открытым кодом передаваемый сообществу, это явно именно раскрытие кода для разговоров с регуляторами которыеспят и видят всерьёз рассматривают введение требований к социальным сетям именно в части формирования рекомендательных списков для чтения.
Кто последует в след за Twitter'ом? Увидим ли мы исходный код формирования ленты в Facebook'е, например?
Ссылки:
[1] https://blog.twitter.com/engineering/en_us/topics/open-source/2023/twitter-recommendation-algorithm
[2] https://github.com/twitter/the-algorithm
[3] https://github.com/twitter/the-algorithm-ml
#opensource #twitter #machinelearning
Здесь важно понимать правильно этот шаг, это не открытые библиотеки кода для совместной разработки или проект с открытым кодом передаваемый сообществу, это явно именно раскрытие кода для разговоров с регуляторами которые
Кто последует в след за Twitter'ом? Увидим ли мы исходный код формирования ленты в Facebook'е, например?
Ссылки:
[1] https://blog.twitter.com/engineering/en_us/topics/open-source/2023/twitter-recommendation-algorithm
[2] https://github.com/twitter/the-algorithm
[3] https://github.com/twitter/the-algorithm-ml
#opensource #twitter #machinelearning
April 1, 2023
Где искать большие данные для исследований? Машинного обучения? Тренировки алгоритмов?
Источников много, я упомяну сейчас те о которых ранее не писал:
- Academic Torrents https://academictorrents.com/ - торрент-трекер для исследователей для публикации данных особо большого объёма. Более 14ТБ данных, большая часть для машинного обучения
- Archive.org datasets https://archive.org/details/datasets - наборы данных собранные в коллекции Интернет архива. Наборов данных более 9 тысяч и данные большого объёма
- Hyper.ai Datasets https://hyper.ai/datasets наборы данных китайской компании Hyper.AI. Тоже большого объёма и раздают данные через torrent'ы
- Toloka Datasets https://toloka.ai/datasets/ - открытые наборы данных компании Toloka, все про машинное обучение, варьируются от очень небольших, до десятков гигабайт
- The SpaceNet Datasets https://spacenet.ai/datasets/ - коллекция наборов данных проекта SpaceNet, открытые наборы данных от компании Maxar, поставщика данных спутникового мониторинга
- Granular Datasets https://granular.ai/datasets - много наборов данных для машинного обучения на данных спутниковых снимков и иных снимков
- Наборы данных Центра диагностики и телемедицины https://mosmed.ai/datasets/ - один из немногих открытых источников больших и открытых данных для машинного обучения в России, большая часть данных открыты или доступны по запросу. Публикуется профильным ГБУ при правительстве Москвы
#opendata #datasets #data #machinelearning
Источников много, я упомяну сейчас те о которых ранее не писал:
- Academic Torrents https://academictorrents.com/ - торрент-трекер для исследователей для публикации данных особо большого объёма. Более 14ТБ данных, большая часть для машинного обучения
- Archive.org datasets https://archive.org/details/datasets - наборы данных собранные в коллекции Интернет архива. Наборов данных более 9 тысяч и данные большого объёма
- Hyper.ai Datasets https://hyper.ai/datasets наборы данных китайской компании Hyper.AI. Тоже большого объёма и раздают данные через torrent'ы
- Toloka Datasets https://toloka.ai/datasets/ - открытые наборы данных компании Toloka, все про машинное обучение, варьируются от очень небольших, до десятков гигабайт
- The SpaceNet Datasets https://spacenet.ai/datasets/ - коллекция наборов данных проекта SpaceNet, открытые наборы данных от компании Maxar, поставщика данных спутникового мониторинга
- Granular Datasets https://granular.ai/datasets - много наборов данных для машинного обучения на данных спутниковых снимков и иных снимков
- Наборы данных Центра диагностики и телемедицины https://mosmed.ai/datasets/ - один из немногих открытых источников больших и открытых данных для машинного обучения в России, большая часть данных открыты или доступны по запросу. Публикуется профильным ГБУ при правительстве Москвы
#opendata #datasets #data #machinelearning
Academic Torrents
A distributed system for sharing enormous datasets - for researchers, by researchers. The result is a scalable, secure, and fault-tolerant repository for data, with blazing fast download speeds.
April 6, 2023
Полезное чтение про данные, технологии и не только:
- Microsoft Intelligence platform data integration plan [1] план обновлений сервисов в Microsoft Intelligence platform на апрель-сентябрь 2023 года. Там много изменений полезных для тех кто пользуется их платформой
- Life after orchestrators [2] автор делится мыслями о том как работать с оркестраторами данных и без них. Автор рекламирует сервис Popsink [3], но сам пост содержит и вполне здравые мысли (не рекламу). Действительно оркестраторы нужны не везде и не всегда.
- Introducing Segment Anything: Working toward the first foundation model for image segmentation [4] - модель и данные по сегментации изображений от Meta AI, набор данных, кстати большой, более 11 миллионов изображений
- Datasets for Advancing AI Research [5] другие наборы данных для машинного обучения от Facebook. С ручной разметкой, большого объёма и тд. Не полноценный каталог данных, а интегрировано в их сайт по ИИ, но в целом оформлено неплохо и, главное!, это содержание.
- Data Modeling – The Unsung Hero of Data Engineering: An Introduction to Data Modeling (Part 1) [6] про моделирование данных в блоге Airbyte, хороший текст как вводный и явно с продолжением.
- Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality [7] просто какая-то эпидемия (шутка) языковых моделей которые делаются маленькими ресурсами и приближающимися по качеству к ChatGPT и GPT-4. Вот и свежий открытый продукт. Похож на Alpaca, обучали его ещё дешевле, всего за $300.
Ссылки:
[1] https://learn.microsoft.com/en-us/power-platform/release-plan/2023wave1/data-integration/
[2] https://stkbailey.substack.com/p/life-after-orchestrators
[3] https://www.popsink.com/
[4] https://ai.facebook.com/blog/segment-anything-foundation-model-image-segmentation/
[5] https://ai.facebook.com/datasets/
[6] https://airbyte.com/blog/data-modeling-unsung-hero-data-engineering-introduction
[7] https://vicuna.lmsys.org/
#readings #data #ai #datatools #machinelearning #dataengineering
- Microsoft Intelligence platform data integration plan [1] план обновлений сервисов в Microsoft Intelligence platform на апрель-сентябрь 2023 года. Там много изменений полезных для тех кто пользуется их платформой
- Life after orchestrators [2] автор делится мыслями о том как работать с оркестраторами данных и без них. Автор рекламирует сервис Popsink [3], но сам пост содержит и вполне здравые мысли (не рекламу). Действительно оркестраторы нужны не везде и не всегда.
- Introducing Segment Anything: Working toward the first foundation model for image segmentation [4] - модель и данные по сегментации изображений от Meta AI, набор данных, кстати большой, более 11 миллионов изображений
- Datasets for Advancing AI Research [5] другие наборы данных для машинного обучения от Facebook. С ручной разметкой, большого объёма и тд. Не полноценный каталог данных, а интегрировано в их сайт по ИИ, но в целом оформлено неплохо и, главное!, это содержание.
- Data Modeling – The Unsung Hero of Data Engineering: An Introduction to Data Modeling (Part 1) [6] про моделирование данных в блоге Airbyte, хороший текст как вводный и явно с продолжением.
- Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality [7] просто какая-то эпидемия (шутка) языковых моделей которые делаются маленькими ресурсами и приближающимися по качеству к ChatGPT и GPT-4. Вот и свежий открытый продукт. Похож на Alpaca, обучали его ещё дешевле, всего за $300.
Ссылки:
[1] https://learn.microsoft.com/en-us/power-platform/release-plan/2023wave1/data-integration/
[2] https://stkbailey.substack.com/p/life-after-orchestrators
[3] https://www.popsink.com/
[4] https://ai.facebook.com/blog/segment-anything-foundation-model-image-segmentation/
[5] https://ai.facebook.com/datasets/
[6] https://airbyte.com/blog/data-modeling-unsung-hero-data-engineering-introduction
[7] https://vicuna.lmsys.org/
#readings #data #ai #datatools #machinelearning #dataengineering
Docs
Overview of data integration 2023 release wave 1
April 9, 2023