Где искать большие данные для исследований? Машинного обучения? Тренировки алгоритмов?
Источников много, я упомяну сейчас те о которых ранее не писал:
- Academic Torrents https://academictorrents.com/ - торрент-трекер для исследователей для публикации данных особо большого объёма. Более 14ТБ данных, большая часть для машинного обучения
- Archive.org datasets https://archive.org/details/datasets - наборы данных собранные в коллекции Интернет архива. Наборов данных более 9 тысяч и данные большого объёма
- Hyper.ai Datasets https://hyper.ai/datasets наборы данных китайской компании Hyper.AI. Тоже большого объёма и раздают данные через torrent'ы
- Toloka Datasets https://toloka.ai/datasets/ - открытые наборы данных компании Toloka, все про машинное обучение, варьируются от очень небольших, до десятков гигабайт
- The SpaceNet Datasets https://spacenet.ai/datasets/ - коллекция наборов данных проекта SpaceNet, открытые наборы данных от компании Maxar, поставщика данных спутникового мониторинга
- Granular Datasets https://granular.ai/datasets - много наборов данных для машинного обучения на данных спутниковых снимков и иных снимков
- Наборы данных Центра диагностики и телемедицины https://mosmed.ai/datasets/ - один из немногих открытых источников больших и открытых данных для машинного обучения в России, большая часть данных открыты или доступны по запросу. Публикуется профильным ГБУ при правительстве Москвы
#opendata #datasets #data #machinelearning
Источников много, я упомяну сейчас те о которых ранее не писал:
- Academic Torrents https://academictorrents.com/ - торрент-трекер для исследователей для публикации данных особо большого объёма. Более 14ТБ данных, большая часть для машинного обучения
- Archive.org datasets https://archive.org/details/datasets - наборы данных собранные в коллекции Интернет архива. Наборов данных более 9 тысяч и данные большого объёма
- Hyper.ai Datasets https://hyper.ai/datasets наборы данных китайской компании Hyper.AI. Тоже большого объёма и раздают данные через torrent'ы
- Toloka Datasets https://toloka.ai/datasets/ - открытые наборы данных компании Toloka, все про машинное обучение, варьируются от очень небольших, до десятков гигабайт
- The SpaceNet Datasets https://spacenet.ai/datasets/ - коллекция наборов данных проекта SpaceNet, открытые наборы данных от компании Maxar, поставщика данных спутникового мониторинга
- Granular Datasets https://granular.ai/datasets - много наборов данных для машинного обучения на данных спутниковых снимков и иных снимков
- Наборы данных Центра диагностики и телемедицины https://mosmed.ai/datasets/ - один из немногих открытых источников больших и открытых данных для машинного обучения в России, большая часть данных открыты или доступны по запросу. Публикуется профильным ГБУ при правительстве Москвы
#opendata #datasets #data #machinelearning
Academic Torrents
A distributed system for sharing enormous datasets - for researchers, by researchers. The result is a scalable, secure, and fault-tolerant repository for data, with blazing fast download speeds.
🔥17👍6
Полезное чтение про данные, технологии и не только:
- Microsoft Intelligence platform data integration plan [1] план обновлений сервисов в Microsoft Intelligence platform на апрель-сентябрь 2023 года. Там много изменений полезных для тех кто пользуется их платформой
- Life after orchestrators [2] автор делится мыслями о том как работать с оркестраторами данных и без них. Автор рекламирует сервис Popsink [3], но сам пост содержит и вполне здравые мысли (не рекламу). Действительно оркестраторы нужны не везде и не всегда.
- Introducing Segment Anything: Working toward the first foundation model for image segmentation [4] - модель и данные по сегментации изображений от Meta AI, набор данных, кстати большой, более 11 миллионов изображений
- Datasets for Advancing AI Research [5] другие наборы данных для машинного обучения от Facebook. С ручной разметкой, большого объёма и тд. Не полноценный каталог данных, а интегрировано в их сайт по ИИ, но в целом оформлено неплохо и, главное!, это содержание.
- Data Modeling – The Unsung Hero of Data Engineering: An Introduction to Data Modeling (Part 1) [6] про моделирование данных в блоге Airbyte, хороший текст как вводный и явно с продолжением.
- Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality [7] просто какая-то эпидемия (шутка) языковых моделей которые делаются маленькими ресурсами и приближающимися по качеству к ChatGPT и GPT-4. Вот и свежий открытый продукт. Похож на Alpaca, обучали его ещё дешевле, всего за $300.
Ссылки:
[1] https://learn.microsoft.com/en-us/power-platform/release-plan/2023wave1/data-integration/
[2] https://stkbailey.substack.com/p/life-after-orchestrators
[3] https://www.popsink.com/
[4] https://ai.facebook.com/blog/segment-anything-foundation-model-image-segmentation/
[5] https://ai.facebook.com/datasets/
[6] https://airbyte.com/blog/data-modeling-unsung-hero-data-engineering-introduction
[7] https://vicuna.lmsys.org/
#readings #data #ai #datatools #machinelearning #dataengineering
- Microsoft Intelligence platform data integration plan [1] план обновлений сервисов в Microsoft Intelligence platform на апрель-сентябрь 2023 года. Там много изменений полезных для тех кто пользуется их платформой
- Life after orchestrators [2] автор делится мыслями о том как работать с оркестраторами данных и без них. Автор рекламирует сервис Popsink [3], но сам пост содержит и вполне здравые мысли (не рекламу). Действительно оркестраторы нужны не везде и не всегда.
- Introducing Segment Anything: Working toward the first foundation model for image segmentation [4] - модель и данные по сегментации изображений от Meta AI, набор данных, кстати большой, более 11 миллионов изображений
- Datasets for Advancing AI Research [5] другие наборы данных для машинного обучения от Facebook. С ручной разметкой, большого объёма и тд. Не полноценный каталог данных, а интегрировано в их сайт по ИИ, но в целом оформлено неплохо и, главное!, это содержание.
- Data Modeling – The Unsung Hero of Data Engineering: An Introduction to Data Modeling (Part 1) [6] про моделирование данных в блоге Airbyte, хороший текст как вводный и явно с продолжением.
- Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality [7] просто какая-то эпидемия (шутка) языковых моделей которые делаются маленькими ресурсами и приближающимися по качеству к ChatGPT и GPT-4. Вот и свежий открытый продукт. Похож на Alpaca, обучали его ещё дешевле, всего за $300.
Ссылки:
[1] https://learn.microsoft.com/en-us/power-platform/release-plan/2023wave1/data-integration/
[2] https://stkbailey.substack.com/p/life-after-orchestrators
[3] https://www.popsink.com/
[4] https://ai.facebook.com/blog/segment-anything-foundation-model-image-segmentation/
[5] https://ai.facebook.com/datasets/
[6] https://airbyte.com/blog/data-modeling-unsung-hero-data-engineering-introduction
[7] https://vicuna.lmsys.org/
#readings #data #ai #datatools #machinelearning #dataengineering
Docs
Overview of data integration 2023 release wave 1
👍3
Ещё один общедоступный каталог данных для машинного обучения, на сей раз от DagsHub [1]. Я про этот стартап писал примерно 1.5 года назад и за это время у них прибавилось пользователей и появился каталог данных для машинного обучения, встроенный прямо в платформу. Каталог любопытный, но как-то с совсем скудным набором метаданных и доступом к данным через их библиотеку и как хранимым на S3.
В целом непонятны преимущества перед Kaggle или HuggingFace с точки зрения именно каталога данных, но полезным может быть и в такой форме.
В целом в реестре каталогов данных по всему миру у меня собрано уже 12 каталогов для машинного обучения. Это немного, учитывая что всего в реестре ожидается 3000+ каталогов данных, но заметно, если переводить цифры в объём хранимых данных и их влияние.
Ссылки:
[1] https://dagshub.com/datasets/
#opendata #machinelearning #datacatalogs
В целом непонятны преимущества перед Kaggle или HuggingFace с точки зрения именно каталога данных, но полезным может быть и в такой форме.
В целом в реестре каталогов данных по всему миру у меня собрано уже 12 каталогов для машинного обучения. Это немного, учитывая что всего в реестре ожидается 3000+ каталогов данных, но заметно, если переводить цифры в объём хранимых данных и их влияние.
Ссылки:
[1] https://dagshub.com/datasets/
#opendata #machinelearning #datacatalogs
👍6❤1
- автоматизация обогащения данных, также напрямую зависит от задач по пониманию данных. Если мы знаем семантические типы данных то можем автоматически данные обогатить. Например, в данных есть коды стран, мы можем автоматически обогатить датасет информацией о макрорегионе, о размере территории, численности жителей, GDP, уровню дохода и тд. Особенно это важно при автоматизации визуализации данных, это резко сокращает время подготовки данных для дата аналитиков и дата журналистов.
- мэтчинг записей, очень распространённая задача связанная с данными об организациях и / или людях и/или адресах, недвижимости, имуществе и так далее. Это необходимость сопоставлять записи по наборам идентификаторов, не всегда нормализованных. Задача практическая во всех продуктах связанных с комплаенсом и анализе конкурентов.
- Автоматическая визуализация данных. Зависит от многих задач по пониманию данных, но даже когда и если известны типы полей и структура файла, отдельная задача в том как автоматически визуализировать датасет наиболее наглядным образом. Как сузить зону отображения для геоданных. Как лучше всего визуализировать статистические данные. Как визуализировать не статистические. Как избежать "перегрузки изображения" и ещё многое другое. Это задачи Auto-BI, понемногу решаются в частных случаев, и пока не решены в общем.
Кроме того ещё ещё немало ML задач в таких направлениях как обнаружение данных, извлечение данных, поиск данных и ещё многое другое, об этом я ещё думаю и напишу в одном из последующих постов.
Лично для себя, когда я смотрю на ML и data science то меня цепляют только вот такие задачи. Не самого прямого практического применения (это не распознавание людей или распознавание речи, к примеру), а именно в применении к данным как предмету исследований, а не как инструменту исследований.
#opendata #data #datascience #ml #machinelearning
- мэтчинг записей, очень распространённая задача связанная с данными об организациях и / или людях и/или адресах, недвижимости, имуществе и так далее. Это необходимость сопоставлять записи по наборам идентификаторов, не всегда нормализованных. Задача практическая во всех продуктах связанных с комплаенсом и анализе конкурентов.
- Автоматическая визуализация данных. Зависит от многих задач по пониманию данных, но даже когда и если известны типы полей и структура файла, отдельная задача в том как автоматически визуализировать датасет наиболее наглядным образом. Как сузить зону отображения для геоданных. Как лучше всего визуализировать статистические данные. Как визуализировать не статистические. Как избежать "перегрузки изображения" и ещё многое другое. Это задачи Auto-BI, понемногу решаются в частных случаев, и пока не решены в общем.
Кроме того ещё ещё немало ML задач в таких направлениях как обнаружение данных, извлечение данных, поиск данных и ещё многое другое, об этом я ещё думаю и напишу в одном из последующих постов.
Лично для себя, когда я смотрю на ML и data science то меня цепляют только вот такие задачи. Не самого прямого практического применения (это не распознавание людей или распознавание речи, к примеру), а именно в применении к данным как предмету исследований, а не как инструменту исследований.
#opendata #data #datascience #ml #machinelearning
Dateno
Dateno - datasets search engine
A next-generation data search service provides fast, comprehensive access to open datasets worldwide, with powerful filters and an API-first architecture for seamless integration.
👍6🔥3
Forwarded from Dateno
🚀 Dateno Enters Industrial Operation – Redefining Global Dataset Search
We’re excited to announce that Dateno has officially transitioned to full-scale industrial operation! 🎉 Now, data professionals worldwide can seamlessly access over 20 million high-quality datasets with advanced filtering, API integration, and continuously updated sources.
🔍 What makes Dateno stand out?
✅ Extensive dataset collection – 20M+ datasets indexed, aiming for 30M.
✅ Advanced filtering – Search by dataset owner, geography, topic, and more.
✅ AI-powered search – Recognizes semantic relationships (DOI, geolocation).
✅ API-first approach – Seamless integration into analytics & ML pipelines.
✅ High-quality, ad-free data – Focused on clean, structured, and trustworthy datasets.
💡 What’s next?
🔹 Expanding the dataset index to cover even more industries & research fields.
🔹 Improving search quality & user experience.
🔹 Enhancing AI-driven search for more relevant results.
🔹 Adding new API capabilities for seamless integration.
🔹 Launching tools to help professionals derive deeper insights.
Dateno is more than a search engine – it’s an ecosystem built to make data discovery effortless. 🌍
Join us and experience the next level of fast, precise, and integrated dataset search!
👉 Learn more: dateno.io
📩 Contact us: [email protected]
#Dateno #DataSearch #MachineLearning #BigData #AI
We’re excited to announce that Dateno has officially transitioned to full-scale industrial operation! 🎉 Now, data professionals worldwide can seamlessly access over 20 million high-quality datasets with advanced filtering, API integration, and continuously updated sources.
🔍 What makes Dateno stand out?
✅ Extensive dataset collection – 20M+ datasets indexed, aiming for 30M.
✅ Advanced filtering – Search by dataset owner, geography, topic, and more.
✅ AI-powered search – Recognizes semantic relationships (DOI, geolocation).
✅ API-first approach – Seamless integration into analytics & ML pipelines.
✅ High-quality, ad-free data – Focused on clean, structured, and trustworthy datasets.
💡 What’s next?
🔹 Expanding the dataset index to cover even more industries & research fields.
🔹 Improving search quality & user experience.
🔹 Enhancing AI-driven search for more relevant results.
🔹 Adding new API capabilities for seamless integration.
🔹 Launching tools to help professionals derive deeper insights.
Dateno is more than a search engine – it’s an ecosystem built to make data discovery effortless. 🌍
Join us and experience the next level of fast, precise, and integrated dataset search!
👉 Learn more: dateno.io
📩 Contact us: [email protected]
#Dateno #DataSearch #MachineLearning #BigData #AI
2🎉12⚡5🔥5❤2🤩2👍1