BigData

MedMNIST-C: benchmark dataset based on the MedMNIST+ collection covering 12 2D datasets and 9 imaging modalities.

pip install medmnistc

🖥 Github: https://github.com/francescodisalvo05/medmnistc-api

📕 Paper: https://arxiv.org/abs/2406.17536v2

🔥Dataset: https://paperswithcode.com/dataset/imagenet-c

👉 @bigdata_1

👍1

692 views09:05

BigData

Не знаешь на кого пойти учиться ?💥

🛑Пройди бесплатные онлайн-курсы

🛑Узнай о самых востребованных профессиях

🛑Получи уникальную возможность поступить в «Алабуга Политех» после 9 или 11 класса

ПРОЙДИ КУРС ПРЯМО СЕЙЧАС!

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2👌1🍾1

670 views10:00

BigData

Unifying Flow, Stereo and Depth Estimation

Model for three motion and 3D perception tasks

conda env create -f conda_environment.yml
conda activate unimatch

🖥

Github: https://github.com/autonomousvision/unimatch

✏️

Project: https://haofeixu.github.io/unimatch/

🔑

Colab: https://colab.research.google.com/drive/1r5m-xVy3Kw60U-m5VB-aQ98oqqg_6cab?usp=sharing

🗒 Paper: https://arxiv.org/abs/2211.05783v1

➡️

Dataset: https://paperswithcode.com/dataset/scannet

👉 @bigdata_1

Please open Telegram to view this post

VIEW IN TELEGRAM

696 views12:00

BigData

💥 Ищете возможности в Data Science и ML? На курсе «Специализация Machine Learning» мы научим вас не просто работать с данными, а использовать мощные алгоритмы для бизнес-прогнозирования.

Программа подходит как новичкам, так и профессионалам: от системных аналитиков до инженеров, которые хотят научиться ML с нуля. Мы дадим вам практические знания и опыт, используя актуальные инструменты.

На курсе вы освоите Python, библиотеки pandas, sklearn, глубокое обучение и анализ временных рядов. Пройдете обучение по самым современным фреймворкам и научитесь решать реальные задачи.

➡️ Записывайтесь в группу прямо сейчас: https://vk.cc/cMqaRD

Чтобы успеть воспользоваться 🏷10% скидкой на курс «Специализация Machine Learning» и 🎁 бонусным промокодом ML5 и учиться весь год по ценам мая. Скидка на курс действует по 31.05 включительно!

943 views13:00

BigData

Forecasting Future World Events with Neural Networks

Github: https://github.com/andyzoujm/autocast

Paper: https://arxiv.org/abs/2206.15474v1

Dataset: https://people.eecs.berkeley.edu/~hendrycks/intervalqa.tar.gz

👉 @bigdata_1

👍2🦄2

1.09K views06:18

BigData

This media is not supported in your browser

VIEW IN TELEGRAM

NU-Wave — Official PyTorch Implementation

Github: https://github.com/mindslab-ai/nuwave

Paper: https://arxiv.org/abs/2206.08545v1

Dataset: https://datashare.ed.ac.uk/handle/10283/3443

👉 @bigdata_1

👍2

988 views06:22

BigData

Open R1

Разработчики с Hugging Face повторил полный цикл разработки DeepSeek - от сбора данных до обучения! 🔥

Цель этого репозитория - объяснить все части конвейера создания R1 таким образом, чтобы каждый мог повторить его или построить поверх него свой проект.

Из чего состоит проект:
- src/open_r1 содержит скрипты для обучения и оценки моделей, а также для генерации синтетических данных:
- grpo.py : обучение модели с помощью GRPO
- sft.py: простой SFT
- evaluate.py: оценка модели на основе тестов R1.
- generate.py: генерация синтетических данных с помощью Distilabel.
- Makefile содержит простую в выполнении команду для каждого шага конвейера R1.

https://github.com/huggingface/open-r1

👉 @bigdata_1

👍3🔥1

955 views07:14

BigData

Как масштабировать машинные модели и работать с огромными объемами данных? Откройте для себя возможности Spark ML на открытом уроке от OTUS!

Spark ML — это мощный инструмент для масштабируемого машинного обучения, который позволяет обучать модели на больших данных, не переходя на специализированные ML-системы. Мы покажем, как интеграция с Spark SQL и DataFrame API упрощает ETL-подготовку данных и фичуризацию для реальных проектов.

Убедитесь, как Spark ML решает задачи отказоустойчивости и распределённых вычислений, позволяя вам легко строить промышленные ML-пайплайны.

Посетите открытый урок 11 июня в 20:00 МСК в преддверие старта курса «Spark Developer» и получите скидку на обучение: https://vk.cc/cMFGYY

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576

1.01K views08:17

BigData

ИИ против Машинного Обучения, Глубокого Обучения и Генеративного ИИ — чёткое объяснение

1 — Искусственный интеллект (AI)
Это обобщающее направление, сосредоточенное на создании машин или систем, способных выполнять задачи, которые обычно требуют человеческого интеллекта: рассуждение, обучение, решение проблем, понимание языка и т.д.
AI включает в себя различные поднаправления, такие как машинное обучение (ML), обработка естественного языка (NLP), робототехника и компьютерное зрение.

2 — Машинное обучение (ML)
Это поднаправление AI, которое занимается разработкой алгоритмов, позволяющих компьютерам учиться на данных и принимать решения на их основе.

Вместо того чтобы явно программировать каждую задачу, ML-системы улучшают свои результаты по мере обработки новых данных.
Типичные применения: фильтрация спама, рекомендательные системы, предиктивная аналитика.

3 — Глубокое обучение (Deep Learning)
Это узкая область машинного обучения, использующая искусственные нейронные сети с множеством слоёв для моделирования сложных закономерностей в данных.

Нейронные сети — это вычислительные модели, вдохновлённые структурой мозга человека. Глубокие нейросети способны автоматически находить нужные представления для распознавания.
Примеры использования: распознавание изображений и речи, обработка естественного языка, автономные транспортные средства.

4 — Генеративный искусственный интеллект (Generative AI)
Это AI-системы, способные создавать новый контент — текст, изображения, музыку, код и т.п. — похожий на данные, на которых они обучались. Они работают на основе трансформерной архитектуры.

Известные модели генеративного AI: GPT (генерация текста), DALL·E (создание изображений).

👉 @bigdata_1

👍7👎2❤1

1.02K views06:48

BigData

🎯RecSys R&D команда из Яндекса разработали рекомендательные системы нового поколения на базе больших генеративных нейросетей.

В то время как индустрия пристально следит за успехами LLM, в другой ключевой сфере — рекомендательных системах — случился важный апдейт. Исследователи Яндекса разработали и внедрили в свои сервисы новую трансформерную модель ARGUS (AutoRegressive Generative User Sequential Modeling), способную буквально «читать» поведение пользователя.

Алгоритмы учитывают сложные последовательности (включая мельчайшие фидбеки), предсказывают большое количество обезличенных действий и точнее понимают реакцию и вкусы пользователей. Особенно актуально в эпоху, когда рекомендательные системы становятся фундаментом современных сервисов, а контента становится слишком много.

На Хабре подробно описано, как команда масштабировала систему. Выделили 3 главных условия нейросетевого масштабирования: должен быть огромный массив данных, выразительная архитектура с большой емкостью модели и фундаментальная задача обучения.

В Яндекс Музыке генеративные нейросети в рекомендациях используются уже с 2023. Она же стала первым сервисом, в который интегрировали новые модели и перевели их в онлайн. В результате: пользователи стали ставить на 20% больше лайков, а разнообразие рекомендаций выросло. В Яндекс Маркете внедрение новых алгоритмов позволило учитывать в несколько раз больше обезличенного контекста о пользовательском поведении на сервисе — это эквивалентно примерно двум годам активности покупателей. Рекомендации позволяют чаще встречать интересные товары, и учитывают сезонность. Если, например, прошлым летом пользователь интересовался футболом, то в этот сезон система посоветуем ему мячи или спортивную униформу. В будущем апдейт получат и другие сервисы компании.

Хабр

ARGUS: как масштабировать рекомендательные трансформеры

Привет! Меня зовут Кирилл Хрыльченко. Я руковожу командой, которая занимается R&D для рекомендательных технологий в Яндексе. Одна из наших основных задач — развивать...

👍1

956 views11:38

BigData

0:34

This media is not supported in your browser

VIEW IN TELEGRAM

MASt3R-SLAM: детализированный SLAM с априорными данными 3D-реконструкции в реальном времени.

Представлена система плотного SLAM в реальном времени с использованием одной камеры, разработанная на основе MASt3R — приорной модели для реконструкции сцены и сопоставления по двум изображениям. Благодаря использованию этого мощного ML-приора, система сохраняет устойчивость при работе с произвольными видеопоследовательностями из реального мира, не накладывая ограничений на калиброванную или параметрическую модель камеры, за исключением предположения об уникальном центре проекции.

В рамках архитектуры реализованы эффективные алгоритмы сопоставления с картой точек (pointmap matching), трекинга камеры, локального слияния (fusion), построения графа и замыкания петель (loop closure), а также глобальной оптимизации второго порядка.

При наличии калибровки камеры, достаточно минимальной модификации, чтобы достичь state-of-the-art результатов на ряде стандартных бенчмарков. В целом, система представляет собой plug-and-play решение для монокулярного SLAM, обеспечивающее глобально согласованные траектории камеры и плотную 3D-реконструкцию при скорости 15 FPS.

➡️Проект https://edexheim.github.io/mast3r-slam/

➡️Набор моделей https://download.europe.naverlabs.com/ComputerVision/MASt3R/

➡️Arxiv https://arxiv.org/pdf/2412.12392

👉 @bigdata_1

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3🔥1

994 views06:55

BigData

✔️ Stanford и Google представили Marin — первую полностью открытую LLM, разработанную на JAX

Чем Marin выделяется среди других моделей:

— Открыто всё: не только веса, но и весь процесс обучения — код, датасеты, гиперпараметры, логи и эксперименты доступны на GitHub
— Обучение проходило на массиве из 12.7 триллионов токенов — модель обошла Llama 3.1 8B в 14 из 19 тестов
— Распространяется под лицензией Apache 2.0 — свободно используйте, модифицируйте и воспроизводите
— Используются Levanter + JAX, обеспечивающие bit‑точную воспроизводимость и масштабируемость на TPU/GPU

Проект задуман как открытая исследовательская лаборатория: каждый эксперимент фиксируется через pull request, логируется в Weights & Biases, обсуждается в issue и сохраняется в репозитории — даже неудачи документируются ради прозрачности.

Доступны две версии модели:

- Marin‑8B‑Base — мощная базовая модель, опережающая Llama 3.1 8B
- Marin‑8B‑Instruct — дообучена с помощью SFT, превосходит OLMo 2 и немного уступает Llama 3.1 Tulu

Это не просто открытый доступ к весам — новый научный стандарт в эпоху масштабных языковых моделей.

📌 JAX — научный фреймворк от Google для численных и ML-вычислений
📌 TPU — специализированные процессоры от Google для ускорения задач машинного обучения

➡️Github: https://github.com/stanford-crfm/marin

➡️Блог: https://developers.googleblog.com/en/stanfords-marin-foundation-model-first-fully-open-model-developed-using-jax/

➡️Гайд: https://docs.jax.dev/en/latest/quickstart.html

👉 @bigdata_1

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤1

918 views09:57

BigData

CogView4-6B – свежая Text2Image
Модель генерации изображений, разработанный командой THUDM..

Архитектура модели 6B DIT и 9B TextEncoder Демка показывает очень высокое качество следования заданному промпту.

CogView4 поддерживает очень длинный контекст.

Генерирует изображения от 512 до 2048 пикселей.

➡️

Model: https://huggingface.co/THUDM/CogView4-6B

➡️

Demo: https://huggingface.co/spaces/THUDM-HF-SPACE/CogView4

➡️

Github: https://github.com/THUDM/CogView4

➡️

Paper: https://arxiv.org/abs/2403.05121

👉 @bigdata_1

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM