291K subscribers
3.98K photos
699 videos
17 files
4.57K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
加入频道
⚡️ GraphRAG — методология улучшенного извлечения данных для генерации текста из определенных источников (RAG) от Microsoft.

GraphRAG использует графы знаний для улучшения ответов на запросы. Во время запроса система обращается к графу знаний и использует резюме сообществ и связи между сущностями для формирования контекста, который помогает LLM дать более точный ответ, чем традиционные методы, основанные на поиске по векторным сходствам.

Архитектура GraphRAG состоит из ключевых компонентов:

Indexer : разделяет корпус данных на мелкие текстовые блоки (TextUnits), извлекает из них сущности, связи и ключевые утверждения.
Clustering : группирует данные в иерархическую структуру с использованием метода Лейдена, создавая граф знаний.
Community Summarization : генерирует обобщенные описания для каждой группы данных, что помогает в понимании контекста и смыслового связывания всей информации.
Knowledge Graph : структура, объединяющая сущности и их связи, созданная на основе данных.

GraphRAG значительно улучшает работу моделей языка с частными данными, позволяя им более точно и полно отвечать на сложные вопросы, требующие синтеза информации из разных источников.

⚠️ Рекомендации и предупреждения:

- Эффективность индексации зависит от правильной идентификации понятий
- Индексация может быть дорогостоящей, рекомендуется создание тестового набора данных
- Система предназначена для опытных пользователей в предметной области
- Необходим анализ ответов человеком для получения достоверной информации
- Методология наиболее эффективна на текстовых данных с общей темой и множеством сущностей

📄 Документация:

🟢локальный запуск
🟢конфигурирование
🟢эмулятор Azurite

🖥Github
🖥Github для запуска на API Azure
🟡Страница проекта
🟡Arxiv

@ai_machinelearning_big_data

#LLM #GraphRAG #ML #RAG #NLP #Deeplearning
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2812🔥6😁1
🌟 Inf-DiT: Upscale изображения до любого разрешения с помощью диффузионного трансформера с эффективным использованием памяти

Диффузионные модели показывают замечательные результаты при создании изображений. Однако из-за квадратичного увеличения памяти при генерации изображений сверхвысокого разрешения (например, 4096×4096) разрешение генерируемых изображений часто ограничивается 1024×1024.

Inf-DiT предлагает однонаправленный механизм внимания блоков, который может адаптивно регулировать затраты памяти во время процесса вывода и обрабатывать глобальные зависимости.

Комплексные эксперименты показывают, что этот метод демонстрирует отличную производительность при создании изображений сверхвысокого разрешения.
По сравнению с широко используемыми структурами UNet, Inf-Dit может 5-кратно сократить использование VRAM при генерации изображений размером 4096 × 4096.

Адаптацию для ComfyUI обещают к концу июля.

🟡 Arxiv
🖥 GitHub [ Stars: 298 | Issues: 12 | Forks: 12 ]
🟡 Модель (прямая загрузка)

#Upscale #DiT #Diffusers #Img2Img

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍34🔥115
🌟 Semantic-SAM — универсальная модель сегментации и распознавания сложных объектов с высокой степенью детализации

Semantic-SAM — экспериментальный метод сегментации изображений, опирающийся на на Mask DINO, OpenSeeD, SEEM и VLPart, выполняющий интерактивную сегментацию с возможностью управления уровнем детализации и семантической осведомленностью.

Этот проект - первая попытка обучения модели и на наборах данных (SA-1B) и на данных по сегментации фрагментов изображений (SAM).
Бенчмарки проведенные в ходе исследования демонстрируют, что такое обучение положительно сказывается на точности Semantic-SAM.

🟡 Arxiv
🖥 Github [ Stars: 2,1K | Issues: 65 | Forks: 104 ]
🟡 Модели
🤗 Попробовать интерактивную демонстрация многоуровневой детализации
🤗 Попробовать авто-генерацию с контролируемой детализацией

@ai_machinelearning_big_data

#ML #SAM #Segmentation #Recognition
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍288🥰4
🌟 MobileLLM: оптимизированные субмиллиардные LLM для мобильных устройств.

К презентации на ICML 2024, MetaResearch опубликовали обновленную версию исследования об методах оптимизации LLM с малым количеством параметров для мобильных устройств и представил код для обучения и оценки эффективности таких LLM.

Основная цель проекта - создание компактных и производительных языковых моделей с менее чем миллиардом параметров, способных работать на ресурсно-ограниченных устройствах.

MobileLLM демонстрирует значительное улучшение производительности по сравнению с предыдущими моделями аналогичного размера. Например, версии на 125M и 350M параметров показывают на 2.7% и 4.3% соответственно лучшую точность.

Архитектура разработана с учетом ограничений мобильных устройств по памяти и вычислительной мощности. Применяются методы функции активации (SwinGLU), embedding sharing и группировки внимания.
Методика, представленная в MobileLLM, может быть применен к моделям различных размеров, от 125M до 1.5B параметров.

MobileLLM показывает хорошие результаты в задачах чата и вызова API, приближаясь к производительности гораздо более крупных моделей в некоторых сценариях.

Несмотря на хорошие результаты, MobileLLM все еще уступает по возможностям крупным языковым моделям. Из-за кратно меньшего размера модели, контекст у моделей MobileLLM значительно меньше, чем у классических LLM.

Экспериментальная модель MobileLLM от FB Research еще не опубликована, она проходит юридический аудит и будет представлена позже.

🖥 Локальный трейн и оценка эффективности:


git clone https://github.com/facebookresearch/MobileLLM.git
pip install -r requirements.txt
python pretrain.py --config configs/125m.json # Конфиг для предобучения
python evaluation/evaluate_zero_shot.py --model_path /path/to/your/model # оценка модели на различных задачах (используйте скрипты в из /evaluation/ )


🖥 Github [ Stars: 561 | Issues: 6 | Forks: 22 ]
🟡Arxiv

@ai_machinelearning_big_data

#MobileLLM #LLM #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍354🔥4🎉1
🌟 Mamba Vision: Эффективная альтернатива трансформерам для компьютерного зрения

Mamba Vision -  реализация архитектуры Mamba с применением селективных моделей пространства состояний (SSM) в области обработки изображений от Nvidia Lab.

MambaVision демонстрирует более эффективное использование вычислительных ресурсов по сравнению с традиционными архитектурами (VIT и Swin) на основе трансформеров, а использование SSM открывает новые способы извлечения и обработки визуальных признаков. Предлагаемая архитектура показывает хорошую масштабируемость, сохраняя эффективность при увеличении размера модели.
MambaVision применим к различным задачам компьютерного зрения, включая классификацию изображений и семантическую сегментацию.

Проект находится на начальной стадии, и его эффективность в реальных задачах компьютерного зрения еще предстоит полностью оценить.
На данный момент реализовано применение только в задаче классификации изображений.

🗄 Семейство MambaVision Pretrained (ImageNet-1K) моделей (прямая загрузка с Google Drive):

MambaVision-T (32М)
MambaVision-T2 (35М)
MambaVision-S (50M)
MambaVision-B (98M)
MambaVision-L (228M)
MambaVision-L2 (241M)

⚠️ Лицензирование:

Для некоммерческих проектов: CC-BY-NC-SA-4.0
Для коммерческого использования: запрос через форму

🖥 Github [ Stars: 32 | Issues: 0 | Forks: 2 ]
🟡Arxiv

@ai_machinelearning_big_data

#MambaVision #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍266🔥5❤‍🔥1
Дайджест новостей

🎦 Odyssey создает визуальный ИИ «голливудского уровня»

Стартап в области ИИ нацелен на то, чтобы предоставить пользователям полный, тонко настроенный контроль над каждым элементом в их сценах — вплоть до низкоуровневых материалов, освещения, движения и многого другого. Odyssey обучает четыре мощные генеративные модели, чтобы реализовать свои возможности.
Создатели Odyssey утверждают, что эта технология — то, что придет после парадигмы "text2video". Odyssey

🧠 Высокоточная реконструкция части человеческого мозга выполнена в Google

Исследователи из Google завершили крупнейшую в истории цифровую реконструкцию человеческого мозга с помощью искусственного интеллекта. Они представили самую подробную карту человеческого мозга размером всего в 1 кубический миллиметр мозговой ткани, но с высоким разрешением, чтобы показать отдельные нейроны и их связи. Google

🏭 Aitomatic запускает первую собственную LLM с открытым исходным кодом - "SemiKong", разработанную специально для полупроводниковой промышленности.

SemiKong разработан для вывода на новый уровень производства полупроводниковых процессов и технологий, с целью произвести революцию в отрасли стоимостью 500 миллиардов долларов. По предварительным оценкам, SemiKong превосходит стандартные LLM в решении отраслевых задач, демонстрируя улучшения в точности и понимании процессов.
Планируется выпуск следующей версии модели в декабре 2024 года и специализированных моделей для конкретных технологических процессов в сентябре 2024 года.
Модели 8B и 70B уже доступны для загрузки на Huggingface. Попробовать SimiKong можно в он-лайн демо.
Semikong.ai

🖼 В Stable Assistant добавили новые функции и расширены возможности существующих.

Stable AI добавила в свой ассистент 2 новые функции:
- поиск и замену для редактирования изображений;
- музыкальные треки до трех минут в Stable Audio.
Улучшения коснулись инструментов редактирования изображений - добавили возможность сохранения входного изображения, набор промптов для стилевых эффектов, реставрацию изображений низкого качества, улучшен апскейл.
Помимо этого, добавлен функционал text2video, sketch2image и удаление фона. Stability AI

🟥 AMD приобретает крупнейшую в Европе частную лабораторию искусственного интеллекта Silo AI за 665 миллионов долларов.

Сделка ожидается к завершению во второй половине 2024 года. Цели приобретения - ускорение разработки ИИ, расширение ПО с открытым исходным кодом и создание многоязычных моделей LLM на платформах AMD.
Silo AI - это команда ученых и инженеров мирового класса, выполняющие проекты по заказу Allianz и Unilever. AMD

🟩 NVIDIA представила RankRAG - новый фреймворк RAG, который настраивает одну LLM для выполнения двух задач: ранжирования по контексту Top-k и генерации ответов в RAG.

RankRAG использует двухэтапный конвейер извлечения-повторного ранжирования-генерации для улучшения оценки релевантности и генерации ответов. Улучшения особенно заметны в сложных наборах данных, таких как PopQA и 2WikimQA.
По бенчмаркам, проведенным в ходе исследования, RankRAG превосходит ChatQA-1.5 и конкурирует с более крупными моделями в задачах генерации данных с расширенным поиском. Код и веса не опубликованы. Marktechpost.com


🏭 Xiaomi представил новый завод, который работает 24/7 без человеческого труда.

Xiaomi запустила в Пекине новый автономный интеллектуальный завод, который сможет производить 10 миллионов мобильных телефонов в год и самостоятельно устранять производственные проблемы с помощью технологий искусственного интеллекта.
Завод площадью 80 000 квадратных метров включает 11 производственных линий и производит новейшие смартфоны Xiaomi, в том числе MIX Fold 4 и MIX Flip.
Работая круглосуточно, фабрика использует собственную ИИ-производственную платформу для оптимизации процессов и управления операциями — от закупки материалов до доставки продукции. Gizmochina.com

#digest #news #ai

@ai_machinelearning_big_data
👍27🔥115
This media is not supported in your browser
VIEW IN TELEGRAM
🌟 Vico — реализация методики, которая позволяет добиться большей точности в генерации композиционных видео.

Vico — это не требующий обучения фреймворк, который анализирует, как отдельные лексемы из входных токенов промпта влияют на генерируемое видео, и корректирует модель для предотвращения доминирования, учитывая все слова из промпта в равной степени.

Для этого Vico строит пространственно-временной граф внимания, при помощи которого оценивает и регулирует представление всех входных концепций в видео.
Vico может быть применен к множеству моделей для обогащения композиционной насыщенности и точности видео.

🖥 Локальный запуск инференса без UI (с Videocrafterv2)

git clone https://github.com/Adamdad/vico.git
pip install diffusers==0.26.3
git lfs install
git clone https://huggingface.co/adamdad/videocrafterv2_diffusers
export PYTHONPATH="$PWD"
python videocrafterv2_vico.py \
--prompts XXX \
--unet_path $PATH_TO_VIDEOCRAFTERV2 \
--attribution_mode "latent_attention_flow_st_soft"


🖥 GitHub [ Stars: 19 | Issues: 0 | Forks: 0 ]
🟡 Страница проекта
🟡 Arxiv

@ai_machinelearning_big_data

#T2V #Framework #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
👍166🔥3
🌟 MiraData: крупный датасет видеоданных с большой продолжительностью и структурированными аннотациями.

При обучении генеративных моделей большую роль в качестве инференса готовых моделей играет датасет обучения.
Одним из неплохих источников может стать MiraData от Tencent — готовый датасет суммарной продолжительностью видео в 16 тысяч часов, предназначенный для обучения моделей генерации текста в видео. Он включает в себя длинные видеоролики (в среднем 72,1 секунды) с высокой интенсивностью движения и подробными структурированными аннотациями (в среднем 318 слов на ролик).

Для оценки качества датасета была даже специально создана система бенчмарков MiraBench из 17 метрик, оценивающих временную согласованность, движения в кадре, качество видео, и другие параметры. Согласно их результатам, MiroData превосходит другие известные датасеты, доступные в открытых источниках , которые в основном состоят из коротких видеороликов с плавающим качеством и короткими описаниями.

🟡Страница проекта
🟡Arxiv
🤗 Hugging Face
🖥 GitHub [ Stars: 241 | Issues: 4 | Forks: 7 ]

@ai_machinelearning_big_data

#Text2Video #Dataset #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍239🔥5
Дайджест новостей

⚛️ Google DeepMind представила новый подход под названием Parameter Efficient Expert Retrieval (PEER), который решает проблемы масштабирования трансформерных моделей.

PEER использует технику продуктовых ключей для эффективного извлечения информации из более чем миллиона крошечных экспертов. Он улучшает гранулярность моделей Mixture-of-Experts (MoE), что приводит к лучшему соотношению производительности и вычислительных затрат.
В экспериментах на различных наборах данных модели PEER достигли более низких показателей перплексии по сравнению с плотными и MoE моделями.
При бюджете FLOP 2e19 модели PEER достигли перплексии 16.34 на наборе данных C4, что ниже, чем 17.70 для плотных моделей и 16.88 для MoE моделей. Marktechpost.com

🤞OpenAI представила пятиуровневую дорожную карту AGI.

Уровни варьируются от чат-ботов, специалистов по рассуждению и агентов до новаторов и систем, которые могут выполнять работу целых организаций.
На сегодняшний день OpenAI близка к уровню 2 - ИИ, способному решать задачи на уровне человека с PhD. Компания планирует достичь этого в ближайшие 1,5 года с помощью улучшений семейства GPT. The-Decoder.com

🤝 Cтартап SmarterLicense помогает создателям отслеживать и лицензировать работы, используемые ИИ.

SmarterLicense представила платформу для лицензирования контента в эпоху ИИ. Ключевые особенности: глобальный охват, разнообразие активов, ИИ-подбор, блокчейн, гибкие условия.
Платформа упрощает лицензирование, делая его доступнее для бизнеса и частных лиц. Цель - ускорить инновации и сотрудничество в различных отраслях, революционизируя сферу лицензирования ИС. Businesswire.com

@ai_machinelearning_big_data

#news #digest
Please open Telegram to view this post
VIEW IN TELEGRAM
13👍12🔥6🤔1
🌟 DG-Mesh: Построение высококачественных полигональных сеток из монокулярного видео.

DG-Mesh реконструирует высококачественную динамическую 3D-сетку с согласованными вершинами из монокулярного видео. В пайплайне используются 3D-гауссовы всплески для представления динамических сцен и дифференцируемые алгоритмы для построения полигонов.

DG-Mesh позволяет отслеживать движение вершин, упрощая текстурирование динамических объектов.
Метод эффективно использует память и полностью дифференцируем, что позволяет выполнять оптимизацию 3D-сетки целевого объекта напрямую.

В репозитории на Github представлен код для локальной тренировки с использованием датасетов:

- D-NeRF
- DG-Mesh
- NeuralActor
- Кастомный датасет, снятый на Iphone 14 Pro и обработанный в Record3D, RealityCheck и маскированный в DEVA.

🖥 Локальный запуск:

conda create -n dg-mesh python=3.9
conda activate dg-mesh
conda install pytorch torchvision torchaudio pytorch-cuda=11.8 -c pytorch -c nvidia

# Install nvdiffrast
pip install git+https://github.com/NVlabs/tiny-cuda-nn#subdirectory=bindings/torch
pip install git+https://github.com/NVlabs/nvdiffrast/

# Install pytorch3d
export FORCE_CUDA=1
conda install -c fvcore -c iopath -c conda-forge fvcore iopath -y
pip install "git+https://github.com/facebookresearch/pytorch3d.git"

# Clone this repository
git clone https://github.com/Isabella98Liu/DG-Mesh.git
cd DG-Mesh

# Install submodules
pip install dgmesh/submodules/diff-gaussian-rasterization
pip install dgmesh/submodules/simple-knn

# Install other dependencies
pip install -r requirements.txt


🟡 Страница проекта
🖥 GitHub [ Stars: 234 | Issues: 6 | Forks: 2 ]
🟡 Arxiv

@ai_machinelearning_big_data

#Video2Mesh #3D #ML #NeRF
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍199🔥9
This media is not supported in your browser
VIEW IN TELEGRAM
🌟 Aim : Простой и удобный open-source трекер для отслеживания ML-экспериментов.

Aim - это инструмент, поддерживающий отображение большого количества тренировочных прогонов (до 10.000 training runs).
Он предоставляет возможность аналитики и сравнения выполненных запусков тренировок моделей , а его SDK позволяет программно получать доступ к отслеживаемым метаданным для последующей автоматизации в Jupyter Notebook.

Ключевые преимущества Aim:

🟢Каждый процесс training run изолирован в плане данных и не требует дополнительных сервисов для запуска;
🟢Aim предоставляет способ запускать несколько параллельных экспериментов в распределенной многохостовой среде.
🟢Встроенный язык запросов позволяет пользователям выбирать, группировать и фильтровать отслеживаемые данные
🟢Aim имеет встроенные конвертеры для легкой миграции журналов из других инструментов и интегрируется с широким спектром фреймворков машинного обучения.

Трекер активно поддерживается разработчиками, имеет хорошо структурированную документацию и большое сообщество пользователей на разных социальных платформах.

🖥 Локальный запуск:

# Установка Aim
pip install aim

# Интегрируйте Aim со своим кодом, инициализировав новый прогон и регистрируя параметры, метрики и другие отслеживаемые объекты.

# Запустите свою тренировку как обычно и запустите интерфейс Aim
aim up


🟡Demos: Machine translation experiments | Lightweight-GAN experiments | FastSpeech 2 experiments | Simple MNIST
🖥 GitHub
🟡 Документация

@ai_machinelearning_big_data

#Tool #opensource #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
👍24🔥87
🌟 AuraFlow v0.1 — релиз новой open-source большой генеративной модели с собственной архитектурой.

Создание AuraFlow - результат сотрудничества разработчиков Fal.Ai и южнокорейского исследователя генеративных моделей Simo, (наиболее известные работы Simo: адаптация LoRA для LLM и эксперименты в реализации MMDiT с нуля)

Одна из ключевых особенностей AuraFlow - ее архитектура.
Удаление части слоев и замена отдельными блоками DiT дали увеличение масштабируемости и эффективности вычислений. Использование Torch Dynamo + Inductor и torch.compile PT2 оптимизировало тренировочный процесс, повысив производительность модели, а zero-shot learning rate transfer и повторного аннотирования набора данных улучшило качество следования инструкциям и предсказуемость обучения.

В планах развития семейства моделей AuraFlow продолжить совершенствование AuraFlow и удовлетворить потребности потребительских графических карт путем оптимизации внутренней структуры младших моделей и разработка моделей MoE.

При тестировании или использовании AuraFlow следует иметь ввиду, что версия 0.1 является zero-day релизом, в котором, безусловно, не все идеально и на сегодняшний день модель знает не все концепты и стили. Выпуск серии моделей AuraFlow уникальный за последнее время прецедент, он служит напоминанием о том, что ИИ с открытым исходным кодом не стоит на месте.

⚠️ Для локального запуска требуется 24 Gb VRAM (3090, 4090 Nvidia series)

Рекомендации по построению промптов от разработчиков:
- все слова лучше писать в нижнем регистре, разделяя объекты и стиль запятыми, так же как для семейства Stable Diffusion;
- уточните позиционную информацию, цвета, количество объектов, другие визуальные аспекты и особенности. Обязательно включите как можно больше деталей в описание;
- опишите пространственные отношения, которые должны быть на генерируемом изображении. Вы можете использовать такие слова, как "слева/справа", "выше/ниже", "спереди/сзади", "далеко/рядом", "внутри/снаружи";
- включите, при необходимости, взаимодействия объектов, такие как «стол находится перед кухонной кастрюлей» и «на столе есть корзины»;
- опишите относительные размеры объектов, которые должны быть на генерируемом изображении;
- для получения фотографического контента, включите описание фотографических деталей, такие как боке, большое поле зрения и т. д., но не указывайте их просто так, делайте это только тогда, когда это имеет смысл;
- для получения художественного результата, включите детали о стиле, например, минимализм, импрессионизм, масляная живопись и т.д;
- добавьте описания объектов с учетом временных периодов, если это имеет смысл, например, Chevrolet 1950-х годов и т. д.


🟡 Демо HF
🟡 Модель на HF
🟡 Страница проекта
🟡 Workflow для ComfyUI

@ai_machinelearning_big_data

#Generative #ComfyUI #AuraFlow #Diffusers #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍246🔥6