288K subscribers
3.97K photos
693 videos
17 files
4.56K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
加入频道
🌟 HDR-GS: скоростной синтез HDR-изображений с помощью гауссовой spline-интерполяции.

HDR-GS — это метод рендеринга, который использует гауссову сплайн-интерполяцию для создания изображений с расширенным динамическим диапазоном и изображений со стандартным динамическим диапазоном (LDR) с заданным временем экспозиции.

HDR-GS превосходит NeRF на 1,91 и 3,84 дБ при рендеринге HDR- и LDR-видов, при этом обеспечивает 1000-кратное увеличение скорости инференса и требует всего 6,3% от времени обучения, которое требуется методу HDR-NeRF.

Пайплайн HDR-GS состоит из модели точечного облака DDR, которая использует сферические гармоники для HDR-цвета и 3 MLP для тональной компрессии, параллельной растеризации рендеринга HDR- и LDR-цветов и алгоритма Structure-from-Motion (SfM), который инициирует гауссово облако точек.

Тестирование HDR-GS проводилось на датасетах с 4 реальными сценами и 8 синтетическими, созданными в Blender. По результатам тестирования, HDR-GS значительно превзошел NeRF, NeRF-W, HDR-NeRF и 3DGS как по качеству, так и по эффективности.

⚠️ Рекомендаций по требованиям к GPU в репозитории проекта нет, тесты проводились на 1 GPU A5000.


▶️ Установка и тестовый инференс с предобученными весами сета bathroom:

# Clone repo:
git clone https://github.com/caiyuanhao1998/HDR-GS --recursive

# Windows only
SET DISTUTILS_USE_SDK=1

# install environment of 3DGS
cd HDR-GS
conda env create --file environment.yml
conda activate hdr_gs

# Synthetic scenes
python3 train_synthetic.py --config config/bathroom.yaml --eval --gpu_id 0 --syn --load_path output/mlp/bathroom/exp-time/point_cloud/interation_x --test_only



📌Лицензирование: MIT License.


🟡Arxiv
🟡Датасет и веса
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #HDR-GS #Gaussian
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2910🔥8
✔️ Cohere выпустила Rerank 3.5.

Cohere представила Rerank 3.5, обновленную версию собственной платформы поиска на основе ИИ, которая предлагает продвинутые возможности рассуждения и многоязычность для выаолнения точного поиска по сложным корпоративным данным.

Новая версия позволяет компаниям эффективно находить нужную информацию в больших объемах данных. Rerank 3.5 использует алгоритмы ИИ для понимания смысла запросов и поиска наиболее релевантных результатов, даже если они выражены на разных языках.
cohere.com

✔️ Канадские издатели подали иск против OpenAI за нарушение авторских прав.

Группа канадских новостных и медиа-компаний: Globe and Mail, Canadian Press и CBC подала коллективный иск против OpenAI, обвиняя компанию в использовании их статей без разрешения для обучения моделей GPT. Истцы утверждают, что OpenAI незаконно извлекала контент с их веб-сайтов, нарушая их авторские права и получая прибыль за счет их журналистской работы.

В иске требуется возмещение ущерба в размере 20 000 канадских долларов за каждую использованную статью, общее число статей превышает 50 тысяч. OpenAI утверждает, что ее действия подпадают под добросовестное использование, поскольку модели обучались на общедоступных данных.
techspot.com

✔️ США усиливают давление на китайскую полупроводниковую индустрию.

США ввели новые ограничения на экспорт в Китай для вендоров оборудования для производства полупроводников. Меры включают запрет на поставки в Китай микросхем памяти высокой пропускной способности, используемых в обучении ИИ, 24 дополнительных инструмента для производства микросхем и 3 программных инструмента.

Экспортные ограничения также распространяются на оборудование для производства микросхем, изготовленное в Сингапуре и Малайзии. Новые правила направлены на то, чтобы помешать Китаю развивать свою собственную систему производства полупроводников, которую он может использовать для модернизации своих вооруженных сил. Ограничения затронут как американские компании: Lam Research, KLA и Applied Materials, так и зарубежные компании, например, голландскую ASM International.
cnbc.com

✔️ Фотонный процессор для сверхбыстрых вычисления ИИ с экстремальной энергоэффективностью.

В MIT разработали новый фотонный чип, который может выполнять все ключевые вычисления глубокой нейронной сети оптически, открывая возможности для высокоскоростных процессоров, способных обучаться в режиме реального времени. Устройство завершило ключевые вычисления для задачи классификации машинного обучения менее чем за половину наносекунды, достигнув точности более 92 процентов.

Чип состоит из взаимосвязанных модулей, образующих оптическую нейронную сеть, и изготовлен с использованием стандартных процессов литейного производства. В перспективе фотонный процессор может привести к более быстрому и энергоэффективному глубокому обучению для научных исследований в астрономии, физике элементарных частиц и высокоскоростной связи.
news.mit.edu

✔️ Китай внедряет обучение ИИ в начальных и средних школах.

Министерство образования КНР объявило о планах по усилению образования в области ИИ для молодого поколения, чтобы подготовить их к эпохе новых технологий. Школам предложено разработать соответствующие учебные программы, включить ИИ в повседневное содержание обучения и проводить регулярные оценки.

Согласно плану, учащиеся начальной школы получат практический опыт работы с технологиями ИИ. В старших классах начальной школы и средней школы они сосредоточатся на понимании и применении этих технологий, а в выпускных классах учащиеся будут заниматься созданием проектов в области ИИ.
english.news.cn

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍218🔥6
🌟 LLaVA-CoT: VLM с пошаговыми рассуждениями.

LLaVA-CoT – модель VLM, разработанная на базе Llama-3.2-11B-Vision-Instruct и обученная для автономного многоступенчатого процесса рассуждения. В отличие от классического метода CoT, LLaVA-CoT независимо выполняет последовательные этапы: обобщение, визуальная интерпретация, логическое рассуждение и формирование вывода. Эта структура позволяет LLaVA-CoT значительно повысить точность при решении визуальных задач, требующих интенсивных рассуждений.

LLaVA-CoT обучалась на кастомном наборе данных LLaVA-CoT-100k, который объединил примеры из различных источников VQA и аннотации структурированных рассуждений.

Используя всего 100 тыс. обучающих примеров и простой метод масштабирования во время инференса, LLaVA-CoT не только превосходит свою базовую модель на 8,9% на наборе тестов мультимодальных рассуждений, но и Gemini-1.5-pro, GPT-4o-mini и Llama-3.2-90B-Vision-Instruct.


📌Лицензирование: Apache 2.0 License.


🟡Модель
🟡Arxiv
🟡Demo
🟡Датасет
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #VLM #LlaVACoT
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥33👍94
🌟 MatterSim: DL-модель для предсказания свойств материалов от Microsoft.

MatterSim - усовершенствованная модель глубокого обучения в области материаловедения, предназначенная для моделирования свойств материалов в широком диапазоне элементов, температур и давлений. Она способна точно предсказывать свойства материалов по всей периодической таблице в диапазоне температур от 0 до 5000K и давления до 1000GPa.

MatterSim использует архитектуру M3GNet, которая включает в себя двух- и трехчастичные взаимодействия. Модель обучается с использованием функции потерь, учитывающей энергию на атом, вектор силы на каждом атоме и напряжение.

Особенность MatterSim - способность к активному и непрерывному обучению. Модель способна оценивать неопределенность своих прогнозов и выбирать структуры для активного обучения, что полезно для повышения точности моделирования сложных систем. MatterSim может быть настроена для моделирования на произвольном уровне теории.

Модель демонстрирует высокую точность в предсказании свободной энергии Гиббса и 10-кратное улучшение точности по сравнению с универсальными силовыми полями, обученными на траекториях релаксации на наборах данных MPF-TP и Random-TP.

Модель может быть точно настроена для атомистических симуляций на желаемом уровне теории или для прямых предсказаний "структура-свойство"с сокращением требований к данным до 97%.

▶️В релизе представлены 2 версии модели:

🟢MatterSim-v1.0.0-1M - мини-версия модели, которая работает быстрее;
🟢MatterSim-v1.0.0-5M - увеличенная версия, которая является более точной.

⚠️ Рекомендуется устанавливать MatterSim с помощью mamba или micromamba, поскольку conda может работать значительно медленнее при разрешении зависимостей в environment.yaml.

▶️ Установка и использование на примере ASE калькулятора:

# Install package with the latest version
pip install git+https://github.com/microsoft/mattersim.git

# Create env via mamba
mamba env create -f environment.yaml
mamba activate mattersim
uv pip install -e .
python setup.py build_ext --inplace

# Minimal example using ASE calculator
import torch
from ase.build import bulk
from ase.units import GPa
from mattersim.forcefield import MatterSimCalculator

device = "cuda" if torch.cuda.is_available() else "cpu"
print(f"Running MatterSim on {device}")

si = bulk("Si", "diamond", a=5.43)
si.calc = MatterSimCalculator(device=device)
print(f"Energy (eV) = {si.get_potential_energy()}")
print(f"Energy per atom (eV/atom) = {si.get_potential_energy()/len(si)}")
print(f"Forces of first atom (eV/A) = {si.get_forces()[0]}")
print(f"Stress[0][0] (eV/A^3) = {si.get_stress(voigt=False)[0][0]}")
print(f"Stress[0][0] (GPa) = {si.get_stress(voigt=False)[0][0] / GPa}")


📌Лицензирование: MIT License.


🟡Модель
🟡Документация
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #DL #Mattersim #Microsoft
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍28🔥156👏1
✔️ Google DeepMind представил новую модель прогнозирования погоды GenCast.

GenCast – ансамблевая диффузионная модель для прогнозирования погоды и рисков экстремальных погодных условий, обеспечивающая более быстрые и точные прогнозы на срок до 15 дней. GenCast была обученная на 40-летнем архиве исторических метеорологических данных ERA5 от ECMWF.

Модель, работающая на Google Cloud TPU v5, превосходит лидирующую систему прогнозирования ECMWF ENS по точности прогнозов на 97,2% в 1320 различных комбинациях тестируемых параметров. GenCast демонстрирует способность прогнозировать экстремальные погодные явления: периоды сильной жары и холода, сильные ветры и траектории тропических циклонов. Google DeepMind планирует выпустить код, веса и прогнозы модели в открытый доступ, чтобы поддержать метеорологическое сообщество.
deepmind.google

✔️ Япония планирует использовать ИИ для борьбы с онлайн-пиратством манги и аниме.

Власти Японии планируют внедрить систему ИИ для борьбы с пиратскими сайтами, предлагающими мангу и аниме, которые ежегодно обходятся ей в миллиарды долларов упущенной выгоды. По данным японских издателей, существует не менее 1000 веб-сайтов, незаконно предлагающих бесплатную загрузку всемирно известных графических романов манга.

В рамках пилотной программы стоимостью 300 млн. иен (2 млн. долл. США) ИИ будет сканировать интернет в поисках сайтов, занимающихся пиратством книг манги и аниме, с использованием систем обнаружения изображений и текста. Инициатива включена в дополнительный бюджетный запрос агентства на текущий финансовый год. Если проект окажется успешным, его применят и к другому незаконно распространяемому контенту.
japantimes.co.jp

✔️ Генеративная модель видео Veo от Google cтала доступна для бизнес-клиентов.

Veo теперь доступна для предприятий, которые хотят использовать её в процессе создания контента, в предварительной версии на платформе Google Vertex AI. Veo способна генерировать видео высокого качества с разрешением 1080p в различных визуальных и кинематографических стилях, используя текстовые или графические подсказки.

Хотя первоначально сгенерированные клипы могли быть «чуть больше 60 сек.», Google не указывает ограничений длины для предварительной версии. Встроенные средства защиты Veo предназначены для предотвращения создания вредоносного контента или нарушения авторских прав, и все, что создается Veo, встраивается технологией SynthID от DeepMind - невидимым цифровым водяным знаком, который, по словам Google, может «уменьшить проблемы с дезинформацией и неправильным приписыванием».
theverge.com

✔️ NVIDIA представила новейшие решения в области ИИ, робототехники и квантовых вычислений на AWS.

NVIDIA анонсировала на конференции AWS re:Invent доступность платформы NVIDIA DGX Cloud на AWS Marketplace Private Offers, решения для жидкостного охлаждения серверов ИИ в дата-центрах AWS, которые повысят эффективность и производительность.

Компания расширит возможности NVIDIA Omniverse на AWS с помощью Isaac Sim, работающего на инстансах Amazon EC2 G6e с GPU NVIDIA L40S. NVIDIA также интегрирует CUDA-Q с Amazon Braket для упрощения квантовых вычислений, тем самым предоставив разработчикам платформу для создания гибридных квантово-классических приложений.
blogs.nvidia.com

✔️ Physical Intelligence выпустила новую базовую модель ИИ для робототехники Pi-Zero.

Physical Intelligence представила π0 (pi-zero), универсальную базовую модель ИИ для роботов. Pi-zero основана на VLM PaliGemma, которая была дополнительно обучена на пользовательском наборе данных, собранном с 7 различных роботов, выполняющих 68 задач, и на наборе Open X-Embodiment.

Полученная модель может воспринимать команды на естественном языке и выполнять задачи "на элементарном уровне". Physical Intelligence сравнили производительность pi-zero с двумя базовыми моделями, OpenVLA и Octo, по 5 различным задачам, включая складывание белья и уборку со стола; pi-zero добилась "значительных улучшений" по сравнению с базовыми моделями.
infoq.com

🪐 Новый датасет: 100ТБ астрономических данных

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍327🔥2❤‍🔥1🥰1🤔1
🌟 10 лет нейросетей в Поиске Яндекса: от первых экспериментов до Нейро

В декабре 2014 года началась эпоха нейросетей в поисковике Яндекса: разработчики впервые применили их для поиска похожих изображений. За эти 10 лет технологии прошли впечатляющую эволюцию, изменив то, как мы ищем информацию каждый день.

2015 год принёс первый серьёзный прорыв: нейросети научились оценивать релевантность самой картинки запросу, а не только окружающего текста. Это стало началом большого пути.

Ключевые этапы эволюции:

🟠2016-2017: "Палех" и "Королёв" - нейросети научились понимать смысл текстов для лучшего поиска.

🟠2020: YATI - трансформер, принесший рекордные улучшения в качестве ранжирования.

🟠2024: Технология Нейро объединила весь опыт работы с текстом и изображениями, позволив поиску суммаризировать результаты и работать с комбинированными запросами.

⚠️ Технологии, начавшиеся как отдельные эксперименты, за десятилетие эволюционировали в единую систему умного поиска, которой мы пользуемся каждый день.

🟡Статья

@ai_machinelearning_big_data

#AI #ML #Search
Please open Telegram to view this post
VIEW IN TELEGRAM
👍27🔥2413
🌟 Динамическое 4-битное квантование VLM с повышенной точностью от Unsolth .

Unsloth представил практический метод динамического 4-битного квантования VLM, который решает проблему снижения точности популярных алгоритмов квантования AWQ, Bitsandbytes, GPTQ и HQQ.

В эксперименте использовался Bitsandbytes в качестве основы для всех линейных слоев, но квантование определенных параметров было динамически отключено. Этот подход позволил добиться значительного повышения точности при использовании всего на 10% больше VRAM по сравнению с стандартным 4-битным квантованием Bitsandbytes.

В результате, этот метод позволяет сохранить точность модели, близкую к 16-битной точности, при значительном сокращении размера модели.

Тестирование на VL-моделях Llama 3.2 Vision, Qwen2 Vision и Pixtral, показали значительные преимущества по сравнению со стандартным 4-битным квантованием. Например, квантование Qwen2 Vision 2B до 4 бит приводило к полной поломке модели, в то время как метод динамического квантования позволял восстановить точность при увеличении использования памяти всего на 450 МБ.

Аналогичным образом, получилось восстановить точность Llama 3.2 Vision 11B и Pixtral 12B, которые также деградировали на стандартном 4-битном квантовании.

▶️В открытый доступ на HF опубликованы модели, участвующие в исследовании:

🟢Llama-3.2-11B-Vision-Instruct-unsloth-bnb-4bit (7.23 GB)

🟢Llama-3.2-11B-Vision-unsloth-bnb-4bit (7.23 GB)

🟠Qwen2-VL-2B-Instruct-unsloth-bnb-4bit (1.81 GB)

🟠Qwen2-VL-7B-Instruct-unsloth-bnb-4bit (6.3 GB)

🟠QwQ-32B-Preview-unsloth-bnb-4bit

🟢Pixtral-12B-2409-unsloth-bnb-4bit (8.42GB)


⚠️ К каждой модели в Model Card можно найти блокнот для запуска в Google Collab и созданные сообществом GGUF-версии.


📌Лицензирование моделей:

🟠Семейство Llama: Llama 3.2 Community License Agreement
🟢Семейство Qwen: Apache 2.0 License.
🟢Pixtral: Apache 2.0 License.


🟡Статья
🟡Набор моделей
🟡Сообщество в Discord


@ai_machinelearning_big_data

#AI #ML #VLM #Unsolth #Quantization
Please open Telegram to view this post
VIEW IN TELEGRAM
👍53🔥146
🌟 LLaMA-O1: модели ризонинга на базе Llama-3.1-8B-Instruct.

Набор моделей ризонинга от SimpleBerry Research Lab на Hugging face, полученные с использованием методик:

🟢LlaMA-Berry - попарная оптимизация для решения математических задач олимпиадного уровня с помощью поиска Монте-Карло;

🟢Critic-V - методика подключения внешней модели-критика;

🟢MCTSr - метод интеграции LLM с алгоритмом поиска по дереву Монте-Карло для повышения точности решения математических задач.

▶️ LLaMA-O1-Base-1127 - базовая модель ризонинга, файнтюн Llama-3.1-8B-Instruct на датасете longcot_pt. Квантованные версии в формате GGUF.

▶️ LLaMA-O1-Supervised-1129 - файнтюн базовой модели LLaMA-O1-Base-1127 на датасете OpenLongCoT-SFT с использованием комбинаций методов Critic-V и MCTSr. Квантованные версии в формате GGUF.


⚠️ Тестов и бенчмарков официально не предоставлено, демо модели LLaMA-O1-Supervised-1129 можно попробовать в этом HF Space


🟡Набор моделей и датасетов
🟡Demo
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #Resoning #LlaMA_O1
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2111🔥4🐳2
🌟 PydanticAI: фреймворк для создания AI-агентов на основе Pydantic.

PydanticAI - фреймворк для Python, созданный командой разработчиков Pydantic, который упрощает создание приложений с использованием LLM. Фреймворк имеет простой и интуитивно понятный интерфейс для взаимодействия с LLMs, поддерживающими Async OpenAI (Ollama) и openAI API (ChatGPT, Gemini и Groq), с поддержкой Anthropic в ближайшем будущем.

Основная особенность PydanticAI - система внедрения зависимостей, которая передает данные, соединения и логику в целевую модель. Она упрощает тестирование и оценку агентов и позволяет динамически формировать системные промпты и определять инструменты, доступные LLM.

PydanticAI имеет возможность потоковой обработки ответов с валидацией структурированных данных, позволяя контролировать корректность соответствие данных ожидаемому ответу, тем самым повышая эффективность и интерактивность приложений.

Для отладки и мониторинга работы агентов предусмотрена интеграция с Pydantic Logfire, с которым можно отслеживать запросы к базам данных, анализировать поведение модели и оценивать производительность.

▶️ В документации к проекту доступны примеры применения PydanticAI в сценариях:

🟢Построение Pydantic-модели на основе текстового ввода;
🟢Погодный агент;
🟢Агент поддержки клиентов банка;
🟢Генерация SQL-запросов на основе пользовательского ввода;
🟢RAG-поиск по массиву markdown-документам;
🟢Вывод результатов работы агента в терминале;
🟢Пример проверки потокового структурированного ответа на примере информации о видах китов;
🟢Простой чат-приложение.

⚠️ PydanticAI находится на ранней стадии бета-тестирования.

▶️Установка и простой пример "Hello Word" с Gemini-1.5-flash:

# Install via  PyPI
pip install pydantic-ai

# Set Gemini API key
export GEMINI_API_KEY=your-api-key

# Run example
from pydantic_ai import Agent
agent = Agent(
'gemini-1.5-flash',
system_prompt='Be concise, reply with one sentence.',
)
result = agent.run_sync('Where does "hello world" come from?')
print(result.data)
"""
The first known use of "hello, world" was in a 1974 textbook about the C programming language.
"""


📌Лицензирование: MIT License.


🟡Документация
🟡Demo
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #Agents #Framework #PydanticAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥25👍123
⚡️ OpenAI выпустили модель o1-Pro

Полную версию своей модели o1, предварительную информацию о которой OpenAI раскрыла в сентябре 2024 года, теперь могут оценить пользователи подписок ChatGPT Plus и Team. Доступ для подписчиков Enterprise и Edu откроется на следующей неделе.

Кроме того, компания представила новый тарифный план ChatGPT Pro стоимостью $200 в месяц. Этот план предоставляет эксклюзивный доступ к версии модели o1 с увеличенными вычислительными ресурсами, что обещает улучшение качества ответов. Также подписчики получат возможность работать с моделью GPT-4o и использовать голосовые функции.

Тарифный план Plus останется доступным за $20 в месяц, предоставляя пользователям доступ ко всем моделям компании, за исключением расширенной версии o1, а также ранний доступ к новым функциям.

Начиная с 5 декабря 2024 года, OpenAI запустила мероприятие под названием «12 days of shipmas», в рамках которого планируется анонсировать новые продукты и функции в течение 12 дней. Среди возможных новинок — модель для создания видео Sora, сообщает The Verge.

@ai_machinelearning_big_data

#openai #chatgpt #новости
😭37🔥16👍85😁1💋1