MatterSim - усовершенствованная модель глубокого обучения в области материаловедения, предназначенная для моделирования свойств материалов в широком диапазоне элементов, температур и давлений. Она способна точно предсказывать свойства материалов по всей периодической таблице в диапазоне температур от 0 до 5000K и давления до 1000GPa.
MatterSim использует архитектуру M3GNet, которая включает в себя двух- и трехчастичные взаимодействия. Модель обучается с использованием функции потерь, учитывающей энергию на атом, вектор силы на каждом атоме и напряжение.
Особенность MatterSim - способность к активному и непрерывному обучению. Модель способна оценивать неопределенность своих прогнозов и выбирать структуры для активного обучения, что полезно для повышения точности моделирования сложных систем. MatterSim может быть настроена для моделирования на произвольном уровне теории.
Модель демонстрирует высокую точность в предсказании свободной энергии Гиббса и 10-кратное улучшение точности по сравнению с универсальными силовыми полями, обученными на траекториях релаксации на наборах данных MPF-TP и Random-TP.
Модель может быть точно настроена для атомистических симуляций на желаемом уровне теории или для прямых предсказаний "структура-свойство"с сокращением требований к данным до 97%.
⚠️ Рекомендуется устанавливать MatterSim с помощью
mamba
или micromamba
, поскольку conda может работать значительно медленнее при разрешении зависимостей в environment.yaml
.# Install package with the latest version
pip install git+https://github.com/microsoft/mattersim.git
# Create env via mamba
mamba env create -f environment.yaml
mamba activate mattersim
uv pip install -e .
python setup.py build_ext --inplace
# Minimal example using ASE calculator
import torch
from ase.build import bulk
from ase.units import GPa
from mattersim.forcefield import MatterSimCalculator
device = "cuda" if torch.cuda.is_available() else "cpu"
print(f"Running MatterSim on {device}")
si = bulk("Si", "diamond", a=5.43)
si.calc = MatterSimCalculator(device=device)
print(f"Energy (eV) = {si.get_potential_energy()}")
print(f"Energy per atom (eV/atom) = {si.get_potential_energy()/len(si)}")
print(f"Forces of first atom (eV/A) = {si.get_forces()[0]}")
print(f"Stress[0][0] (eV/A^3) = {si.get_stress(voigt=False)[0][0]}")
print(f"Stress[0][0] (GPa) = {si.get_stress(voigt=False)[0][0] / GPa}")
@ai_machinelearning_big_data
#AI #ML #DL #Mattersim #Microsoft
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍28🔥15❤6👏1
GenCast – ансамблевая диффузионная модель для прогнозирования погоды и рисков экстремальных погодных условий, обеспечивающая более быстрые и точные прогнозы на срок до 15 дней. GenCast была обученная на 40-летнем архиве исторических метеорологических данных ERA5 от ECMWF.
Модель, работающая на Google Cloud TPU v5, превосходит лидирующую систему прогнозирования ECMWF ENS по точности прогнозов на 97,2% в 1320 различных комбинациях тестируемых параметров. GenCast демонстрирует способность прогнозировать экстремальные погодные явления: периоды сильной жары и холода, сильные ветры и траектории тропических циклонов. Google DeepMind планирует выпустить код, веса и прогнозы модели в открытый доступ, чтобы поддержать метеорологическое сообщество.
deepmind.google
Власти Японии планируют внедрить систему ИИ для борьбы с пиратскими сайтами, предлагающими мангу и аниме, которые ежегодно обходятся ей в миллиарды долларов упущенной выгоды. По данным японских издателей, существует не менее 1000 веб-сайтов, незаконно предлагающих бесплатную загрузку всемирно известных графических романов манга.
В рамках пилотной программы стоимостью 300 млн. иен (2 млн. долл. США) ИИ будет сканировать интернет в поисках сайтов, занимающихся пиратством книг манги и аниме, с использованием систем обнаружения изображений и текста. Инициатива включена в дополнительный бюджетный запрос агентства на текущий финансовый год. Если проект окажется успешным, его применят и к другому незаконно распространяемому контенту.
japantimes.co.jp
Veo теперь доступна для предприятий, которые хотят использовать её в процессе создания контента, в предварительной версии на платформе Google Vertex AI. Veo способна генерировать видео высокого качества с разрешением 1080p в различных визуальных и кинематографических стилях, используя текстовые или графические подсказки.
Хотя первоначально сгенерированные клипы могли быть «чуть больше 60 сек.», Google не указывает ограничений длины для предварительной версии. Встроенные средства защиты Veo предназначены для предотвращения создания вредоносного контента или нарушения авторских прав, и все, что создается Veo, встраивается технологией SynthID от DeepMind - невидимым цифровым водяным знаком, который, по словам Google, может «уменьшить проблемы с дезинформацией и неправильным приписыванием».
theverge.com
NVIDIA анонсировала на конференции AWS re:Invent доступность платформы NVIDIA DGX Cloud на AWS Marketplace Private Offers, решения для жидкостного охлаждения серверов ИИ в дата-центрах AWS, которые повысят эффективность и производительность.
Компания расширит возможности NVIDIA Omniverse на AWS с помощью Isaac Sim, работающего на инстансах Amazon EC2 G6e с GPU NVIDIA L40S. NVIDIA также интегрирует CUDA-Q с Amazon Braket для упрощения квантовых вычислений, тем самым предоставив разработчикам платформу для создания гибридных квантово-классических приложений.
blogs.nvidia.com
Physical Intelligence представила π0 (pi-zero), универсальную базовую модель ИИ для роботов. Pi-zero основана на VLM PaliGemma, которая была дополнительно обучена на пользовательском наборе данных, собранном с 7 различных роботов, выполняющих 68 задач, и на наборе Open X-Embodiment.
Полученная модель может воспринимать команды на естественном языке и выполнять задачи "на элементарном уровне". Physical Intelligence сравнили производительность pi-zero с двумя базовыми моделями, OpenVLA и Octo, по 5 различным задачам, включая складывание белья и уборку со стола; pi-zero добилась "значительных улучшений" по сравнению с базовыми моделями.
infoq.com
🪐 Новый датасет: 100ТБ астрономических данных
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍32❤7🔥2❤🔥1🥰1🤔1
В декабре 2014 года началась эпоха нейросетей в поисковике Яндекса: разработчики впервые применили их для поиска похожих изображений. За эти 10 лет технологии прошли впечатляющую эволюцию, изменив то, как мы ищем информацию каждый день.
2015 год принёс первый серьёзный прорыв: нейросети научились оценивать релевантность самой картинки запросу, а не только окружающего текста. Это стало началом большого пути.
Ключевые этапы эволюции:
⚠️ Технологии, начавшиеся как отдельные эксперименты, за десятилетие эволюционировали в единую систему умного поиска, которой мы пользуемся каждый день.
@ai_machinelearning_big_data
#AI #ML #Search
Please open Telegram to view this post
VIEW IN TELEGRAM
👍27🔥24❤13
Unsloth представил практический метод динамического 4-битного квантования VLM, который решает проблему снижения точности популярных алгоритмов квантования AWQ, Bitsandbytes, GPTQ и HQQ.
В эксперименте использовался Bitsandbytes в качестве основы для всех линейных слоев, но квантование определенных параметров было динамически отключено. Этот подход позволил добиться значительного повышения точности при использовании всего на 10% больше VRAM по сравнению с стандартным 4-битным квантованием Bitsandbytes.
В результате, этот метод позволяет сохранить точность модели, близкую к 16-битной точности, при значительном сокращении размера модели.
Тестирование на VL-моделях Llama 3.2 Vision, Qwen2 Vision и Pixtral, показали значительные преимущества по сравнению со стандартным 4-битным квантованием. Например, квантование Qwen2 Vision 2B до 4 бит приводило к полной поломке модели, в то время как метод динамического квантования позволял восстановить точность при увеличении использования памяти всего на 450 МБ.
Аналогичным образом, получилось восстановить точность Llama 3.2 Vision 11B и Pixtral 12B, которые также деградировали на стандартном 4-битном квантовании.
⚠️ К каждой модели в Model Card можно найти блокнот для запуска в Google Collab и созданные сообществом GGUF-версии.
@ai_machinelearning_big_data
#AI #ML #VLM #Unsolth #Quantization
Please open Telegram to view this post
VIEW IN TELEGRAM
👍53🔥14❤6
Набор моделей ризонинга от SimpleBerry Research Lab на Hugging face, полученные с использованием методик:
⚠️ Тестов и бенчмарков официально не предоставлено, демо модели LLaMA-O1-Supervised-1129 можно попробовать в этом HF Space
@ai_machinelearning_big_data
#AI #ML #LLM #Resoning #LlaMA_O1
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21❤11🔥4🐳2
PydanticAI - фреймворк для Python, созданный командой разработчиков Pydantic, который упрощает создание приложений с использованием LLM. Фреймворк имеет простой и интуитивно понятный интерфейс для взаимодействия с LLMs, поддерживающими Async OpenAI (Ollama) и openAI API (ChatGPT, Gemini и Groq), с поддержкой Anthropic в ближайшем будущем.
Основная особенность PydanticAI - система внедрения зависимостей, которая передает данные, соединения и логику в целевую модель. Она упрощает тестирование и оценку агентов и позволяет динамически формировать системные промпты и определять инструменты, доступные LLM.
PydanticAI имеет возможность потоковой обработки ответов с валидацией структурированных данных, позволяя контролировать корректность соответствие данных ожидаемому ответу, тем самым повышая эффективность и интерактивность приложений.
Для отладки и мониторинга работы агентов предусмотрена интеграция с Pydantic Logfire, с которым можно отслеживать запросы к базам данных, анализировать поведение модели и оценивать производительность.
⚠️ PydanticAI находится на ранней стадии бета-тестирования.
# Install via PyPI
pip install pydantic-ai
# Set Gemini API key
export GEMINI_API_KEY=your-api-key
# Run example
from pydantic_ai import Agent
agent = Agent(
'gemini-1.5-flash',
system_prompt='Be concise, reply with one sentence.',
)
result = agent.run_sync('Where does "hello world" come from?')
print(result.data)
"""
The first known use of "hello, world" was in a 1974 textbook about the C programming language.
"""
@ai_machinelearning_big_data
#AI #ML #LLM #Agents #Framework #PydanticAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥25👍12❤3
⚡️ OpenAI выпустили модель o1-Pro
Полную версию своей модели o1, предварительную информацию о которой OpenAI раскрыла в сентябре 2024 года, теперь могут оценить пользователи подписок ChatGPT Plus и Team. Доступ для подписчиков Enterprise и Edu откроется на следующей неделе.
Кроме того, компания представила новый тарифный план ChatGPT Pro стоимостью $200 в месяц. Этот план предоставляет эксклюзивный доступ к версии модели o1 с увеличенными вычислительными ресурсами, что обещает улучшение качества ответов. Также подписчики получат возможность работать с моделью GPT-4o и использовать голосовые функции.
Тарифный план Plus останется доступным за $20 в месяц, предоставляя пользователям доступ ко всем моделям компании, за исключением расширенной версии o1, а также ранний доступ к новым функциям.
Начиная с 5 декабря 2024 года, OpenAI запустила мероприятие под названием «12 days of shipmas», в рамках которого планируется анонсировать новые продукты и функции в течение 12 дней. Среди возможных новинок — модель для создания видео Sora, сообщает The Verge.
@ai_machinelearning_big_data
#openai #chatgpt #новости
Полную версию своей модели o1, предварительную информацию о которой OpenAI раскрыла в сентябре 2024 года, теперь могут оценить пользователи подписок ChatGPT Plus и Team. Доступ для подписчиков Enterprise и Edu откроется на следующей неделе.
Кроме того, компания представила новый тарифный план ChatGPT Pro стоимостью $200 в месяц. Этот план предоставляет эксклюзивный доступ к версии модели o1 с увеличенными вычислительными ресурсами, что обещает улучшение качества ответов. Также подписчики получат возможность работать с моделью GPT-4o и использовать голосовые функции.
Тарифный план Plus останется доступным за $20 в месяц, предоставляя пользователям доступ ко всем моделям компании, за исключением расширенной версии o1, а также ранний доступ к новым функциям.
Начиная с 5 декабря 2024 года, OpenAI запустила мероприятие под названием «12 days of shipmas», в рамках которого планируется анонсировать новые продукты и функции в течение 12 дней. Среди возможных новинок — модель для создания видео Sora, сообщает The Verge.
@ai_machinelearning_big_data
#openai #chatgpt #новости
😭37🔥16👍8❤5😁1💋1
Mooncake - это опенсорс-версия решений для платформы LLM-сервиса Kimi, используемой Moonshot AI.
Платформа использует KVCache-центричную разнесенную архитектуру, которая разделяет кластеры предварительной обработки (prefill) и декодирования (decode), и использует свободные ресурсы CPU, DRAM и SSD кластера GPU для распределения KVCache.
Mooncake использует планировщик, который максимизирует общую пропускную способность за счет политики раннего отклонения запросов на основе прогнозирования при соблюдении требований к SLO (Service Level Objectives).
Основной компонент Mooncake - Transfer Engine, который обеспечивает быструю, надежную и гибкую передачу данных по протоколам TCP, RDMA, NVIDIA GPUDirect RDMA и NVMe over Fabric (NVMe-of). Transfer Engine обладает меньшей задержкой ввода-вывода по сравнению с gloo (используется в Distributed PyTorch) и TCP.
Transfer Engine оптимизирует использование нескольких устройств RDMA NIC, выбор лучшего пути с учетом топологии и обеспечивает повышенную устойчивость к временным ошибкам сети.
В сетях RoCE 4×200 Gbps и 8×400 Gbps Transfer Engine показывает пропускную способность до 87 ГБ/с и 190 ГБ/с соответственно, что примерно в 2,4 и 4,6 раза быстрее, чем протокол TCP.
На базе Transfer Engine реализована библиотека P2P Store, которая позволяет обмениваться временными объектами (например, чекпоинтами) между узлами кластера. Transfer Engine интегрирован с vLLM для повышения эффективности разнесения prefill-decode.
Тесты показали, что Mooncake превосходит базовые методы обслуживания LLM в сценариях с длинным контекстом: пропускная способность увеличивается на 525% в некоторых смоделированных сценариях при соблюдении SLO, а в реальных рабочих нагрузках Mooncake позволяет Kimi обрабатывать на 75% больше запросов.
@ai_machinelearning_big_data
#AI #ML #LLM #Mooncake
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍24🔥7❤5
На конференции AWS re:Invent в Лас-Вегасе Amazon представила Amazon Nova, свое собственное семейство базовых моделей, доступных исключительно через Amazon Bedrock. Модели Nova на 75% дешевле, чем лучшие модели в своих классах в Bedrock.
Модели Nova доступны с функцией дистилляции, глубоко интегрированы с базами данных Bedrock, что позволяет пользователям использовать RAG для построения инференса на основе собственных данных. Семейство Nova покрывает все популярные модальности: обработка текста, генерация изображений, синтез видео и понимание мультимедийного контента.
aboutamazon.com
Три ключевых участника команды NotebookLM объявили о своем уходе из Google, чтобы основать новый стартап, который пока находится в режиме полной секретности. Бывший руководитель команды Райза Мартин намекнула, что он будет ориентирован на потребителей. Мартин подчеркнула стремление команды использовать новейшие модели ИИ для создания продукта, полезного для обычных людей.
Пока неясно, будет ли новый проект фокусироваться на функциях, которые сделали NotebookLM популярным или же команда выберет совершенно новое направление. Несмотря на раннюю стадию развития, стартап уже получил значительную поддержку со стороны других основателей, инвесторов и специалистов.
techcrunch.com
Ресечер по безопасности Рози Кэмпбелл уходит из OpenAI, ссылаясь на изменения в компании за последний год, которые вызывают у нее беспокойство, особенно после ухода Майлза Брандейджа, бывшего руководителя отдела общей готовности к ИИ, и роспуска его команды.
Рози не устраивает то, что текущий подход OpenAI к безопасности может быть недостаточным для мощных систем ИИ, которые, как ожидается, появятся в этом десятилетии. Она считает, что миссия OpenAI - не просто «создать общий ИИ», но и гарантировать, что он «принесет пользу человечеству».
rosiecampbell.xyz
MALT (Multi-Agent LLM Training) - метод, позволяющий совместно обучать несколько LLM для решения сложных задач, требующих рассуждения. В основе MALT лежит последовательная многоагентная система, состоящая из генератора, верификатора и модели уточнения, которые работают над решением задачи итеративно.
Для обучения моделей MALT использует синтетические данные, сгенерированные с помощью процесса расширения траекторий. Этот процесс позволяет создавать большое количество обучающих примеров, которые используются для дообучения каждой модели с помощью SFT и DPO. Результаты оценки MALT, использующий модели Llama 3.1 8B, на бенчмарках MATH, GSM8k и CSQA показали, что метод достигает улучшений на 14,14%, 7,12% и 9,40% соответственно по сравнению с базовой моделью.
huggingface.co
Индекс S&P 500, вероятно, завершит 2024 год с ростом почти на 27%, установив в этом году 50 рекордов. Этот впечатляющий рост следует за скачком на 24,2% в 2023 году, что делает двухлетний период беспрецедентным со времен бума доткомов.
В отличие от эпохи доткомов, нынешний рост обусловлен стремительным взлетом цен акций компаний, работающих в сфере ИИ. Например, стоимость Nvidia выросла более чем вдвое после утроения в 2023 году. Экономика США, несмотря на недавнюю рецессию, связанную с пандемией COVID-19, пока избегает нового витка падения, которую многие на Уолл-стрит считали неизбежной после повышения основной процентной ставки до 20-летнего максимума.
apnews.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍18❤9🔥6🤔1
PaliGemma 2 - обновление open-sorce VLM PaliGemma, основанное на семействе LLM Gemma 2. Семейство сочетает в себе кодировщик изображений SigLIP-So400m с спектром моделей Gemma 2, от 2B до 27B параметров. Модели PaliGemma 2 обучались в 3 этапа на трех разрешениях (224px², 448px² и 896px²).
PaliGemma 2 демонстрирует впечатляющие результаты в распознавании музыкальных нот, молекулярных структур и медицинских изображений. Модели справляются с распознаванием табличной структуры и созданием отчетов по рентгенограммам.
В задачах генерации длинных, детализированных аннотаций к изображениям PaliGemma 2 превосходит многие популярные VLM, несмотря на то, что она обучалась на значительно меньших наборах данных.
Для развертывания на устройствах без GPU могут использоваться квартованные версии PaliGemma 2. Тесты показали, что переход от 32-битной разрядности (f32) к 16-битной (bf16) или квантованным весам не приводит к заметному снижению качества.
В релиз вошли предварительно обученные модели 3B, 10B и 28B с разрешениями 224px, 448px, 896px, модели, настроенные на наборе данных DOCCI для создания аннотаций к изображениям и их версии для JAX/FLAX.
Процесс файнтюна PaliGemma 2 такой же, как и у предыдущей версии. Разработчики предоставляют скрипт и ipynb-блокнот для тонкой настройки модели или создания LoRA/QLoRA.
Создание LoRA модели PaliGemma 2 на половине валидационного сплита VQAv2 заняло полчаса на 3-х A100 с 80 ГБ VRAM. Результат можно найти здесь, а это ее демо.
paligemma2-10b-ft-docci-448
на Transformers:from transformers import AutoProcessor, PaliGemmaForConditionalGeneration
from PIL import Image
import requests
model_id = "google/paligemma2-10b-ft-docci-448"
model = PaliGemmaForConditionalGeneration.from_pretrained(model_id)
model = model.to("cuda")
processor = AutoProcessor.from_pretrained(model_id)
prompt = "<image>caption en"
image_file = "% link_to_target_file%"
raw_image = Image.open(requests.get(image_file, stream=True).raw).convert("RGB")
inputs = processor(prompt, raw_image, return_tensors="pt").to("cuda")
output = model.generate(**inputs, max_new_tokens=20)
print(processor.decode(output[0], skip_special_tokens=True)[len(prompt):])
@ai_machinelearning_big_data
#AI #ML #VLM #Google #PaliGemma
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21🔥9❤5❤🔥1