OLMo 2 - серия открытых языковых моделей, созданная для развития науки о языковых моделях .
Модели OLMo 2 доступны в вариантах 7B и 13B параметров и обучены на массиве данных объемом 5 трлн. токенов. Они демонстрируют производительность, сопоставимую или превосходящую аналогичные по размеру полностью открытые модели на английских академических тестах.
Разработчики OLMo 2 уделили особое внимание стабильности обучения, используя методы RMSNorm, QK-Norm, Z-loss регуляризация и улучшенная инициализация.
Обучение проводилось в 2 этапа. На первом этапе модели обучались на датасете OLMo-Mix-1124 (3,9 трлн. токенов). На втором этапе использовался специально подобранный набор данных Dolmino-Mix-1124 (843 млрд. токенов), состоящий из веб-данных, материалов из академических источников, форумов вопросов и ответов, инструкций и математических задачников. Для объединения моделей, обученных на разных подмножествах данных, применялся метод "model souping".
Для оценки OLMo 2 была разработана система OLMES (Open Language Modeling Evaluation System) из 20 тестов для измерения способностей модели. OLMo 2 превзошел предыдущую версию OLMo 0424 по всем задачам и показал высокую эффективность по сравнению с другими открытыми моделями.
from transformers import AutoModelForCausalLM, AutoTokenizer
olmo = AutoModelForCausalLM.from_pretrained("allenai/OLMo-2-1124-7B")
tokenizer = AutoTokenizer.from_pretrained("allenai/OLMo-2-1124-7B")
message = ["Language modeling is "]
inputs = tokenizer(message, return_tensors='pt', return_token_type_ids=False)
# optional verifying cuda
# inputs = {k: v.to('cuda') for k,v in inputs.items()}
# olmo = olmo.to('cuda')
response = olmo.generate(**inputs, max_new_tokens=100, do_sample=True, top_k=50, top_p=0.95)
print(tokenizer.batch_decode(response, skip_special_tokens=True)[0])
@ai_machinelearning_big_data
#AI #ML #LLM #OLMo2
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍25❤9🔥7
AIMV2 – семейство моделей визуальных энкодеров, предварительно обученных с помощью мультимодальной авторегрессионной цели, которая восстанавливает фрагменты изображений и текстовые токены, что, в итоге, позволяет AIMV2 справляться с задачами распознавания изображений, локализации объектов и мультимодального понимания.
Архитектура AIMV2 основана на ViT и использует каузальный мультимодальный декодер, который сначала регрессирует фрагменты изображения, а затем декодирует текстовые токены авторегрессионно. Визуальный энкодер использует префиксное внимание, что позволяет использовать двунаправленное внимание во время вывода без дополнительной настройки.
Семейство AIMV2 обучалось на комбинации общедоступных (DFN-2B, COYO) и собственных (HQITP) датасетов, содержащих пары "изображение-текст" и синтетические аннотации, сгенерированные предварительно обученным инструментом.
Эксперименты после обучения показали, что AIMV2-3B достигает точности 89,5% на ImageNet с замороженным транком, что лучше, чем у генеративных методов MAE и AIM. AIMV2 превосходит CLIP и SigLIP в большинстве тестов на мультимодальное понимание.
Модель совместима с LiT для zero-shot распознавания и может быть настроена для обработки изображений с различными разрешениями и соотношениями сторон.
В отрытый доступ на HF опубликованы модели:
⚠️ ! Примеры инференса с JAX и MLX доступны в репозитории AIMv2
# Clone the repository
pip install 'git+https://github.com/apple/ml-aim.git#subdirectory=aim-v2'
# Example Using PyTorch
from PIL import Image
from aim.v2.utils import load_pretrained
from aim.v1.torch.data import val_transforms
img = Image.open(...)
model = load_pretrained("aimv2-large-patch14-336", backend="torch")
transform = val_transforms(img_size=336)
inp = transform(img).unsqueeze(0)
features = model(inp)
@ai_machinelearning_big_data
#AI #ML #Vision #Apple #AIMv2
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍26🔥8❤7
В ноябре Джефф Хэнкок, основатель Лаборатории социальных сетей Стэнфорда и эксперт по технологиям и дезинформации, представил заявление по делу в суде Миннесоты, оспаривающему закон штата 2023 года, криминализирующий использование дипфейков для влияния на выборы. В 12-страничном документе профессора в защиту закона содержалось 15 ссылок, 2 из которых не удалось найти: «Дипфейки и иллюзия подлинности: когнитивные процессы, лежащие в основе восприятия дезинформации» и «Влияние дипфейковых видео на политические взгляды и поведение» – ни по указанному цифровому идентификатору объекта, ни в архивах указанных журналов. Адвокат истцов назвал ссылки "галлюцинацией искусственного интеллекта" и потребовал исключить заявление Хэнкока из материалов дела.
stanforddaily.com
Стартап World Labs, основанный профессором в области ИИ Фэй-Фэй Ли, представил свою первую разработку: систему ИИ, которая может создавать интерактивные 3D-сцены на основе одной фотографии. В отличие от многих других систем, преобразующих фото в 3D, сцены World Labs интерактивны и модифицируемы и позволяют «войти в любое изображение и исследовать его в 3D».
Система визуализирует сцены в режиме реального времени и поддерживает управление камерой и настройку глубины резкости. Она также позволяет применять к сценам интерактивные эффекты и анимацию, например, изменять цвет объектов и динамически освещать фон. World Labs планирует выпустить свой первый продукт в 2025 году и ориентируется на разработчиков видеоигр и киностудии.
techcrunch.com
Компания The Browser Company, разработчик браузера Arc, представила Dia - новый веб-браузер, основанный на искусственном интеллекте. Dia будет запущен в начале 2025 года и предложит пользователям ИИ-функции: "напиши следующую строку", "дай мне идею" и "резюмируй вкладку".
Dia понимает контекст всего окна браузера, может копировать ссылки из открытых вкладок и вставлять их в электронное письмо по команде пользователя. В промо-видеоролике разработчики показали, как Dia находит документ по описанию и отправляет его по электронной почте. Разработчики уверяют, что Arc продолжит свое существование, несмотря на запуск нового продукта.
theverge.com
Гибридная модель рекомендаций HRS-IU-DL сочетает в себе методы коллаборативной фильтрации, контентной фильтрации и нейроколлаборативной фильтрации. Модель использует RNN для выявления последовательных паттернов в поведении пользователей и TF-IDF для анализа атрибутов товаров.
HRS-IU-DL справляется с проблемами традиционных рекомендательных систем - разреженность данных и холодный старт, предоставляя точные и релевантные рекомендации. Для обучения и тестирования модели использовался датасет Movielens 100k. Результаты тестов показали, что HRS-IU-DL превосходит базовые модели по метрикам RMSE, MAE, точности и полноте.
nature.com
Закон ЕС об ИИ, вступивший в силу 2 декабря 2024 года, классифицирует системы ИИ по уровням риска: неприемлемый, высокий, ограниченный и минимальный.
В большинстве случаев разработчикам систем ИИ ограниченного риска (например, чат-ботов) потребуется обеспечить прозрачность взаимодействия с пользователем и маркировать контент, созданный ИИ. Разработчикам моделей ИИ общего назначения (GPAI) необходимо предоставить подробное описание данных, использованных для обучения модели, и соблюдать законы ЕС об авторском праве, включая механизмы отказа от использования защищенных авторским правом материалов.
Hugging Face предлагает инструменты, помогающие подготовиться к соблюдению требований: Model Cards, Dataset Cards, Gradio watermarking и поддержку механизмов отказа.
huggingface.co
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍23❤8🔥3🥰1😁1
Tencent опубликовала в отрытый доступ модели с 13 млрд. параметров для генерации видео по текстовым промптам: HunyuanVideo и HunyuanVideo-PromptRewrite.
Архитектура HunyuanVideo простроена на пространственно-временном сжатии, которое позволяет обрабатывать видео и изображения в едином формате.
Входные текстовые запросы кодируются с помощью MLLM (комбинация CLIP and T5-XXL) и используются в качестве основы для генерации. Модель генерирует латент, который затем декодируется в изображения или видео с помощью 3D VAE.
HunyuanVideo-PromptRewrite - специальный файнтюн для адаптации и автоматического расширения пользовательских промптов к предпочтениям модели. В PromptRewrite 2 режима работы: Normal и Master:
HunyuanVideo оценивалась 60 экспертами на 1533 промптах в сравнении с топовыми T2V-моделями: Gen-3, Luma 1.6 и тремя лучшими китайскими коммерческими моделями.
Результаты оценки показали, что HunyuanVideo достигает общего уровня удовлетворенности, особенно выделяясь качеством движения объектов.
⚠️ Минимальный объем GPU - 60 GB для 720pX1280pX129f и 45 GB для 544pX960pX129f. Рекомендованный GPU - 80 GB.
# Clone repo:
git clone https://github.com/tencent/HunyuanVideo
cd HunyuanVideo
# Prepare conda environment
conda env create -f environment.yml
conda activate HunyuanVideo
# Install pip dependencies
python -m pip install -r requirements.txt
# Install flash attention v2
python -m pip install git+https://github.com/Dao-AILab/[email protected]
# Inference
python3 sample_video.py \
--video-size 720 \
--video-length 129 \
--infer-steps 50 \
--prompt "%prompt%" \
--flow-reverse \
--use-cpu-offload \
--save-path ./results
@ai_machinelearning_big_data
#AI #ML #Text2Video #Tencent #HunyuanVideo
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥25❤9👍5🎉2
HDR-GS — это метод рендеринга, который использует гауссову сплайн-интерполяцию для создания изображений с расширенным динамическим диапазоном и изображений со стандартным динамическим диапазоном (LDR) с заданным временем экспозиции.
HDR-GS превосходит NeRF на 1,91 и 3,84 дБ при рендеринге HDR- и LDR-видов, при этом обеспечивает 1000-кратное увеличение скорости инференса и требует всего 6,3% от времени обучения, которое требуется методу HDR-NeRF.
Пайплайн HDR-GS состоит из модели точечного облака DDR, которая использует сферические гармоники для HDR-цвета и 3 MLP для тональной компрессии, параллельной растеризации рендеринга HDR- и LDR-цветов и алгоритма Structure-from-Motion (SfM), который инициирует гауссово облако точек.
Тестирование HDR-GS проводилось на датасетах с 4 реальными сценами и 8 синтетическими, созданными в Blender. По результатам тестирования, HDR-GS значительно превзошел NeRF, NeRF-W, HDR-NeRF и 3DGS как по качеству, так и по эффективности.
⚠️ Рекомендаций по требованиям к GPU в репозитории проекта нет, тесты проводились на 1 GPU A5000.
bathroom
:# Clone repo:
git clone https://github.com/caiyuanhao1998/HDR-GS --recursive
# Windows only
SET DISTUTILS_USE_SDK=1
# install environment of 3DGS
cd HDR-GS
conda env create --file environment.yml
conda activate hdr_gs
# Synthetic scenes
python3 train_synthetic.py --config config/bathroom.yaml --eval --gpu_id 0 --syn --load_path output/mlp/bathroom/exp-time/point_cloud/interation_x --test_only
@ai_machinelearning_big_data
#AI #ML #HDR-GS #Gaussian
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍29❤10🔥8
Cohere представила Rerank 3.5, обновленную версию собственной платформы поиска на основе ИИ, которая предлагает продвинутые возможности рассуждения и многоязычность для выаолнения точного поиска по сложным корпоративным данным.
Новая версия позволяет компаниям эффективно находить нужную информацию в больших объемах данных. Rerank 3.5 использует алгоритмы ИИ для понимания смысла запросов и поиска наиболее релевантных результатов, даже если они выражены на разных языках.
cohere.com
Группа канадских новостных и медиа-компаний: Globe and Mail, Canadian Press и CBC подала коллективный иск против OpenAI, обвиняя компанию в использовании их статей без разрешения для обучения моделей GPT. Истцы утверждают, что OpenAI незаконно извлекала контент с их веб-сайтов, нарушая их авторские права и получая прибыль за счет их журналистской работы.
В иске требуется возмещение ущерба в размере 20 000 канадских долларов за каждую использованную статью, общее число статей превышает 50 тысяч. OpenAI утверждает, что ее действия подпадают под добросовестное использование, поскольку модели обучались на общедоступных данных.
techspot.com
США ввели новые ограничения на экспорт в Китай для вендоров оборудования для производства полупроводников. Меры включают запрет на поставки в Китай микросхем памяти высокой пропускной способности, используемых в обучении ИИ, 24 дополнительных инструмента для производства микросхем и 3 программных инструмента.
Экспортные ограничения также распространяются на оборудование для производства микросхем, изготовленное в Сингапуре и Малайзии. Новые правила направлены на то, чтобы помешать Китаю развивать свою собственную систему производства полупроводников, которую он может использовать для модернизации своих вооруженных сил. Ограничения затронут как американские компании: Lam Research, KLA и Applied Materials, так и зарубежные компании, например, голландскую ASM International.
cnbc.com
В MIT разработали новый фотонный чип, который может выполнять все ключевые вычисления глубокой нейронной сети оптически, открывая возможности для высокоскоростных процессоров, способных обучаться в режиме реального времени. Устройство завершило ключевые вычисления для задачи классификации машинного обучения менее чем за половину наносекунды, достигнув точности более 92 процентов.
Чип состоит из взаимосвязанных модулей, образующих оптическую нейронную сеть, и изготовлен с использованием стандартных процессов литейного производства. В перспективе фотонный процессор может привести к более быстрому и энергоэффективному глубокому обучению для научных исследований в астрономии, физике элементарных частиц и высокоскоростной связи.
news.mit.edu
Министерство образования КНР объявило о планах по усилению образования в области ИИ для молодого поколения, чтобы подготовить их к эпохе новых технологий. Школам предложено разработать соответствующие учебные программы, включить ИИ в повседневное содержание обучения и проводить регулярные оценки.
Согласно плану, учащиеся начальной школы получат практический опыт работы с технологиями ИИ. В старших классах начальной школы и средней школы они сосредоточатся на понимании и применении этих технологий, а в выпускных классах учащиеся будут заниматься созданием проектов в области ИИ.
english.news.cn
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21❤8🔥6
LLaVA-CoT – модель VLM, разработанная на базе Llama-3.2-11B-Vision-Instruct и обученная для автономного многоступенчатого процесса рассуждения. В отличие от классического метода CoT, LLaVA-CoT независимо выполняет последовательные этапы: обобщение, визуальная интерпретация, логическое рассуждение и формирование вывода. Эта структура позволяет LLaVA-CoT значительно повысить точность при решении визуальных задач, требующих интенсивных рассуждений.
LLaVA-CoT обучалась на кастомном наборе данных LLaVA-CoT-100k, который объединил примеры из различных источников VQA и аннотации структурированных рассуждений.
Используя всего 100 тыс. обучающих примеров и простой метод масштабирования во время инференса, LLaVA-CoT не только превосходит свою базовую модель на 8,9% на наборе тестов мультимодальных рассуждений, но и Gemini-1.5-pro, GPT-4o-mini и Llama-3.2-90B-Vision-Instruct.
@ai_machinelearning_big_data
#AI #ML #VLM #LlaVACoT
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥33👍9❤4