🔥 Новостной дайджест
✔️ Gam.hp - инструмент для оценки относительной важности предикторов в обобщенных аддитивных моделях.
Исследователи из Nanjing Forestry University и Guangzhou Climate and Agro-meteorology Center в Китае создали пакет программного обеспечения - gam.hp, который рассчитывает индивидуальные значения R² для предикторов на основе концепции "средней общей дисперсии" - метода, ранее применявшегося для множественной регрессии и канонических анализов.
Это позволяет справедливо распределить общий R² между связанными предикторами, обеспечивая меру уникального и общего вклада каждого предиктора в пригодность модели.
Пакет gam.hp доступен для Windows и MacOS. Исходный код выложен на Github
phys.org
✔️ Lean-STaR - как неформальные рассуждения могут улучшить формальное доказательство теорем.
Исследователи из университетов Carnegie Mellon и Tsinghua разработали Lean-STaR, фреймворк для автоматизированного доказательства теорем, объединяющий неформальные рассуждения с формальной проверкой.
Этот подход, использующий языковые модели для генерации мыслей на естественном языке перед каждым шагом доказательства, достиг передовых результатов в среде Lean и обещает значительно продвинуть автоматизированные математические рассуждения и их применение в AI.
marktechpost.com
✔️ Mosaic AI: Model Training и Fine Tune моделей GenAI.
Databricks открыла доступ к публичной предварительной версии Mosaic AI, инструменту для тонкой настройки или предварительного обучения широкого спектра моделей, включая Llama 3, Mistral, DBRX и другие.
Fine Tune Llama 3 70B с датасетом в 10 млн слов будет стоить согласно тарифам 250 USD, 500 млн слов - 11,440 USD
databricks.com
✔️ LOTUS: Фреймворк для создания наукоемких LLM-приложениq, которые могут рассуждают над данными.
LOTUS предоставляет декларативную модель программирования и оптимизированный механизм запросов для обслуживания мощных конвейеров запросов на основе рассуждений к структурированным и неструктурированным данным.
В основе реализован простой и интуитивно понятный Pandas-подобный API, который реализует семантические операторы для расширения реляционной модели набором модульных операторов на основе языка.
Пользователи могут легко комбинировать такие операторы с традиционными операциями с данными для создания современных систем искусственного интеллекта, способных рассуждать об огромных массивах знаний.
stanford-futuredata
✔️ Maestro: Оркестратор рабочих процессов от Netflix с открытым исходным кодом.
Maestro - это горизонтально масштабируемый оркестратор рабочих процессов общего назначения, предназначенный для управления крупными рабочими процессами, такими как конвейеры обработки данных и конвейеры обучения моделей машинного обучения.
Пользователи могут упаковывать свою бизнес-логику в различные форматы, такие как образы Docker, блокноты, сценарии bash, SQL, Python и т.д.
Maestro поддерживает как ациклические, так и циклические рабочие процессы, а также включает множество шаблонов многократного использования, включая циклы foreach, подпроцессы, условные ветвления и т. д. Ознакомится с проектом можно в репозитории на Github
netflixtechblog.com
✔️ Климатическая модель от Google: генерация недельной симуляции атмосферы всего за 9,2 секунды.
Модель NeuralGCM, разработанная в сотрудничестве Google и Европейского центра прогнозов погоды на средние расстояния (ECMWF), - это новая атмосферная модель, объединяющая традиционное физическое моделирование с машинным обучением (ML).
Модель предназначена для повышения точности и эффективности прогнозирования погоды и климата.
NeuralGCM превосходит существующие модели в прогнозировании циклонов и их трасс. Примечательной особенностью NeuralGCM является его исключительная вычислительная эффективность, способная генерировать 22,8-дневное моделирование атмосферы в течение 30 секунд, при этом вычислительные затраты в 100 000 раз ниже, чем у традиционных моделей.
Google выложил исходный код и весовые коэффициенты модели NeuralGCM в открытый доступ на GitHub.
✔️ Kling теперь доступна для всех.
@ai_machinelearning_big_data
#news #digest #ml
Исследователи из Nanjing Forestry University и Guangzhou Climate and Agro-meteorology Center в Китае создали пакет программного обеспечения - gam.hp, который рассчитывает индивидуальные значения R² для предикторов на основе концепции "средней общей дисперсии" - метода, ранее применявшегося для множественной регрессии и канонических анализов.
Это позволяет справедливо распределить общий R² между связанными предикторами, обеспечивая меру уникального и общего вклада каждого предиктора в пригодность модели.
Пакет gam.hp доступен для Windows и MacOS. Исходный код выложен на Github
phys.org
Исследователи из университетов Carnegie Mellon и Tsinghua разработали Lean-STaR, фреймворк для автоматизированного доказательства теорем, объединяющий неформальные рассуждения с формальной проверкой.
Этот подход, использующий языковые модели для генерации мыслей на естественном языке перед каждым шагом доказательства, достиг передовых результатов в среде Lean и обещает значительно продвинуть автоматизированные математические рассуждения и их применение в AI.
marktechpost.com
Databricks открыла доступ к публичной предварительной версии Mosaic AI, инструменту для тонкой настройки или предварительного обучения широкого спектра моделей, включая Llama 3, Mistral, DBRX и другие.
Fine Tune Llama 3 70B с датасетом в 10 млн слов будет стоить согласно тарифам 250 USD, 500 млн слов - 11,440 USD
databricks.com
LOTUS предоставляет декларативную модель программирования и оптимизированный механизм запросов для обслуживания мощных конвейеров запросов на основе рассуждений к структурированным и неструктурированным данным.
В основе реализован простой и интуитивно понятный Pandas-подобный API, который реализует семантические операторы для расширения реляционной модели набором модульных операторов на основе языка.
Пользователи могут легко комбинировать такие операторы с традиционными операциями с данными для создания современных систем искусственного интеллекта, способных рассуждать об огромных массивах знаний.
stanford-futuredata
Maestro - это горизонтально масштабируемый оркестратор рабочих процессов общего назначения, предназначенный для управления крупными рабочими процессами, такими как конвейеры обработки данных и конвейеры обучения моделей машинного обучения.
Пользователи могут упаковывать свою бизнес-логику в различные форматы, такие как образы Docker, блокноты, сценарии bash, SQL, Python и т.д.
Maestro поддерживает как ациклические, так и циклические рабочие процессы, а также включает множество шаблонов многократного использования, включая циклы foreach, подпроцессы, условные ветвления и т. д. Ознакомится с проектом можно в репозитории на Github
netflixtechblog.com
Модель NeuralGCM, разработанная в сотрудничестве Google и Европейского центра прогнозов погоды на средние расстояния (ECMWF), - это новая атмосферная модель, объединяющая традиционное физическое моделирование с машинным обучением (ML).
Модель предназначена для повышения точности и эффективности прогнозирования погоды и климата.
NeuralGCM превосходит существующие модели в прогнозировании циклонов и их трасс. Примечательной особенностью NeuralGCM является его исключительная вычислительная эффективность, способная генерировать 22,8-дневное моделирование атмосферы в течение 30 секунд, при этом вычислительные затраты в 100 000 раз ниже, чем у традиционных моделей.
Google выложил исходный код и весовые коэффициенты модели NeuralGCM в открытый доступ на GitHub.
@ai_machinelearning_big_data
#news #digest #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍17❤9🔥6
⚡️ Новостной дайджест
✔️ Accenture планирует запуск услуги по созданию собственных LLM для организаций на базе NVIDIA.
Accenture объявила о сотрудничестве с NVIDIA для разработки индивидуальных моделей искусственного интеллекта на базе Llama 2 с использованием платформы NVIDIA AI Foundry.
Ключевым аспектом сотрудничества является использование технологии NVIDIA NeMo, которая позволяет настраивать и оптимизировать модели Llama для конкретных приложений.
newsroom.accenture.com
✔️ ServiceNow & Oxford Economics выпустили отчет "Индекс зрелости корпоративного искусственного интеллекта 2024"
Индекс исследует значение внедрения AI для организаций всех отраслей. В нем проведен глобальный опрос 4 470 руководителей и измерены показатели эффективности ИИ по пяти ключевым направлениям: стратегия и лидерство, интеграция рабочих процессов, таланты и кадры, управление и реализация ценности.
Результат показывает, что для многих организаций использование AI все еще находится на экспериментальной стадии, и только 18% используют возможности искусственного интеллекта.
oxfordeconomics.com
🔔 Полная версия отчета под этим новостным дайджестом
✔️ Новая модель NVIDIA ChatQA-2 превосходит GPT-4 в задачах с длинным контекстом и RAG
NVIDIA представила новую модель ChatQA 2, основанную на архитектуре Llama 3
Модель способна эффективно работать с контекстом длиной до 128 000 токенов, что значительно больше стандартного параметра 8 000 токенов в Llama3-70B.
NVIDIA использовала дообучение, включающее расширение контекстного окна и трехэтапную инструктивную настройку. ChatQA 2 показывает результаты, сопоставимые с GPT-4-Turbo-2024-0409.
Кроме того, исследователи обнаружили, что использование длинноконтекстного ретривера может смягчить проблему фрагментации контекста top-k в RAG, что улучшает результаты для задач понимания длинного контекста.
analyticsindiamag.com
✔️ Объединенное обучение с дифференциальной конфиденциальностью для сквозного распознавания речи
Apple опубликовала исследование в котором рассматривается пробел в изучении применения федеративного обучения (FL) с дифференциальной конфиденциальностью (DP) для автоматического распознавания речи (ASR).
Авторы обучили FL-модели, которые работают оптимально даже при использовании разнородных данных, начальной модели из другого домена или при отсутствии предварительно обученной начальной модели.
Также поднимается проблема применения DP к FL для ASR, которая осложняется сильным влиянием шума DP на обучение модели, особенно в больших моделях с сильно несбалансированными градиентами в блоке внимания. Исследование
machinelearning.apple.com
✔️ MIT CSAIL разработал MAIA, автоматизированный интерпретируемый агент, который проводит эксперименты для понимания и уточнения поведения нейронных сетей.
MAIA (Multimodal Automated Interpretability Agent) - система, автоматизирующая различные задачи интерпретации нейронных сетей на основе модели "зрение-язык". MAIA может генерировать гипотезы, проводить эксперименты и уточнять свое понимание путем итеративного анализа. Она продемонстрировала эффективность в маркировке нейронных компонентов, очистке классификаторов изображений и обнаружении скрытых предубеждений. Гибкость MAIA позволяет ему отвечать на различные запросы по интерпретируемости и разрабатывать эксперименты "на лету".
news.mit.edu
✔️ На Олимпийских играх в Париже будут применяться китайские разработки в AI.
В ходе проведения игр будут использоваться китайские технологии искусственного интеллекта, а компания Alibaba, разработчик языковой модели Qwen, станет первым поставщиком технологии применения AI на спортивных соревнованиях такого масштаба. Международный олимпийский комитет (МОК) сотрудничает с Alibaba и Intel по задачам:
360-градусные спецэффекты при прямой трансляции с помощью технологий Alibaba, AI-колоризацию черно-белых изображений и снижение углеродного следа, а LLM Qwen обеспечит техническую поддержку и будет доступна для использования официальными комментаторами, помогая в комментировании различных событий.
qbitai.com
@ai_machinelearning_big_data
#news #digest #ml #ai
Accenture объявила о сотрудничестве с NVIDIA для разработки индивидуальных моделей искусственного интеллекта на базе Llama 2 с использованием платформы NVIDIA AI Foundry.
Ключевым аспектом сотрудничества является использование технологии NVIDIA NeMo, которая позволяет настраивать и оптимизировать модели Llama для конкретных приложений.
newsroom.accenture.com
Индекс исследует значение внедрения AI для организаций всех отраслей. В нем проведен глобальный опрос 4 470 руководителей и измерены показатели эффективности ИИ по пяти ключевым направлениям: стратегия и лидерство, интеграция рабочих процессов, таланты и кадры, управление и реализация ценности.
Результат показывает, что для многих организаций использование AI все еще находится на экспериментальной стадии, и только 18% используют возможности искусственного интеллекта.
oxfordeconomics.com
NVIDIA представила новую модель ChatQA 2, основанную на архитектуре Llama 3
Модель способна эффективно работать с контекстом длиной до 128 000 токенов, что значительно больше стандартного параметра 8 000 токенов в Llama3-70B.
NVIDIA использовала дообучение, включающее расширение контекстного окна и трехэтапную инструктивную настройку. ChatQA 2 показывает результаты, сопоставимые с GPT-4-Turbo-2024-0409.
Кроме того, исследователи обнаружили, что использование длинноконтекстного ретривера может смягчить проблему фрагментации контекста top-k в RAG, что улучшает результаты для задач понимания длинного контекста.
analyticsindiamag.com
Apple опубликовала исследование в котором рассматривается пробел в изучении применения федеративного обучения (FL) с дифференциальной конфиденциальностью (DP) для автоматического распознавания речи (ASR).
Авторы обучили FL-модели, которые работают оптимально даже при использовании разнородных данных, начальной модели из другого домена или при отсутствии предварительно обученной начальной модели.
Также поднимается проблема применения DP к FL для ASR, которая осложняется сильным влиянием шума DP на обучение модели, особенно в больших моделях с сильно несбалансированными градиентами в блоке внимания. Исследование
machinelearning.apple.com
MAIA (Multimodal Automated Interpretability Agent) - система, автоматизирующая различные задачи интерпретации нейронных сетей на основе модели "зрение-язык". MAIA может генерировать гипотезы, проводить эксперименты и уточнять свое понимание путем итеративного анализа. Она продемонстрировала эффективность в маркировке нейронных компонентов, очистке классификаторов изображений и обнаружении скрытых предубеждений. Гибкость MAIA позволяет ему отвечать на различные запросы по интерпретируемости и разрабатывать эксперименты "на лету".
news.mit.edu
В ходе проведения игр будут использоваться китайские технологии искусственного интеллекта, а компания Alibaba, разработчик языковой модели Qwen, станет первым поставщиком технологии применения AI на спортивных соревнованиях такого масштаба. Международный олимпийский комитет (МОК) сотрудничает с Alibaba и Intel по задачам:
360-градусные спецэффекты при прямой трансляции с помощью технологий Alibaba, AI-колоризацию черно-белых изображений и снижение углеродного следа, а LLM Qwen обеспечит техническую поддержку и будет доступна для использования официальными комментаторами, помогая в комментировании различных событий.
qbitai.com
@ai_machinelearning_big_data
#news #digest #ml #ai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍22❤5🔥3
🔥 Новостной дайджест
✔️ Microsoft представляет Bing Generative Search, обновленную поисковую систему с AI
Анонсированный в феврале 2024 года, Bing AI Search сегодня был выпушен в ранний доступ.
Обновление сочетает в себе основу результатов поиска Bing и возможности больших и малых языковых моделей (LLM и SLM).
Он понимает поисковый запрос, изучает миллионы источников информации, динамически сопоставляет контент и формирует результаты поиска в новом макете, созданном искусственным интеллектом, для более эффективного выполнения намерений пользователя.
blogs.bing.com
✔️ Все больше интернет-сервисов и сайтов блокируют доступ для AI к своим данным.
Data Provenance Initiative провела исследование, проанализировав 14 000 веб-доменов и обнаружив увеличение числа заблокированных токенов с 1 % до 7 % с апреля 2023 года по апрель 2024 года. Основными источниками таких ограничений являются новостные сайты, платформы социальных сетей и форумы, причем количество заблокированных токенов на новостных сайтах за год резко возросло с 3 до 45 %.
Специалисты видят риск в том, что дополнительные ограничения, предпринимаемые владельцами интернет-ресурсов в результате повлияет на качество и предвзятость будущих систем AI, которые будут вынуждены обучаться на манипулятивных данных.
the-decoder.com
✔️ После успеха с AgentGPT компания Reworkd переключилась на создание ИИ-агентов для веб-скрапинга.
Компания Reworkd переориентировалась на разработку ИИ-агентов для веб-скрапинга. Новый подход Reworkd позволяет извлекать структурированные данные из публичных веб-сайтов с помощью мультимодальной генерации кода. Клиенты могут предоставить список сайтов и указать типы нужных данных, а ИИ-агенты Reworkd автоматически создают уникальный код для скрапинга каждого сайта и извлечения требуемой информации.
Сама Reworkd позиционирует себя как "универсальный API-слой для интернета", стремясь реализовать концепцию Семантической паутины, где компьютеры могут "читать" весь интернет.
techcrunch.com
✔️ ИИ добился серебряной медали на решении заданий Международной математической олимпиады.
Системы искусственного интеллекта компании DeepMind (Google), AlphaProof и AlphaGeometry 2, успешно решили четыре из шести задач, получив оценку, эквивалентную серебряному призеру Международной математической олимпиады (IMO).
AlphaProof использует формальный язык Lean и алгоритм обучения с подкреплением AlphaZero для создания и проверки доказательств, AlphaGeometry 2 -- нейро-символическая гибридная система, обученная на большом наборе данных.
deepmind.google
✔️ МLLM-модель Douchao компании ByteDance поставила рекорд производительности в 500 миллиардов токенов в сутки.
Достижению поспособствовали недавнее обновление семейства Douchao, которое добавило мультимодальность (text-to-image, speech synthesis, speech-to-text), востребованность среди корпоративных клиентов и низкая потребительская стоимость доступа.
Цена входного токена составляет всего 0,0008 юаня (это примерно 1 цент США) за тысячу токенов, что на 99,3% дешевле, чем в целом в отрасли.
jiqizhixin.com
✔️ OpenAI показала превью SearchGPT, свою новую поисковую систему!. Компания говорит, что это новый способ поиска, который перевернёт весь мир. Поисковик будет работать прямо в ChatGPT — он проверит ВСЕ доступные источники по теме, чтобы быстро выдать лучший ответ - https://chatgpt.com/search
@ai_machinelearning_big_data
#news #digest #ml #ai
Анонсированный в феврале 2024 года, Bing AI Search сегодня был выпушен в ранний доступ.
Обновление сочетает в себе основу результатов поиска Bing и возможности больших и малых языковых моделей (LLM и SLM).
Он понимает поисковый запрос, изучает миллионы источников информации, динамически сопоставляет контент и формирует результаты поиска в новом макете, созданном искусственным интеллектом, для более эффективного выполнения намерений пользователя.
blogs.bing.com
Data Provenance Initiative провела исследование, проанализировав 14 000 веб-доменов и обнаружив увеличение числа заблокированных токенов с 1 % до 7 % с апреля 2023 года по апрель 2024 года. Основными источниками таких ограничений являются новостные сайты, платформы социальных сетей и форумы, причем количество заблокированных токенов на новостных сайтах за год резко возросло с 3 до 45 %.
Специалисты видят риск в том, что дополнительные ограничения, предпринимаемые владельцами интернет-ресурсов в результате повлияет на качество и предвзятость будущих систем AI, которые будут вынуждены обучаться на манипулятивных данных.
the-decoder.com
Компания Reworkd переориентировалась на разработку ИИ-агентов для веб-скрапинга. Новый подход Reworkd позволяет извлекать структурированные данные из публичных веб-сайтов с помощью мультимодальной генерации кода. Клиенты могут предоставить список сайтов и указать типы нужных данных, а ИИ-агенты Reworkd автоматически создают уникальный код для скрапинга каждого сайта и извлечения требуемой информации.
Сама Reworkd позиционирует себя как "универсальный API-слой для интернета", стремясь реализовать концепцию Семантической паутины, где компьютеры могут "читать" весь интернет.
techcrunch.com
Системы искусственного интеллекта компании DeepMind (Google), AlphaProof и AlphaGeometry 2, успешно решили четыре из шести задач, получив оценку, эквивалентную серебряному призеру Международной математической олимпиады (IMO).
AlphaProof использует формальный язык Lean и алгоритм обучения с подкреплением AlphaZero для создания и проверки доказательств, AlphaGeometry 2 -- нейро-символическая гибридная система, обученная на большом наборе данных.
deepmind.google
Достижению поспособствовали недавнее обновление семейства Douchao, которое добавило мультимодальность (text-to-image, speech synthesis, speech-to-text), востребованность среди корпоративных клиентов и низкая потребительская стоимость доступа.
Цена входного токена составляет всего 0,0008 юаня (это примерно 1 цент США) за тысячу токенов, что на 99,3% дешевле, чем в целом в отрасли.
jiqizhixin.com
@ai_machinelearning_big_data
#news #digest #ml #ai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31❤8🔥5🦄4
Новостной дайджест
✔️ Актеры видеоигр бастуют из-за проблем с искусственным интеллектом.
Гильдия актеров экрана и Американская федерация артистов телевидения и радио (SAG-AFTRA) приняли решение забастовать с 26 июля в рамках соглашения об интерактивных медиа.
Забастовка затрагивает всех профсоюзных актеров, актеров озвучивания и актеров-симуляторов меток движения.
Забастовка направлена против Activision Blizzard, EA, Insomniac Games и WB Games, причем главной проблемой называются разногласия по поводу применения технологий AI. Несмотря на то, что компании нашли общий язык по многочисленным предложениям, а производители видеоигр предложили согласие на использование ИИ и справедливую компенсацию, SAG-AFTRA и представители гейм-вендоров не смогли достичь полного соглашения, что и привело к забастовке.
theverge.com
✔️ SGLang Runtime v0.2 компании LMSYS Organization ускоряет скорость вывода для LLM, таких как Llama 3.1 405B, превосходя vLLM и TensorRT-LLM.
SGLang Runtime v0.2 превосходит vLLM и TensorRT-LLM по пропускной способности и задержке при обработке моделей Llama 3.1 405B. В некоторых сценариях пропускная способность SGLang может достигать 2,1 раза по сравнению с TensorRT-LLM и 3,8 раза по сравнению с vLLM. Исключительная производительность SGLang обусловлена эффективным планировщиком пакетной обработки, оптимизированным процессом вывода и поддержкой новейших аппаратных платформ. SGLang имеет открытый исходный код под лицензией Apache 2.0, написан полностью на Python, а его основной планировщик реализован менее чем в 4 000 строк кода.
lmsys.org
✔️ Генератор любовных письма Алана Тьюринга 70-летней давности.
В 1953 году Алан Тьюринг и Кристофер Стрэчи совместно создали генератор любовных писем, объединив технологию и эмоции с помощью любовных писем, продемонстрировав творческий потенциал раннего искусственного интеллекта. Они запрограммировали компьютер на выражение эмоций, предвосхитив потенциал будущего машинного интеллекта для написания оригинальной прозы и глубоко проникнув в суть машинного интеллекта.
Для создания генератора любовных писем Тьюринг и Стрейчи использовали шаблон, который позволял случайным образом подставлять слова из заранее подготовленного банка слов, создавая уникальные и оригинальные сообщения. Этот процесс напоминал игру в Mad Libs, где структура письма оставалась постоянной, а содержание варьировалось.
bigthink.com
✔️ KAN или MLP: сравнение.
Исследователи из Национального университета Сингапура провели исследование, в котором сравнили производительность сетей Колмогорова-Арнольда (KAN) и многослойных перцептронов (MLP) в различных областях.
MLP, фундаментальный компонент глубокого обучения, широко используется для аппроксимации нелинейных функций, но сталкивается с такими ограничениями, как плохая интерпретируемость и масштабируемость. KAN, новая сетевая структура, рассматривается как потенциальная замена MLP благодаря меньшему количеству параметров и улучшенной интерпретируемости.
Исследователи провели комплексную оценку KAN и MLP в задачах, включающих представление символьных формул, машинное обучение, компьютерное зрение, обработку естественного языка и обработку звука, контролируя при этом количество параметров и FLOPs. Результаты показали, что KAN превзошел MLP только в задачах представления символьных формул, в то время как MLP продемонстрировал превосходство в других задачах. Кроме того, исследование показало, что KAN страдает от более серьезной проблемы забывания, чем MLP, в сценариях непрерывного обучения.
arxiv.org и github.com
@ai_machinelearning_big_data
#news #digest #ml #ai
Гильдия актеров экрана и Американская федерация артистов телевидения и радио (SAG-AFTRA) приняли решение забастовать с 26 июля в рамках соглашения об интерактивных медиа.
Забастовка затрагивает всех профсоюзных актеров, актеров озвучивания и актеров-симуляторов меток движения.
Забастовка направлена против Activision Blizzard, EA, Insomniac Games и WB Games, причем главной проблемой называются разногласия по поводу применения технологий AI. Несмотря на то, что компании нашли общий язык по многочисленным предложениям, а производители видеоигр предложили согласие на использование ИИ и справедливую компенсацию, SAG-AFTRA и представители гейм-вендоров не смогли достичь полного соглашения, что и привело к забастовке.
theverge.com
SGLang Runtime v0.2 превосходит vLLM и TensorRT-LLM по пропускной способности и задержке при обработке моделей Llama 3.1 405B. В некоторых сценариях пропускная способность SGLang может достигать 2,1 раза по сравнению с TensorRT-LLM и 3,8 раза по сравнению с vLLM. Исключительная производительность SGLang обусловлена эффективным планировщиком пакетной обработки, оптимизированным процессом вывода и поддержкой новейших аппаратных платформ. SGLang имеет открытый исходный код под лицензией Apache 2.0, написан полностью на Python, а его основной планировщик реализован менее чем в 4 000 строк кода.
lmsys.org
В 1953 году Алан Тьюринг и Кристофер Стрэчи совместно создали генератор любовных писем, объединив технологию и эмоции с помощью любовных писем, продемонстрировав творческий потенциал раннего искусственного интеллекта. Они запрограммировали компьютер на выражение эмоций, предвосхитив потенциал будущего машинного интеллекта для написания оригинальной прозы и глубоко проникнув в суть машинного интеллекта.
Для создания генератора любовных писем Тьюринг и Стрейчи использовали шаблон, который позволял случайным образом подставлять слова из заранее подготовленного банка слов, создавая уникальные и оригинальные сообщения. Этот процесс напоминал игру в Mad Libs, где структура письма оставалась постоянной, а содержание варьировалось.
bigthink.com
Исследователи из Национального университета Сингапура провели исследование, в котором сравнили производительность сетей Колмогорова-Арнольда (KAN) и многослойных перцептронов (MLP) в различных областях.
MLP, фундаментальный компонент глубокого обучения, широко используется для аппроксимации нелинейных функций, но сталкивается с такими ограничениями, как плохая интерпретируемость и масштабируемость. KAN, новая сетевая структура, рассматривается как потенциальная замена MLP благодаря меньшему количеству параметров и улучшенной интерпретируемости.
Исследователи провели комплексную оценку KAN и MLP в задачах, включающих представление символьных формул, машинное обучение, компьютерное зрение, обработку естественного языка и обработку звука, контролируя при этом количество параметров и FLOPs. Результаты показали, что KAN превзошел MLP только в задачах представления символьных формул, в то время как MLP продемонстрировал превосходство в других задачах. Кроме того, исследование показало, что KAN страдает от более серьезной проблемы забывания, чем MLP, в сценариях непрерывного обучения.
arxiv.org и github.com
@ai_machinelearning_big_data
#news #digest #ml #ai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍36❤6🥰3
Подразделение FAIR компании Марка Цукерберга представила новые исследовательские результаты, направленные на развитие исследований в ИИ, а их открытая публикация должна способствовать ускорению общего прогресса:
Модель обучена с применением нового алгоритма, который позволяет представлять состояния, движения и вознаграждения в едином латентном пространстве. Motivo демонстрирует высокую производительность в сравнении со специализированными методами, превосходит современные подходы неконтролируемого обучения с подкреплением и проявляет устойчивость к изменениям окружающей среды.
Метод добавляет незаметные водяные знаки, устойчивые к редактированию и сжатию, чтобы маркировать и отслеживать происхождение сгенерированных видеоматериалов. Video Seal является развитием предыдущей разработки Audio Seal.
Метод, который постепенно заменяет классическую диффузию и повышает производительность и эффективность обобщения при создании изображений, видео, аудио и 3D-структур.
Он уже применяется в продуктах Movie Gen, Audiobox и Melody Flow, а также в Stable-Diffusion-3, Flux, Fold-Flow и Physical Intelligence Pi_0.
Этот подход позволяет создавать разнообразные и сложные сценарии для обучения LLM. Экспериментальное применение Explore Theory-of-Mind с Llama-3.1 7B привело к увеличению точности на 27 пунктов на тесте ToMi.
Основная идея LCM заключается в том, чтобы отделить рассуждения от представления языка, и она вдохновлена тем, как люди могут планировать высокоуровневые мысли для общения. LCM значительно отличается от типичного LLM. Вместо того чтобы предсказывать следующую лексему, LCM обучается предсказывать следующую концепцию или идею высокого уровня, представленную полным предложением в мультимодальном и многоязычном пространстве эмбедингов.
DBLT превосходит модели на основе токенизаторов по надежности, в среднем на 7 пунктов, и отлично справляется с обработкой longtail и rare sequences of unseen symbols.
Метод, который помогает эффективно хранить и извлекать информацию через специальные "слои памяти" без значительного роста вычислительных затрат. Он позволяет моделям работать лучше и точнее на задачах, связанных с фактами.
Она позволяет легко использовать воспроизводимые автоматические оценки T2I-моделей и поддерживает настройку с использованием пользовательских метрик, датасетов и визуализаций.
@ai_machinelearning_big_data
#AI #ML #FAIR #Digest
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍24🔥9❤6👻1
NVIDIA подвела итоги публикаций для разработчиков за 2024 год. От новаторских разработок в области AI-инференса до вклада в опенсорс - эти статьи о прорывах, которые вызвали наибольший резонанс у читателей.
Руководство демонстрирует, как сочетание поиска по тексту и изображению улучшает приложения ИИ. От чат-ботов до поисковых систем - мультимодальный ИИ теперь доступен как никогда.
Пошаговый туториал о том, как создавать агенты на базе LLM, позволяющие разработчикам улучшать и автоматизировать анализ данных с помощью интерфейсов на естественном языке.
Появление StarCoder2, ИИ-ассистента в задачах программирования повышает производительность разработки за счет предложений по коду и сокращения повторяющихся задач по программированию.
Глубокое погружение в методы pruning и дистилляции модели Llama 3.1 8B в более эффективную MiniTron 4B, оптимизируя производительность без ущерба для точности.
Учебное пособие, которое описывает прямой путь к масштабированию RAG-приложений с упором на лучшие практики для обеспечения готовности к производственной эксплуатации.
150-кратное Zero Code ускорение рабочих процессов Pandas которое преобразует конвейеры обработки данных и повышает производительность Python.
@ai_machinelearning_big_data
#AI #ML #NVIDIA #Digest
Please open Telegram to view this post
VIEW IN TELEGRAM
👍20❤8🔥5
📄 ML NEWS
🤖 Microsoft Research только что опубликовали новую версию AutoGen - суперпопулярного фреймворка для работы с агентами с открытым исходным кодом
AutoGen v0.4 это переработанный фреймворк, в котором значительно улучшена масштабируемость, добавлена модульность и новая система отладки процессов agentic AI за счет внедрения асинхронной архитектуры, управляемой событиями.
▪ Github
🖥 Google представил архитектуру Titans, которая возможно станет очень важным элементом развития больших языковых моделей (LLM) в 2025 году.
Архитектура состоит из 3х типов памяти:
- Краткосрочная память – для оперативной обработки данных.
- Долгосрочная память – для всей сохранения значимой информации.
- Постоянная память – для фиксации важной информации.
По заявлениям разработчиков Titans может эффективно обрабатывать контекст превышающим 2 миллионов токенов.
▪Подробнее
🖥 ChatGPT теперь таск-менеджер:
ИИ теперь способен инициировать диалог благодаря новой функции Tasks. Ранее он только отвечал на запросы, а теперь способен самостоятельно выполнять задачи.
Tasks позволяют пользователям давать ChatGPT задачи с указанием времени выполнения.
▪Подробнее
📱 DeepSeek V3 вышел на айфонах
Приложение доступно AppStore бесплатно и работает очень быстро
▪Скачать можно здесь.
⚡️ Выпущена новая открытая модель Omni!
MiniCPM-o 2.6 - мультимодальная модель с 8B параметрами, работающая на edge девайсах.
- 8B параметров (SigLip-400M + Whisper-300M + ChatTTS-200M + Qwen2.5-7B)
- Превосходит GPT-4V в vision задачах с 70. 2 баллами на OpenCompass
- Лучшие в своем классе возможности двуязычной речи с разговором в реальном времени и клонированием голоса
▪ Model
👩💻 Stable point-aware 3D от Stability AI
Свежий инструмент с открытым исходным кодом, который отлично справляется с созданием 3D объектов по одному изображению.
▪Github
@ai_machinelearning_big_data
#news #ml #digest #Stability #chatgpt #google #microsoft #deepSeek #MiniCPM
AutoGen v0.4 это переработанный фреймворк, в котором значительно улучшена масштабируемость, добавлена модульность и новая система отладки процессов agentic AI за счет внедрения асинхронной архитектуры, управляемой событиями.
▪ Github
Архитектура состоит из 3х типов памяти:
- Краткосрочная память – для оперативной обработки данных.
- Долгосрочная память – для всей сохранения значимой информации.
- Постоянная память – для фиксации важной информации.
По заявлениям разработчиков Titans может эффективно обрабатывать контекст превышающим 2 миллионов токенов.
▪Подробнее
ИИ теперь способен инициировать диалог благодаря новой функции Tasks. Ранее он только отвечал на запросы, а теперь способен самостоятельно выполнять задачи.
Tasks позволяют пользователям давать ChatGPT задачи с указанием времени выполнения.
▪Подробнее
Приложение доступно AppStore бесплатно и работает очень быстро
▪Скачать можно здесь.
⚡️ Выпущена новая открытая модель Omni!
MiniCPM-o 2.6 - мультимодальная модель с 8B параметрами, работающая на edge девайсах.
- 8B параметров (SigLip-400M + Whisper-300M + ChatTTS-200M + Qwen2.5-7B)
- Превосходит GPT-4V в vision задачах с 70. 2 баллами на OpenCompass
- Лучшие в своем классе возможности двуязычной речи с разговором в реальном времени и клонированием голоса
▪ Model
Свежий инструмент с открытым исходным кодом, который отлично справляется с созданием 3D объектов по одному изображению.
▪Github
@ai_machinelearning_big_data
#news #ml #digest #Stability #chatgpt #google #microsoft #deepSeek #MiniCPM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍36❤26🔥8
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
> Zero-shot - клонирование голоса > Многоязычный (en, jp, ko, zh, fr, de)
> Обучен 20 000 часам аудиозаписей
> Работает от OLMo-1B и Qwen 2.5 0.5B
> > Функции контроль скорости речь и эмоций
🤗 Hugging Face выпустили открытый курс по изучению AI-агентов на практике.
За прохождение курса можно получить сертификат и самое главное, что при обучении упор идет на практику.
Вы погрузитесь в популярные фреймворки агентов, такие как LangChain, LlamaIndex и smolagents. Эти инструменты предоставляют строительные блоки для создания сложных поведений агентов.
🎥 Компания Luma AI только что выпустила #Ray2 - новую модель видео с искусственным интеллектом, которая создает реалистичные видеоролики с естественным и последовательным движением. Поддерживает text-to-video и image-to video. Доступна платно.
🎓 Transformer2: Self-adaptive LLMs
SakanaAi представили новую структуру самоадаптации моделей, при которой LLM адаптируется для невидимых задач в реальном времени, выборочно корректируя только отдельные компоненты своих весовых матриц.
Во время вывода используется система диспетчеризации, которая определяет свойства задачи, а затем использует векторы «экспертов» для конкретной задачи, обученные с помощью reinforcement learning👀
🧞Omni-RGPT: очередная SOTA MLLM
NVIDIA представляли Omni-RGPT, MLLM, для понимания изображений и видео на уровне отдельных объектов и регионов на видео.
⚡️ Bespoke Curator
Curator - библиотека с открытым исходным кодом, разработанная для упрощения создания синтетических данных!
🌏 Earth View предлагает огромную коллекцию мультиспектральных изображений
Земли из нескольких спутниковых источников, включая Satellogic, Sentinel-1, NEON и предстоящий Sentinel-2.
@ai_machinelearning_big_data
#ml #news #digest #machinelearning
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍24❤11🔥8
- VideoChat2-Flash, мощный MLLM, построенный на базе видеокодера (UMT) и LLM (Qwen).
Внутри новая высокоэффективная архитектура модели с исключительной скоростью инференса, которая позволяет кодировать каждый видеокадр всего в 16 токенов, что в 5-10 раз быстрее, чем в предыдущей модели OpenGVLab.
Модели представлены в размерах 2B и 7B и разрешении 224 и 448.
- BytedanceTalk выпустил модель SA2VA с параметрами 26B.
Sa2VA - это MLM, способный отвечать на вопросы, понимать изображения и видео выполнять сегментацию. Модель, сопоставима с SOTA моделями в своем классе Qwen2-VL и InternVL2.5 в QA тестах.
- VRC-Bench - это новый бенчмарк для оценки эффективности мультимодальных LLM.
- MiniCPM-o 2.6 - это новая мультимодальная модель с 8B параметрами, работающая на edge девайсах. Лучшая в своем классе возможности двуязычной речи с разговором в реальном времени и клонированием голоса.
💬 LLM
- MiniMax-Text-01 - новая языковая модель, которая стабильно обходит GPT-4o и Gemini-2 на бенчмарках с длинным контекстом, сохраняя высокие оценки (0.910-0.963) при длине контекста до 4M токенов🤯
- Датасет: Sky-T1-data-17k - это разнообразный набор данных, используемый для обучения Sky-T1-32B - ризонинг модели, которую можно обучить всего за 450 долларов!
- Kyutai labs выпустили Helium-1 Preview 2B - многоязычный LLM для edge девайсов и мобильных устройств.
- Wayfarer-12B - новая модель генерации текстовой приключенческой ролевой игры от AI Dungeon🧙🏻
- ReaderLM-v2 - это новая модель синтаксического анализа HTML от JinaAI.
- Вriaforall выпустила Dria-Agent-a-3B, новую модель генерации кода (для Python), основанную на Qwen2.5.
- UnslothAI адаптировали Phi-4 к архитектуре Llama 3.3 сделав, более быструю и экономичную по памяти версию.
👀 Vision
- MatchAnything - это новая универсальная модель для сопоставления изображений.
- FitDit - это высококачественная модель виртуальной примерочной, основанная на архитектуре DiT.
⭐️ Аудио
- OuteTTS-0.3-1B - это новая многоязычная модель преобразования текста в речь с возможностью клонирования голоса и управления эмоциями.
📖 Поиск
- Lightblue выпустила новую модель для поиска связи в тексте, основанную на Qwen2.5. LB-reranker-0.5B-v1.0, которая поддерживает более 95 языков
- cde-small-v2 - это новая SOTA модель эмбедингов текста небольшого размера.
LeetGPU - бесплатная платформа для написания и запуска кода на CUDA.
Вы можете практиковаться и изучать CUDA онлайн, без использования графического процессора!
@ai_machinelearning_big_data
#ml #digest #datasets #opensource #ai #llm #news
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍54🔥12❤7🦄2
Релиз R1 и новости об инвестировании в развитие отрасли, вызвали падение акций американских ИТ-гигантов на бирже NASDAQ. Акции NVIDIA упали уже на 14% за сутки. Компания потеряла 465 млрд долларов и это антирекорд.
Но помимо R1 в этом месяце разработчики из Китая выпустили еще очень много интересных моделей 🔥 Китай набирает очень серьезные обороты,
Давайте посмотрим на список самых ярких релизов из Поднебесной за январь:
LLM:
✨ InternLM3-8B-Instruct
✨ MiniMax-Text-01
✨ RWKV-7 RNN + трансформер 👀
✨ Собственно сам DeepSeek-R1
✨ Baichuan-M1-14B медицинский LLM 🩺
✨ Qwen2.5-Math-PRM от Alibaba
✨ Qwen2.5 -1M
Модели кодинга:
✨ Tare от BytedanceTalk
TTS модели синтеза и генерации речи:
✨ T2A-01-HD от MiniMax AI
✨ LLaSA
МЛЛМ:
✨ Kimi k1.5 от Moonshot AI
✨ MiniCPM-o-2_6 от OpenBMB
✨ Sa2VA-4B от ByteDanceOSS
✨ VideoLLaMA 3 от Alibaba DAMO
✨ LLaVA-Mini от Китайской академии наук
✨Hunyuan-7B от TXhunyuan
✨ Hunyuan 3D 2.0
ИИ-агенты:
✨ UI-TARS от ByteDanceOSS
✨ GLM-PC
Датасеты:
✨ Fineweb-Edu-Chinese-V2.1
✨ Multimodal_textbook от Alibaba
✨ MME-Finance от Hithink AI
✨ GameFactory от KwaiVGI
@ai_machinelearning_big_data
#ai #ml #digest #china #deepseek #Alibaba
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥74👍23❤15😎5🥰3😁1🎄1
MLLM:
• Ovis2 - мультимодальная LLM, выпущенная командой Alibaba AIDC.
Аудио:
• Step Audio TTS от StepFun ai качественная модель синтеза речи.
• InspireMusic от Alibaba – модель для генерации музыки.
• Baichuan Audio от BaichuanAI – Audio LLM
Видео:
• Wan2.1 от Alibaba – мощный опенсорсный генератор видео,
URL:
• Stepvideo-T2V модель Text-to-Video
• SkyReels-V1 еще один Text-to-Video.
С фокусом на человека в кадре
• LLaDA-8B – диффузионная 8B модель обученная полностью с нуля и конкурирующую с LLaMA3 8B по производительности.
MoE:
• Moonlight-16B - мощная модель с архитектурой MoE для сложных задач.
Reasoning:
• TinyR1-32B - перспективная модель рассуждений на 32B
• Целая неделя опенсорса от DeepSeek.
Датасет:
• Chinese DeepSeek R1-Distill data -110k – масштабный датаяет обучения и на китайском.
•ByteScale представили новую стратегию параллелизма, и рассказ про эффективное масштабирование обучения LLM с длиной контекста 2048 КБ на более чем 12 000 графических процессоров
@ai_machinelearning_big_data
#ai #releases #opensource #digest
Please open Telegram to view this post
VIEW IN TELEGRAM
👍34🔥15❤6