Machinelearning

✔️

ElevenLabs представили новую функцию для преобразования аудио в текст, которая действительно впечатляет!

ElevenLabs представила Scribe — своё первое решение для преобразования речи в текст, которое уже завоевало звание лидера по точности в этой области. В независимых тестах Scribe достигла Word Error Rate всего 7.7%, что значительно лучше результатов Whisper v2 и v3 (~10%).

Scribe поддерживает 99 языков, включая русский.

Основные преимущества:
- Отличное различение голосов разных спикеров
- Возможность экспорта результатов в самые популярные форматы, включая SRT для субтитров на YouTube
- Бесплатное использование доступно до 9 апреля

💰 Ценообразование: Scribe относится к премиум-классу и стоит 6,67 долл. за 1 тыс. минут аудио, что значительно ниже, чем у Hyperscaler, но выше, чем у Whisper.

▪Бенчмарки: https://artificialanalysis.ai/speech-to-text
▪ Потестить можно здесь: https://elevenlabs.io/speech-to-text

@ai_machinelearning_big_data

#ElevenLabs #tts

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍36🔥19❤12

20.7K views15:11

Machinelearning

🌟 Llama3-SWE-RL: Методика обучения LLM для задач разработки ПО с использованием RL.

SWE-RL – техника обучения LLM для задач разработки программного обеспечения с применением обучения с подкреплением на данных открытых репозиториев Github.

Llama3-SWE-RL наделяет навыкам ризонинга, улучшая результаты на задачах вне общего домена кодинга: функциональное программирование, использование библиотек, планирование кода, математические операции и NLP. В отличие от SFT, SWE-RL позволяет модели улучшать свои общие способности рассуждения.

Пайплайн методики состоит из последовательности этапов:

🟢Первый этап - сбор, модерация и агрегирование pull requests из публичных репозиториев Github, разметка и преобразование этого массива в датасет (описание проблемы-контекст кода - "oracle patch")

Oracle patch - это эталонный вариант исправления кода, используемый для обучения и оценки языковых моделей в задачах, связанных с автоматическим решением проблем в программном обеспечении

🟢Второй этап: обучение LLM навыкам генерации кода на основе задачи и контекста, расчет поощрения для RL (тут используют similarity score между инференсом модели и "oracle patch" с использованием difflib.SequenceMatcher. Неверные ответы получают отрицательный reward)

🟢Третий этап: корректировка и оптимизация политики обучения с помощью GPRO.

Тестовая модель Llama3-SWE-RL-70B, обученная на основе Llama-3.3-70B-Instruct с использованием SWE-RL, показала 41.0% solve rate на SWE-bench Verified, это лучший показатель среди моделей среднего размера (<100B) и сопоставимо с результатом GPT-4o.

Прикладная реализация SWE-RL доступна в репозитории проекта, где разработчиками представлены шаблоны промптов и реализация функции вознаграждения на основе сходства последовательностей.

▶️ Локальная установка с примером использования в проекте:

# Install SWE-RL
git clone https://github.com/facebookresearch/swe-rl && cd swe-rl
pip install -e ".[dev]"
pytest

# example on how you can use the reward function in your own project:
import swerl

file = """
def sort_list(lst):
    return sorted(lst)
""".strip()

oracle_file = """
def sort_list(lst: list[int]) -> list[int]:
    return sorted(lst)
""".strip()

context = {"example.py": file}
oracle = {"example.py": oracle_file}

output = """
<think>
...thoughts by LLM
</think>
<solution>
```python
### example.py
<<<<<<< SEARCH
def sort_list(lst):
=======
def sort_list(lst: list[int]) -> list[int]:
>>>>>>> REPLACE
</solution>
""".strip()

reward, metadata = swerl.core.reward.calculate_search_replace_reward(context, oracle, output)
assert reward == 1.0
print(metadata)

📌Лицензирование: CC-NC-4.0 License.

🟡

Arxiv

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #LLM #RL #SWERL

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍35❤5🔥5

14K views18:40

Machinelearning

⚡️релиз GPT-4.5

Главное:
- Универсальная модель: подходит как для креативных, так и для повседневных задач.
- Нейронка может грубить: если попросить, chatgp сможет быть очень грубым ( привет Grok)
- Значительное улучшение в общении: Сэм Альтман отметил, что это первая модель, с которой он чувствует себя так, словно общается с очень внимательным человеком.
- Масштабный прогресс: в три раза точнее обрабатывает факты и почти в три раза реже допускает ошибки по сравнению с GPT-4.
- Чувствует контекст — лучше понимает тон, скрытые намёки и эмоции.

1млн токенов обойдутся в … 150$.

Новинку уже потихонечку раскатывают на пользователей с PRO-подпиской. Тестим тут.

https://cdn.openai.com/gpt-4-5-system-card.pdf

❤42🔥19👍15😨9😁7🥰5😴2

22.6K views20:43

Machinelearning

✔️

5 день недели опенсорса: и новый релиз от DeepSeek

DeepSeek представили Fife-Flyer File System (3FS) – параллельную файловую систему, способную использовать всю пропускную способность современных SSD и RDMA-сетей.

▶️

Это решение показывает впечатляющие результаты:

• 6.6 TiB/s – суммарная скорость чтения в 180-узловом кластере
• 3.66 TiB/min – пропускная способность на GraySort в 25-узловом кластере
• 40+ GiB/s – пик производительности KVCache lookup на одном клиентском узле

Архитектура 3FS дезагрегирована и обеспечивает строгую согласованность, что делает её незаменимой для задач предварительной обработки данных, загрузки датасетов, сохранения контрольных точек и быстрого поиска эмбеддингов во время инференса (V3/R1).

Показатели 3FS демонстрируют, что будущее обработки данных лежит в использовании распределенных и дезагрегированных архитектур, где каждая компонента системы работает на максимуме своих возможностей.

В дополнение к Fife-Flyer File System, представлен Smallpond – фреймворк для обработки данных на базе этой системы, который помогает ещё больше упростить рабочие процессы с большими объёмами информации.

▪3FS → github.com/deepseek-ai/3FS
▪Smallpond → github.com/deepseek-ai/smallpond

@ai_machinelearning_big_data

#OpenSourceWee #DeepSeek #Smallpond #3FS #opensource

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍64🔥23❤8👻2👏1😁1

16.2K views03:07

Machinelearning

✔️

Deepseek DualPipe: алгоритм параллелизма для обучения LLM.

Deepseek в рамках марафона "5 дней opensource-проектов" опубликовал проект DualPipe. Это алгоритм двунаправленного конвейерного параллелизма для повышения эффективности обучения больших языковых моделей. DualPipe совмещает вычисления и передачу данных в процессе обучения за счет одновременного выполнения прямого и обратного проходов, тем самым нивелирует периоды простоя или неэффективного использования вычислительных ресурсов.

С помощью этого алгоритма обучались Deepseek V3 и R1 и теперь он в доступен под лицензией MIT. Подробности и примеры использования - в репозитории deepseek-ai/DualPipe на GitHub.
Deepseek в X (Twitter)

✔️

Ideogram 2a: релиз новой text-to-image модели.

Ideogram выпустила новую модель - Ideogram 2a, которая. по заверению создателей, обещает стать самой быстрой и экономичной разработкой компании, позволяя создавать высококачественную графику с текстом и фотореалистичные изображения всего за несколько секунд.

Стоимость Ideogram 2a на 50% ниже, чем у ее предшественника, Ideogram 2.0. Модель доступна как в веб-сервисе Ideogram, так и через API.
Ideogram в X (Twitter)

✔️

Claude получила интеграцию с Github и обновление tool use.

Алекс Альберт, руководитель отдела по связям с клиентами Antropic, в X сообщил, что интеграция GitHub с Claude теперь открыта для всех пользователей.

Помимо этого, новейшая модель 3.7 Sonnet сегодня получила более эффективную реализацию использования инструментов - теперь она использует в среднем на 14% меньше токенов и показывает заметное улучшение производительности. Обновление имеет заголовок token-efficient-tools-2025-02-19.
Alex Albert в X (Twitter)

✔️

Mercury Coder - первая коммерческая диффузионная LLM-модель.

Inception Labs представила Mercury Coder, diffusion large language models (dLLM), которая обещает перевернуть представление о скорости и эффективности. dLLM, по словам разработчиков, до 10 раз быстрее и дешевле существующих LLM.

Утверждается, что Mercury Coder способна обрабатывать более 1000 токенов в секунду на NVIDIA H100s. В отличие от традиционных LLM, dLLM не ограничены последовательным созданием текста, что позволяет им лучше рассуждать и структурировать ответы.

В бенчмарках на Copilot Arena Mercury Coder Mini занял 2 место, превзойдя GPT-4o Mini и Gemini-1.5-Flash. Inception Labs предлагает доступ к инференсу через API и on-premise развертывания, заявлена поддержка файнтюнинга. Попробовать можно бесплатно в плейграунде.
inceptionlabs.ai

✔️

Cloudflare на защите ИИ: релиз Guardrails в AI Gateway.

Cloudflare представила Guardrails в AI Gateway – решение, созданное, чтобы сделать использование ИИ более безопасным и предсказуемым. Инструмент выступает в роли "модератора", контролирующего взаимодействие пользователей с онлайн ИИ моделями OpenAI, Anthropic и DeepSeek.

Guardrails анализирует запросы пользователей и ответы моделей на предмет нежелательного контента, используя Llama Guard. Система может блокировать или помечать опасные запросы и ответы, обеспечивая соответствие нормативным требованиям и защиту от репутационных рисков.
blog.cloudflare.com

✔️

В плагине Material Theme для VS Code обнаружен вредоносный код.

Пользователи сообщества VS Code провели анализ и обнаружили, что Material Theme содержит вредоносный код, это подтвердили и эксперты по безопасности Microsoft, которые определили, что плагин содержит бэкдоры.

В настоящее время VS Code удалил плагин из маркета и попросил всех его пользователей немедленно деинсталлировать Material Theme из соображений безопасности. Разработчик плагина был заблокирован. Сообщений о возможном сборе данных и последствиях злонамеренного вторжения пока не поступало.
news.ycombinator.com

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍44❤9🥰1

13.1K views07:03

Machinelearning

⚡️Agentic Reward Modeling –свежий проект от THU-KEG, цель которого переосмыслить подход к обучению агентных систем.

Этот инструмент направлен на разработку методов вознаграждения, где агент не просто выполняет команды, а учится понимать свои действия в контексте более сложных задач и долгосрочных целей.

Основные особенности:

- Вместо стандартных методов RL, где вознаграждения зачастую зависят от заранее заданных критериев, здесь акцент сделан на выработку более сложных стратегий, адаптирующихся под изменяющуюся среду и цели.
- Инструмент помогает моделировать вознаграждения таким образом, чтобы агент мог самостоятельно корректировать свои действия, учиться на ошибках и, в итоге, демонстрировать более «человеческое» принятие решений.
- Разработчики могут использовать данный подход в многоагентных системах и комплексных задачах, где важна динамическая оценка эффективности действий.

Этот инструмент интересен не только своим теоретическим потенциалом, но и практическими применениями в области создания более автономных и интеллектуальных систем. Agentic Reward Modeling открывает новые возможности для исследования агентов, способных обучаться в реальном времени, что делает его перспективным для дальнейших исследований и интеграций в реальные приложения.

▪Paper: https://arxiv.org/abs/2502.19328
▪Code: https://github.com/THU-KEG/Agentic-Reward-Modeling

@ai_machinelearning_big_data

#ai #ml #opnesource #agents #aiagents

👍31❤10🔥5

14.2K views10:45

🌟 MatAnyone: модель для выделения по маске людей на видео.

MatAnyOne - memory-based модель для видео-маттинга, разработанная для получения стабильных и точных результатов в сценариях реального постпродакшена. В отличие от методов, требующих дополнительного аннотирования, MatAnyOne использует только кадры видео и маску сегментации целевого объекта, определенную на первом кадре.

MatAnyOne оперирует регионально-адаптивным слиянием памяти, где области с небольшими изменениями сохраняют данные из предыдущего кадра, а области с большими изменениями больше полагаются на информацию из текущего кадра. Такая техника позволяет MatAnyOne эффективно отслеживать целевой объект, даже в сложных и неоднозначных сценах, сохраняя при этом четкие границы и целые части переднего плана.

При создании модели применялась уникальная стратегия обучения, которая опирается на данные сегментации для улучшения стабильности выделения объекта. В отличие от распространенных практик, MatAnyOne использует эти данные непосредственно в той же ветви, что и данные маски. Это достигается путем применения регионально-специфичных потерь: пиксельная потеря для основных областей и улучшенная DDC-потеря для граничных областей.

Для обучения был специально создан кастомный набор данных VM800, который вдвое больше, разнообразнее и качественнее, чем VideoMatte240K, что по итогу значительно улучшило надежность обучения объектному выделению на видео.

В тестах MatAnyOne показал высокие результаты по сравнению с существующими методами как на синтетических, так и на реальных видео:

🟠На VideoMatte и YouTubeMatte, MatAnyOne - лучшие результаты по MAD (средняя абсолютная разница) и dtSSD (расстояние преобразования формы);

🟢В бенчмарке с реальными видео MatAnyOne достиг MAD 0.18, MSE 0.11 и dtSSD 0.95, что значительно лучше, чем у RVM10 (MAD 1.21, MSE 0.77, dtSSD 1.43) и MaGGIe12 (MAD 1.94, MSE 1.53, dtSSD 1.63.

⚠️ Согласно обсуждению в issues репозитория, MatAnyOne способен работать локально от 4 GB VRAM и выше с видео небольшой длительности. Реальных технических критериев разработчик не опубликовал.

▶️Локальная установка и запуск web-demo на Gradio:

# Clone Repo
git clone https://github.com/pq-yang/MatAnyone
cd MatAnyone

# Create Conda env and install dependencies
conda create -n matanyone python=3.8 -y
conda activate matanyone

pip install -e .

# Install python dependencies for gradio
pip3 install -r hugging_face/requirements.txt

# Launch the demo
python app.py