289K subscribers
3.97K photos
694 videos
17 files
4.56K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
加入频道
🚀Только что выпущено новое семейство моделей генерации кода Salesforce (SFR-Embedding-Code), занявшее 1-е место на бенчмарке CoIR!

Модель доступна в в 2-х размерах: 2B, 400M.

Основные характеристики:
1️⃣ Модель 2B: Занимает первое место в CoIR.
2️⃣ Модель 400M: демонстрирует лучшие показатели среди моделей на 0,5B параметров.
3️⃣ Поддерживает 12 языков программирования, Python, Java, C++, JavaScript, C# и другие!

Пример Запуска:

import torch.nn.functional as F
from transformers import AutoTokenizer, AutoModel

# Each query needs to be accompanied by an corresponding instruction describing the task.
query_instruction_example = "Given Code or Text, retrieval relevant content"
queries = [
"how to implement quick sort in Python?"
]

# No instruction needed for retrieval passages
passages = [
"def quick_sort(arr):\n if len(arr) <= 1:\n return arr\n pivot = arr[len(arr) // 2]\n left = [x for x in arr if x < pivot]\n middle = [x for x in arr if x == pivot]\n right = [x for x in arr if x > pivot]\n return quick_sort(left) + middle + quick_sort(right)",
"def bubble_sort(arr):\n n = len(arr)\n for i in range(n):\n for j in range(0, n-i-1):\n if arr[j] > arr[j+1]:\n arr[j], arr[j+1] = arr[j+1], arr[j]\n return arr"
]

# load model with tokenizer
model = AutoModel.from_pretrained('Salesforce/SFR-Embedding-Code-2B_R', trust_remote_code=True)

# get the embeddings
max_length = 32768
query_embeddings = model.encode_queries(queries, instruction=query_instruction_example, max_length=max_length)
passage_embeddings = model.encode_corpus(passages, max_length=max_length)

# normalize embeddings
query_embeddings = F.normalize(query_embeddings, p=2, dim=1)
passage_embeddings = F.normalize(passage_embeddings, p=2, dim=1)

scores = (query_embeddings @ passage_embeddings.T) * 100
print(scores.tolist())



Документация
Модель 400M
Модель 2B


📌Лицензирование моделей: CC-BY-NC-SA-4.0 License.

@ai_machinelearning_big_data


#CodeAI #MLResearch #SOTA #OpenScience #code #llm #ml
39👍22🔥9
🖥 OpenAI готова представить сверхпродвинутого ИИ-агента на уровне кандидата наук.

Запланировал закрытый брифинг для официальных лиц правительства США в Вашингтоне 30 января, на котором выступит Сэм Альтман.

- Специалисты в области искусственного интеллекта считают, что грядет большой прорыв в создании суперагентов уровня PHD." ...

Журналисты заявляют, что - "Сотрудники OpenAI рассказывали друзьям, что они одновременно и восхищены, и напуганы столь быстрым прогрессом".

📌 Подробнее

PS: Хайп в Твиттере снова вышел из-под контроля.

"Мы не Выпусти ИИ уровня AGI в следующем месяце, да мы его и не создавали.

У нас есть для вас кое-что очень интересное, но, пожалуйста, опустите пенку своих ожиданий и сократите их в 100 раз! " - написал Сэм Альтман

@ai_machinelearning_big_data


#openai #chatgpt #aiagents
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍60🤔428🫡8🔥5😁4❤‍🔥3🤨3🗿2😨1
🚨Только что были выпущены веса для новой ризонинг модели DeepSeek-R1.

Модель 685B разработана чтобы конкурировать с o1 от OpenAI и построена на архитектуре на DeepSeek V3.

Вы можете потестить ее на 8 * H200.

Размер примерно ~720GB.

UPDATE
: эти гигачады выпустили сразу 6 моделей от 1.5B до 70B 🔥

DeepSeek-R1-Distill-Qwen-1.5B превосходит GPT-4o и Claude-3.5-Sonnet в математике, набрав 28,9% у AIMEE и 83,9%, стоимость примерно в 30 раз дешевле, чем o1 и примерно в 5 раз дешевле o1 mini.

🤗HF: https://huggingface.co/deepseek-ai/DeepSeek-R1/tree/main
📌Потестить: https://chat.deepseek.com/sign_in
🖥 GitHub: https://github.com/deepseek-ai/DeepSeek-R1

@ai_machinelearning_big_data



#DeepSeek #deepseekv3 #reasoning #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥45👍2810😁8👏2👾1
This media is not supported in your browser
VIEW IN TELEGRAM
🤗 Hugging Face не так давно выпустила собственную low-code библиотеку для просто создания ИИ- агентов ⚡️

Smolagents - это библиотека на 100% с открытым исходным кодом, которая позволяет запускать мощные агенты, используя всего три строки кода.

↳ Импортируйте необходимые модули.
↳ Выберите агента
↳ Укажите LLM и инструменты, к которым он должен получить доступ.
↳ Запустите агент!

Готово!

- Поддерживает более 40 LLM
- Предоставляет один общий доступ к инструментам HF Hub.
- CodeAgent, который создает код и документирует свои действия.

Установка:


pip install smolagents


Пример работы:

from smolagents import CodeAgent, DuckDuckGoSearchTool, HfApiModel

agent = CodeAgent(tools=[DuckDuckGoSearchTool()], model=HfApiModel())

agent.run("How many seconds would it take for a leopard at full speed to run through Pont des Arts?")


GitHub
Подробнее

@ai_machinelearning_big_data


#codegen #llm #huggingface #ai #Smolagents
👍82🔥2217
🧠 DeepSeek обнаружили, что у их новой модели был момент озарения, когда она сама для себя разработала продвинутую технику рассуждения.

Оказывается, вам просто нужно правильно стимулировать модель.

Читой воды обучение с подкреплением (RL) может научить модель думать и рефлексировать.

Мы возвращаемся в эпоху AlphaGo: играя в бесчисленные партии Go и максимально увеличивая функцию вознаграждения (выигрыш в игре), используя чистый RL, AlphaGo научился побеждать лучших игроков мира.

Похоже это будет эра LLM RL.

📕 Paper

@ai_machinelearning_big_data

#DeepSeek #deepseekr1 #reasoning #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥114👍2816🤔7🤣6😨3
👑 Вчера была выпущена еще одна интересная китайская опенсорс модель ризонинга.

Kimi представила Kimi k1.5 - мультимодальную модель, использующую обучение с подкреплением с длинной и короткой цепочкой размышления (CoT).

- Контекст 128 тыс. токенов

- Согласно их опубликованному отчету, они достигли производительности SOTA в таких тестах, как AIME (77,5), MATH-500 (96,2) и LiveCodeBench (47,3).

→ Производительность Long-CoT соответствует o1 в нескольких тестах: Math Vista, Codeforces и т.д)

- Модель превосходит GPT-4o и Claude Sonnet 3.5 на AIME

⚡️ Технический отчет: https://github.com/MoonshotAI/Kimi-k1.5

#llm #reasoning #ml #Kimi #preview
🔥46👍2192🤔1😐1💘1
⚡️Tencent выпустили новую версию модели для генерации 3D из текста и изображения - Hunyuan3D 2.0.

Hunyuan3D 2.0 - усовершенствованная система 3D-синтеза и генерации текстурированных 3D-объектов высокого разрешения.

Эта система включает в себя два основных компонента: модель генерации формы - Hunyuan3D-DiT и модель синтеза текстуры - Hunyuan3D-Paint.

Генеративная модель формы, построена на масштабируемом диффузионном трансформере, она нужна ​​для создания правильной геометрии объекта и отвечает за согласование генерации.

Модель синтеза текстур создает карты текстур высокого разрешения для сгенерированных или созданных вручную сеток.

Модель превосходит предыдущие модели, как с открытым кодом, так и платные модели по детализации, геометрии, качеству текстур и т. д.

GitHub
HF
Demo

@ai_machinelearning_big_data


#AI #ML #TextTo3D #ImgTo3D #Hunyuan3D #Tencent #3dgenerator
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍47🔥1311😁4👏2
💵Трамп сегодня ​​представит масштабный план по развитию инфраструктуры ИИ.

CBS сообщает, что он включает возвращение проекта Stargate.

OpenAI, Softbank и Oracle планируют инвестировать $500 млрд в течение следующих четырех лет.

Целью
инвестиций является поддержка лидерства США в сфере искусственного интеллекта. Ожидается, что официальный анонс проекта состоится в скором времени.

На данный момент Соединённые Штаты удерживают лидирующие позиции благодаря таким компаниям, как OpenAI, Anthropic и Microsoft.

Но Китай активно наращивает свои позиции, ежемесячно выпуская новые модели, которые работают не менее эффективно, но с большей скоростью и меньшими затратами.

В рамках инициативы Stargate планируется строительство нескольких гигантских дата-центров, причем первый из них будет открыт в штате Техас.

Оставшиеся ресурсы будут направлены на создание и обучение новых моделей ИИ.

AGI появится раньше, чем мы все ожидаем, а нас ждет настоящая гонка вооружений и ещё более стремительное развитие ИИ.

▪️Новость

@ai_machinelearning_big_data

#ai #news
Please open Telegram to view this post
VIEW IN TELEGRAM
👍103🔥2516🤔14👾8💘1
🌟 Google только что обновили Gemini 2.0 Flash Thinking

Контекст с 1 миллионом токенов (5-х больше, чем o1 Pro)

#1 на арене чат-ботов
👑

Модель показала наивысший результат, обогнав Gemini-Exp-1206

+ 17 очков прироста по сравнению с предыдущей контрольной точкой 1219

- №1 по всем направлениям (генерации кода), за исключением управления стилем.

• AIME: 73.3%
• GPQA: 74.2%
• MMMU: 75.4%

Модель доступна в ai-gradio

pip install --upgrade "ai-gradio[gemini]"

https://aistudio.google.com/prompts/new_chat?model=gemini-2.0-flash-thinking-exp-01-21

@ai_machinelearning_big_data

#google #gemini
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥51👍2412🙈3
🧠Миграция парсера YQL с ANTLR3 на ANTLR4

Выпускник ШАда рассказал, как перевёл парсер YQL с ANTLR3 на ANTLR4.

🔥Почему это важно?

Новый парсер открыл возможности для автодополнения, синтаксической подсветки и генерации парсеров на Go, TypeScript и C++.
Решение задачи упростило поддержку YDB и расширило его функционал.

⚙️ Ключевые моменты:
- Миграция потребовала глубокого изучения работы ANTLR3, ANTLR4 и структуры парсинга в YDB
- В процессе пришлось адаптировать систему парсинга, которая использует protobuf для описания синтаксического дерева.

В итоге удалось внедрить решение, сохранив стабильность системы.

📌 Читайте подробности о процессе, нюансах ANTLR и реализации парсинга в YQL в статье на Хабре.

@ai_machinelearning_big_data
👍208🔥7😁2