Анализ данных (Data analysis)
46.4K subscribers
2.39K photos
280 videos
1 file
2.1K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
加入频道
Forwarded from Machinelearning
🔟 Open‑source Deep Research Assistants 🤖

Глубокие исследовательские агент
ы — не просто чат‑боты, а полноценные ИИ‑ассистенты, способные искать информацию, взаимодействовать с инструментами, планировать и писать отчёты. Ниже — 10 мощных open‑source проектов, которые уже можно протестировать:

1. DeerFlow — модульная система от Bytedance: DeerFlow — open‑source фреймворк от Bytedance для создания модульных LLM-агентов.
Поддерживает:
- планирование действий,
- анализ кода,
- генерацию отчётов (включая Text-to-Speech),
- адаптивную интеграцию инструментов.
Создан для исследований, автоматизации и построения сложных агентных пайплайнов.
https://github.com/bytedance/deer-flow

2. Alita — самообучающийся агент с поддержкой Model Context Protocols (MCP), всё в одном модуле. Alita — агент, который сам придумывает, как ему расширить себя, не полагаясь на заранее написанные сценарии, и уже демонстрирует топовые результаты на сложных тестах.
https://github.com/CharlesQ9/Alita

3. WebThinker — автономный веб‑поиск с логикой "думай‑ищи‑пиши", RL‑обучением и глубокой навигацией
https://github.com/RUC-NLPIR/WebThinker

4. SimpleDeepSearcher — это лёгкий, но эффективный open‑source фреймворк от RUCAIBox, предназначенный для автономного веб-поиска через импровизированные многотуровые сессии:

- Использует Supervised Fine‑Tuning (SFT) вместо сложного RL, что значительно упрощает обучение и снижает вычислительные затраты
- Генерирует реалистичные траектории поиска и рассуждений, симулируя поведение пользователя в живом поисковом окружении .
- Критически отбирает данные по нескольким критериям качества: разнообразие запросов, сложность, структура ответов

5. AgenticSeek — приватный on‑device ассистент с выбором эксперта под задачу и голосовым управлением
https://github.com/Fosowl/agenticSeek

6. Suna — универсальный ассистент: браузер, CLI, работа с файлами, API, деплой
https://github.com/kortix-ai/suna

7. DeepResearcher — это комплексный open-source фреймворк от GAIR‑NLP, предназначенный для обучения LLM‑агентов, способных проводить глубокие исследования в автономном режиме, взаимодействуя с вебом. Использует несколько агентов‑браузеров, которые совместно исследуют веб и обрабатывают информацию
https://github.com/GAIR-NLP/DeepResearcher

8. Search‑R1 — агент на PPO/GRPO с поддержкой LLaMA3, Qwen2.5 и кастомных поисковиков. Агент учится эффективному циклу «думай — ищи — думай — отвечай» через RL, достигая важных улучшений в точности ответов и эффективности поиска.
https://github.com/PeterGriffinJin/Search-R1

9. ReCall — это фреймворк на основе RL, который учит LLM "должным образом" вызывать и комбинировать инструменты, используя сгенерированные задачи, без необходимости вручную собирать примеры вызовов — и всё это в открытом доступе.
https://github.com/Agent-RL/ReCall

10. OWL — мультиагентная система на CAMEL‑AI для динамического взаимодействия между агентами
https://github.com/camel-ai/owl

Агенты умеют планировать, взаимодействовать с браузером, запускать скрипты, интегрироваться с API и работать автономно.

Всё проекты — с открытым кодом. Можно изучить, собрать и доработать под свои задачи.

@ai_machinelearning_big_data

#ml #rl #aiagents #ai #agents
Please open Telegram to view this post
VIEW IN TELEGRAM
13👍6🔥3
🕸️ Chat4Data — расширение, которое превращает веб-скрапинг в диалог

Вместо кода и настроек — просто говоришь, что хочешь, и AI собирает структурированные данные с сайта.

Что умеет Chat4Data:

🔹 Собирает данные “на слух”
Опиши нужную таблицу или список — AI сам найдёт, распарсит и вставит в таблицу. Не нравится результат? Переспроси. Без кода, без боли.

🔹 Обходит все страницы сам
Автоматически кликает “Следующая”, грузит подгружаемые списки и собирает всё — без твоего участия.

🔹 Запускается за 3 клика
AI сам определяет, какие данные ценные, предлагает их — тебе остаётся только подтвердить. Быстро, как в Telegram-боте.

🔹 Не тратит токены на скрапинг
Анализ страницы — на AI, но сами данные забираются без токенов. В бета-версии дают 1 миллион токенов на другие задачи.

🔹 Скоро: скрапинг подстраниц, интерактив, интеграции...

📎 https://chat4data.ai

#ai #scraping #automation #nocode #tools
👍13🔥74
Media is too big
VIEW IN TELEGRAM
🎨🚀 Tencent представили Hunyuan3D-PolyGen — новый генеративный ИИ для 3D-моделей с высоким уровнем качества

С ходу выйдет из ИИ сразу готовые для пайплайна художников и игровых студий.

Что умеет:

Собственная autoregressive-сеть генерирует чистую, плотную сетку без артефактов
Сложная геометрия — способна выдавать более 10 000 полигонов с высокой детализацией и стабильной структурой
Гибкий экспорт — поддержка tri- и quad-мешей под разные пайплайны

🔥 Подходит для:
— геймдева
— цифрового арта
— быстрых 3д прототипов

ИИ, который реально умеет 3D.

👉 Попробовать (включайте автопереводчик)

@data_analysis_ml

#3d #Tencent #Hunyuan #genai #ai
17👍9🔥5🤯1
Google DeepMind расширяет линейку своих моделей Gemma

Представлены две новинки:

✔️ T5Gemma — новая жизнь для классической архитектуры encoder-decoder от Google DeepMind

Большинство современных LLM используют архитектуру *decoder-only*, но Google решила напомнить о силе классической схемы *encoder-decoder*, особенно эффективной в задачах вроде перевода, и QA.

Это новая линейка LLM, в которой уже обученные модели Gemma 2 (decoder-only) превращаются в мощные encoder-decoder через метод адаптации. Такой подход даёт сразу два бонуса:
- сохранение знаний из Gemma 2;
- гибкость и эффективность encoder-decoder архитектуры.

Особенности:
- Обновлённая версия Gemma 2 с архитектурой encoder-decoder.
- Отличный баланс между качеством и скоростью инференса (по сравнению с decoder-only).
- Доступны чекпойнты: Small, Base, Large, XL, 2B-2B, 9B-9B, 9B-2B.
- Достигает большей точности, не жертвуя временем инференса.
- Открывает путь к “небалансным” конфигурациям, когда, например, энкодер мощный, а декодер компактный.


✔️ MedGemma — открытые мультимодальные модели для медицины от Google DeepMind


🟡 MedGemma 4B Multimodal
- 64.4% на MedQA — одна из лучших моделей в классе <8B.
- В слепом тесте: 81% отчётов по рентгенам, сгенерированных MedGemma 4B, были признаны квалифицированным рентгенологом достаточно точными для принятия медицинских решений.
- Также показывает SOTA-уровень на задачах медицинской классификации изображений.

🟢 MedGemma 27B (Text + Multimodal)
- 87.7% точности на MedQA — почти как у DeepSeek R1, но в 10 раз дешевле по инференсу.
- Конкурирует с гораздо более крупными моделями на задачах:
- Определение диагноза;
- Интерпретация ЭМК (электронных медкарт);
- Комбинированное понимание текста и изображений.

Открытые модели — можно кастомизировать, дообучать и использовать локально.

🟡T5gemma: https://developers.googleblog.com/en/t5gemma/
🟡MedGemma: https://research.google/blog/medgemma-our-most-capable-open-models-for-health-ai-development/


#GoogleDeepMind #ai #ml #llm #med
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
9🔥5👍1
🍏 Apple всерьёз задумалась о покупке Mistral — Bloomberg / Марк Гурман

По информации Bloomberg, Apple серьёзно рассматривает покупку французского стартапа Mistral AI, чтобы наконец войти в ИИ-гонку.

Это очень поздний шаг — но он показывает, насколько сильно Apple отстала от OpenAI, Google и даже xAI.

Пока другие выкатывают публичные LLM, мультимодальные ассистенты и интеграции в поиске, Apple остаётся в роли наблюдателя.

📌 Почему это важно:
- Mistral — один из главных open-source игроков на рынке ИИ (выпускают мощные LLM и Mixture of Experts-модели)
- У Apple пока нет ни собственной модели, ни сильной стратегии в области ИИ
- Приобретение Mistral может стать экстренной попыткой догнать конкурентов

Если сделка состоится — это будет крупнейший AI-манёвр Apple за всё время.

#Apple #Mistral #AI #LLM #ГонкаИИ

@data_analysis_ml
👍146🔥4🤔4
🤖 Илон Маск: ИИ станет умнее любого человека — меньше чем за 2 года,
а умнее всего человечества вместе — меньше чем за 5 лет

По мнению Маска, у ИИ нет потолка — рост идёт экспоненциально, и конца этому тренду не видно.
Он прямо говорит: через несколько лет модели смогут выполнять работу целых корпораций, действуя как единая система.

📌 Почему это звучит серьёзно?
Потому что Dario Amodei, CEO Anthropic, говорит буквально то же самое — с теми же сроками.
Он ожидает, что к 2027 году появится суперинтеллект, способный управлять крупными компаниями как цифровой "мозг-конгломерат".

🔥 Если они правы — нас ждёт резкий сдвиг:
– ИИ перестаёт быть инструментом и становится экономическим субъектом
– Компании превращаются в оболочки для моделей
– Решения, стратегии, оптимизация — передаются системам ИИ
– Конкуренция меняется: человек против облачного суперинтеллекта с API

Мы приближаемся не просто к новой технологии —
а к новой форме разума, способной оперировать как корпорация, но быстрее, точнее и дешевле.

#AI #ElonMusk #Superintelligence #DarioAmodei #Anthropic #FutureOfWork #AGI

@data_analysis_ml
🤣2510👍8🤔5🔥4
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
✔️ Эмбеддинг-модель Gemini от Google стала общедоступной.

Google объявила о выходе в общий доступ модели для создания текстовых эмбеддингов - Gemini-Embedding-001. Она доступна разработчикам через Gemini API и Vertex AI. С момента своего экспериментального запуска модель стабильно занимает лидирующие позиции в бенчмарке MTEB и поддерживает более 100 языков.

Gemini Embedding использует технику Matryoshka Representation Learning. Она позволяет разработчикам гибко настраивать размерность выходных векторов, чтобы оптимизировать производительность и затраты на хранение. Максимальная длина входных данных составляет 2048 токенов.

Стоимость использования модели : $0.15 за 1 миллион входных токенов. Доступ к ней можно получить через Gemini API, а бесплатно протестировать - в Google AI Studio.
developers.googleblog.com

✔️ Лаборатория суперинтеллекта в компании Марка Цукерберга обсуждает отказ от open-source.

Недавно созданное подразделение по разработке AGI инициировало дискуссию о кардинальном изменении стратегии компании. Ключевая идея - отказаться от развития флагманской open-source модели Behemoth в пользу закрытой архитектуры, по аналогии с OpenAI и Google. Такой шаг стал бы серьезным философским сдвигом для компании, которая годами продвигала открытый код и завоевала признание разработчиков.

Обсуждения пока находятся на ранней стадии и требуют одобрения Марка Цукерберга. Однако сама дискуссия, начатая новой командой под руководством Александра Ванга, указывает на возможный стратегический разворот гиганта соцсетей.
nytimes.com

✔️ В Grok появились анимированные 3D-персонажи.

xAI начала развертывание новой функции «Companions» для чат-бота Grok в приложении для iOS. Обновление добавляет в интерфейс интерактивных трехмерных персонажей, цель которых - сделать общение более персонализированным и выйти за рамки текстовых ответов. На данный момент функция доступна платным подписчикам SuperGrok.

Пользователи могут выбрать одного из двух анимированных аватаров: аниме-девушку Ani или красную панду Bad Rudy. Включить их можно в меню настроек. В компании обещают позже добавить третьего персонажа.
Elon Mask в сети Х

✔️ Топовые немецкие ученые в области Med AI переехали работать в Китай.

Два выдающихся специалиста из Германии, Роланд Эйльс и Ирина Леманн, присоединились к Университету Фудань в Шанхае. Их работа была ключевой в создании атласа клеток поджелудочной железы человека и использовании ИИ для прогнозирования рисков заболеваний.

Эйльс - всемирно известный математик и биолог, руководивший крупными национальными исследовательскими проектами. Леманн - профессор в области эпигенетики, возглавлявшая несколько международных научных конференций. Супруги опубликовали более 1000 научных работ и имеют свыше 100 000 цитирований.

В Университете Фудань они присоединились к Институту интеллектуальной медицины и планируют создать совместную немецко-китайскую ИИ-лабораторию.
scmp.com

✔️ Perplexity будет дообучать модели Kimi.

Глава Perplexity Аравинд Шринивас рассказал о планах компании начать пост-тренинг моделей Kimi от Moonshot AI. Решение было принято после внутренних тестов, которые показали, что потенциал Kimi сопоставим с GPT-4 и Claude.

Решающим фактором стало превосходство Kimi K2 в бенчмарках на программирование. В частности, в тесте SWE-bench Verified она показала результат 65.8%, значительно опередив Claude с его 50.2%.

В Perplexity рассчитывают, что дальнейшее дообучение модели усилит ее агентные возможности.
CEO Perplexity сети X

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
110👍7🔥4
🔥 Бывший сотрудник OpenAI поделился откровенными впечатлениями о годе работы внутри одной из самых обсуждаемых компаний мира.

Он присоединился к команде в мае 2024, ушёл три недели назад — и решил написать личные размышления, пока всё ещё свежо в памяти.

Он подчёркивает:
никаких скандалов или внутренних конфликтов — просто желание снова что-то строить с нуля. Несмотря на это, он признаёт: сложно уйти с работы, где ты видишь рождение AGI своими глазами и участвуешь в запуске Codex.

Культура OpenAI — это хаос, скорость и независимость.

Компания за год выросла с 1000 до более чем 3000 сотрудников. Почти все руководители делают совершенно другую работу, чем пару лет назад. И всё внутри строится снизу вверх: roadmap’ов не было, а идеи рождались и запускались без бюрократии.

Всё общение происходит в Slack — никаких email, почти никакого планирования. Команды могут быть хаотичны и перегружены, но часто это работает: если идея крутая, люди просто начинают делать, и вокруг появляется команда.

Руководители не мешают, а помогают — особенно в исследовательских командах. Исследователь воспринимается как мини-руководитель: выбрал интересную задачу — вперёд. Главное — не «казаться», а «делать». Политика и презентации — не в цене. Лучшие идеи побеждают.

OpenAI умеет разворачиваться на ходу. Как только появляется новая информация, стратегия может кардинально поменяться — и в этом сила. Вдохновлённый атмосферой Segment, автор признаёт: OpenAI удалось сохранить эту гибкость даже при таком масштабе.

Закрытость — часть культуры.
Из-за огромного внимания общества и прессы компания крайне аккуратно делится информацией. Многое не анонсируется даже внутри. Но при этом она остаётся самой открытой из «больших AI-лабораторий»: модели попадают в API, доступны не только корпорациям, но и отдельным пользователям.

Внимание к реальным рискам (злоупотребления, манипуляции, self-harm) — важный фокус внутри. Хоть фундаментальные угрозы (в духе "intelligence explosion") тоже обсуждаются, упор в работе на конкретные и прикладные сценарии.

Технологически OpenAI — монорепозиторий на Python, немного Rust и Go. Всё крутится на Azure, но доверяют только 2–3 сервисам. Инфраструктура напоминает ранний Facebook: всё движется быстро, дублируется, много внутренней разработки и отсутствие строгих архитектурных комитетов.

Он отдельно отметил уникальность команды Codex, с которой провёл последние 3 месяца. За 7 недель (!) они с нуля запустили продукт: с контейнерным рантаймом, fine-tuning моделей, git-интеграцией и полноценным асинхронным агентом. В ночь перед запуском они сидели до 4 утра, а утром уже нажимали на кнопку.

Codex показал: будущее программирования будет похоже на общение с ассистентом, а не набор кода строка за строкой. С момента запуска Codex сгенерировал более 630 000 pull request’ов — это десятки тысяч на каждого инженера в команде.

Несмотря на скандалы в пресе — тысячи людей, искренне верящих, что строят нечто важное. OpenAI остаётся одной из самых амбициозных организаций в мире: не только чат, не только API, но и hardware, агенты, изображения — и это ещё не всё.

📌 Читать

@data_analysis_ml

#openai #ai #ml #llm #chatgpt
17👍10🔥6🥴1
This media is not supported in your browser
VIEW IN TELEGRAM
Не прошло и дня: эра 3D-вайфу на базе ИИ набирает обороты.

Первые open-source версии этого чуда уже на доступны на GitHub

https://github.com/Jackywine/Bella

@data_analysis_ml

#ai #ml
🔥128👍4😱3
🚀 Qwen3-Coder — новая мощная open-source модель от Alibaba для кодинга

Модель с архитектурой MoE:
- 480B параметров в общей сложности
- 35B активных параметров
- Контекст 256k, но легко масштабируется до 1M токенов

📈 Производительность:
- На уровне Claude 4 Sonnet
- Лучше или на уровне GPT-4.1 на многих задачах
- Обходит Kimi K2, DeepSeek V3 на ряде бенчмарков

🧩 Модель уже доступна:
- На HuggingFace — можно скачать и запускать
- В OpenRouter — $1/M токенов вход, $5/M выход
(в 3 раза дешевле Claude Sonnet: $3 и $15)

Попробовать бесплатно можно:
🟡Через чат: ttps://chat.qwen.ai/)
🟡GitHub link: https://github.com/QwenLM/qwen-code
🟡 Blog:https://qwenlm.github.io/blog/qwen3-coder/
🟡 Model: https://hf.co/Qwen/Qwen3-Coder-480B-A35B-Instruct

Qwen3-Coder — это просто одна из лучших моделей для программирования, которые мы когда-либо видели.

#qwen #ml #ai #llm #Alibaba

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥17👍107