Big Data AI

🔥 Подборка для LLM Fine-Tuning

На GitHub собрали огромную коллекцию датасетов, тулзов и концептов для тонкой настройки LLM.

📂 Всё аккуратно разложено по категориям:
- 🧮 Math & Logic
- 💻 Code
- 💬 Conversation & Role-Play
- 🤖 Agent & Function Calling

⚖️ Все датасеты доступны под свободными лицензиями (Apache 2.0, MIT, CC-BY-4.0 и др.).

👉 Репозиторий: https://github.com/mlabonne/llm-datasets

❤3🔥2🥰2

1.32K views11:26

Big Data AI

AI-агенты вместо генеративок

Генеративные модели были лишь разминкой. Теперь на повестке системы, которые могут выполнять задачи сами: от покупки билетов до развёртывания облака. По сути — шаг к тому, чтобы ИИ стал полноценным участником рабочих процессов, а не просто генератором кода или контента.

В подкасте «Мы обречены» это обсуждают подробно: что уже умеют агенты, какие инструменты появляются и где ждать первых внедрений.

@bigdatai

YouTube

Готовься разрабатывать AI-агентов, скоро они будут везде — Артур Самигуллин — Мы обречены

Гость выпуска — Артур Самигуллин, руководитель продуктового ML-направления в Yandex Cloud

Конференция Yandex Neuro Scale соберёт IT-специалистов, чтобы обсудить всё важное в мире ML&AI, облаков, DevOps, безопасности и инфраструктуры. Эксперты расскажут,…

❤4💩1

1.4K views15:23

Big Data AI

Отличный курс для тех, кто хочет разобраться в нейронках с нуля от Андрея Карпати (OpenAI/Tesla).

Внутри бесплатная серия лекций на YouTube (и репа на GitHub), где ты с нуля учишься собирать нейронки. Всё максимально hands-on:

Автор не просто рассказывает теорию, а пишет код вместе с тобой — от самых азов до тренировки сетей.

https://github.com/karpathy/nn-zero-to-hero/

❤4🔥3👍2

1.26K views13:02

Big Data AI

Разработка сервиса с передовыми LLM-моделей в одном окне

Интересный кейс на Хабре — red_mad_robot провели технологический эксперимент и сделали AI-сервис Daisy — с большинством ведущих LLM и кастомной нейросетью для генерации изображений под капотом. В материале подробный рассказ, как выстраивать AI-based UX и объединить разные модули в многоуровневую архитектуру, описана маршрутизация и логические слои сервиса.

Для безопасности и точности ответов в Daisy собрали собственный контент-фильтр, который анализирует смысл запроса, а не просто ключевые слова. С учетом ложных срабатываний точность фильтра составила 87%.

📎 Читайте кейс полностью на Хабре: https://habr.com/ru/companies/redmadrobot/articles/941398/

❤4

652 views12:03

Big Data AI

FineVision — огромный open-source датасет для обучения современных Vision-Language моделей!

В цифрах это выглядит так:

🖼 17.3M изображений
📦 24.3M сэмплов
💬 88.9M диалоговых шагов
🔡 9.5B токенов ответов

✨ Несколько интересных находок из датасета:

Разнообразие доменов: от повседневных фото до сложных технических изображений.

Многоступенчатые диалоги помогают моделям лучше понимать контекст.

Сильный фокус на качество аннотаций и баланс данных.

👉 FineVision открывает новые возможности для исследований и создания ещё более умных VLM-моделей

http://huggingface.co/spaces/HuggingFaceM4/FineVision

❤2👍1🔥1

547 views13:04

About

Blog

Apps

Platform