Big Data AI
16.8K subscribers
855 photos
99 videos
19 files
850 links
@haarrp - админ

Вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейроннным сетям

@data_analysis_ml - анализ данных

@ai_machinelearning_big_data

@itchannels_telegram - важное для программиста

РКН: clck.ru/3Fmqxe
加入频道
🔥 Подборка для LLM Fine-Tuning

На GitHub собрали огромную коллекцию датасетов, тулзов и концептов для тонкой настройки LLM.

📂 Всё аккуратно разложено по категориям:
- 🧮 Math & Logic
- 💻 Code
- 💬 Conversation & Role-Play
- 🤖 Agent & Function Calling

⚖️ Все датасеты доступны под свободными лицензиями (Apache 2.0, MIT, CC-BY-4.0 и др.).

👉 Репозиторий: https://github.com/mlabonne/llm-datasets
3🔥2🥰2
AI-агенты вместо генеративок

Генеративные модели были лишь разминкой. Теперь на повестке системы, которые могут выполнять задачи сами: от покупки билетов до развёртывания облака. По сути — шаг к тому, чтобы ИИ стал полноценным участником рабочих процессов, а не просто генератором кода или контента.

В подкасте «Мы обречены» это обсуждают подробно: что уже умеют агенты, какие инструменты появляются и где ждать первых внедрений.

@bigdatai
4💩1
Отличный курс для тех, кто хочет разобраться в нейронках с нуля от Андрея Карпати (OpenAI/Tesla).

Внутри бесплатная серия лекций на YouTube (и репа на GitHub), где ты с нуля учишься собирать нейронки. Всё максимально hands-on:

Автор не просто рассказывает теорию, а пишет код вместе с тобой — от самых азов до тренировки сетей.

https://github.com/karpathy/nn-zero-to-hero/
4🔥3👍2
Разработка сервиса с передовыми LLM-моделей в одном окне

Интересный кейс на Хабре — red_mad_robot провели технологический эксперимент и сделали AI-сервис Daisy — с большинством ведущих LLM и кастомной нейросетью для генерации изображений под капотом. В материале подробный рассказ, как выстраивать AI-based UX и объединить разные модули в многоуровневую архитектуру, описана маршрутизация и логические слои сервиса.

Для безопасности и точности ответов в Daisy собрали собственный контент-фильтр, который анализирует смысл запроса, а не просто ключевые слова. С учетом ложных срабатываний точность фильтра составила 87%.

📎 Читайте кейс полностью на Хабре: https://habr.com/ru/companies/redmadrobot/articles/941398/
4
FineVision — огромный open-source датасет для обучения современных Vision-Language моделей!

В цифрах это выглядит так:

🖼 17.3M изображений
📦 24.3M сэмплов
💬 88.9M диалоговых шагов
🔡 9.5B токенов ответов

Несколько интересных находок из датасета:

Разнообразие доменов: от повседневных фото до сложных технических изображений.

Многоступенчатые диалоги помогают моделям лучше понимать контекст.

Сильный фокус на качество аннотаций и баланс данных.

👉 FineVision открывает новые возможности для исследований и создания ещё более умных VLM-моделей

http://huggingface.co/spaces/HuggingFaceM4/FineVision
2👍1🔥1