Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🤗 Gradio Notebook — привычные блокноты для генеративного ИИ

Это кастомный Gradio компонент, который позволяет встраивать UX блокнотов в Hugging Face Spaces. Облегчает процесс демонстрации ML-моделей для разных задач.

Пользоваться Gradio Notebook легко:
🔸имеет отдельные ячейки, которые настраиваются под конкретную задачу и промпт.
🔸можно выбрать любую модель на Hugging Face или загрузить свою.

🔗 Ссылка на шаблон Gradio Notebook
🔗 Ссылка на документацию

❤4⚡2👍1

3.27K views11:05

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🤔 Остаться или уйти? Оптимальный срок работы на одном месте

Вы любите свою работу, интересные проекты вам гарантированы, зарплата повышается каждый год. Но вот уже 5 лет вы трудитесь в одной и той же компании. Не пора ли что-то изменить, пока мотивация окончательно не улетучилась?

Многие опытные айтишники сталкиваются с такой дилеммой. С одной стороны, текущее место работы устраивает. С другой — хочется разнообразия, новых задач и знаний.

Должен ли современный IT-специалист менять работу чаще, чем раз в 5 лет? Или лучше наращивать экспертизу в рамках одной компании? А может дело совсем не в сроках, а в качестве задач и развитии карьеры?

👉 Расскажите о своём опыте в нашем новом опросе 👈

👍3🤔2

11.4K views18:05

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

0:59

Media is too big

VIEW IN TELEGRAM

🪄 OpenAI выпустила модель для генерации видео по тексту

Новую text-to-video модель назвали Sora. Она способна создавать видеоролики длительностью до минуты.

⭐️ Пока Sora доступна только особым командам, которые будут её оценивать, и небольшому кругу тестировщиков.

🦄 Прикреплённое к посту видео получилось из промпта:

A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

🔗 Посмотреть на другие примеры генераций можно по этой ссылке

🔥11👍4❤‍🔥3

3.95K viewsedited 07:05

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

👀

Итоги недели в мире ИИ и обзоры новых сервисов

У нас вышла интересная статья на 📰 по мотивам еженедельной рассылки про последние новости и тенденции в мире ИИ.

Ниже — небольшая подборка, а целиком читайте здесь 👈

💬

Новости

▫️ Исследователи Стэнфордского университета обнаружили, что чат-боты склонны делать выбор в пользу насилия и ядерных ударов в военных играх.
▫️Разработчики приложения для знакомств Bumble протестировали новую AI-функцию Deception Detector, которая автоматически заблокировала 95% мошеннических аккаунтов.
▫️Google создала MobileDiffusion — мини-модель для супербыстрой генерации изображений на смартфонах.

🛠 Инструменты

▫️UserSketch — создаёт чат-бота на основе единой базы знаний с данными, собранными из любых документов, почты, мессенджеров, приложений для управления проектами и организации бизнес-процессов.
▫️Ytube AI — превращает YouTube-видео в SEO-оптимизированные статьи.
▫️ThreadScribe.ai — превращает сообщения из Slack в структурированную базу знаний, которой можно задавать любые вопросы и получать инсайты.
▫️Fooocus — бесплатная опенсорсная альтернатива Midjourney. Устанавливается локально.

⚙️

Сделай сам

Google выпустила инструмент localllm для запуска LLM локально или в облаке, на CPU вместо GPU. Подробный туториал по установке и настройке localllm — в блоге разработчиков.

🎓 Исследования

Исследователи из Технологического института Джорджии представили PokéLLMon. Возможности этого ИИ-агента сопоставимы с человеческими — он уже выиграл 56% боев против людей. Авторы также нашли способ избавиться от галлюцинаций и решили проблему панического переключения, когда при столкновении с сильным противником агент начинал хаотично переключаться между покемонами.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍10❤‍🔥2❤1

20K views18:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🎨

OpenAI запустила форум для разработчиков ИИ

Вы спросите, и что в этом такого? Но дело в том, что это не совсем обычный форум. Участие в нём подразумевает:
▪️живые встречи для обсуждения технических деталей,
▪️образовательные вебинары,
▪️экспертные круглые столы,
▪️неформальные встречи.

Во всём этом будут активно участвовать исследователи OpenAI.

Также членство в форуме позволит поучаствовать в платных активностях, которые напрямую связаны с работой над моделями стартапа. Можно будет, например, заняться их оценкой.

Что нужно, чтобы стать участником форума:
✔️продемонстрировать интерес к искусственному интеллекту,
✔️найти час времени за квартал для участия в активностях,
✔️показать экспертность в вашей профессиональной области или экономической дисциплине.

🔗 Подать заявку можно по этой ссылке

Please open Telegram to view this post

VIEW IN TELEGRAM

❤9

3.35K viewsedited 07:17

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека питониста | Python, Django, Flask

🐍

Итоги недели в мире Python и обзоры новых инструментов

У нас есть еженедельная рассылка о последних открытиях и тенденциях в мире Python. Мы опубликовали один из свежих выпусков на 📰.

Ниже — небольшая подборка, а целиком читайте здесь 👈

🔎 Поисковик на 80 строках кода

Публикация рассказывает, как сделать базовую поисковую систему буквально на 80 строках Python-кода. Автор реализовал все основные компоненты поисковика: краулер, инвертированный индекс, ранжировщик и интерфейс.

⭐️ Полезные библиотеки

▪️Web2PDF – CLI-инструмент для конвертации веб-страниц (по URL) в PDF-файлы.
▪️Rexi – инструмент для работы с регулярными выражениями в терминале.
▪️Django HTMX Components – набор готовых компонентов, которые можно скопировать и вставить в Django-приложение.

🕹 Управление зависимостями

Туториал, который рассказывает, как начать пользоваться Poetry.

🔥 Интересные проекты

▪️«Гарри Поттер и движок Elasticsearch» — это семантическая поисковая система на основе векторной базы данных с информацией о вселенной Гарри Поттера.
▪️Чат-бот, имитирующий стиль Эминема.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤‍🔥4⚡3🥰2❤1

2.63K views18:04

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

👨‍🍳 «Кулинарная книга» ИИ-приложений

На Hugging Face запустили опенсорсный проект AI Cookbook, который представляет собой коллекцию ноутбуков с решениями различных задач. Сейчас в «книге» есть следующие примеры:
🔸 Простой RAG для GitHub issues с помощью Hugging Face Zephyr и LangChain
🔸 Эмбеддинги данных для поиска сходства с помощью Hugging Face transformers, датасетов и FAISS
🔸 Файн-тюнинг Code LLM на единственном GPU
🔸 Оценка RAG с использованием синтетических данных и LLM в качестве судьи
🔸 Продвинутый RAG на документации HuggingFace с применением LangChain

🔗 Репозиторий проекта (вы тоже можете сделать пулл-реквест)

🔥9👍4⚡2

3.26K views07:06

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🎓

Метод градиентного спуска: обзор модификаций

Градиентный спуск — это наиболее распространённый метод оптимизации, используемый в машинном обучении. Он предназначен для минимизации функции потерь, позволяя тем самым модели обучаться и постепенно улучшая её предсказательную способность.

Классический градиентный спуск может быть неэффективен в некоторых случаях. Поэтому существуют его разные модификации.

1️⃣

Стохастический градиентный спуск (SGD)
В этой модификации мы подменяем вычисление градиента по всей выборке вычислением по случайной подвыборке. Подвыборку часто называют (мини) батчем. Для вычисления можно использовать и вовсе только один элемент.

2️⃣

Метод инерции (momentum)
Добавляет концепцию инерции в обновления параметров, позволяя «ускоряться» при спуске по направлению к минимуму. Это достигается за счёт комбинирования градиента на текущем шаге с градиентом предыдущих шагов.

3️⃣Адаптивный подбор размера шага
Есть, например, алгоритм Adagrad. Он позволяет динамически подбирать размер шага для каждой координаты по отдельности. Также есть RMSprop — улучшение Adagrad, направленное на решение его проблемы быстрого уменьшения скорости обучения. Он адаптирует скорость обучения путём не просто складывания нормы градиентов, а их усреднения в скользящем режиме.

4️⃣

Adam (Adaptive Moment Estimation)
Сочетает в себе идеи моментума и RMSprop.

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡17👍8❤‍🔥1

3.3K views18:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🤖 Напоминаем, что у нас есть еженедельная email-рассылка, посвященная последним новостям и тенденциям в мире искусственного интеллекта.

В ней:
● Новости о прорывных исследованиях в области машинного обучения и нейросетей
● Материалы о применении ИИ в разных сферах
● Статьи об этических аспектах развития технологий
● Подборки лучших онлайн-курсов и лекций по машинному обучению
● Обзоры инструментов и библиотек для разработки нейронных сетей
● Ссылки на репозитории с открытым исходным кодом ИИ-проектов
● Фильмы, сериалы и книги

👉Подписаться👈

🤩1

3.27K views06:04

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔢 Классные материалы по математике для машинного обучения

Это сайт авторов книги Mathematics for Machine Learning. Во-первых, сама книга доступна бесплатно. А во-вторых, в качестве приложения к ней даны упражнения и туториалы.

🔹 Математика за линейной регрессией
🔹 Метод главных компонент (PCA)
🔹 Модели гауссовой смеси

🔗 Репозиторий проекта на GitHub

👍8⚡2❤1

3.36K views07:14

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

📈 5 трендов в подборе ИТ-специалистов на 2024 год

Использование ИИ-алгоритмов становится трендом и в Human Resources. Такими инструментами пользуются и кандидаты, и работодатели.

🤖 Например, появляются Applicant tracking system (ATS) с ИИ, которые автоматизируют поиск и отбор кандидатов. А ещё есть Final Round AI — своеобразный помощник с искусственным интеллектом, который генерирует индивидуальные ответы на онлайн-интервью в режиме реального времени.

👉 О других трендах читайте в нашей новой статье 👈
🔗 Зеркало

⚡4

24.5K views18:05

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🎨 OpenAI обновила GPT-4 до декабря 2023 года

Это значит, что модель дообучили на данных вплоть до этой даты. Теперь, согласно документации, ситуация такова:

▫️gpt-4-0125-preview и gpt-4-turbo-preview — декабрь 2023
▫️gpt-4-1106-preview, gpt-4-vision-preview и gpt-4-1106-vision-preview — апрель 2023
▫️gpt-4, gpt-4-0613, gpt-4-32k и gpt-4-32k-0613 — сентябрь 2021

GPT-3.5 Turbo была обучена на данных до сентября 2021 года.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5🔥5⚡2

3.2K views07:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

👩‍💻 Подборка видео про собеседования на позицию дата-аналитика

Перед техническим интервью может быть полезно посмотреть ролики с mock-собеседованиями или разборами популярных вопросов. Мы подобрали некоторые видео, связанные с анализом данных.

🔹Junior аналитик данных | Собеседование | karpov.courses
🔹A/B-тесты с Валерием Бабушкиным | Собеседование | karpov.courses
🔹Собеседование на аналитика данных. Разбор ОТВЕТОВ на вопросы (Python, SQL, ТЕРВЕР, статистика)
🔹SQL interview questions and answers | Entry level data analyst interview
🔹Собеседование на продуктового аналитика (mock-интервью)

❤7⚡2👍1

3.55K views11:05

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

💬 Вопрос к дата-сайентистам и дата-аналитикам, которые пришли в профессию из гуманитарных направлений:

Есть ли у вас синдром самозванца?

❤️ — нет, я не чувствую неуверенности в своих навыках
👍 — иногда накатывает
👾 — мне постоянно кажется, что я полез куда-то, куда не должен был

#интерактив

👍47👾43❤10😁2💯1

3.03K views18:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔥 Делаем токенизатор с нуля вместе с Андреем Карпаты

Похоже, он ушёл из OpenAI, чтобы делать новые двухчасовые (да) лекции. На этот раз Карпаты подробно расскажет о том, как написать собственный токенизатор для GPT. Процесс создания этого инструмента — совершенно отдельный шаг в построении архитектуры языковой модели.

Некоторые таймкоды:

00:14:56 Строки в Python, кодовые точки Unicode
00:23:50 Алгоритм Byte Pair Encoding (BPE)
00:34:58 Обучение токенизатора: добавление цикла while, коэффициент сжатия
01:11:38 Библиотека Tiktoken, разница между GPT-2/GPT-4 regex
01:43:27 Как определиться со словарём? Повторное рассмотрение трансформера в gpt.py

🔗 Ссылка на видео
🔗 Репозиторий к лекции

👍9🔥3

3.32K viewsedited 07:16

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

✍️ Что такое Word2Vec

Word2Vec — это метод эффективного создания эмбеддингов, или векторных представлений текстовых данных. Основная идея Word2Vec заключается в том, что слова, появляющиеся в похожих контекстах, ближе друг к другу в векторном пространстве.

➡️ Есть две основные модели Word2Vec:
- CBOW (Continuous Bag of Words). Предсказывает текущее слово на основе контекста.
- Skip-Gram. Использует текущее слово для предсказания слов контекста.

🔗 Посмотреть визуализацию обучения Word2Vec можно по этой ссылке
🔗 Статья про Word2Vec

❤4👍3⚡2

3.28K views18:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🕸

🔥

Google представила лучшую опенсорсную модель Gemma

Похоже, что OpenAI осталась единственной компанией на рынке, у которой нет опенсорсной LLM.

Представлены две модели размером 2B и 7B. Обе они родственницы Gemini. Создатели использовали токенизатор на 260к токенов (!), что, как они утверждают, лишь небольшая часть полного токенизатора Gemini.

✔️ Gemma уже поддерживают различные фреймворки, в том числе Ollama и Keras.

По производительности 7B модель находится где-то на уровне Mistral 7b.

🔤Страница Gemma на Kaggle
🧡 Туториал в Колабе
🤗 Карточка модели на Hugging Face

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7🎉7❤3⚡1🤔1

3.5K views07:11

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

😈Рубрика: гадость дня

Как сломать дата-сайентиста? Скопируйте в его ноутбук такой код:

import tensorflow as plt
import pandas as tf
import numpy as np
import matplotlib.pyplot as np

Please open Telegram to view this post

VIEW IN TELEGRAM

😁44🥱12🌚2⚡1👍1🤩1

3.27K views11:04

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

Как строится финальная модель при использовании кросс-валидации?

Anonymous Quiz

Модель обучается только на данных из фолда, показавшего лучшие результаты на валидации

18%

Финальная модель — это ансамбль всех моделей, построенных во время каждого этапа кросс-валидации

34%

Кросс-валидация не предполагает построение финальной модели; она только оценивает производительность

42%

Модель обучается на всём наборе данных после выбора гиперпараметров по результатам кросс-валидации

⚡8🥰4

651 voters2.75K views18:32

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

💳 Классификация событий для обнаружения мошенничества с платёжными картами

На сайте Keras вышел новый туториал, который затрагивает классификацию на временных рядах. Создатель Keras Франуса Шолле говорит, что в индустрии сейчас не всё упирается в LLM — машинное обучение на временных рядах актуально как никогда.

В туториале рассматриваются основные шаги:

▫️Анализ данных и их подготовка к обучению.
▫️Создание датасета TensorFlow.
▫️Обучение модели (простая нейронная сеть).
▫️Оценка качества модели.

🔗 Ссылка на туториал

👍8⚡1

3.2K views07:16

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

📚 Подборка лучших новых книг для дата-сайентистов

Все они доступны для скачивания в нашем канале Книги для дата сайентистов | Data Science.

📗 Binary Neural Networks: Algorithms, Architectures, and Applications (2024)
Книга фокусируется на методах сжатия и ускорения свёрточных нейронных сетей (CNN).
📘 Python AI Programming: Navigating fundamentals of ML, deep learning, NLP, and reinforcement learning in practice (2024)
Даёт основы Python и рассказывает об интеграции с ИИ.
📙 Streamlit for Data Science: Create interactive data apps in Python (2024)
Простое и исчерпывающее руководство по созданию приложений для обработки данных с помощью Streamlit.
📕 Foundations of Machine Learning (2018)
Книга охватывает фундаментальные современные темы в области машинного обучения, предоставляя теоретическую основу и концептуальные инструменты, необходимые для обсуждения и обоснования алгоритмов.
📓 Principles of Data Science — Third Edition: A beginner's guide to essential math and coding skills for data fluency and machine learning (2024)
Даёт расширенную статистику, теорию вероятностей, математический анализ и модели для эффективного управления данными.

🎉4🤔2

3.49K views18:04

About

Blog

Apps

Platform