Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.8K subscribers
2.23K photos
111 videos
64 files
4.64K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
加入频道
🔥 Практические упражнения по машинному обучению

Автор YouTube-канала NeetCode сделал отличный ресурс для практики. Интерфейс похож на LeetCode, принцип решения задач тот же. Задачи разделены по уровням сложности. Вот несколько примеров:
🔸 Минимизируйте функцию с помощью градиентного спуска.
🔸 Напишите нейросеть, которая будет распознавать чёрно-белые изображения рукописных цифр.
🔸 Напишите линейную регрессию, а также алгоритм её обучения.
🔸 Напишите механизм self-attention.

Мы уже сохранили себе ссылку, а вы?
🔥13😁1
😺🐙💡 Как сделать креативный профиль на GitHub

Расскажем, как представить свои навыки, опыт и пет-проекты так, чтобы на профиль обращали внимание потенциальные работодатели и единомышленники.

👉 Читать статью
👉 Зеркало
😁12🔥2
💬 Как нестандартно войти в АйТи

Многие IT-специалисты приходят в эту сферу нестандартным путём — кто-то начинал как самоучка, а кто-то стал программистом случайно. У вас тоже был необычный старт карьеры в IT?

👉 Расскажите нам свою историю! Ваш опыт может вдохновить тех, кто мечтает о переменах, но пока не решается начать.
😁4👍2
🧑‍💻 Статьи для IT: как объяснять и распространять значимые идеи

Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.

Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.

Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.

👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.
🩷 Сделали для вас валентинки 🩷

Сегодня День святого Валентина, и это отличный повод признаться или напомнить кому-то о своих чувствах!
23😁7🔥4😢1
💸 Рост или падение? Изменение зарплат в IT за 2023 год

Чтобы разобраться в этом вопросе, «Библиотека программиста» решила провести опрос среди читателей издания. Мы хотим понять, выросли ли ваши зарплаты в 2023 году и если да, то на сколько процентов. Или может быть наоборот — ваши доходы снизились на фоне кризисных явлений в экономике?

Примите участие в нашем коротком опросе и поделитесь своим мнением! Вместе мы проанализируем текущую ситуацию на рынке труда в IT-сфере и поймем, что ждёт эту отрасль дальше. Ждём ваших ответов!

Опрос займёт у вас примерно 4 минуты.

👉 Ссылка на опрос
🔥2😁2
⚙️ StreamingLLM — новый способ улучшить производительность чат-ботов в длинных диалогах

Многие языковые модели используют key-value кэш в качестве диалоговой памяти. Однако когда этот кэш переполняется, первые куски информации (токены) исчезают, что приводит к снижению производительности.

✔️ Исследователи нашли способ решить эту проблему. Оказалось, что если сохранять в кэше хотя бы первый токен, производительность модели страдает не так сильно.

Авторы статьи увидели интересное явление: удивительно большое количество оценок внимания распределяется на начальные токены, независимо от их релевантности к задаче. Эти токены назвали «приёмниками внимания». Эта особенность связана с операцией Softmax, которая требует, чтобы сумма оценок внимания для всех контекстуальных токенов составляла единицу. Таким образом, даже когда текущий запрос не имеет сильного совпадения со многими предыдущими токенами, модели всё равно нужно куда-то распределить значения attention.

⭐️ Исследователи заметили, что наличие четырех токенов-приёмников внимания в начале кэша приводит к оптимальной производительности. Также они обнаружили, что позиционное кодирование каждого токена должно оставаться без изменений, даже если были добавлены новые токены и «выкинуты» старые. Сочетание этих двух идей позволило StreamingLLM поддерживать непрерывный диалог с пользователем.

🔗 Ссылка на статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍95❤‍🔥2
🤗 Gradio Notebook — привычные блокноты для генеративного ИИ

Это кастомный Gradio компонент, который позволяет встраивать UX блокнотов в Hugging Face Spaces. Облегчает процесс демонстрации ML-моделей для разных задач.

Пользоваться Gradio Notebook легко:
🔸имеет отдельные ячейки, которые настраиваются под конкретную задачу и промпт.
🔸можно выбрать любую модель на Hugging Face или загрузить свою.

🔗 Ссылка на шаблон Gradio Notebook
🔗 Ссылка на документацию
42👍1
🤔 Остаться или уйти? Оптимальный срок работы на одном месте

Вы любите свою работу, интересные проекты вам гарантированы, зарплата повышается каждый год. Но вот уже 5 лет вы трудитесь в одной и той же компании. Не пора ли что-то изменить, пока мотивация окончательно не улетучилась?

Многие опытные айтишники сталкиваются с такой дилеммой. С одной стороны, текущее место работы устраивает. С другой — хочется разнообразия, новых задач и знаний.

Должен ли современный IT-специалист менять работу чаще, чем раз в 5 лет? Или лучше наращивать экспертизу в рамках одной компании? А может дело совсем не в сроках, а в качестве задач и развитии карьеры?

👉 Расскажите о своём опыте в нашем новом опросе 👈
👍3🤔2
Media is too big
VIEW IN TELEGRAM
🪄 OpenAI выпустила модель для генерации видео по тексту

Новую text-to-video модель назвали Sora. Она способна создавать видеоролики длительностью до минуты.

⭐️ Пока Sora доступна только особым командам, которые будут её оценивать, и небольшому кругу тестировщиков.

🦄 Прикреплённое к посту видео получилось из промпта:
A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.


🔗 Посмотреть на другие примеры генераций можно по этой ссылке
🔥11👍4❤‍🔥3
👀 Итоги недели в мире ИИ и обзоры новых сервисов

У нас вышла интересная статья на 📰 по мотивам еженедельной рассылки про последние новости и тенденции в мире ИИ.

Ниже — небольшая подборка, а целиком читайте здесь 👈

💬Новости

▫️ Исследователи Стэнфордского университета обнаружили, что чат-боты склонны делать выбор в пользу насилия и ядерных ударов в военных играх.
▫️Разработчики приложения для знакомств Bumble протестировали новую AI-функцию Deception Detector, которая автоматически заблокировала 95% мошеннических аккаунтов.
▫️Google создала MobileDiffusion — мини-модель для супербыстрой генерации изображений на смартфонах.

🛠 Инструменты

▫️UserSketch — создаёт чат-бота на основе единой базы знаний с данными, собранными из любых документов, почты, мессенджеров, приложений для управления проектами и организации бизнес-процессов.
▫️Ytube AI — превращает YouTube-видео в SEO-оптимизированные статьи.
▫️ThreadScribe.ai — превращает сообщения из Slack в структурированную базу знаний, которой можно задавать любые вопросы и получать инсайты.
▫️Fooocus — бесплатная опенсорсная альтернатива Midjourney. Устанавливается локально.

⚙️ Сделай сам

Google выпустила инструмент localllm для запуска LLM локально или в облаке, на CPU вместо GPU. Подробный туториал по установке и настройке localllm — в блоге разработчиков.

🎓 Исследования

Исследователи из Технологического института Джорджии представили PokéLLMon. Возможности этого ИИ-агента сопоставимы с человеческими — он уже выиграл 56% боев против людей. Авторы также нашли способ избавиться от галлюцинаций и решили проблему панического переключения, когда при столкновении с сильным противником агент начинал хаотично переключаться между покемонами.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10❤‍🔥21
🎨 OpenAI запустила форум для разработчиков ИИ

Вы спросите, и что в этом такого? Но дело в том, что это не совсем обычный форум. Участие в нём подразумевает:
▪️живые встречи для обсуждения технических деталей,
▪️образовательные вебинары,
▪️экспертные круглые столы,
▪️неформальные встречи.

Во всём этом будут активно участвовать исследователи OpenAI.

Также членство в форуме позволит поучаствовать в платных активностях, которые напрямую связаны с работой над моделями стартапа. Можно будет, например, заняться их оценкой.

Что нужно, чтобы стать участником форума:
✔️продемонстрировать интерес к искусственному интеллекту,
✔️найти час времени за квартал для участия в активностях,
✔️показать экспертность в вашей профессиональной области или экономической дисциплине.

🔗 Подать заявку можно по этой ссылке
Please open Telegram to view this post
VIEW IN TELEGRAM
9
🐍 Итоги недели в мире Python и обзоры новых инструментов

У нас есть еженедельная рассылка о последних открытиях и тенденциях в мире Python. Мы опубликовали один из свежих выпусков на 📰.

Ниже — небольшая подборка, а целиком читайте здесь 👈

🔎 Поисковик на 80 строках кода

Публикация рассказывает, как сделать базовую поисковую систему буквально на 80 строках Python-кода. Автор реализовал все основные компоненты поисковика: краулер, инвертированный индекс, ранжировщик и интерфейс.

⭐️ Полезные библиотеки

▪️Web2PDF – CLI-инструмент для конвертации веб-страниц (по URL) в PDF-файлы.
▪️Rexi – инструмент для работы с регулярными выражениями в терминале.
▪️Django HTMX Components – набор готовых компонентов, которые можно скопировать и вставить в Django-приложение.

🕹 Управление зависимостями

Туториал, который рассказывает, как начать пользоваться Poetry.

🔥 Интересные проекты

▪️«Гарри Поттер и движок Elasticsearch» — это семантическая поисковая система на основе векторной базы данных с информацией о вселенной Гарри Поттера.
▪️Чат-бот, имитирующий стиль Эминема.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥43🥰21
🎓 Метод градиентного спуска: обзор модификаций

Градиентный спуск — это наиболее распространённый метод оптимизации, используемый в машинном обучении. Он предназначен для минимизации функции потерь, позволяя тем самым модели обучаться и постепенно улучшая её предсказательную способность.

Классический градиентный спуск может быть неэффективен в некоторых случаях. Поэтому существуют его разные модификации.

1️⃣Стохастический градиентный спуск (SGD)
В этой модификации мы подменяем вычисление градиента по всей выборке вычислением по случайной подвыборке. Подвыборку часто называют (мини) батчем. Для вычисления можно использовать и вовсе только один элемент.

2️⃣Метод инерции (momentum)
Добавляет концепцию инерции в обновления параметров, позволяя «ускоряться» при спуске по направлению к минимуму. Это достигается за счёт комбинирования градиента на текущем шаге с градиентом предыдущих шагов.

3️⃣Адаптивный подбор размера шага
Есть, например, алгоритм Adagrad. Он позволяет динамически подбирать размер шага для каждой координаты по отдельности. Также есть RMSprop — улучшение Adagrad, направленное на решение его проблемы быстрого уменьшения скорости обучения. Он адаптирует скорость обучения путём не просто складывания нормы градиентов, а их усреднения в скользящем режиме.

4️⃣Adam (Adaptive Moment Estimation)
Сочетает в себе идеи моментума и RMSprop.
Please open Telegram to view this post
VIEW IN TELEGRAM
17👍8❤‍🔥1
🤖 Напоминаем, что у нас есть еженедельная email-рассылка, посвященная последним новостям и тенденциям в мире искусственного интеллекта.

В ней:
● Новости о прорывных исследованиях в области машинного обучения и нейросетей
● Материалы о применении ИИ в разных сферах
● Статьи об этических аспектах развития технологий
● Подборки лучших онлайн-курсов и лекций по машинному обучению
● Обзоры инструментов и библиотек для разработки нейронных сетей
● Ссылки на репозитории с открытым исходным кодом ИИ-проектов
● Фильмы, сериалы и книги

👉Подписаться👈
🤩1