Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.8K subscribers
2.24K photos
111 videos
64 files
4.64K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
加入频道
⚙️ Подборка книг по машинному и глубокому обучению

🔵 Грокаем алгоритмы искусственного интеллекта, Харбанс Р.

Это отличный гид по современным методам и подходам в ИИ, написанный доступным языком и дополненный множеством иллюстраций и примеров. Автор, обладающий обширным опытом в разработке и обучении ИИ, наглядно объясняет сложные концепции, такие как машинное обучение и нейронные сети, используя практические примеры из реальной жизни. Вам понадобится только базовое знание алгебры, чтобы начать решать задачи ИИ, такие как распознавание мошенничества в банках или управление беспилотными автомобилями. Эта книга станет полезной для тех, кто хочет уверенно ориентироваться в мире искусственного интеллекта и применять алгоритмы на практике.

🔵 Грокаем глубокое обучение, Траск Э.

Это идеальный старт для тех, кто хочет освоить основы глубокого обучения и начать работать с нейронными сетями. Автор объясняет фундаментальные концепции ИИ через простые и доступные примеры, используя Python и библиотеку NumPy. Эта книга подойдёт даже тем, кто не имеет глубоких знаний в математике и программировании, но хочет научиться строить и обучать нейронные сети с нуля. В дополнение к этому, Траск затрагивает темы обработки естественного языка и федеративного обучения — технологии для работы с конфиденциальными данными.

🔵 Грокаем глубокое обучение с подкреплением, Моралес М.

Это практическое руководство по созданию агентов глубокого обучения, которые обучаются на основе взаимодействий с окружающей средой. Автор объясняет, как использовать такие методы, как обучение с подкреплением, чтобы создавать ИИ, способный принимать оптимальные решения в реальном времени. Основные темы книги включают разработку алгоритмов на Python и работу с библиотеками, что делает её полезной для начинающих разработчиков. Моралес показывает, как ИИ может применяться в играх, робототехнике и маркетинге, делая книгу актуальной для широкого круга читателей, интересующихся ИИ.

🔵 Грокаем машинное обучение, Серрано Л.

Это отличное введение в мир машинного обучения, ориентированное на читателей с базовыми знаниями Python и математики на уровне средней школы. Автор объясняет алгоритмы и принципы машинного обучения доступным языком, избегая сложного академического жаргона. В книге вы найдете множество примеров и проектов, таких как создание моделей для идентификации спама и распознавания изображений, что делает её практическим руководством для новичков. Серрано использует простой подход для объяснения сложных тем, что делает её полезной для тех, кто только начинает погружаться в мир машинного обучения и хочет быстро освоить основные концепции. Если вам интересно, как работают модели предсказаний и классификации данных, эта книга станет отличным стартом.

🛍 Промокод на скидку в 25%: proglib
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥43
🧑‍💻 Статьи для IT: как объяснять и распространять значимые идеи

Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.

Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.

Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.

👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.
🙌 Хардкорный вышмат для тех, кто интересуется ML, AI, DS

Начать с вводных занятий можно здесь, ответив всего на 4 вопроса – https://proglib.io/w/584771bd

Что будет на демо?

🔹Вводный урок от CPO курса;

🔹Лекции со всеми преподавателями МГУ по темам: теория множеств, непрерывность функции, основные формулы комбинаторики, матрицы и операции над ними, градиентный спуск;

🔹Практические задания и дополнительные материалы!

⚡️Переходите и активируйте – https://proglib.io/w/584771bd
Please open Telegram to view this post
VIEW IN TELEGRAM
🥱3😁21
rerankers_map.png
8 MB
✍️ Rerankers — API для различных моделей переранжирования

Для Information Retrieval часто используется двухэтапный подход. Сначала извлекается небольшой набор кандидатов-документов, а затем он же оценивается повторно более мощной моделью. Этот второй этап известен как переранжирование.

✔️ Rerankers упрощает использование моделей повторного ранжирования.

🔗 Ссылка на документацию проекта
🔗 Ссылка на репозиторий проекта
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2🥰2👍1😁1
💻🔍💼 Кризис IT-рынка: как джуны и кадровый голод меняют правила игры

В условиях нехватки опытных специалистов и наплыва джунов, IT-компании вынуждены искать нестандартные подходы к найму. Рассмотрим основные тренды и стратегии адаптации рынка.

Читать статью

#почитать
4
🐼Сложная агрегация в Pandas с MultiIndex

В новой статье на «Хабре» объясняется, как

▫️создать мультииндекс и управлять его уровнями;
▫️проводить агрегацию данных с его помощью;
▫️работать со срезами данных по уровням.

🔗 Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6😁1
#дайджест #DataInternship

Подборка стажировок недели для Data специалистов

▪️ Стажер Data Scientist, Логика ранжирования
Офис (Москва), Ozon Информационные технологии
Подробнее

▪️ Аналитик данных (стажер)
Офис (Иваново), CADesign
Подробнее

▪️ Стажёр Data Scientist
Удалёнка, R-One
Подробнее

▪️ Стажер в команду аналитики сервиса путешествий
Гибрид (Москва) / Удалёнка, Туту.ру
Подробнее

▪️ Data engineer
Гибрид (Москва) / Удалёнка, Группа компаний ФСК
Подробнее

Понравились предложения о стажировке?
❤️ — да
🤔 — нет
11👾1
Привет, друзья! 👋

Мы хотим обсудить важную тему — токсичность в среде разработчиков и значимость поддержки и наставничества. Нам интересно узнать ваше мнение и опыт! Поделитесь своими мыслями, и самые полезные советы мы включим в нашу статью. Вот несколько вопросов для вас:

🤔 Приходилось ли вам сталкиваться с токсичными коллегами на работе? Как вы справлялись с этой ситуацией?

🌟 Какие качества вы считаете важными для хорошего наставника в IT-сфере?

💡 Какие советы вы бы дали тем, кто хочет создать более поддерживающую и позитивную рабочую атмосферу?

Спасибо за ваше участие! Ваши ответы помогут сделать рабочую среду лучше для всех. 🚀
1
🤗 На Hugging Face теперь больше миллиона (!) загруженных моделей

Важная отметка была пробита в четверг. Как отметил генеральный директор Hugging Face Клеман Деланг, огромное количество моделей на платформе обусловлено её коллективным духом и практикой файн-тюнинга (то есть тонкой настройки существующих моделей под конкретные задачи).
🎉11🥰3🤩3👍1
🥷 Путь ML-самурая: от школьной математики до передового машинного обучения

В новой статье рассказываем, что именно нужно изучить, чтобы стать ML-специалистом. Начинаем с простого — базовой математики, — а заканчиваем многомерным анализом и нейросетями.

О том, как не потерять мотивацию в процессе обучения, тоже написали 🤝

👉 Читать статью
👍6
👆Политические координаты для ML-специалистов👆
Please open Telegram to view this post
VIEW IN TELEGRAM
😁17🥰3🔥2
🧑‍💻 Код-ревью для дата-сайентистов

Автор статьи делится своим опытом код-ревью и даёт полезные советы о том, как его проводить.

Что должен делать ревьюер? Если коротко, то:

▪️задавать вопросы по коду;
▪️идентифицировать вероятные проблемы в коде;
▪️предлагать способы улучшить код;
▪️не стесняться быть придирчивым.

👉 Подробнее читайте по этой ссылке
👏6
👆«Методы подгонки кривой и сообщения, которые они передают»👆

Авторство: xkcd
😁22👍1
😎 Советы, как стать отличным дата-сайентистом

На Reddit недавно открылось интересное обсуждение: один из пользователей попросил дать ему дельные советы о том, как стать хорошим специалистом. Вот что рассказали ему коллеги:

Всегда начинайте с простых моделей, и только при необходимости переходите к более сложным.

Изучайте свои данные (проводите EDA).

Если модель не работает, не бойтесь пробовать разные подходы и экспериментировать.

Учитывайте бизнес-кейс: следует знать контекст задачи, а не просто работать с данными.

Не забывайте про хорошую визуализацию. Важно хорошо понимать распределение целевых переменных.

Улучшайте свои навыки программирования. Специалисты отмечают важность понимания основ архитектуры ПО и умения писать поддерживаемый код.

Используйте LLM для идей, но не доверяйте им слепо.

💬 А что бы посоветовали вы?
👍6
🤖 Напоминаем, что у нас есть еженедельная email-рассылка, посвященная последним новостям и тенденциям в мире искусственного интеллекта.

В ней:
● Новости о прорывных исследованиях в области машинного обучения и нейросетей
● Материалы о применении ИИ в разных сферах
● Статьи об этических аспектах развития технологий
● Подборки лучших онлайн-курсов и лекций по машинному обучению
● Обзоры инструментов и библиотек для разработки нейронных сетей
● Ссылки на репозитории с открытым исходным кодом ИИ-проектов
● Фильмы, сериалы и книги

👉Подписаться👈
🎉3
🌟 На Kaggle появились новые ачивки

Теперь их существует два типа — awards и badges. Найти их можно в своём профиле.

💛 Awards выдают за достижения типа побед в специальных конкурсах, участия в особых мероприятиях и т.д. Весь список awards можно посмотреть здесь.

💛 Badges выдаются за более простые штуки. Например, за то, что вы опробовали разные фичи Kaggle. Весь список находится тут.
🤔2👾2🤩1
✍️ Полезные слайды про обучение LLM на синтетических данных

Это презентация исследователей из Google DeepMind. Они рассказывают о том, как использовать подход ReST-EM, то есть самообучение модели на сгенерированных данных, и как это влияет на способности LLM к рассуждению.

Слайды информативные и интересные. Смотреть здесь 👈
👍5
Forwarded from Библиотека программиста | программирование, кодинг, разработка
😮 SQL: от Тетриса до ИИ — неожиданные возможности языка баз данных

Долгое время SQL использовали лишь для запросов и изменения записей в базах данных — для полноценного программирования в привычном смысле слова он не подходил. Однако добавление рекурсивных общих табличных выражений (CTE) сделало SQL полным по Тьюрингу. Рекурсивные CTE состоят из двух частей:

• Нерекурсивная часть (базовый случай) — создает начальные данные.
• Рекурсивная часть — может выполняться много раз, каждый раз используя результат предыдущего шага.

Благодаря CTE на SQL можно при желании реализовать любой алгоритм. Энтузиасты уже сделали:

Визуализацию множества Мандельброта с помощью ASCII-графики.
3D-движок для рисования объемных фигур.
GPT на 500 строках SQL-кода. Подробная статья о реализации этого проекта опубликована здесь.
Трассировку лучей (это метод создания реалистичных изображений).

На прошлой неделе коллекция крутых SQL-проектов пополнилась еще одной интересной разработкой — версией «Тетриса».

Эта реализация демонстрирует несколько нестандартных SQL-техник, о которых стоит знать, даже если вы используете SQL только по прямому назначению:

Игровой цикл. В основе игры – рекурсивное общее табличное выражение (CTE). Оно создает бесконечный цикл, который инициализирует состояние игры, обновляет его на основе ввода пользователя и отрисовывает игру. Цикл продолжается, пока игра не закончится.
Вывод игры. Поскольку SQL-запрос обычно возвращает результат только после завершения, для отображения игры в реальном времени используется команда RAISE NOTICE. Эта команда выводит информацию в стандартный вывод, позволяя отображать игровое поле и другую информацию в процессе игры.
Пользовательский ввод. Обработка пользовательского ввода реализована через отдельную таблицу в базе данных. Эта таблица служит коммуникационной шиной между игрой и пользователем. Пользователь добавляет команды в эту таблицу, а игра их считывает.
Решение проблемы изоляции данных. Чтобы игра могла видеть новые команды, добавленные в таблицу ввода во время выполнения запроса, используется расширение dblink. Оно позволяет создавать новое подключение к базе данных с новым снимком данных, что дает возможность считывать самые последние команды пользователя.
Предотвращение кэширования. Чтобы PostgreSQL не кэшировал результаты запроса к таблице ввода, к запросу добавляется уникальный идентификатор итерации. Это заставляет базу данных выполнять запрос заново на каждой итерации игрового цикла.

Для управления состоянием игры и обработки игровых событий используются подзапросы и агрегатные функции.

• Подзапросы позволяют вычислить новое состояние игры после каждого хода, включая позицию фигуры, состояние поля, счет и т. д. К примеру, рекурсивный подзапрос используется для вычисления максимального количества линий, на которые может упасть текущая фигура.
• Агрегации применяются для подсчета очищенных линий, выбора фигуры с наименьшим рангом, обновления счета и уровня игры. Например, BOOL_OR() применяется для определения, есть ли хотя бы одно столкновение между фигурой и занятыми клетками на поле.

🔗 Подробнее читайте в статье
🔗 Зеркало
1👏41
🆕 Подборка новинок: Грокаем всё — безопасность, алгоритмы и конкурентность

🔵 Грокаем конкурентность

Книга поможет разобраться с параллельным выполнением программ без лишней математики и сложного жаргона. В ней представлены понятные объяснения и живые примеры, которые помогут эффективно использовать многоядерные системы и графические процессоры. Вы узнаете, как оптимизировать работу приложений, ускорить обработку данных и избежать типичных проблем, связанных с конкурентностью.

🔵 Грокаем алгоритмы. 2е издание

Это отличное руководство для тех, кто хочет научиться понимать и использовать алгоритмы без углубления в сложную математику. Благодаря дружелюбному стилю, множеству иллюстраций и пошаговым примерам на Python, книга поможет освоить такие темы, как сортировка, поиск, графы и даже основы машинного обучения. Второе издание также включает обновленные описания деревьев и NP-полных задач, а примеры кода адаптированы под Python 3.

🤫 Грокаем безопасность безопасность веб-приложений

Готовьтесь к взлому... но на стороне защиты. Скоро выходит новая книга, которая станет вашим главным союзником в мире веб-безопасности. Автор — Малколм Макдональд — делится уникальными советами и реальными примерами, которые помогут понять, как думают хакеры и как эффективно защитить свои проекты.

🛍 Промокод на скидку в 25%: proglib
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍4😁2