Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.8K subscribers
2.24K photos
111 videos
64 files
4.64K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
加入频道
🧡💛 Туториал по продвинутому использованию Google Colab

Автор туториала — один из инженеров машинного обучения Google. Он расскажет, как использовать:
▪️секреты;
▪️кастомные сниппеты;
▪️Colab AI;
▪️кастомные VM;
▪️kitty mode.

🔗 Ссылка на туториал
👍4🔥3
📊 SQL в Jupyter-ноутбуках

Инструмент JupySQL предлагает расширения к магической команде %%sql. Он позволяет:

▫️выполнять SQL-запросы непосредственно в Jupyter-ноутбуке;
▫️легко конвертировать результаты в датафреймы Pandas;
▫️удобно организовать большие SQL-запросы, разбивая их на управляемые части;
▫️строить графики из больших наборов данных с эффективным управлением памятью.

🔗 Ссылка на GitHub-репозиторий JupySQL
🔗 Ссылка на документацию
👍171👾1
📈 Стать аналитиком Big Data: пошаговое руководство 2024

Big Data — это наборы данных очень больших размеров, которые также характеризуются многообразием и высокой скоростью обновления. Аналитики больших данных находят и исследуют в них закономерности с помощью специальных программных средств.

В нашей обновлённой статье рассказываем, какие знания, онлайн-курсы, подкасты и книги помогут начать карьеру в сфере Big Data без специального образования🧑‍🎓

🔗 Читать статью
🔗 Зеркало
4
🎯 Как изменились бенчмарки в 2024 году

Автор Telegram-канала Kali Novskaya поделилась своими мыслями по поводу того, как изменилась процедура оценки языковых моделей. Она считает, что 5 привычных заповедей бенчмарков больше не соблюдаются. Это:

▫️Датасеты и бенчмарки всегда живут дольше, чем модели.
Теперь бенчмарки устаревают за месяц, нередко тесты оказываются в обучающей выборке.

▫️Тестовые сеты можно спокойно выкладывать в открытый доступ.
На самом деле, любые датасеты легко попадают в обучающую выборку, в том числе из-за массового сбора данных по сети.

▫️Новый датасет даёт более надёжный результат.
Это правило теперь работает не всегда — только в тех случаях, когда новый датасет составляется людьми с нуля.

▫️Разработчики моделей сами прогоняют свою модель и подбирают лучшие параметры.
Теперь разработчики, скорее, отдают контейнер организаторам лидерборда, чтобы те его его запустили и сравнили с другими. Поэтому перебор гиперпараметров сделать нельзя.

▫️Однократной оценки достаточно.
Современные модели стоит проверять чаще, так как они постоянно обновляются, а некоторые и вовсе используют информацию из сторонних источников.
👍2😢1
💻🚀💊 «Доктор Хаус»: ИИ-диагност в вашем телефоне. Передаём стартап в хорошие руки

В предыдущей части статьи инженер ПО рассказывал о том, как поучаствовал в хакатоне по созданию ИИ-стартапа. В новой части автор уделяет больше внимания итоговому продукту, а не процессу соревнования.

Продукт — это мобильное приложение Dr. House, ИИ-диагност, который может поставить предварительный диагноз. Внутри статьи также есть полная информация о проекте и ссылка на его исходный код.

🔗 Читать статью
🔗 Зеркало
😁4🔥3👍2👏1
🚀 Скоро выйдет NumPy 2.0

Это будет первое крупное обновление с 2006 года. Вот основные изменения:

▪️новый тип данных строк переменной длины — StringDType;
▪️поддержка float32 и longdouble во всех функциях numpy.fft;
▪️ускорение функций сортировки (sort, argsort, partition, argpartition);
▪️улучшение Python API;
▪️максимальное количество измерений массива изменено с 32 до 64;
▪️тип данных по умолчанию для целых чисел в Windows теперь int64, как и на других платформах.

🔗 Ссылка на сайт NumPy со всеми подробностями
🔥12
👨‍🎓️ 33 лучших вуза России для будущих программистов 2024-2025

Составили список из 33-х вузов, где вы научитесь думать как программист и получите фундаментальные знания в области математики, информатики, компьютерных наук и так далее. Для удобства вузы отсортированы по среднему проходному баллу ЕГЭ: от наибольшего к наименьшему.

🔗 Читать статью
🔗 Зеркало
😢5🤔21🥰1😁1
🤖 Напоминаем, что у нас есть еженедельная email-рассылка, посвященная последним новостям и тенденциям в мире искусственного интеллекта.

В ней:
● Новости о прорывных исследованиях в области машинного обучения и нейросетей
● Материалы о применении ИИ в разных сферах
● Статьи об этических аспектах развития технологий
● Подборки лучших онлайн-курсов и лекций по машинному обучению
● Обзоры инструментов и библиотек для разработки нейронных сетей
● Ссылки на репозитории с открытым исходным кодом ИИ-проектов
● Фильмы, сериалы и книги

👉Подписаться👈
📕 The Little Book of Deep Learning

Это маленькая книжка, которая может помочь подготовиться к собеседованию (или просто освежить знания).

Книга включает в себя:

▪️основы машинного обучения;
▪️эффективные вычисления (использование GPU и TPU);
▪️обучение моделей;
▪️компоненты моделей глубокого обучения;
▪️архитектуры моделей глубокого обучения;
▪️практические применения моделей DL.

🔗 Ссылка на книжку
👍5
💸📊 На сколько просели зарплаты в ИТ в 2024 году?

Благодаря открытым данным с сайта Хабр Карьера мы узнали, какие основные тенденции ждать в зарплатном секторе, и сколько получают ИТ-специалисты сейчас.

🤔 Например, в первом полугодии 2023 года в среднем джунам предлагали 80 тысяч рублей, а спустя год это число упало до 72,5 тысячи рублей.

👉 Остальные данные — в статье
👉 Зеркало
😢17🤔2👍1
📖 ТОП-10 книг о том, как правильно построить карьеру в IT

Хотите преуспеть в IT? Ознакомьтесь с нашим списком лучших книг, которые помогут вам выстроить успешную карьеру в этой динамичной отрасли!

Читать статью, чтобы ознакомиться со всеми книгами 👉 https://proglib.io/sh/glq68BCSKj
🔥3👾2