BigData
3.31K subscribers
754 photos
89 videos
3 files
835 links
Data Science : Big Data : Machine Learning : Deep Learning. По всем вопросам @evgenycarter
加入频道
Это приглашение на «быстрое свидание» с работой мечты в команде Сбера.

One Day Offer — самый короткий путь до оффера. Пройти собеседование и получить ответ в тот же день можно 16 и 17 июля по двум вакансиям: Data Engineer в ИТ-команду «Комплаенс» и Java Developer в ИТ-подразделение «Сеть продаж».

Как это работает?

Шаг 1. 16 июля или 17 июля (в зависимости от вакансии) подключитесь к онлайн-интервью.
Шаг 2. Получите предложение о работе, о которой мечтали, в тот же день.
Шаг 3. А дальше — вместе со своей командой разрабатывайте крутые и важные продукты Сбера.

Прочитать подробнее о вакансиях и отправить заявку на участие в One Day Offer можно здесь.
PracticalStatisticsforDataScientists50EssentialConceptsUsingRan.pdf
16 MB
Practical Statistics for Data Scientists

Practical Statistics for Data Scientists: 50+ Essential Concepts Using R and Python
Peter Bruce, Andrew Bruce, Peter Gedeck (2020)

Statistical methods are a key part of data science, yet few data scientists have formal statistical training. Courses and books on basic statistics rarely cover the topic from a data science perspective. The second edition of this popular guide adds comprehensive examples in Python, provides practical guidance on applying statistical methods to data science, tells you how to avoid their misuse, and gives you advice on what's important and what's not.

👉 @bigdata_1
👍3
GPT-2 в картинках (визуализация языковых моделей Трансформера)

В 2019 году мы стали свидетелями блистательного использования машинного обучения. Модель GPT-2 от OpenAI продемонстрировала впечатляющую способность писать связные и эмоциональные тексты, превосходящие наши представления о том, что могут генерировать современные языковые модели. GPT-2 не является какой-то особенно новой архитектурой – она очень напоминает Трансформер-Декодер (decoder-only Transformer). Отличие GPT-2 в том, что это поистине громадная языковая модель на основе Трансформера, обученная на внушительном наборе данных. В этой статье мы посмотрим на архитектуру модели, позволяющую добиться таких результатов: подробно рассмотрим слой внутреннего внимания (self-attention layer) и применение декодирующего Трансформера для задач, выходящих за рамки языкового моделирования.

👉 @bigdata_1
👍2
AI-Neural-Networks.pdf
7.7 MB
Шпаргалка по AI, Neural Networks, Machine Learning, Deep Learning и Big Data

👉 @bigdata_1
👍3
Вы все еще используете Pandas для обработки больших данных? Вот два лучших варианта

https://www.kdnuggets.com/2021/03/pandas-big-data-better-options.html

👉 @bigdata_1
Знаешь всё про Big Data?
С 5 по 7 августа SENSE Group проведёт онлайн-хакатон DATA HACK! А ГК «Иннотех» выступит партнёром битвы IT-умов.

Выполни задание одного из трёх кейсов хакатона и получи 100 000 рублей!

🗓 Даты хакатона: 5-7 августа 2022 года
📌 Дедлайн регистрации: 1 августа 23:59
👉 Регистрация: https://data-hack.ru

Одной из задач хакатона станет разработка статического анализатора Spark SQL-кода. Также среди испытаний:
— разработка генератора фейковых данных для сложных запросов;
— создание прототипа ETL-движка из Postgres, Oracle, ClickHouse в HDFS на Spark, который будет шаблонизирован через конфигурацию.

Призовой фонд — 300.000 рублей!

Подробности и регистрация: https://data-hack.ru
Media is too big
VIEW IN TELEGRAM
Grokking: оверфиттинг это ещё не конец (by OpenAI)

Все мы знаем, что если обучающих данных мало, то модель скорее всего заоверфиттится, запомнив весь датасет. Но оказалось, что если в этот момент не останавливать обучение и продолжать его даже при нулевой ошибке на трейне, то через какое-то время нейронка всё-таки научится обобщать.

У OpenAI таким образом удалось обучить небольшой трансформер решать уравнения, которые он никогда не видел! Грубо говоря, модель смогла заполнить пропущенные слоты в таблице умножения. При этом такая супер-обобщающая способность наступала гораздо позднее оверфиттинга, когда большинство из нас уже выкинули бы модель в помойку.

Похоже, что самую важную роль в этом эффекте играет weight decay, благодаря которому модель в конце-концов переходит от простого запоминания обучающих примеров к аналитическому решению задачи. Из интересных наблюдений — при визуализации эмбеддингов видны математические структуры, помогающие находить ответы.

Статья

👉 @bigdata_1
👍7
GANsformer: Generative Adversarial Transformers

Github: https://github.com/dorarad/gansformer

Paper: https://arxiv.org/abs/2103.01209v2

👉 @bigdata_1
👍2
Yolov5-face is a real-time,high accuracy face detection

Github: https://github.com/deepcam-cn/yolov5-face

Paper: https://arxiv.org/abs/2105.12931v1

👉 @bigdata_1
👍2
The Unreasonable Effectiveness of Deep Features as a Perceptual Metric

https://richzhang.github.io/PerceptualSimilarity/

👉 @bigdata_1
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️Рассказываем про альтернативу зарубежным облакам для ML-разработки⚡️
Лавры высокотехнологичной компании манят всех. Но разговоры о BigData, AI и ML становятся тише, когда на стол ложится смета на обновление инфраструктуры.

Платформа ML Space станет отличным местом для первых шагов в ML-разработке для компаний с любым уровнем погружения в AI, и вот почему:
1️⃣Полный цикл работ: от импорта данных и обучения модели до эксплуатации готового AI-сервиса.
2️⃣ Для обучения моделей доступны CPU и GPU-ресурсы, что ускоряет сроки разработки и приближает момент получения выгоды от AI на несколько месяцев.
3️⃣ Оплата pay-as-you-go исключает капитальные затраты и позволяет масштабировать ресурсы.
4️⃣ Платформа аттестована по УЗ-1, входит в Единый реестр российского ПО, имеет лицензии ФСТЭК и ФСБ, так что проблем с безопасностью не будет.
🔥Ну, и главный плюс — для знакомства вложений не требуется, достаточно зарегистрироваться как юрлицо и получить грант от 5 до 180 тысяч рублей.
📍Протестировать
This media is not supported in your browser
VIEW IN TELEGRAM
6DRepNet: 6D Rotation representation for unconstrained head pose estimation

Статейка о распознавании 3D позы головы в дикой природе. Основной трюк метода в "удобном для нейросети" 6D представлении матрицы поворота.

Есть репозиторий с кодом, весами и демкой для веб -камеры.

https://github.com/thohemp/6DRepNet


👉 @bigdata_1
👍2
You Only 👀 One Sequence

Rethinking Transformer in Vision through Object Detection

Github: https://paperswithcode.com/paper/you-only-look-at-one-sequence-rethinking

Dataset: https://paperswithcode.com/dataset/imagenet

Paper: https://arxiv.org/abs/2106.00666

👉 @bigdata_1
👍1
Приложения искусственного интеллекта: возможности и сферы применения

С помощью компьютерных технологий и программных кодов нам удалось достичь невозможного  —  создать подобие человеческого интеллекта. Теперь искусственный разум все глубже проникает в нашу повседневную жизнь. Поговорим о будущем ИИ и его колоссальном потенциале.

👉 @bigdata_1
😁1
А мы уже приступили к подготовке HighLoad++ 2022 в Москве (24 и 25 ноября)!

Чтобы сделать по-настоящему крутую конференцию, Программный комитет московского HighLoad++ приглашает вас на встречи с активистами и докладчиками. После долгого перерыва мы снова проводим такие встречи оффлайн!

- 4 августа в 19:00 встречаемся в Петербурге, в офисе Selectel, ул. Цветочная, д. 19. Зарегистрироваться на встречу: https://bx.vc/939ktb

- 9 августа в 19:00 ждём вас в Москве, в офисе Авито на ул. Лесной, д. 7 (15 этаж). Регистрация здесь: https://bx.vc/8kxoeb

- Что будем делать:

— Расскажем, куда движется HighLoad++ сейчас. Вспомним, что было: краткий обзор топовых докладов и тем, посещаемость, интересы аудитории.
— Вместе с вами устроим мозгоштурм. Наметим то, что сейчас важнее всего раскрыть в рамках HighLoad++ 2022 — темы, технологии, проблемы.
— Пообщаемся на сопряженные темы: обсудим идеи, запитчим доклады, подумаем «друг об друга».
— А ещё напитки, закуски и общение — все благодаря нашим добрым друзьям-хостам.