BigData

💬 How to Fine Tune BERT for Text Classification using Transformers in Python

https://www.thepythoncode.com/article/finetuning-bert-using-huggingface-transformers-python

Code: https://www.thepythoncode.com/code/finetuning-bert-using-huggingface-transformers-python

Dataset: https://scikit-learn.org/0.19/datasets/twenty_newsgroups.html

👉 @bigdata_1

👍1

852 views05:00

BigData

PracticalStatisticsforDataScientists50EssentialConceptsUsingRan.pdf

16 MB

Practical Statistics for Data Scientists

Practical Statistics for Data Scientists: 50+ Essential Concepts Using R and Python
Peter Bruce, Andrew Bruce, Peter Gedeck (2020)

Statistical methods are a key part of data science, yet few data scientists have formal statistical training. Courses and books on basic statistics rarely cover the topic from a data science perspective. The second edition of this popular guide adds comprehensive examples in Python, provides practical guidance on applying statistical methods to data science, tells you how to avoid their misuse, and gives you advice on what's important and what's not.

👉 @bigdata_1

👍3

871 views12:14

BigData

GPT-2 в картинках (визуализация языковых моделей Трансформера)

В 2019 году мы стали свидетелями блистательного использования машинного обучения. Модель GPT-2 от OpenAI продемонстрировала впечатляющую способность писать связные и эмоциональные тексты, превосходящие наши представления о том, что могут генерировать современные языковые модели. GPT-2 не является какой-то особенно новой архитектурой – она очень напоминает Трансформер-Декодер (decoder-only Transformer). Отличие GPT-2 в том, что это поистине громадная языковая модель на основе Трансформера, обученная на внушительном наборе данных. В этой статье мы посмотрим на архитектуру модели, позволяющую добиться таких результатов: подробно рассмотрим слой внутреннего внимания (self-attention layer) и применение декодирующего Трансформера для задач, выходящих за рамки языкового моделирования.

👉 @bigdata_1

👍2

720 views06:21

BigData

AI-Neural-Networks.pdf

7.7 MB

Шпаргалка по AI, Neural Networks, Machine Learning, Deep Learning и Big Data

👉 @bigdata_1

👍3

4.43K views22:27

BigData

GPBoost: Combining Tree-Boosting with Gaussian Process and Mixed Effects Models

Github: https://github.com/fabsig/GPBoost

Demo code: https://htmlpreview.github.io/?https://github.com/fabsig/GPBoost/blob/master/examples/GPBoost_demo.html

Paper: https://arxiv.org/abs/2105.08966v2

👉 @bigdata_1

👍1

656 views07:20

BigData

Вы все еще используете Pandas для обработки больших данных? Вот два лучших варианта

https://www.kdnuggets.com/2021/03/pandas-big-data-better-options.html

👉 @bigdata_1

635 views12:00

BigData

Знаешь всё про Big Data?
С 5 по 7 августа SENSE Group проведёт онлайн-хакатон DATA HACK! А ГК «Иннотех» выступит партнёром битвы IT-умов.

Выполни задание одного из трёх кейсов хакатона и получи 100 000 рублей!

🗓 Даты хакатона: 5-7 августа 2022 года
📌 Дедлайн регистрации: 1 августа 23:59
👉 Регистрация: https://data-hack.ru

Одной из задач хакатона станет разработка статического анализатора Spark SQL-кода. Также среди испытаний:
— разработка генератора фейковых данных для сложных запросов;
— создание прототипа ETL-движка из Postgres, Oracle, ClickHouse в HDFS на Spark, который будет шаблонизирован через конфигурацию.

Призовой фонд — 300.000 рублей!

Подробности и регистрация: https://data-hack.ru

686 views14:00

Grokking: оверфиттинг это ещё не конец (by OpenAI)

Все мы знаем, что если обучающих данных мало, то модель скорее всего заоверфиттится, запомнив весь датасет. Но оказалось, что если в этот момент не останавливать обучение и продолжать его даже при нулевой ошибке на трейне, то через какое-то время нейронка всё-таки научится обобщать.

У OpenAI таким образом удалось обучить небольшой трансформер решать уравнения, которые он никогда не видел! Грубо говоря, модель смогла заполнить пропущенные слоты в таблице умножения. При этом такая супер-обобщающая способность наступала гораздо позднее оверфиттинга, когда большинство из нас уже выкинули бы модель в помойку.

Похоже, что самую важную роль в этом эффекте играет weight decay, благодаря которому модель в конце-концов переходит от простого запоминания обучающих примеров к аналитическому решению задачи. Из интересных наблюдений — при визуализации эмбеддингов видны математические структуры, помогающие находить ответы.

Статья

👉 @bigdata_1

👍7

678 views10:13

BigData

APGD for sparse adversarial attacks on image classifiers

Github: https://github.com/fra31/auto-attack

Paper: https://arxiv.org/abs/2103.01208v1

👉 @bigdata_1

GitHub

GitHub - fra31/auto-attack: Code relative to "Reliable evaluation of adversarial robustness with an ensemble of diverse parameter…

Code relative to "Reliable evaluation of adversarial robustness with an ensemble of diverse parameter-free attacks" - fra31/auto-attack

👍1

620 views07:31

BigData

🗯 Unsupervised Speech Recognition

Github: https://github.com/pytorch/fairseq/tree/master/examples/wav2vec/unsupervised

Pretraned model: https://github.com/pytorch/fairseq/tree/master/examples/wav2vec

Facebook blog: https://ai.facebook.com/blog/wav2vec-unsupervised-speech-recognition-without-supervision/

Paper

👉 @bigdata_1

👍2

727 views06:07

BigData

GANsformer: Generative Adversarial Transformers

Github: https://github.com/dorarad/gansformer

Paper: https://arxiv.org/abs/2103.01209v2

👉 @bigdata_1

👍2

677 views06:43

BigData

Yolov5-face is a real-time,high accuracy face detection

Github: https://github.com/deepcam-cn/yolov5-face

Paper: https://arxiv.org/abs/2105.12931v1

👉 @bigdata_1

👍2

687 views06:35

BigData

The Unreasonable Effectiveness of Deep Features as a Perceptual Metric

https://richzhang.github.io/PerceptualSimilarity/

👉 @bigdata_1

👍1

646 views08:11

BigData

0:12

This media is not supported in your browser

VIEW IN TELEGRAM

⚡️Рассказываем про альтернативу зарубежным облакам для ML-разработки⚡️
Лавры высокотехнологичной компании манят всех. Но разговоры о BigData, AI и ML становятся тише, когда на стол ложится смета на обновление инфраструктуры.

✅Платформа ML Space станет отличным местом для первых шагов в ML-разработке для компаний с любым уровнем погружения в AI, и вот почему:
1️⃣Полный цикл работ: от импорта данных и обучения модели до эксплуатации готового AI-сервиса.
2️⃣ Для обучения моделей доступны CPU и GPU-ресурсы, что ускоряет сроки разработки и приближает момент получения выгоды от AI на несколько месяцев.
3️⃣ Оплата pay-as-you-go исключает капитальные затраты и позволяет масштабировать ресурсы.
4️⃣ Платформа аттестована по УЗ-1, входит в Единый реестр российского ПО, имеет лицензии ФСТЭК и ФСБ, так что проблем с безопасностью не будет.
🔥Ну, и главный плюс — для знакомства вложений не требуется, достаточно зарегистрироваться как юрлицо и получить грант от 5 до 180 тысяч рублей.
📍Протестировать

789 views09:01

BigData

This media is not supported in your browser

VIEW IN TELEGRAM

6DRepNet: 6D Rotation representation for unconstrained head pose estimation

Статейка о распознавании 3D позы головы в дикой природе. Основной трюк метода в "удобном для нейросети" 6D представлении матрицы поворота.

Есть репозиторий с кодом, весами и демкой для веб -камеры.

https://github.com/thohemp/6DRepNet

👉 @bigdata_1

👍2

4.87K views11:28

BigData

You Only 👀 One Sequence

Rethinking Transformer in Vision through Object Detection

Github: https://paperswithcode.com/paper/you-only-look-at-one-sequence-rethinking

Dataset: https://paperswithcode.com/dataset/imagenet

Paper: https://arxiv.org/abs/2106.00666

👉 @bigdata_1

👍1

640 views21:58

BigData

🌏 The FLORES-101 Evaluation Benchmark for Low-Resource and Multilingual Machine Translation

Github: https://github.com/facebookresearch/flores

Paper: https://ai.facebook.com/research/publications/the-flores-101-evaluation-benchmark-for-low-resource-and-multilingual-machine-translation

Facebook blog: https://ai.facebook.com/blog/the-flores-101-data-set-helping-build-better-translation-systems-around-the-world/

👉 @bigdata_1

👍1

655 views07:26

BigData

Приложения искусственного интеллекта: возможности и сферы применения

С помощью компьютерных технологий и программных кодов нам удалось достичь невозможного — создать подобие человеческого интеллекта. Теперь искусственный разум все глубже проникает в нашу повседневную жизнь. Поговорим о будущем ИИ и его колоссальном потенциале.

👉 @bigdata_1

😁1

664 views05:00

BigData

А мы уже приступили к подготовке HighLoad++ 2022 в Москве (24 и 25 ноября)!

Чтобы сделать по-настоящему крутую конференцию, Программный комитет московского HighLoad++ приглашает вас на встречи с активистами и докладчиками. После долгого перерыва мы снова проводим такие встречи оффлайн!

- 4 августа в 19:00 встречаемся в Петербурге, в офисе Selectel, ул. Цветочная, д. 19. Зарегистрироваться на встречу: https://bx.vc/939ktb

- 9 августа в 19:00 ждём вас в Москве, в офисе Авито на ул. Лесной, д. 7 (15 этаж). Регистрация здесь: https://bx.vc/8kxoeb

- Что будем делать:

— Расскажем, куда движется HighLoad++ сейчас. Вспомним, что было: краткий обзор топовых докладов и тем, посещаемость, интересы аудитории.
— Вместе с вами устроим мозгоштурм. Наметим то, что сейчас важнее всего раскрыть в рамках HighLoad++ 2022 — темы, технологии, проблемы.
— Пообщаемся на сопряженные темы: обсудим идеи, запитчим доклады, подумаем «друг об друга».
— А ещё напитки, закуски и общение — все благодаря нашим добрым друзьям-хостам.

756 views07:01

BigData

Эффективное итерирование по строкам в Pandas DataFrame

Начиная заниматься машинным обучением, я следовал рекомендациям и создавал собственные характеристики, комбинируя несколько столбцов в наборе данных. И делал я это ужасно неэффективно, теряя по несколько минут на самые простые операции. Далее

👉 @bigdata_1

👍4

14.7K views05:00

About

Blog

Apps

Platform