Font Style that Fits an Image -- Font Generation Based on Image Context
Github: https://github.com/Taylister/FontFits
Paper: https://arxiv.org/abs/2105.08879v1
Dataset creation: https://github.com/Taylister/TGNet-Datagen
👉 @bigdata_1
Github: https://github.com/Taylister/FontFits
Paper: https://arxiv.org/abs/2105.08879v1
Dataset creation: https://github.com/Taylister/TGNet-Datagen
👉 @bigdata_1
👍1
Simple multi-dataset detection
Github: https://github.com/xingyizhou/UniDet
Paper: https://arxiv.org/abs/2102.13086v1
👉 @bigdata_1
Github: https://github.com/xingyizhou/UniDet
Paper: https://arxiv.org/abs/2102.13086v1
👉 @bigdata_1
👍1
🔥 Awesome list of datasets in 100+ categories
44 zettabytes of data
https://www.kdnuggets.com/2021/05/awesome-list-datasets.html
👉 @bigdata_1
44 zettabytes of data
https://www.kdnuggets.com/2021/05/awesome-list-datasets.html
👉 @bigdata_1
👍2
The Absolute Guide to TensorFlow
https://blog.paperspace.com/absolute-guide-to-tensorflow/
👉 @bigdata_1
https://blog.paperspace.com/absolute-guide-to-tensorflow/
👉 @bigdata_1
👍2
NeuroKit2: A Python toolbox for neurophysiological signal processing
A user-friendly package providing easy access to advanced biosignal processing routines.
Github: https://github.com/neuropsychology/NeuroKit
Paper: https://link.springer.com/article/10.3758/s13428-020-01516-y
Docs: https://neurokit2.readthedocs.io/en/latest/installation.html
👉 @bigdata_1
A user-friendly package providing easy access to advanced biosignal processing routines.
Github: https://github.com/neuropsychology/NeuroKit
Paper: https://link.springer.com/article/10.3758/s13428-020-01516-y
Docs: https://neurokit2.readthedocs.io/en/latest/installation.html
👉 @bigdata_1
Это приглашение на «быстрое свидание» с работой мечты в команде Сбера.
One Day Offer — самый короткий путь до оффера. Пройти собеседование и получить ответ в тот же день можно 16 и 17 июля по двум вакансиям: Data Engineer в ИТ-команду «Комплаенс» и Java Developer в ИТ-подразделение «Сеть продаж».
Как это работает?
Шаг 1. 16 июля или 17 июля (в зависимости от вакансии) подключитесь к онлайн-интервью.
Шаг 2. Получите предложение о работе, о которой мечтали, в тот же день.
Шаг 3. А дальше — вместе со своей командой разрабатывайте крутые и важные продукты Сбера.
Прочитать подробнее о вакансиях и отправить заявку на участие в One Day Offer можно здесь.
One Day Offer — самый короткий путь до оффера. Пройти собеседование и получить ответ в тот же день можно 16 и 17 июля по двум вакансиям: Data Engineer в ИТ-команду «Комплаенс» и Java Developer в ИТ-подразделение «Сеть продаж».
Как это работает?
Шаг 1. 16 июля или 17 июля (в зависимости от вакансии) подключитесь к онлайн-интервью.
Шаг 2. Получите предложение о работе, о которой мечтали, в тот же день.
Шаг 3. А дальше — вместе со своей командой разрабатывайте крутые и важные продукты Сбера.
Прочитать подробнее о вакансиях и отправить заявку на участие в One Day Offer можно здесь.
💬 How to Fine Tune BERT for Text Classification using Transformers in Python
https://www.thepythoncode.com/article/finetuning-bert-using-huggingface-transformers-python
Code: https://www.thepythoncode.com/code/finetuning-bert-using-huggingface-transformers-python
Dataset: https://scikit-learn.org/0.19/datasets/twenty_newsgroups.html
👉 @bigdata_1
https://www.thepythoncode.com/article/finetuning-bert-using-huggingface-transformers-python
Code: https://www.thepythoncode.com/code/finetuning-bert-using-huggingface-transformers-python
Dataset: https://scikit-learn.org/0.19/datasets/twenty_newsgroups.html
👉 @bigdata_1
👍1
PracticalStatisticsforDataScientists50EssentialConceptsUsingRan.pdf
16 MB
Practical Statistics for Data Scientists
Practical Statistics for Data Scientists: 50+ Essential Concepts Using R and Python
Peter Bruce, Andrew Bruce, Peter Gedeck (2020)
Statistical methods are a key part of data science, yet few data scientists have formal statistical training. Courses and books on basic statistics rarely cover the topic from a data science perspective. The second edition of this popular guide adds comprehensive examples in Python, provides practical guidance on applying statistical methods to data science, tells you how to avoid their misuse, and gives you advice on what's important and what's not.
👉 @bigdata_1
Practical Statistics for Data Scientists: 50+ Essential Concepts Using R and Python
Peter Bruce, Andrew Bruce, Peter Gedeck (2020)
Statistical methods are a key part of data science, yet few data scientists have formal statistical training. Courses and books on basic statistics rarely cover the topic from a data science perspective. The second edition of this popular guide adds comprehensive examples in Python, provides practical guidance on applying statistical methods to data science, tells you how to avoid their misuse, and gives you advice on what's important and what's not.
👉 @bigdata_1
👍3
GPT-2 в картинках (визуализация языковых моделей Трансформера)
В 2019 году мы стали свидетелями блистательного использования машинного обучения. Модель GPT-2 от OpenAI продемонстрировала впечатляющую способность писать связные и эмоциональные тексты, превосходящие наши представления о том, что могут генерировать современные языковые модели. GPT-2 не является какой-то особенно новой архитектурой – она очень напоминает Трансформер-Декодер (decoder-only Transformer). Отличие GPT-2 в том, что это поистине громадная языковая модель на основе Трансформера, обученная на внушительном наборе данных. В этой статье мы посмотрим на архитектуру модели, позволяющую добиться таких результатов: подробно рассмотрим слой внутреннего внимания (self-attention layer) и применение декодирующего Трансформера для задач, выходящих за рамки языкового моделирования.
👉 @bigdata_1
В 2019 году мы стали свидетелями блистательного использования машинного обучения. Модель GPT-2 от OpenAI продемонстрировала впечатляющую способность писать связные и эмоциональные тексты, превосходящие наши представления о том, что могут генерировать современные языковые модели. GPT-2 не является какой-то особенно новой архитектурой – она очень напоминает Трансформер-Декодер (decoder-only Transformer). Отличие GPT-2 в том, что это поистине громадная языковая модель на основе Трансформера, обученная на внушительном наборе данных. В этой статье мы посмотрим на архитектуру модели, позволяющую добиться таких результатов: подробно рассмотрим слой внутреннего внимания (self-attention layer) и применение декодирующего Трансформера для задач, выходящих за рамки языкового моделирования.
👉 @bigdata_1
👍2
GPBoost: Combining Tree-Boosting with Gaussian Process and Mixed Effects Models
Github: https://github.com/fabsig/GPBoost
Demo code: https://htmlpreview.github.io/?https://github.com/fabsig/GPBoost/blob/master/examples/GPBoost_demo.html
Paper: https://arxiv.org/abs/2105.08966v2
👉 @bigdata_1
Github: https://github.com/fabsig/GPBoost
Demo code: https://htmlpreview.github.io/?https://github.com/fabsig/GPBoost/blob/master/examples/GPBoost_demo.html
Paper: https://arxiv.org/abs/2105.08966v2
👉 @bigdata_1
👍1
Вы все еще используете Pandas для обработки больших данных? Вот два лучших варианта
https://www.kdnuggets.com/2021/03/pandas-big-data-better-options.html
👉 @bigdata_1
https://www.kdnuggets.com/2021/03/pandas-big-data-better-options.html
👉 @bigdata_1
Знаешь всё про Big Data?
С 5 по 7 августа SENSE Group проведёт онлайн-хакатон DATA HACK! А ГК «Иннотех» выступит партнёром битвы IT-умов.
Выполни задание одного из трёх кейсов хакатона и получи 100 000 рублей!
🗓 Даты хакатона: 5-7 августа 2022 года
📌 Дедлайн регистрации: 1 августа 23:59
👉 Регистрация: https://data-hack.ru
Одной из задач хакатона станет разработка статического анализатора Spark SQL-кода. Также среди испытаний:
— разработка генератора фейковых данных для сложных запросов;
— создание прототипа ETL-движка из Postgres, Oracle, ClickHouse в HDFS на Spark, который будет шаблонизирован через конфигурацию.
Призовой фонд — 300.000 рублей!
Подробности и регистрация: https://data-hack.ru
С 5 по 7 августа SENSE Group проведёт онлайн-хакатон DATA HACK! А ГК «Иннотех» выступит партнёром битвы IT-умов.
Выполни задание одного из трёх кейсов хакатона и получи 100 000 рублей!
🗓 Даты хакатона: 5-7 августа 2022 года
📌 Дедлайн регистрации: 1 августа 23:59
👉 Регистрация: https://data-hack.ru
Одной из задач хакатона станет разработка статического анализатора Spark SQL-кода. Также среди испытаний:
— разработка генератора фейковых данных для сложных запросов;
— создание прототипа ETL-движка из Postgres, Oracle, ClickHouse в HDFS на Spark, который будет шаблонизирован через конфигурацию.
Призовой фонд — 300.000 рублей!
Подробности и регистрация: https://data-hack.ru
Media is too big
VIEW IN TELEGRAM
Grokking: оверфиттинг это ещё не конец (by OpenAI)
Все мы знаем, что если обучающих данных мало, то модель скорее всего заоверфиттится, запомнив весь датасет. Но оказалось, что если в этот момент не останавливать обучение и продолжать его даже при нулевой ошибке на трейне, то через какое-то время нейронка всё-таки научится обобщать.
У OpenAI таким образом удалось обучить небольшой трансформер решать уравнения, которые он никогда не видел! Грубо говоря, модель смогла заполнить пропущенные слоты в таблице умножения. При этом такая супер-обобщающая способность наступала гораздо позднее оверфиттинга, когда большинство из нас уже выкинули бы модель в помойку.
Похоже, что самую важную роль в этом эффекте играет weight decay, благодаря которому модель в конце-концов переходит от простого запоминания обучающих примеров к аналитическому решению задачи. Из интересных наблюдений — при визуализации эмбеддингов видны математические структуры, помогающие находить ответы.
Статья
👉 @bigdata_1
Все мы знаем, что если обучающих данных мало, то модель скорее всего заоверфиттится, запомнив весь датасет. Но оказалось, что если в этот момент не останавливать обучение и продолжать его даже при нулевой ошибке на трейне, то через какое-то время нейронка всё-таки научится обобщать.
У OpenAI таким образом удалось обучить небольшой трансформер решать уравнения, которые он никогда не видел! Грубо говоря, модель смогла заполнить пропущенные слоты в таблице умножения. При этом такая супер-обобщающая способность наступала гораздо позднее оверфиттинга, когда большинство из нас уже выкинули бы модель в помойку.
Похоже, что самую важную роль в этом эффекте играет weight decay, благодаря которому модель в конце-концов переходит от простого запоминания обучающих примеров к аналитическому решению задачи. Из интересных наблюдений — при визуализации эмбеддингов видны математические структуры, помогающие находить ответы.
Статья
👉 @bigdata_1
👍7
APGD for sparse adversarial attacks on image classifiers
Github: https://github.com/fra31/auto-attack
Paper: https://arxiv.org/abs/2103.01208v1
👉 @bigdata_1
Github: https://github.com/fra31/auto-attack
Paper: https://arxiv.org/abs/2103.01208v1
👉 @bigdata_1
GitHub
GitHub - fra31/auto-attack: Code relative to "Reliable evaluation of adversarial robustness with an ensemble of diverse parameter…
Code relative to "Reliable evaluation of adversarial robustness with an ensemble of diverse parameter-free attacks" - fra31/auto-attack
👍1
🗯 Unsupervised Speech Recognition
Github: https://github.com/pytorch/fairseq/tree/master/examples/wav2vec/unsupervised
Pretraned model: https://github.com/pytorch/fairseq/tree/master/examples/wav2vec
Facebook blog: https://ai.facebook.com/blog/wav2vec-unsupervised-speech-recognition-without-supervision/
Paper
👉 @bigdata_1
Github: https://github.com/pytorch/fairseq/tree/master/examples/wav2vec/unsupervised
Pretraned model: https://github.com/pytorch/fairseq/tree/master/examples/wav2vec
Facebook blog: https://ai.facebook.com/blog/wav2vec-unsupervised-speech-recognition-without-supervision/
Paper
👉 @bigdata_1
👍2
GANsformer: Generative Adversarial Transformers
Github: https://github.com/dorarad/gansformer
Paper: https://arxiv.org/abs/2103.01209v2
👉 @bigdata_1
Github: https://github.com/dorarad/gansformer
Paper: https://arxiv.org/abs/2103.01209v2
👉 @bigdata_1
👍2
Yolov5-face is a real-time,high accuracy face detection
Github: https://github.com/deepcam-cn/yolov5-face
Paper: https://arxiv.org/abs/2105.12931v1
👉 @bigdata_1
Github: https://github.com/deepcam-cn/yolov5-face
Paper: https://arxiv.org/abs/2105.12931v1
👉 @bigdata_1
👍2
The Unreasonable Effectiveness of Deep Features as a Perceptual Metric
https://richzhang.github.io/PerceptualSimilarity/
👉 @bigdata_1
https://richzhang.github.io/PerceptualSimilarity/
👉 @bigdata_1
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️Рассказываем про альтернативу зарубежным облакам для ML-разработки⚡️
Лавры высокотехнологичной компании манят всех. Но разговоры о BigData, AI и ML становятся тише, когда на стол ложится смета на обновление инфраструктуры.
✅Платформа ML Space станет отличным местом для первых шагов в ML-разработке для компаний с любым уровнем погружения в AI, и вот почему:
1️⃣Полный цикл работ: от импорта данных и обучения модели до эксплуатации готового AI-сервиса.
2️⃣ Для обучения моделей доступны CPU и GPU-ресурсы, что ускоряет сроки разработки и приближает момент получения выгоды от AI на несколько месяцев.
3️⃣ Оплата pay-as-you-go исключает капитальные затраты и позволяет масштабировать ресурсы.
4️⃣ Платформа аттестована по УЗ-1, входит в Единый реестр российского ПО, имеет лицензии ФСТЭК и ФСБ, так что проблем с безопасностью не будет.
🔥Ну, и главный плюс — для знакомства вложений не требуется, достаточно зарегистрироваться как юрлицо и получить грант от 5 до 180 тысяч рублей.
📍Протестировать
Лавры высокотехнологичной компании манят всех. Но разговоры о BigData, AI и ML становятся тише, когда на стол ложится смета на обновление инфраструктуры.
✅Платформа ML Space станет отличным местом для первых шагов в ML-разработке для компаний с любым уровнем погружения в AI, и вот почему:
1️⃣Полный цикл работ: от импорта данных и обучения модели до эксплуатации готового AI-сервиса.
2️⃣ Для обучения моделей доступны CPU и GPU-ресурсы, что ускоряет сроки разработки и приближает момент получения выгоды от AI на несколько месяцев.
3️⃣ Оплата pay-as-you-go исключает капитальные затраты и позволяет масштабировать ресурсы.
4️⃣ Платформа аттестована по УЗ-1, входит в Единый реестр российского ПО, имеет лицензии ФСТЭК и ФСБ, так что проблем с безопасностью не будет.
🔥Ну, и главный плюс — для знакомства вложений не требуется, достаточно зарегистрироваться как юрлицо и получить грант от 5 до 180 тысяч рублей.
📍Протестировать