BIG BAD DATA

‼️Я ВЕРНУЛАСЬ‼️

Да да, я уже обосновалась у себя в общаге, более менее въехала в темп Долгопрудного (🥰) и готова продолжать писать посты!!!

Более того, я решила произвести реорганизацию канала. Изначально предполагалось, что канал будет нацелен на введение простых людей в ~~секту дата сатанистов~~ Data Science. Однако, я поняла, что эта тема не очень актуальна именно для формата канала, т.к. каждому новому члену этого клуба придется читать все посты с самого начала…
Но! Эта идея слишком прекрасна, чтобы полностью исключать ее. Спустя месяц размышлений, я пришла к идеальному консенсусу: ввести хештеги по тематикам постов😎
Решила сгруппировать посты по следующим тематикам:

▶️ #info здесь буду писать основную инфу по каналу (например, этот пост)

▶️ #about_ml теория машинного обучения (та самая ветка постов, которую нужно читать с самого начала)

▶️ #phil_thoughts тут можно будет найти рассуждения о различных мыслей в области философии, психологии и офк ИИ

▶️ #diff просто какие-то приколюхи или интересные факты)))

▶️ #dvizh тусовки, ивенты и тд, личны блог в теме ml короче💃

▶️#advert точно не реклама👀

Думаю, так будет удобнее всем найти интересующий трек для себя. Ну и писать посты так проще)

Этот пост летит в закреп, а я с самого начала начинаю проставлять теги для всех остальных!

С новым учебным годом кста🎉🎉

👍8🔥5❤1

752 viewsedited 18:54

BIG BAD DATA

Давайте отвлечёмся немного от теории😮‍💨

Хочу рассказать Вам о своей учебе...
А конкретнее о курсе Алексея Ковалёва «Методы искусственного интеллекта в анализе данных» 🙌

Этот курс считается вводным для тех, у кого слабовата базовая теория в ml (для таких как я👀). Мы уже успели пройти предварительную обработку данных, распространенные метрики, линейную классификацию, логистическую регрессию и метод опорных векторов (SVM). Настало время для самого интересного - домашнего задания)))
Вообще, домашка по этому курсу имеет формат мини проектов. В первом из них нужно самому найти и подготовить обучающие данные, составить baseline (базовое решение), обучить линейные модели, композиции моделей и подготовить отчет о проделанной работе. Получается такое самостоятельное микро исследование🙃
Первый этап - подготовка данных. Нам предлагается самим найти табличные данные, включающие в себя разные признаки (категориальные и численные), придумать по ним задачу классификации и выбрать метрики. Мне очень понравился тот факт, что мы сами можем выбирать данные, с которыми будем работать. Присутствует нотка творчества👩‍🎨 В поисках датасета я наткнулась на очень интересный csv файлик - датасет анекдотов на русском😂 Честно говоря, я застряла на нем где-то на полчаса просто читая все подряд... . К великому сожалению, эти данные не подходят под критерии домахи, потому что этот датасет содержит всего один признак - сам контент. Поэтому пришлось рыть дальше.
Спустя пару минут я нашла ИДЕАЛЬНЫЕ данные: Anime Recommendations Database. Датасет содержит информацию о чуть более 12к различных аниме и представлен в виде двух файлах:

⭕️ anime.csv
🌀anime_id - уникальный id номер аниме с сайта myanimelist.net
🌀name - полное название аниме
🌀genre - список жанров для соответствующего аниме (через запятую)
🌀type - тип аниме (movie, TV, OVA и т.д.)
🌀episodes - количество эпизодов для соответствующего аниме
🌀rating - рейтинг для соответствующего аниме (от 0 до 10)
🌀members - количество людей просмотревших соответствующее аниме (или проголосовавших, еще не разобралась)

⭕️ rating.csv
🌀user_id - рандомно сгенерированные id юзеров
🌀anime_id - id аниме, за которое проголосовал юзер
🌀rating - рейтинг, выставленный юзером для соответствующего аниме (-1 если человек просмотрел, но не проголосовал).

Как совместить эти два файла в один я не придумала. Однако, первый файлик прекрасно вписывается в требования датасета, поэтому было решено использовать именно его.
Затем требовалось выбрать задачу классификации (не обязательно бинарной). Пришла идея "предсказывать рейтинг аниме". Соответственно, не долго думая, я и взяла ее🤣 И с потолка метрику F1-score к ней привязала...👀

Штош, после этого получила accept у нашего семинариста и живу наслаждаюсь жизнью (в лабе).
Следующим этапом будет анализ данных и их корректировка, об этом тоже обязательно напишу мини отчет🙂

#diff

Kaggle

Anime Recommendations Database

Recommendation data from 76,000 users at myanimelist.net

❤5👍1🔥1

380 viewsedited 21:07

BIG BAD DATA

Кстати, кому интересно поиграться с датасетом анекдотов - прицеляю этот файлик ниже)))
Пишите, у кого какие интересные идеи могут быть на этот счет😃

(хотя я с NLP ваще не дружу че то)

#diff

❤3👍2

366 viewsedited 21:08

BIG BAD DATA

Многие, кто общался со мной в сентябре, знают некоторый факт обо мне. А точнее, моё желание🤫

Конечно, не все так эпично, как могло прозвучать😂. Но!
Я хочу разобраться с генеративными моделями, да все руки не доходят...

Вы могли заметить ~~в instagram~~ новый тренд, где на основе своего фото генерируют похожие изображения в стиле аниме. И вот именно сегодня я добралась до приложения loopsie (это не реклама, мне никто не заплатил) и успела поиграться с его бесплатной версией. Оно дало мне сгенерировать 6 фотографий, а при попытке сделать видос и снова загрузить фото попросило деньгу😟
Однако, мне понравились сгенерированные изображения) Прикреплю их ниже.

Хотя можно выделить несколько нюансов:
🖌 Руки, руки и ещё раз руки. На сколько я знаю, многим людям тяжело даётся рисовать кисти рук. И, видимо, моделькам тоже
🖌 Непонятные элементы одежды. То на футболке воротник как от рубашки, то водолазка взялась откуда ни возьмись, то наушники появляются случайным образом...
🖌 Почему-то на последнем изображении моделька перепутала мальчиков и девочек (слева стоим мы с Ритой, а справа Женя и Вова) 😐
🖌 К последнему изображению вообще много вопросов. Что с ногами у самой правой персоны?🤣 Если присмотреться, то можно понять, что левую ногу нужно было дорисовать сзади, а правую спереди. Моделька просто перепутала колени... А у Второго человека справа вообще непонятно, что с лицом (и это не потому, что фотография была сделана после посещения бара). Ну и опять же моделька забила на отрисовку кистей рук.

При всех этих недочётах я бы хотела уделить внимание тому, что на первой фотке нейроночка отчётливо сохранила буквы "ИжГТУ" 💙 за моей спиной. Ну и в принципе качество генерации различных деталей достаточно хорошее.

На этом мой обзор подходит к концу. Жаль, не затестила генерацию видосов (я просто хочу найти бесплатную версию, но вы так не делайте. Программистам нужно платить). Ставьте лайки, подписывайтесь на канал👍

Важное уточнение! Эта приложуха есть только под ios. Так что пользователи Android - ищите веб версии.

#diff

🔥3

327 viewsedited 20:46

BIG BAD DATA

Поздравляю всех с наступившим Новым годом!!!🥳🥳🥳

Новый год - новые проекты, исследования, статьи…
Всегда есть необходимость работать быстро и эффективно. Такая продуктивность напрямую зависит от инструментов, которыми мы пользуемся.

Я бы хотела поделиться с Вами, товарищи, маленькой подборочкой тулсов, которыми я пользовалась пока писала обзоры литературы в прошлом семестре)

🔹Открывает подборку explainpaper. Здесь можно подгрузить статью, выделить интересующий Вас фрагмент текста, и с помощью chatGPT будет сформулированно объяснение более простым языком (на английском). Уровень объяснения также можно настроить как для пятилетки до эксперта))). Еще есть функция реферирования по всему тексту (выдает основную идею буквально на абзац текста). Кроме того, можно задавать вопросы к статье. Мне понравилось то, что можно загружать ссылки на pdf. Есть платная версия с использованием chatGPT-4. Авторизоваться можно через любую почту и гитхаб.
🔹Следующим инструментом я пользовалась больше всего. Это tldrthis. Аналогично предыдущему, сюда можно подгружать статьи и получать sumerise. Помимо этого, Вам будут предложены 3 примерных вопроса, которые можно задать для уточнения материала. Также, можно спросить свои вопросы. Лучше работает с pdf, хотя ссылки тоже поддерживает. Мне этот инструмент понравился больше, потому что выдает больше осмысленного текста и как-то его структурирует (больше похоже на чатгпт🙃). Однако, здесь есть ограниченное количество запросов на один аккаунт, поэтому мне приходилось регаться с кучи временных почт. Работало все шикарно))) Жалко было только то, что сбрасывались старые диалоги с другими статьями (да, в отличие от предыдущего инструмента, здесь можно создавать несколько диалогов с разными статьями и работать одновременно).
🔹Еще хочу рассказать про прикольную штуку на arxiv. На странице любой статьи в разделе related papers можно включить такую штуку как CORE Recommender. Эта приколюха подбирает топ-5 наиболее релевантных работ к расматриваемой статье. Удобно, когда делаешь обзор)

Вроде как эти инструменты (кроме core) работают с vpn, но можно попробовать и без))
Пользуйтесь на здоровье🤍

#diff

❤5

495 viewsedited 14:29

BIG BAD DATA

Увидела в канале знакомого смешной скрин как работает copilot, посмеялась

Так же copilot у меня в тетрадках:

#diff

319 viewsedited 05:26

BIG BAD DATA

Его особенность заключается в том, что заметки пишутся на языке markdown. Лично для меня это очень и очень удобно. Также, у него приятный интерфейс, можно настроить под себя организацию папочек и файлов и вроде как даже синхронизировать с облаком. В общем, для меня обсидиан оказался максимально удобным: быстро конспектирую лекции, сразу же выделяя основные моменты курсивом или жирным шрифтом; легко разделять на подзаголовки разных уровней => легко ориентироваться в конспекте; ну и конечно же проще делать скриншоты рисунков, формул и таблиц - не нужно тратить 5 лет на их перерисовывание😄

Для примера поделюсь с Вами своим конспектом по FlashAttention, который удостоился быть первым в опыте составления конспектов в обсидиане)))

В целом сота, рекомендую💯

#diff

👍6

249 views08:49

BIG BAD DATA

Вечер воскресенья, впереди майские праздники🌸
А мне грустно от того, что я уже больше полугода в Москве, а роста себя как специалиста почти не ощущаю(((

Начала копать причины - почему так происходит? Как всегда натыкаюсь на одну и ту же проблемную часть себя - отсутствие дисциплины. Я слишком завязана на своих эмоциях, а учитывая то, что я очень эмоциональный человек, бывает трудно с ними совладать... Исходя из этого начинает страдать продуктивность и отдых, появляется тревожность, что отражается на физическом здоровье😬

Снова ищу методы решения такой проблемы. Наткнулась на прикольный видос с клевой анимацией на мой вкус. Легко и доступно преподнесли материал. Да, рассказали про очевидные вещи. Но для таких людей как я, у которых в голове вечно бардак, полезно слушать что-то подобное, потому что направляет в правильное русло мыслей и действий)))
Основные поинты ниже

Морально подготовься
Силы воли не существует (как и лени)
Необходимо твердо решить, что тебе это надо
Причины почему не можешь соблюдать дисциплину:
1. Берешь на себя слишком много - работай в своем темпе
2. Ждешь быстрых результатов. Плохо сейчас - хорошо потом
3. Много чешешь языком 🙂 Когда делишься слишком много своими планами или представляешь все достигнутые цели - психика думает, что это уже есть в реальности.

Начни делать
Лайфхаки для достижения целей:
1. Раздели большую цель на более мелкие
2. Определи вознаграждения за сделанный кусок работы (Чувствую себя рл агентом). Награда должна быть соразмерна со сделанным
3. Меньше отвлекайся - ограничь время на залипание в соцсети и тп. Хотя, можно контролировать этот процесс будильником

Не останавливайся
Чтобы поддержать дисциплину - нужно этого хотеть.
Если все время страдаешь - то тебя хватит не на долго

Ссылочка на видосик

#diff

YouTube

Дисциплина для Ленивых

Ссылка на YouTube-канал Михаила Алистера для руководителей - https://youtube.com/@mik_alister

Реклама. ООО «Алистер», ИНН: 4632198137, erid: LjN8K89FC

Йоу, мы тут сделали ролик, который поможет тебе выполнить все твои грандиозные планы. Те, что ты там под…

❤6

741 views19:44

BIG BAD DATA

У меня вечно бывает проблема, когда пишу код на двух разных устройствах (мак и сервер): приходится постоянно мерджить ветки, разбираться, где сейчас находится голова, как откатиться назад и все в этом духе...🤔

К счастью, мне попался классный курс по Git, который разработан в игровой форме и затрагивает все самые нужные и популярные команды. Сам интерфейс включает в себя маленькое консольное окошко (собственно, где все команды и прописываются) и большое поле с визуализацией всего того, что происходит с ветками кода. Наглядно показываются истории коммитов, положение HEAD и влияние на них команд. Я в восторге! Также там есть песочница, где можно безопасно экспериментировать с командами.

Всем котятам невдуплятам в Git советую пройти этот курс (займет буквально один вечер). 🤩
Он максимально легкий, по ощущениям — онлайн игра для 5 класса. Ну и, естественно, хорошо формирует базовое понимание работы Git.

#diff

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤8🔥6

721 views11:36

BIG BAD DATA

Думаю, завершающим постом в этом году будет логическое подведение итогов📊

Лежу в поезде, уткнувшись лбом в стену, и пишу этот пост. Многое произошло за этот год, о чем одновременно хочется говорить и оставить в закромах своей памяти. Фраза «как же прекрасна долгопа» обрела для меня иной, более душевный смысл, чем ироничный) Я наконец-то почувствовала здесь комфорт и безопасность.

Этот год научил меня быть самостоятельной, принимать ответственность за своим действия, смотреть на одну и ту же ситуацию с абсолютно разных сторон. Этот год помог мне осознать мои возможности и пределы, показал скоротечность времени. В этом году обрушились мои привязанности к людям и местам, однако, появились новые. Я познакомилась с замечательными людьми с горящими глазами и сердцами, за которыми хочется следовать. В этом году я нашла себя.

Я наметила для себя вектор развития, о котором уже знают мои друзья. Я обязательно расскажу здесь, возможно даже через полгода - год. Запросы масштабные и мне нужно время для составления плана)

Возможно, для Вас мой пост покажется очередным словом какого-то человека из интернета) Но я искренне хотела бы донести до Вас ту самую очевидную мысль, что осуществить все Ваши мечты реально. Нужно. Просто. Действовать.

Желание, которое я загадывала на Новый год, звучало «выжить». В этом году я переформулирую его в «жить»❤️‍🔥

P. S. Сложно было выбрать фоточку к посту, поэтому прикрепила стаканчик из кофикса и один из любимых мемов. Думайте.

#diff

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤14

660 views17:04

BIG BAD DATA

Частенько работаю под техно/фонк 😎
Особенно помогает, когда не могу сфокусироваться

Small подборочка треков от меня (добавила вчера):

🤩

трек 1

🤩

трек 2