Data, Stories and Languages
2.75K subscribers
59 photos
6 videos
432 links
Канал о Data Science, изучении иностранных языков, книгах и жизни.
Контакт с автором https://yangx.top/Erlemar
加入频道
Cursor 1.0

Сегодня Cursor дошёл до версии 1.0!
https://www.cursor.com/en/changelog/1-0
Добавили бота для PR ревью, Background Agent для всех, агент для Jupyter Notebook, память и всякое остальное.

Обсуждение на ycombinator.

#datascience
🔥81
Monarch: a distributed execution engine for PyTorch

"Our overall goal is to deliver the high-quality user experience that people get from single-GPU PyTorch, but at cluster scale."
Официально от разработчиков PyTorch, выглядит интересно

https://github.com/pytorch-labs/monarch

#datascience
🔥1
Карьерные новости

Осенью 2024 меня сократили из Careem. Частично косты резали, частично политика, частично корпоративная культура. Впрочем, весь год компания сокращала людей для уменьшения костов. Через пару дней после этого, я съездил на DataFest Yerevan, где рассказал об одном из успешных рабочих проектов...

А спустя пару недель мне написал рекрутёр из Meta и предложил снова пообщаться (прошлый раз был в 2022). Я собеседовался на Staff/E6, но прошёл на Senior/E5.

На прошлой неделе переехал в Лондон и в этот понедельник вышел на работу. Пока 2-3 недели будут обучения, дальше предстоит работать в команде монетизации и делать look-a-like на contrastive learning.

Пока привыкаю к жизни в новом городе, позже расскажу как проходили собеседования, как к ним готовился, как шёл переезд.

#datascience #life
🔥70🎉12👍8👀2🙏1
У Anthropic недавно вышел новый длинный блогпост, на этот раз "How we built our multi-agent research system". И я хочу поделиться отличным разбором этого поста от https://yangx.top/max_dot_sh.

Это авторский блог, ведёт его Максим Шапошников. Он работал последние 3.5 года в FAANG в Лондоне, теперь пошёл заниматься AI кодогенерацией в молодой стартап.

Канал годный, там много про карьеру на рисерч позициях в BigTech и стартапах, интересных советов и отзывов о собеседованиях в интересные места от разных людей.

#datascience
🔥5👍31
​​Kaggle Progression Update

Большие изменения на Kaggle! Сегодня на форумах появился пост с внушительным списком изменений платформы.

• Вначале главное - рейтинга обсуждений больше нет! Вместо него всем дали ачивки Discussions Legacy Expert/Master/Grandmaster, больше их не заработать. Причина - слишком многие фармили этот рейтинг. И 4х Грандмастером не стать... хотя нет - им стать можно, но по-другому.
• Завезли специальную страницу про грандмастеров: https://www.kaggle.com/rankings/grandmasters Можно посмотреть и увидеть, что Giba - 13х Grandmaster. Э, что? Теперь N Grandmaster считается по-другому - можно стать Грандмастером в каждой категории (3x), а затем за каждые 5 (!) золотых медалей в соревнованиях добавляется ещё 1x. У него 64 золотых медалей в соревнованиях - это 5х12, и ещё он грандмастер кода. Имхо, это выглядит как-то странно. Возможно это новая мотивация людям гоняться за золотом в соревнованиях, чтобы было больше крутых решений. Но это ещё сильнее ужесточит конкуренцию за топ места.
• Novice и Contributor уровни убрали, теперь минимальный уровень - Expert
• То, чего мы ждали годами - форкание ноутбуков автоматически даёт лайки автору. Заодно изменили как получаются рейтинги/медали за датасеты и код - учитываются только лайки от Experts и выше, decay очков идёт не от даты лайка, а от даты создания датасета/кода, улучшили anti-abuse.
• Из-за пункта выше у всех были автоматически пересчитаны очки этих двух рейтингов во всех моментах времени.
• Рейтинг теперь можно фильтровать по городу и компании
• Есть красивая страничка в профиле с графиком твоего рейтинга во времени
• Есть отдельная страничка Awards: https://www.kaggle.com/rankings/awards

В тредике бурление, думаю, что эти мощные изменения люди ещё долго будут обсуждать.

#datascience
🔥7
Reddit: Vibe / Citizen Developers bringing our Datawarehouse to it's knees

Интересный тредик на reddit: инженеры задалбываются тем, что юзеры без раздумий запускают SQL, предложенный LLM-ками.
То select *, то select top 7000000 с join 50 табличек.

https://www.reddit.com/r/dataengineering/comments/1lvyzbc/vibe_citizen_developers_bringing_our/

#datascience
🤣10
Пачка новостей из мира AI

https://openai.com/index/introducing-chatgpt-agent/

> You can now ask ChatGPT to handle requests like “look at my calendar and brief me on upcoming client meetings based on recent news,” “plan and buy ingredients to make Japanese breakfast for four,” and “analyze three competitors and create a slide deck.” ChatGPT will intelligently navigate websites, filter results, prompt you to log in securely when needed, run code, conduct analysis, and even deliver editable slideshows and spreadsheets that summarize its findings.

https://mistral.ai/news/le-chat-dives-deep

What’s new in Le Chat.
Deep Research mode: Lightning fast, structured research reports on even the most complex topics.

Voice mode: Talk to Le Chat instead of typing with our new Voxtral model.

Natively multilingual reasoning: Tap into thoughtful answers, powered by our reasoning model — Magistral.

Projects: Organize your conversations into context-rich folders.

Advanced image editing directly in Le Chat, in partnership with Black Forest Labs.

#datascience
🔥21
Работа с данными на Kaggle

Меня попросили сделать доклад о примерах того, как в соревнованиях на Kaggle была важна работа с данными (примеры анализа, magic/golden features, внешние источники, понимание домена и так далее).

Я повспоминал былое и поискал подобные соревнования, получился примерно такой список:

Home Credit Default Risk - На основе суммы кредита, ежемесячной суммы выплаты и количества выплат (этого не было в данных, но сделали модель для предсказания) удалось восстановить процентную ставку (которой не было в данных). А процентная ставка - очень сильный сигнал, ибо по факту отражает степень риска клиента.

Instant Gratification - это была задачка с синтетическими данными. Многим удалось сделать reverse engineering функции генерации данных, и благодаря этому получить 0.97+ AUC.

Santander Customer Transaction - люди обнаружили, что в тесте часть данных была синтетической. Был довольно хитрый подход - синтетические данные определяли по распределению значений. Суть в том, что в данных было 200 независимых признаков. Если просто тренировать на них модель, она найдёт какие-нибудь паттерны и оверфитнется. Было несколько решений проблемы: Построить 200 моделей или Naive Bayes, использовать shuffle augmentation, использовать деревянные модели с малой глубиной.

Red Hat Business Value - в данных были лики, которые позволяли для многих строк довольно точно определять таргет. Поэтому многие строили отдельные модели для ликованых строк и для других.

Intel & MobileODT Cervical Cancer Screening - нашлись случаи, когда фото одного и того же человека были в трейне и тесте, использование этой информации улучшало модели.

IEEE-CIS Fraud Detection - организаторы соревнования убрали userid, но людям удалось сделать reverse engineering с высокой точность, и это было ключом к успеху.

Quora Question Pairs - участникам удалось построить графы вопросом на трейне совместно с тестом, что давало большой буст.

Two Sigma Connect: Rental Listing Inquiries - timestamp-ы папок с картинками сильно коррелировали с таргетом

Bosch Production Line Performance - определенные последовательности данных имели значительно более высокий шанс failure (таргета).

Sberbank Russian Housing Market - было важно извлечь год из данных и добавить макроэкономические данные

Rossmann Store Sales - было очень полезно использовать внешние данные (погода, праздники и прочее).

Какие ещё были подобные интересные соревнования?

#kaggle #datascience
👍17🔥2
Kaggle Benchmarks

Теперь на Kaggle есть и benchmarks.

Вчера опубликовали блогпост об этом. Сейчас доступно около 70, среди них SciCode, GPQA, SimpleQA, LiveCodeBench, BrowseComp, FACTS Grounding, MATH-500, MMLU, MathVista, MGSM, ECLeKTic.

Среди прочего, хотят делать communiti-driven evaluation, как пример приводят ICML 2025 Experts - опросили участников ICML “What’s the trickiest, most interesting, or simply your favorite question to test a large language model?” и на основе этого создали бенчмарк.

Не очень понимаю чем это отличается от других платформ для benchmarks, но пусть будет :)

#datascience #kaggle
🔥5👍1
​​Что взять в LeetCode Store?

Я осознал, что за годы набрал 13к leetcode coins и могу теперь что-нибудь заказать в LeetCode Store. Что посоветуете?
🤔

#datascience
🔥8🤡3
​​Google Developer Expert @ Kaggle

У Google есть инициатива Google Developer Expert - это люди, которые хорошо знают какие-то технологии гугла и имеют публичные активности по этой теме.

Где-то год-полтора назад появилась новая категория - Kaggle. Туда набирают "по знакомству" :) то есть обращаются к известным людям в community и предлагают присоединиться после одного общения (так называемый product interview). В первый год набирали людей медленно, сейчас вроде как более активно.

Я согласился присоединиться, но плюшки не очень понятные, но всё же интересные - кредиты в Google Cloud, что-то ещё по мелочи, присоединение к коммьюнити, иногда возможность где-то выступить.
Но вчера получил то, чем можно привлечь любого айтишника - мерч!

#datascience
🔥14🥰6👍5
​​Kaggle... Game Arena

Kaggle прям пошёл выдавать новые продукты один за другим. Теперь запустили Kaggle Game Arena - платформа, где LLM соревнуются в играх.
Для затравки запустили 3х-дневное соревнование, где 8 LLM будут играть друг с другом в шахматы.

https://www.kaggle.com/game-arena

Блогпост про это: https://www.kaggle.com/blog/introducing-game-arena

Сама платформа будет при поддержке DeepMind.

#datascience #kaggle
🔥71
Астрологи объявили день AI, количество публикаций о новых версий AI удвоилось

Сегодня прям поток публикаций:

Genie 3: A new frontier for world models от Google.

Open source модель от OpenAI.

Claude Opus 4.1 от Anthropic.

PyCharm AI Toolkit от JeBrains. Ещё они проагрейдили Junie и AI Assistant, а также сделали AI Playground (часть toolkit).

#datascience
4🔥3
Прекрасный пример использования soft-skills

Soft-skills - такая штука, что вроде их польза понятна, но конкретные крутые примеры бывает сложно встретить. Но вот недавно на reddit я наткнулся на тредик с просто прекрасным советом об использовании soft-skills, чтобы повернуть ситуацию с "аа, как мне справиться с этими надоедливыми и тупыми vide-coders" в "это отличная возможность сделать наш департамент ещё более востребованным.

https://www.reddit.com/r/ExperiencedDevs/comments/1me8yj8/how_to_survive_as_dev_department_in_a_company/

#datascience
🔥13❤‍🔥4😁32👍2🤯1
​​OpenAI AMA

Вчера на реддите было AMA от OpenAI. Некоторые интересные моменты:

• GPT-4o вернут
• Возможно снова будет какая-нибудь модель без лимитов
• Те кривые графики - да, фейл. Сделают графики покрасивее и без косяков
• Они надеются, что GPT-5 умеет писать тексты лучше, чем GPT-4.5
• Они специально сделали GPT-5 нейтральной по стилю по умолчанию. Хотите более интересный стиль - лезте в настройки
• Если добавить "think hard" в промпт, модель автоматически переключится в thinking mode

#datascience
🔥6👍2
​​Как летит время...

Facebook мне напомнил, что в 2017 году, восемь с половиной лет назад, я радостно перепостил твит от Gensim о том, что там теперь есть русские эмбеддинги, а теперь можно узнать, какие слова больше всего похожи на "кот".

А теперь мы недовольны тем, что LLM не всегда с первого раза выполняют наши нечеткие хотелки.

#datascience
🫡186
​​Как я собеседовался на позиции MLE в 2024 году

Где-то в начале 2024 я решил, что пришла пора начинать собеседоваться и стал отвечать всем пишущим мне рекрутёрам, если вакансии были релевантны. В итоге я прособеседовался в 20+ компаний и получил 3 оффера. Теперь хочу рассказать о том, как шёл этот процесс и что спрашивали на собеседованиях.

• Рекрутёры нередко просто перестают писать после нескольких раундов собеседований. Понятно, что это отказ, но могли бы хоть написать об этом.
• Вопросы на собеседованиях могут быть совершенно разные даже в рамках одной темы, ответить на всё просто нереально.
• Оценивают ответы тоже по-разному: примерно один и тот же ответ может быть принят в одной компании и быть поводом для отказа в другой.
• Нередко встречался prescreen - рекрутёры зачитывали вопросы и записывали мои ответы.
• Большинство компаний имеют хотя бы 2-3 раунда, многие 4-6.

Остальные подробности в блогпосте :)

Personal blog
Medium
Linkedin Pulse

#datascience #life
🔥21👍142🙏1
На реддите нашли китайца, который мог быть виновником нововведённых лимитов Claude

На реддите похоже нашли человека, который абьюзил Claude Code, и из-за которого могли ввести лимиты. Пост на китайском weixin.

Есть такой сайт, Claude Code Usage Leaderboard. Как видно из названия, это лидерборд по "потреблению" Claude Code. Так вот, этот китаец на подписке на 200$, умудрился потратить эквивалент 50k$ за 30 дней. И был на первом месте в этом лидерборде. В обсуждении китайцы ржут и поддерживают его.

Понятно, что лимиты из-за одного человека не введут, но это отличный пример масштабов проблемы.

#datascience
😁12🔥4
Data, Stories and Languages
DevCrowd запускает новый опрос для дата-инженеров, аналитиков, дата-сайентистов, ML-инженеров и их руководителей. Зачем участвовать? – чтобы понять, какие задачи и инструменты сейчас в тренде, – увидеть, как устроена работа у коллег в других продуктах,…
Появились результаты опроса. Из интересного:
• в опросе участвовало 450 людей - большой рост по сравнению с 296 в прошлом году
• 400-425к рублей медианная зарплата у сеньоров
• 45% признались в выгорании, в основном из-за переработок и скучных задач.
• удивительно, но 78% ищут работу через telegram-каналы
• среди дата-аналитиков самая высокая доля девушек
• только 11% опрошенных ходят в офис каждый день
• Tensorflow используют лишь 9%, а вот PyTorch - 72%. Одобряю!
• 36 человек уехали из России в 2022. Думаю, что причины понятны.
• Зато 60% оставшихся в России не планируют уезжать

Изучить остальную статистику можно тут: https://devcrowd.ru/ds25/

#datascience
👍11❤‍🔥22
​​AI теперь и на LeetCode

На литкоде появилась новая экспериментальная фича - AI-помощник.

Я попробовал, и что-то это совсем не работает.
При нажатии на кнопку, открывается чат с двумя предложенными вариантами - Generate Idea Map и Generate Code.
При выборе одного из вариантов, помощник долго думает, аж несколько минут. Причём нет никакого UI-элемента, показывающего прогресс.
А потом генерит код. Попробовал использовать код - он не сработал, ибо там переменные сгаллюцинировались.

Как-то иронично, что ai-помощник, разработанный платформой для решения задачек на кодинг, не работает.

#datascience
🤣12👍2