Data Bar | О data-проектах

Анализируем вилки зарплат на ЛЮБЫХ айтишных вакансиях — сервис VILKY предоставит подробнейшую инфу по деньгам с открытых русскоязычных позиций и поможет вам найти работу мечты.

• Парсит данные со ВСЕХ открытых вакансий России и СНГ.
• База обновляется РЕГУЛЯРНО.
• Конкретно показывает, сколько стоит каждая позиция, грейд и навык на рынке труда — это поможет вам собрать идеальный набор знаний и квалификаций.
• БЕСПЛАТНО.

Сохраняем себе и узнаем все подводные камни рынка — тут.

👍

Бэкдор

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥11

1.75K viewsAlexander Varlamov, 06:57

Data Bar | О data-проектах

Весь SQL в одном месте и стартап Sherloq

Пару недель назад мне в личку написал один из основателей стартапа Sherloq. Его зовут Nadav. Он назвал свой продукт "Cursor for Data" и попросил мнение о продукте. Меньше месяца назад выпустили бету с AI поддержкой, можно бесплатно тестить. Бегло посмотрел - идея нравится, поэтому рассказываю.

Стартапу 3 года, более подробно о нем на "Y Combinator", "Crunchbase" и "Product Hunt".

"Y Combinator" или YC - известный акселератор стартапов. Стартап Sherloq привлёк $500 000 на Pre-seed. Это самая ранняя стадия инвестиций, и деньги дают на MVP. Но не просто так, а за долю в компании обычно. В этом году попали в Топ-10 челленджа от Snowflake, и там до $1 млн могут дать каждому из 2х финалистов.

Идея стартапа - "One place for all your SQL queries". Они хотят решить проблему разрозненных SQL запросов в компаниях. Проблема - в компаниях SQL запросы могут храниться в Confluence, GitHub, Jupyter ноутбуках, BI инструментах, во внутренних документах, в переписках, в головах сотрудников и т. д.. Одна метрика может считаться по-разному в разных отделах, в разное время и в разных инструментах. Проблема действительно серьёзная. Я не знаю компании, которые её полностью решили. Поэтому есть чаты где друг у друга спрашивают как считать метрики.

Надо сказать, что первую версию продукта ребята сделали и даже продали компании AppsFlyer (не нуждается в представлении), у которой более 10000 таблиц и 2 млн запросов в день. Подробно кейс здесь.

По-сути стартап сделал что-то вроде GitHub для SQL, с версионированием, но без усложнений в виде ревью, пулл-реквестов, веток и т.д.. Запросы шарятся через экстеншны и плагины к Chrome, VsCode, Cursor, DataGrip, PyCharm и др.. То есть, открываешь инструмент, запускаешь плагин и ищешь нужный запрос в окне Sherloq, а потом обновляешь в SQL репозиторий там же. В заглавной картинке пример на BigQuery.

Основатели стартапа описывают свою систему как "collaborative platform for managing and documenting data analytics workflows". Кроме collaborative SQL repo, есть встроенные инструменты: линтер, поиск и фикс ошибок, AI агент (пишет запросы, исходя из названий метрик), ERD Visualizer. Ещё может вытаскивать Custom SQL запросы из Tableau по API токену и пушить в репозиторий.

Обозначенные выше проблемы тратят много времени пользователей и бизнеса. Это прям боль компаний в data направлениях для менеджмента.

По стоимости - 16$ в мес. за 250 SQL фиксов, 200 вопросов к AI, неограниченный объём хранимых запросов. Дорого это или нет - непонятно, пока не сравнить с потерями времени на SQL в конкретной компании.

Попробовал пока форматирование запросов, посохранял запросы, ещё на VsCode плагин надо поставить и подключить к простой БД, помучаю AI агентов, построю ERD диаграммы и напишу отзыв. Интересно как у стартапа дальше пойдёт. Идея интересная, но как на уровне компаний внедрять новый на рынке инструмент - не очень понятно, надо ждать больших кейсов внедрения.

🔥14🥱6👎2

1.45K viewsAlexander Varlamov, 06:27

Data Bar | О data-проектах

Tableau Lego и невозможные визуализации.

В BI и датавиз пространстве большинство пользователей работают со стандартными визуализациями. Естественно, в любом инструменте визуализации данных есть свои ограничения - они и определяют сложность визуализаций. Эксперты могут посмотреть на любую работу и примерно рассказать как она сделана. В периметре Tableau существуют "невозможные визуализации" - такие, которые мало кто может повторить без мануала, и до их создания построение считалось невозможным. Обычно на скриншот с такой визуализацией говорят что "это сделано не в Табло".

Сегодня расскажу о своей визуализации Tableau Lego. Ей 5 лет, она стала классикой в своём сегменте, но не каждый Tableau эксперт понимает как она построена. Я консультировал несколько инженеров и сейлзов внутри компании Tableau по принципам её построения. То есть, инженеры, создающие продукт, хотели понять на что способен продукт, и что можно ещё создать. И внутри компании создают 3D проекты чтобы расширить понимание возможностей продукта.

Сама визуализация "Tableau Lego" - это эмулятор конструктора, где можно по шагам эмулировать сборку лего домика, а также смотреть на него под разными углами. Всё работает на чистой математике, без внешних модулей.

Когда-то для меня 3D в Tableau казалось космосом. Но надо было разобраться и добавить что-то своё. Месяца на 4 погружался в 3D, принципы, что было сделано и что можно сделать. Сверхсложного ничего нет - просто нужно время. Из своего - добавил работу с OBJ файлами - это сильно изменило картинку. До этого 3D модели описывались форматом стереолитографии, и полигоны делились на треугольники. С моим подходом можно работать с любым числом вершин в полигоне.

Самое сложное - создать датасет, остальное - дело техники. Визуализация - это набор полигонов с заданными координатами вершин и формулы проекции на плоскость плюс алгоритм сортировки полигонов. Максимально подробно всё описал в статье "3D модели в Tableau". Её до сих пор читают и делают 3D. Мы даже конкурс один раз проводили на индийском TUG с призами.

Мне нравится концепция Лего, когда из базовых кубиков создаёшь примитивные конструкции, а и из примитивных конструкций создаёшь сложные сооружения. Как в жизни.

После создания таких визуализаций мне посчасливилось сотрудничать с людьми из Pixar, они создавали ещё первую "Историю игрушек". Про это рассказывал в одном из постов.

Зачем всё это? В русскоязычном пространстве такой вопрос возникает часто, а в англоязычном - нет. В англоязычном комьюнити просят статьи, вебинары и объяснения. Мне просто интересно делать то, что считают невозможным. Это классно, когда ты ограничен инструментом (нет циклов, скриптов и т.п.), и приходится придумывать вычисления для реализации идеи.
В СНГ такие вещи никому не нужны, и это печально. А в англоязычном пространстве всегда ищут что-то необычное и тех кто это делает. В твиттере (благодаря таким работам) на мой профиль подписаны CEO Salesforce, CEO Tableau, CTO Twitter/Facebook (сейчас - Sierra AI) - это люди, определяющие куда пойдёт мировое IT. И им это надо.

❤34🔥30😱5

10K viewsAlexander Varlamov, 07:33

Data Bar | О data-проектах

Самый сложный вид спорта и рейтинг ESPN

Какой вид спорта самый сложный?
На этот вопрос однозначного ответа нет, поскольку нет объективных критериев оценки.

Но в 2004 году группа экспертов из ESPN (espn.com - самый посещаемый сайт о спорте на тот момент) взялась ответить на этот вопрос. Для этого они взяли 10 ключевых навыков или способностей:

1️⃣. Выносливость (Endurance): Способность долго выполнять физическую или умственную работу.
2️⃣. Сила (Strength): Насколько мощное усилие может приложить человек.
3️⃣. Мощность (Power): Комбинация силы и скорости — способность быстро приложить усилие.
4️⃣. Скорость (Speed): Насколько быстро человек может двигаться или реагировать на что-то.
5️⃣. Ловкость (Agility): Способность быстро и точно менять направление движения.
6️⃣. Гибкость (Flexibility): Способность суставов и мышц растягиваться без травм.
7️⃣. Хладнокровие (Nerve): Умение сохранять спокойствие в стрессовых или опасных ситуациях.
8️⃣. Устойчивость (Durability): Устойчивость к травмам, нагрузке или усталости.
9️⃣. Координация рук и глаз (Hand-Eye Coordination): Способность синхронизировать зрение и движение рук.

1️⃣

0️⃣. Аналитические способности (Analytic Aptitude): Способность быстро и эффективно анализировать информацию.

Каждый навык оценивался по шкале от 0 до 10 для каждого вида спорта, где 10 - максимальный навык, необходимый в конкретном спорте (напр, для гимнастики гибкость = 10) После чего оценки всех 10и навыков суммировались и получалась одна общая оценка. Всего оценили 60 спортов. Таблица с оценками каждого вида спорта есть по ссылке. А экспертов с их биографиями можно найти здесь.

Надо сразу заметить, что оценки субъективные, а получившийся рейтинг - также субъективная история, и ближе американскому майндсету. У меня тоже есть вопросы к оценке. Но остановимся на том, что есть, тем более, что на протяжении 20и лет на эти оценки периодически ссылаются (Статья 1, Статья 2). Есть и другие рейтинги.

Итак, топ 5 спортов с оценками:
1️⃣ Бокс (72.4)
2️⃣ Хоккей (71,8)
3️⃣ Американский футбол (68,4)
4️⃣ Баскетбол (67,9)
5️⃣ Борьба (63,5)

Антитоп (самые ненапряжные виды спорта):

5️⃣

6️⃣Кёрлинг (27,5)

5️⃣

7️⃣ Боулинг (25,4)

5️⃣

8️⃣ Стрельба (24,9)

5️⃣

9️⃣ Бильярд (21,5)

6️⃣

0️⃣ Рыбалка (14,5)

Этот датасет мы визуализировали на MakeoverMonday в 2018 году. Мне тогда было интересно попробовать что-то нестандартное. Выбрал диаграмму Coxcomb ("Петушиный гребень"), она же - Nightingale’s rose. Надо отметить, что диаграмму такого типа использовала Флоренс Найтингейл - одна из пионеров визуализации, для отображения смертности солдат, почти 2 века назад. Диаграмма читерская (как и все круговые), поскольку визуально считывается площадь. Алексей Смагин писал про неоднозначность круговых диаграмм в TJ.

В моём случае каждый сектор со своим цветом отвечает за свой навык, а радиус сектора - за оценку навыка. На визуализации 60 диаграмм, своя для каждого вида спорта и одна общая, где дугами отмечаются оценки всех навыков во всех видах спорта. Получилось нетривиально. Работа называется 📊 "What's the toughest sport of all?". Не на всех браузерах нормально отрабатывают шрифты.

Реализация непростая - в Табло используется денсификация и по 6 табличных вычислений для X и Y. Тогда делал такое первый раз, полдня просидел, но получил что хотел. Всего на визуализации 122 500 точек. У Bora Beran есть статья по созданию таких диаграмм.

На общей диаграмме интересно поизучать крайности - самые высокие и самые низкие оценки каждого навыка. Или найти диаграммы с резко выраженными различиями в навыках (напр., автогонки - максимум Analytical Aptitude и минимум Flexibility). На этой же диаграмме интересно сравнить одни вид спорта с остальными.

Если досконально разбираться в данных и визуализации, то данные - читерские (сами придумали методику, сами проставили баллы), и диаграмма не самая ясная (по-разному может восприниматься человеком). Но это пример попытки оцифровать то, что оцифровать нельзя. И таких примеров много.

А вот интересно, где в этом рейтинге будет киберспорт? 🎮

Please open Telegram to view this post

VIEW IN TELEGRAM

👍10❤2😁1

1.09K viewsAlexander Varlamov, 04:56

Data Bar | О data-проектах

Конкурс авторских Telegram-каналов

Подал заявку на участие в конкурсе авторских Telegram - каналов. И её приняли 🎆. Интересно принять участие в такой движухе, я не помню чего-то подобного.

Подробнее о конкурсе - на странице: https://tg-contest.tilda.ws
Главный канал конкурса: @tg_contest_main

Заявки можно подавать до 6 июля. Если у вас небольшой авторский канал, пишете сами, а не копируете другие посты, и ERR более 200, смело подавайтесь в своей номинации. Заявок уже более 500.

Главный приз - шаринг ваших постов на аудиторию 250k и новые подписчики.

Мне интересен нетворкинг, просто пообсуждать, чем живёт сообщество в TG.

Голосование за каналы - с 7 по 14 июля.

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥11👍5

1.03K viewsAlexander Varlamov, 05:40

Data Bar | О data-проектах

О чём пишут телеграм-каналы и морфологическая нормализация

В каждом авторском телеграм канале - своя тема, своя стилистика, свои обороты, свои слова. Посты в канале - лицо автора. Поэтому придумал концепцию портретов авторов из слов постов их каналов. По словам сразу понятно, о чем пишет автор.

О чём же пишут авторы?
Можно сразу перейти в комментарии и найти портреты в хайрезе:
1️⃣Павел Дуров и канал @durov_russia
2️⃣ Артемий Лебедев и канал @temalebedev
3️⃣ Максим Спиридонов и канал @mspiridonov
4️⃣ Мой портрет и канал @data_bar

Сделал скрипт, который формирует облако слов из всех постов канала. Вкратце:
1. Выгружается json из канала
2. Забирается только текст из постов
3. Из текста убираются стоп-слова (предлоги, наречия и т.п.)
4. Проводится морфологическая нормализация (об этом ниже)
5. Считается частотность каждого слова
6. Строится облако слов по маске. Маска - черно-белое изображение.

Чем больше размер шрифта, тем частотнее слово. Сразу видно наиболее употребляемые слова. Одна картинка 5120x5120 считается и формируется 10 минут.

Делал раньше такое, и написал статью как это работает. В новой версии хотел добавить морфологическую нормализацию LLM. Но, в итоге, использую библиотеку pymorphy2. Пробовал документ отдавать ChatGPT, но он не смог нормально сделать и сам предложил использовать pymorphy2. Эта библиотека справляется в 95%, но всё-таки есть проблемки.

Морфологическая нормализация - это приведение всех существительных к единственному числу в именительном падеже. Прилагательные - единственное число, мужской род. Давно хотел реализовать и думал применить LLM, но получил неплохой результат с pymorphy2. А вот глаголы в совершенной форме к несовершенной приводить получается только при помощи словаря (это другая морфологическая операция).

Маска - это портрет автора канала. Исходный портрет преобразуется в grayscale и сильно выкручивается яркость с контрастностью, потом изображение инвертируется. Cловами заполняются все тёмные участки. По-хорошему, надо допиливать портреты вручную в фотошопе, но я этого не делал.

Получилось прикольно: слова и портрет автора на одной картинке. Ведь в каком-то смысле, слова автора являются его лицом.

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥26❤5👍2👎1

1.01K viewsAlexander Varlamov, 06:19

Data Bar | О data-проектах

Трамп говорит и соцсеть Truth

Трампа когда-то забанили в Твиттере, после чего он создал свою соцсеть c блэкджеком "Truth Social", где с завидной регулярностью выкладывает посты. Эти посты потом разносятся по X (Twitter) и в разных СМИ, включая телеграм-каналы.

А я продолжаю экспериментировать с анализом текстов и облаками слов. В этот раз взял все посты Дональда Трампа с момента его вступления в президентскую должность 20 января 2025г (а их более 1300) и построил облако слов на базе известного портрета Трампа. Здесь можно видеть какие слова чаще употребляются в сообщениях.

Публичного API у TRUTH нет, но есть сайт https://trumpstruth.org, где хранится архив всех сообщений. Оттуда можно тащить весь текст. Используется библиотека feedparser, и скрипт по дням вытаскивает всё, что писал Трамп. После этого удаляются чужие сообщения (ретвиты) и сообщения с видео. Остаётся только текст. Далее, как в посте выше, работает морфологическая нормализация и удаляется всякий мусор. Нормализация английского языка отличается от нормализации русского, она реализована по-другому. После чего строится облако слов.

Цвет слова формируется на базе картинки-подоложки. Выбирается квадрат 5x5 пикселей в центре слова, и цвета всех пикселей приводятся к одному. Размер слова пропорционален частоте его употребления.

В итоге, получился такой портрет из слов. Концепция этого дата-арта: "Человек - то, что он говорит". Хотя с конкретным персонажем это не всегда так 🙂.

Можно взять любую картинку, любой текст и сделать то же самое. Шекспира, например. Или героев фильмов.

👍16❤8🔥4👏1😁1🤩1

1.19K viewsAlexander Varlamov, 06:03

Data Bar | О data-проектах

Channel name was changed to «Data Bar | Data проекты и истории»

13:44

Data Bar | О data-проектах

Forwarded from VILKY. Зарплаты в IT

Инсайты. AI инструменты разработчика.
Большой опрос Stack Overflow 2024.

А вы же знаете про Stack Overflow?
Конечно! Это же самый большой в мире форум программистов с вопросами и ответами. Одно из самых авторитетных сообществ в IT. Этот ламповый ресурс постепенно каннибализируют нейросети. Но он легендарен.

Так вот. Stack Overflow с 2011го раз в год проводит грандиозный опрос. Отвечают пользователи на платформе. А пользователи там - ребята скилловые и активно встречают все новые технологии. В мае 2024 года был последний опрос, его прошли более 65 000 разработчиков. В 2025м ещё не было, а может и не будет.

Давайте вернёмся на год назад (свежее данных пока нет) и посмотрим на ответы юзеров с текущей позицией - разработчик.

59% используют AI инструменты для разработки. 22% не планируют использовать.

Самый популярный AI инструмент - ChatGPT. Остальные можно видеть на диаграмме. На вопрос об инструментах AI можно было написать несколько. Часть из них уже обязательные скиллы в ряде вакансий.
А вы все AI инструменты знаете из списка? Мы - нет.

У нас традиционно внедрение любых инструментов запаздывает. Но каждый может прикинуть что он использует сейчас и что планирует.

В опросах Stack Overflow ещё много всего интересного. Мы продолжим исследовать данные в рубрике "Инсайты" и рассказывать про изменения рынка IT вакансий.

#инсайты

👍10

950 viewsAlexander Varlamov, 06:04

Data Bar | О data-проектах

1000 самых известных людей и выставка в Вегасе

На картинке выше моя работа "Pantheon" на выставке визуализаций Tableau Public Gallery в Лас-Вегасе. Всё проходило в рамках конференции "Tableau Conference" в ноябре 2019 года. В одну рамку работа не влезла поэтому получится диптих. Потом работа поехала в Сан-Франциско на большую конфу "Salesforce" и ещё куда-то. Через год её отправили в Россию, но получить не смог - был COVID и проблемы с оформлением документов на получение.

Работа о 1000 самых популярных людей. Делал на английском и русском языках. На русский переводил для OpenDataDay 2020 в Москве. Саша Богачёв приглашал, было круто.

Датасет очень интересный, нашёл его у Andy Cotgrave "Chart of Biography".

Сайт проекта "Pantheon" здесь. MIT (Массачусетский Технологический Институт) придумал методику измерения популярности всех людей на планете по статьям и проанализировал всё что доступно в интернете. Получились ранги известности. Самые известные люди:

1️⃣. Аристотель
2️⃣. Платон
3️⃣. Иисус Христос
4️⃣. Сократ
5️⃣. Александр Великий

Теперь о визуализации. Меня как-то посетила мысль, что разные диаграммы можно попробовать соединить. Просто для того чтобы понять получится ли логично или нет. Первый раз реализовал эту мысль в работе "Freedom of the Press", и её приняли очень хорошо.

А в Пантеоне эта мысль продолжилась, и в ней соединяются несколько визуализаций. Долго не мог найти датасет, а потом увидел проект "Пантеон" и понял что это то что надо. Нравится аналогия, что жизни людей - это нити, пронизывающие пространство. В визуализации соединяются: таймлайн, ранги, категории и карта (откуда родом человек). Сам виз - интерактивный дата-арт.

Визуализация была экспериментом - хотелось посмотреть что получится. А получилось так, что эксперимент отобрали на выставку работ.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤19🔥13👏4😱3👻1

977 viewsAlexander Varlamov, 06:01

Data Bar | О data-проектах

Пятничный мемопад от команды авторских каналов.

Эстафету принял от
@gisgoo - крутой канал о ГИС аналитике

Эстафету передал
@hrekbdrive - канал "HR на драйве"

👍10😁8🔥4

904 viewsAlexander Varlamov, 06:01

Data Bar | О data-проектах

Дашборды и японская кухня

На просторах интернета можно найти примеры интерфейсов и дашбордов с закруглениями сетки. Надо так делать в дашбордах или нет? Биайщики обычно выбирают классику - прямоугольники.

Сейчас закругления сетки можно нативно регулировать в некоторых BI инструментах. То есть, добавляют эту функцию специально. Для Tableau анонсировали в этом году, а раньше приходилось серьёзно потратить времени и нервов. Как делать сетку с закруглениями.

Делал такой дизайн в дашборде "Glassdoor US Data Analyst Jobs" и в "IT Vacancies"

Тип дизайна называетcя "Bento". Слово пришло из японской кухни, где Bento (Бэнто) называют порцию упакованной еды. Бэнто с японского переводится как "обед на одного". Еда находится в контейнере с ячейками с закруглёнными углами (один из типов). Бэнто широко распространены среди школьников как обед, который можно нести с собой.

Искусство подбора продуктов и изготовления бэнто занимает почётное место в жизни японцев. Тщательно выбираются продукты, чтобы пища была сбалансированной ,вкусной и соблазнительной, ведь намного приятней есть красиво оформленную еду.

Прослеживается аналогия с дашбордами. Готовить дашборды, которые каждый день хочется открывать и исследовать, довольно сложно. Начиная от концепта, подбора метрик и смыслов графиков, дизайна, серьёзной разработки до поддержки. Каждая ячейка - свой смысл. Можно потратить месяцы только дизайна, разработки и поиска оптимальной концепции. Далеко не всякая компания инвестирует ресурсы в такие задачи. Но если вы делаете дашборды, котрые хочется съесть, и они работают на проде - это серьёзный уровень и вас, как специалиста, и компании, инвестирующей время и ресурсы.

🔥13❤4👍3

867 viewsAlexander Varlamov, 09:12

Data Bar | О data-проектах

14000 открытых IT вакансий на одном дашборде

Большой апдейт проекта анализа IT зарплат VILKY. Расскажу что нового в пет-проекте, с какими проблемами столкнулись и что, в итоге, получилось. Мы всё так же, втроём, понемногу пилим сервис. Последние пару месяцев работали над сбором и обработкой данных.

✅ Что нового?

1️⃣. ДАННЫЕ
Сначала о самом заметном изменении. Мы добавили в дашборд 2 новые платформы вакансий:
🔹FINDER. Этот сервис раньше назывался Finder.vc. Он начал работу в 2020 как сервис поиска удалёнки. Сейчас там не только удалёнка и IT вакансии занимают 10% от всех. Много вакансий для начинающих специалистов. В день там более 10000 активных вакансий. Говорят что каждая вакансия проходит модерацию. Основной ТГ канал сервиса, 300k подписчиков
🔹 VSETI. Сервис IT вакансий, активных в день - более 300. Но важно не количество, а то что много уникальных вакансий. Основной ТГ канал, 57k подписчиков.

Только добавление вакансий этих сервисов увеличило в 4-5 раз общее число вакансий на дашборде. Благодаря Finder, появилось много нетоповых, и их тоже интересно исследовать.

Finder мы собрали вообще весь (2млн+ архивных вакансий). Парсеры Finder были на мне. Рома (пишет в канал Kotolitic) делал парсер для VSETI. Автоматизацию делал Никита.

2️⃣. ETL
Серьёзные изменения в ETL процессах. Полноценно работает DBT, там производятся трансформации данных. Пересмотрена и частично реализована логика сбора вакансий со снепшотов на инкремент. Это и многое другое делал Никита, про всё написал у себя в канале 'Joni in Web'.

3️⃣. AI И LLM
Отказались от YandexGPT - набольшом объёме данных нормализация съедает много денег, надо делать своё. Никита написал на sklearn нормализацию. Яндексу больше не платим 🙂. У вакансий Finder нет скиллов и грейдов, поэтому используем скрипты для их извлечения.

Эксперименты с внешними LLM даром не прошли - мы собрали достаточно информации для понимания того что будем собирать собственными LLM, и для чего LLM не нужны. Например, для сбора минимальной и максимальной зарплат достаточно старых добрых регулярных выражений. Работали с YandexGPT, а он иногда в вакансиях находил какие-то числа (зарплаты), которых нет в описании. Непонятно откуда вообще брал. Дальше планируем эксперименты с предобученной моделью.

4️⃣. ДАШБОРД И ДАЙДЖЕСТЫ
Дашборд допиливался под новые платформы. Сделали дополнительное поле под локацию: части света, выделили Казахстан и Беларусь. Столкнулись с ограничением Гугл шитов. Их используем для обновления даша на Tableau Public (прямо из базы он тянуть не может). У гугл шитов есть предел 10MB на скачивание данных через драйвер Google Drive. Данных стало заметно больше, поэтому, 7 дней выходили за предел. Ограничили историчность двумя днями. Скорее всего, оставим только 1 день - непонятно, кому недельные тренды вообще нужны.
Сделали новые дайджесты по вакансиям с требованиями AI и требованиями 1C.
Дайджесты по специализациям сейчас вылетают по лимиту гугл шитов. Для них отдельно соберём агрегированные данные.

⚠️ Траблы. Их хватало: косяки нормализации LLM, вылеты запросов по памяти, нехватка ресурсов для ETL, ограничения публичных сервисов, тормоза дашборда. Без этого - никуда 😁.

Сейчас 14000 вакансий в дашборде. В базе - несколько миллионов. Почти 70 000 просмотров дашборда за всё время.

Появилось много кейсов для анализа данных. Их присылают пользователи. На реализацию всего времени не хватает, но более четко прорисовываются границы того кому и зачем нужен сервис. Фидбек вдохновляет. Спасибо, что пишете! ❤️

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥23❤7

949 viewsAlexander Varlamov, edited 05:28

Data Bar | О data-проектах

Итоги конкурса TG Contest

Конурс авторских телеграм каналов TG Contest завершился. Результаты опубликовали в главном канале конкурса. Было огненно! 🔥

В заглавной картинке - облако слов из всех постов авторов основного канала. Как видите, пишем про работу 😃

Всё это время мы общались в закрытом канале продактов с авторами. Было интересно. Знакомились, делились мнениями и постами. Сделаем папку каналов продактов и расшарим. Напишу отдельно про это.

Ещё в конкурсе участвовали каналы аналитиков, но категории 'Аналитика' не было, и люди разбрелись по другим категориям. Но всё-таки нашли родственные души во всём многообразии авторов.
Отмечаю два крутых канала, которые буду читать:

😮 'Дневник Гис-аналитика'. Его ведет Александр, преподаватель геоинформатики. В канале много визуализаций геоданных и невероятно красивых карт. Отличный пример того, как человек любит своё дело и рассказывает о нём. Вот минималистический Питер. А это "Магнит vs Пятёрочка" на карте.

😮 'Data Дзен' Олега Дмитриева. Олег пишет о роли лида в IT, аналитику, BI, автоматизацию и жизнь в айтишечке с юмором и мемами. Разбирает дашборды и резюме. Вот здесь свежий видео-разбор даша с хорошей порцией юмора. А здесь - вебинар по UX в BI

Читайте и подписывайтесь 🔥

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥7❤5

797 viewsAlexander Varlamov, 07:04

Data Bar | О data-проектах

О чём пишут продакты

Мир становится "продуктовым".

Компании всё чаще строят цифровые продукты: приложения, сервисы, платформы. Даже традиционные отрасли превращаются в технологические компании. А со взлётом возможностей ИИ трансформация проходит на сверхзвуковых скоростях. В таких условиях навык думать как владелец продукта становится универсальным. Такой навык будущего, c ИИ тулами наперевес, даст вам поистине неограниченные возможности создания различного рода сервисов.

В конкурcе авторских каналов "TG Contest" и направлении "Продукты" собрали папку с каналами 22х финалистов.

🔥 Папка - по ссылке "Продакты тут".

Здесь найдёте каналы как динозавров продуктового подхода в бигтехе, так и тех, кто недавно в продуктовой тусовке. Ребята пишут о болях продакт менеджеров, ценностях продукта, метриках, A/B тестах и всём что полнует продактов и пользователей.

Лучи славы и фанфары - победителям конкурса:

🎆

@tobeproduct 'Быть продактом!' (выбор куратора). Канал ведёт Антон, директор по продукту. Здесь много годноты человеческим языком: инструменты, гипотезы и всего того, чем живёт продакт.

🎆

@nemnogoproduct 'Немного продакт' (победитель голосования). Сообщество продактов. Даниил приглашает авторов из разных продуктовых направлений для выступлений и статей. В общем, позитивный движ создают сами люди в продуктовой среде.

Конкурс завершится, но движ был незабываемым. Организаторы обещают в следующем году новый уровень! 🥁

P.S. В заглавной картинке - слова из всех постов 22х каналов. Всего постов - 7500. По традиции - облако слов.

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥13❤6

846 viewsAlexander Varlamov, 06:18

Data Bar | О data-проектах

Hard и Soft навыки в IT профессиях. Алгоритмы NLP

Представьте что для любой должности в любой организации у вас есть список всех Hard и Soft навыков плюс описания задач на позициях. Харды - это технологии, инструменты, стек, библиотеки. С софтами сложнее: сюда можно отнести 'управление проектом', 'коммуникацию' и т.п.

Что это даёт?
🟢 Вы знаете стек по командам в каждой компании
🟢 Вы можете кластеризовать компании (лидеры - аутсайдеры)
🟢 Вы можете прогнозировать развитие направления
🟢 Вы можете понять как трансформируется любая должность
🟢 Вы можете искать дефицитных сотрудников с уникальным набором скиллов
🟢 Вы можете примерно рассчитать цену конкретного навыка, если знаете зарплаты
🟢 Вы можете понять куда вам расти и чему лучше обучаться

Таких задач много, можете написать в комменты.

У нас в проекте анализа зарплат в IT VILKY давно стоит задача сопоставления навыков с конкретными должностями. Опираемся на данные вакансий - там указываются навыки и задачи. В самих полях навыков или указывается мало хардов и софтов или вообще ничего.

Сегодня расскажу как научились вытаскивать харды и софты из описания вакансий. Раньше было пару подходов к снаряду:
1️⃣. Использовали ChatGPT, YandexGPT. Проблема - не понимают что именно вытаскивать из описаний вакансий, непредсказуемы, и на миллионах данных слишком дороги.
2️⃣. Пробовали классические ML-инструменты, работали с Sklearn. Часто пропускает важные навыки. Не всегда ясно что надо учитывать а что пропускать.

Сейчас реализован третий вариант, у него точность более 95%. То есть, 95% нужных навыков он вытаскивает из описания вакансии. Не работает с опечатками. Пока не на проде - тестируется. С начала недели сидел с алгоритмами NLP (Nature Language Processing), рассказываю что получилось.

Как работает:
1️⃣. Определяет частотность навыков на базе 620 000 снепшотов вакансий с указанием конкретных навыков и строит таблицу.
2️⃣. Отбрасывает ерунду вроде "Стрессоустойчивости" и "Обучаемости".
3️⃣. В таблице ищет синонимы (Microsoft Excel, Excel, эксель и тп.).
4️⃣. Строит словарь с навыками, частотностью + массивы синонимов.
5️⃣. Удаляет навыки встречающиеся в 1-2 вакансиях. Здесь надо было ещё уками перепроверить.
6️⃣. Проходится по всем описаниям вакансий и ищет навыки и синонимы из словаря. Здесь есть прямой поиск, токенизация (разбиение на слова) и лемматизация (приведение к нормальной форме).
7️⃣. Добавляет поле новых навыков к данным.

В итоге, словарь сейчас - это 1260 наиболее популярных скиллов с синонимами на русском и английском языках. Поиск предсказуемый, без галлюцинаций нейросети.

Что дальше?
Планируем:
- внедрение поиска по скиллам на 📊 дашборде, даже если в вакансии навыки не указаны явно
- расширенный словарь, в том числе с редкими и уникальными технологиями (не для дашборда)

На выходных будет повторная валидация. Если всё ок - внедрим в прод и дадим пользователям.

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥12👍3

748 viewsAlexander Varlamov, 07:30

Data Bar | О data-проектах

20 лет Y Combinator и тренды в IT

'Y Combinator' (YC) - легенда венчурного мира. Это не просто венчурный фонд, а настоящая фабрика технологических гигантов. С 2005 года он превратил сотни никому не известных проектов в компании с миллиардными оценками: Airbnb, Dropbox, Stripe, Reddit, Coinbase, Twitch - все они когда-то прошли через YC. Отбор жёсткий - проходят примерно 1-2% от всех заявок - серьёзнее, чем в Гарвард. 9000+ основателей прошли через инкубатор YC, и это лучший нетворкинг в Кремниевой долине.

Почему YC - это IT-оракул?
Фонд видит тренды за годы до бума:

🔸 Big Data, облака, крипта - YC инвестировал на старте.
🔸 Ковид-эра: доставка, видеосвязь и EdTech.
🔸 AI-революция: первые стартапы пришли в 2021, а сейчас каждый первый проект - "AI для чего угодно".

Хотите заглянуть в будущее? Смотрите последние батчи YC.

Для изучения:

🎆

Все компании фонда.

🎆

Все основатели компаний.

Как думаете, кто из нынешних стартапов YC станет следующим "единорогом"?

Please open Telegram to view this post

VIEW IN TELEGRAM

👍12🔥8

776 viewsAlexander Varlamov, 05:03

Data Bar | О data-проектах

Фильмы в цифрах. Исследуем данные TMDB и MovieLens

Фильмы любят все! В этот раз я решил сравнить две крупные рейтинговые платформы: TMDB и MovieLens, а заодно поговорить о линейной регрессии и корреляции между метриками.

В основе анализа - данные
'The Movies Dataset'

В датасете 45000 фильмов до 2018 года на разных языках, 26 миллионов оценок фильмов от 270000 зрителей на ресурсе MovieLens. Это один из рейтинговых и рекомендательных сервисов от команды GroupLens. Они публикуют датасеты для задач машинного обучения и построения рекомендательных систем.

Что я сделал:
На основе этих данных создал интерактивный 📊 инструмент-дашборд который позволяет сравнивать метрики фильмов по различным срезам:

Метрики:
🔸 Budget (Бюджет)
🔸 Revenue (Выручка)
🔸 Profit (Прибыль)
🔸 MovieLens Rating (пятибальный рейтинг)
🔸 MovieLens Votes (голоса на платформе MovieLens)
🔸 TMDB Rating (десятибалльный рейтинг)
🔸 TMBD Votes (голоса на платформе TMDB)
🔸 Runtime (длительность фильма)

Разрезы:
🔹 Жанр
🔹 Язык
🔹 Компания
🔹 Год выпуска

Основной инструмент - диаграмма разброса или Scatter Plot.
Диаграмма отображает фильмы точками. Ось X - одна метрика, ось Y - другая. Классические декартова система координат. По каждой категории строится прямая линейной регрессии, отражающая тренд, и вычисляется коэффициент корреляции Пирсона. Для интерпретации используется шкала Чеддока, которая помогает оценить силу и направление связи между метриками.

На все точки сразу смотреть не стоит - желательно выбрать гипотезу и фильтроваться по группам.
Примеры инсайтов:
▫️ Самые убыточные фильмы
▫️ Самые рейтинговые фильмы
▫️ Самый плохой российский фильм
▫️ Есть ли связь между числом голосов и рейтингом
▫️ Перекосы оценок фильмов на разных платформах
▫️ Выбросы в данных

Диаграмма разброса - мощный способ увидеть взаимосвязи и закономерности.
В следующих постах расскажу подробнее:
🔹 что такое линейная регрессия
🔹 как работает коэффициент корреляции Пирсона
🔹 как читать шкалу Чеддока
🔹 как делать выводы из трендов

Это базовые вещи в статистике и анализе. Изучать их на киноданных - одно удовольствие.

✍️ А пока - читайте полную статью с примерами, вычислениями и скриншотами в моём блоге.

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥12

717 viewsAlexander Varlamov, edited 06:26

Data Bar | О data-проектах

Линейная регрессия и курсы валют

Линейная регрессия -базовый, но мощный инструмент, который помогает аналитикам понять связь между двумя переменными и делать прогнозы. В названии слово "линейная" указывает на форму зависимости между переменными. А "регрессия" - возвращение к среднему, как назвал это Фрэнсис Гальтон, наблюдая, что дети очень высоких родителей в среднем ниже их, а дети низких - немного выше. История термина здесь.

В прикладном смысле линейная регресия - поиск линейной зависимости между двумя переменными.

Вы все видели графики курсов валют. Я сделал визуализацию 📊 "Linear Regressiоn EUR USD", где можно:
🔸 изменить фильтры и диапазоны дат
🔸 увидеть, как меняются коэффициенты
🔸 посмотреть, как данные отклоняются от прямой (variance)

Сделал это, чтобы визуально стало понятно: что такое регрессия и как она работает. Добавил шкалу Чеддока - она показывает словами силу корреляции (например, "сильная положительная").

В данных - курс евро относительно доллара за 1,5 года. Цель - найти уравнение прямой, где x - время, а y - курс евро (Rate). Для этого находим коэффициент k - наклон прямой и b - сдвиг по y. Используем метод наименьших квадратов.
🔸 Ковариация (covariance) - показывает направление связи между переменными (>0 обе переменные растут. <0 - одна растёт, одна растёт, другая убывает. 0 - нет связи)
🔸 Коэффициент детерминации (R-squared). Показывает насколько хорошо объясняется регрессия.
🔸 Коэффициент корреляции Пирсона (Pearson coefficient) измеряет силу и направление связи. Значение от -1 до 1.

Коэффициент Пирсона принимает значение от -1 до 1. Чтобы проще было оценивать направлению и силу корреляции, используют шкалу Чеддока для удобной словесной интерпретации.

Все формулы есть внутри воркбука, можно посмотреть как считаются в Tableau.

📊 Главное - визуализация помогает интуитивно понять поведение линейной регрессии: просто меняй диапазон по времени и смотри, как меняются уравнение, коэффициенты. Ну и на собесах такое спрашивают - будет не лишним повторить.

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥15❤5

621 viewsAlexander Varlamov, 06:36

Data Bar | О data-проектах

Forwarded from VILKY. Зарплаты в IT

AI отчёты на основе данных

Всем прекрасной пятницы!

Мы сделали то, к чему долго шли - подключили нейросети непосредственно к нашей базе данных. Теперь можно задавать вопросы на родном языке, дальше нейросеть переводит это в формат SQL запросов и ищет ответы в нашей базе данных вакансий. 🍾

Вчера 'Хабр Карьера' опубликовала большую статью о зарплатах в IT за первую половину 2025г. Для этого они изучили 57712 зарплат, которые специалисты сами оставили в калькуляторе. По сути, это опросные данные.

Мы решили сравнить данные вакансий и данные опросов. Для этого нейросети надо было сходить на страницу статьи о зарплатах, а потом сделать подобный отчёт, основываясь на данных в базе.

Промт следующий:

Проанализируй отчёт Habr Career за первое полугодие 2025г. по ссылке: https://habr.com/ru/specials/936618/
После этого подключись к базе данных VILKY mcp и сделай подобный отчёт, основываясь на данных таблицы vacancies_habr

Всего, в процессе рассуждения, нейросеть сделала 31 SQL запрос.
Нейросеть - Claude Sonnet 4, клиент - Claude Desktop

Полный отчёт - в PDF, в комментариях. Текст мы не меняли.
Графики не добавляли, но можно просить делать с графиками.

Такой подход диалога с данными - новый. Некоторым технологиям меньше одного года. И это, безусловно, будущее 🎆.

Хотите знать больше? Пишите в комменты, пересылайте, ставьте лайки. Будем другие кейсы выкладывать.

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥10

226 viewsAlexander Varlamov, 12:25

About

Blog

Apps

Platform