Data Science Jobs

#вакансия #NLP #Hadoop #Spark #Machinelearning #ML #СанктПетербург #СПБ #PyTorch #Kafka

Вакансия: Machine Learning Engineer
Локация: Санкт-Петербург

Компания: Mail.ru group
Юла
Высоконагруженный сервис объявлений, который обслуживается сотнями серверов в нескольких дата-центрах и ежедневно помогает миллионам пользователей.
Под капотом у Юлы современный стек технологий. Основа бэкенда и API реализована на PHP и Go, для управления данными и их хранения используется MongoDB, Tarantool и Redis, поисковая система работает на базе Elasticsearch. В качестве диспетчера сообщений настроен Apache Kafka, данные хранятся в Hadoop и Clickhouse.

Занятость: полная (удаленка или комбинированный формат)
Зарплатная вилка: высокая (зависит от уровня кандидата)
Для связи: tg: @Dreifys или почта [email protected]

Наш стек:

✅Языки: Python, Java, Scala;
✅Технологии которые часто используем в работе: PyTorch, DVC, MlFlow, Hadoop,Spark, Airflow, Kafka.

Примеры того, чем мы занимаемся:

☑️Модерацией в Юле;
☑️Детекцией ботов, мошенников, используя графовые, поведенческие данные и контентные признаки;
☑️Автоматизация восстановления профиля на основе распознавания лиц и жестов;
☑️Поиск дубликатов объявлений;
☑️ML инфраструктурой и процессами.

Требования:

🔸Уверенные навыки в программирования на Python и хотя бы одном статически типизированном языке;
🔸Хорошие знания базового ML;
🔸Представление о современном состоянии NLP, умение использовать базовые вещи(word2vec, cnn, эмбеддинги, faiss);
🔸Работа с современным BigData стеком (Hadoop/Spark/Airflow).

Будет плюсом:

🔺Опыт оптимизации DL решений на инференс;
🔺Уметь прочитать, а затем воспроизвести в коде статью;
🔺Опыт промышленной разработки на Java/Scala/Python;
🔺Опыт разработки промышленных AI сервисов;
🔺Опыт применения DevOps практик в контексте разработки ML моделей;
🔺Опыт применения ML в cybersecurity и общее представление об этой сфере.

Для связи:
tg: @dreifys или почта [email protected]

2.3K views05:00

Data Science Jobs

#вакансия #Python #SQL #ETL #Hadoop #DWH

Привет всем!

Компания: Sber EAPTEKA
Вакансия: BigData Engineer
Локация: Москва м.Кутузовская, можно удаленка / гибридный график
Вилка: 250k-320k net + премия (2-3 оклада)

О компании:

СБЕР ЕАПТЕКА – сервис для покупки лекарств и товаров для здоровья, работающий с 2000 года. Сегодня более 9 млн ежемесячно совершают покупки в СБЕР ЕАПТЕКЕ, что делает нас одним из мы в числе лидеров рынка по количеству заказов и качеству сервиса.

Куда вакансия?

Блок ИТ → Управление данными → BigData Team

Чем занимается команда?

В связи с развитием направления BigData в компании и процесса миграции data-flow в SberCloud для решения задач анализа данных и машинного обучения, создаем новую команду.

Приоритетной задачей команды BigData является создание пайплайна по стриминг и батч загрузки cырых данных из учетных систем (сайта и приложения) с последующим разделением на слои данных, создание базового слоя витрин данных, DQ мониторинг всего слоя данных и настройка gitlab ci/cd.

Требования:

- хорошо писать код на Python
- уметь Spark (Pyspark) + Spark Streaming (Kafka)
- знать hadoop-стек
- знать git, linux
- SQL
- airflow
- docker

Вопросы и резюме можно в личку - @gotsulyaak

2.2K views17:20

Data Science Jobs

#вакансия #BigData #DataEnjineer #Python #SQL #ETL #Hadoop #DWH

Привет всем!

Компания: Sber EAPTEKA
Вакансия: Data Engineer
Локация: Москва м.Кутузовская, можно удаленка / гибридный график
Вилка: 200k-250k

О компании:

СБЕР ЕАПТЕКА – сервис для покупки лекарств и товаров для здоровья, работающий с 2000 года. Сегодня более 9 млн ежемесячно совершают покупки в СБЕР ЕАПТЕКЕ💚, что делает нас одним из лидеров рынка по количеству заказов и качеству сервиса.

🔗Куда вакансия?

Блок ИТ → Управление данными → Core Team

Чем занимается команда?

В связи с развитием направления BigData в компании и процесса миграции data-flow в SberCloud для решения задач анализа данных и машинного обучения, в команду Core ищем крутого спеца💥

В обязанности входит:

⛓Работа с DWH, проектирование схем для хранения данных

⚙️Разработка процедур загрузки данных из различных источников (как внутренние БД, так и внешние аналитические/ маркетинговые платформы и т.д.) в DWH

⛓Автоматизация и контроль ETL процессов

⚙️Автоматизация проверок качества данных

⛓Формирование витрин данных

⚙️Организация CI/CD и мониторинга процессов обработки данных

🔮Требования:

- Знание Python
- Опыт в организации и разработке витрин данных от 2 лет)
- Уверенное знание SQL, умение строить сложные запросы, понимать как работать с планом запроса и как на его основе оптимизировать производительность (MS SQL обязательно)
- Опыт автоматизации ETL
- Знать git

Вопросы и резюме можно в личку - @gotsulyaak

2.2K viewsedited 17:00

Data Science Jobs

#fulltime #удаленка #вакансия #hadoop #java

Big data администратор данных со знанием Hadoop.
Локация — Москва.
Формат работы — удаленный.
Заработная плата - до 300.000 руб.

⭐️Компания:
-Ведущий разработчик автоматизированных информационных систем, программных комплексов для Минфина РФ, ФНС России, банков, органов государственной и муниципальной власти, муниципальных образований приглашает в команду на вакансию Администратора баз данных на проект Озеро данных.

⭐️Задачи на позиции:
• участвовать в решении архитектурных вопросов по Hadooop;
• решать вопросы сетевых доступов\недоступности серверов;
• осуществлять проактивный мониторинг и обеспечение бесперебойной работы основных сервисов Hadoop;
• готовить проектную документацию.
• участвовать в развертывании релизов Озера Данных;

⭐️Что мы от тебя ждем?
• Unix\Linux (опыт написание скриптов на bash, работа с репозиториями, управление доступами, управление процессами и ресурсами, установка ОС, разбор логов);
• Hadoop (опыт установки кластера, настройки сервисов, обновление версий, оптимизация, знание компонентов экосистемы Hadoop что и для чего используется и их особенностей, опыт поиска решения проблем с сервисами);
• понимание принципов развертывания контейнеризованных приложений;
• понимание кода, чтение логов, jvm, принципов ООП);
понимание преимуществ\ограничений между реляционными и NoSQL базами данных, концепции распределенных СУБД;

⭐️ Мы предлагаем:

• Удаленный формат работы;
• полное соблюдение ТК РФ: оплачиваемые отпуска;
• конкурентная заработная плата + премии за эффективную работу;
• пятидневную рабочую неделю (Пн. – Чт. с 09.00 до 18.00, Пт. с 09.00 до 16.45);
• проекты большого масштаба; высоконагруженные сервисы и самые современные технологии;
• сплоченный и профессиональный коллектив;
• профессиональное обучение и сертификацию за счёт компании: мы организуем митапы, хакатоны, конференции, семинары и тренинги: как внутренние, так и внешние;
• партнерские программы от Skyeng и Skillbox;
• доступ к корпоративной библиотеке на платформе Alpina Digital;
• возмещение до 50 % затрат на занятие спортом;
• больничный лист продолжительностью до 7 дней, суммарно за год, выданный сотруднику в связи с его персональной нетрудоспособностью, будет компенсирован Компанией таким образом, чтобы сохранить полную оплату, какая была бы в случае нахождения на работе;
• доплата к отпуску 50% от оклада через 11 месяцев работы в Компании;
• ДМС по окончании испытательного срока.

Пиши сюда, не стесняйся!

3.8K views06:20

Data Science Jobs

#вакансия

Data Engineer в VK Adtech, Москва

Департамент создаёт рекламные продукты и инструменты для бизнеса. Это myTarget, рекламный кабинет ВКонтакте и платформа VK Реклама. Наши разработки также интегрированы в другие продукты VK: Одноклассники, Портал и Почту Mail․ru. Всё это открывает бизнесу доступ к 95% мобильной аудитории рунета. В команде минимум бюрократии и максимум возможностей влиять на продукт — воплощение фич от идеи до релиза может занимать всего пару недель.

Ищем опытного и самостоятельного дата-инженера, который будет участвовать в создании ML-инструментов. Предстоит разрабатывать и поддерживать код на Scala/Spark (UDF/UDAF, Spark ML Transformers, etc.) и Python (платформа ML/ETL). А ещё помогать команде следить за качеством генерируемых данных.

У нас вы будете работать с данными популярных соцсетей (ВК, ОК, Дзен) и других проектов экосистемы VK. Также надеемся, что вам понравится наш кластер Hadoop на примерно 100 петабайтов.

Задачи:
• Проектировать, разрабатывать и поддерживать инструменты для создания надёжных пайплайнов обработки данных;
• участвовать в развитии системы для создания и использования ML-моделей;
• исследовать и интегрировать в продукт новые источники данных;
• создавать витрины признаков для ML-моделей.

Требования:
• Знание алгоритмов и структур данных;
• умение писать качественный, поддерживаемый код на Scala, Python, SQL;
• опыт использования Hadoop, знание механизмов распределённого хранения и обработки данных (HDFS, Spark, Hive);
• знакомство с Bash, Git, Linux, Docker;
• опыт работы с терминалом по SSH.

Будет плюсом:
• Умение использовать Luigi, Airflow, Kafka;
• опыт написания Spark UDF/UDAF на Catalyst API и трансформеров spark.ml;
• знание Java и нюансов JVM;
• понимание классических ML-моделей, задач и методов DS.

✍️ Отправить CV и по всем вопросам: https://yangx.top/olkony

#de #ml #engineer #mailru #adtech #spark #python #hadoop #kafka #гибрид #remote #middle #senior

4.7K views06:02

Data Science Jobs

#вакансия

Data analyst / Data scientist, Москва

VK Реклама — одно из ключевых подразделений в VK. Ежедневно наши сервисы охватывают более 140 млн пользователей в России и странах СНГ. Более 100 тыс. рекламодателей каждый день запускают рекламные кампании у нас и находят своих клиентов. Мы — команда ML внутри VK Рекламы, отвечаем за её качество, чтобы пользователи могли увидеть наиболее подходящую им рекламу, а рекламодатели потратить свои бюджеты наиболее эффективно.

Основная задача нашего направления — проверять гипотезы, искать инсайты и точки роста эффективности и впоследствии внедрять их в прод. У нас идёт полный ML-цикл от проработки гипотезы до проведения экспериментов и внедрения фич в продакшен. Результаты нашей работы напрямую влияют на эффективность такого большого продукта, как VK Реклама.

Команда ad hoc аналитики занимается проверкой гипотез и поиском точек роста. Тестирует гипотезы в реальных экспериментах и оценивает изменения. Мы ищем в команду сильных аналитиков, совместными усилиями будем проводить различные аналитические исследования для повышения эффективности нашего продукта.

Задачи:
• Анализ больших данных для поиска потенциальных точек роста и выдвижения гипотез;
• ad hoc аналитика, поиски зависимостей в данных;
• проверка гипотез, поиск узких мест, донесение результатов до прода;
• оптимизация моделей рекламного аукциона и моделей ранжирования пользователей;
• проведение и статоценка экспериментов;
• разработка и автоматизация отчётности;
• сбор, обработка и дальнейшее использование больших данных.

Требования:
• Хорошее знание SQL (сложные запросы, порядок выполнения операций) — нужно написать не просто запрос, а оптимальный запрос, который сможет отработать на действительно больших данных;
• знание Python для анализа данных; библиотеки Pandas, Numpy — нужно будет сделать анализ данных, проработать гипотезы и правильно их визуализировать. Недостаточно просто найти какой-то паттерн — нужно его правильно представить наружу;
• работа с системами больших данных будет большим плюсом (Hadoop, PySpark);
• хорошее понимание матстатистики;
• анализ данных с учётом сезонности, поиски аномалий и выбросов в данных.

Будет плюсом:
• Опыт работы с ClickHouse, Hadoop, Git, Jenkins;
• работа с инструментами BI-отчётности, понимание ETL-инструментов (делаем автоматические отчёты, готовим для них данные, настраиваем выгрузки и другое).

✍️ Отправить CV и по всем вопросам: https://yangx.top/olkony

#ds #adhoc #analytics #ml #mailru #vk #adtech #sql #python #pandas #numpy #pysprak #hadoop #mathstat #clickhouse #гибрид #remote #middle #senior

4.7K views12:04

Data Science Jobs

#вакансия #de #fintech #remote

Привет! Мы в поиске Data Engineer (middle+)

Компания: Vsemirsoft
Проект: банковский проект (входит в ТОП-50 банков РФ).
Стек проекта:
- #Hadoop, #GreenPlum, #S3;
- #Airflow, #Spark, #Kafka, #Debezium;
- #ClickHouse, #Superset

Часовой пояс: Москва (UTC+03:00, Europe/Moscow)
Формат работы: удаленный
Зп: 285 тыс. руб.

📌Ключевые компетенции:
- АБС
- ЦФТ
- DWH

📌 Требования:
- ОПЫТ РАБОТЫ ОТ 3х ЛЕТ;
- опыт работы с хранилищами данных и с отчетностью в АБС Банка;
- понимание жизненного цикла разработки программного обеспечения

📌 Как преимущество:
- понимание процессов формирования обязательной отчетности (ЦБ)

📌 Задачи в рамках проекта:
- анализ новых требований от заказчиков по задачам обязательной отчетности (ЦБ);
- реализация изменений и тестирование на стороне DWH;
- взаимодействие с внутренними заказчиками, системными аналитиками-экспертами других подразделений;
- написание технических задач для развития детального и витринного уровней DWH;
- анализ и контроль качества загрузки данных в DWH;
- описание логической и физической модели DWH и сопровождение документации в части хранилища данных

По всем вопросам обращаться: @odu_v_an

4.9K views07:41

Data Science Jobs

#вакансия #ds

Мы в Циан 🏘 ищем сильного Senior Data Scientist-а в команду CRM.

Локация - Полная удаленка внутри РФ. Если есть желание ходить в офис, у нас есть замечательные современные офисы в Москве, Питере и Новосибе.

Вилка - от 350 до 500 гросс, готовы обсуждать

О нас
В Циан большая команда ML. В команде настроены процессы перфоманс ревью, регулярного обмена опытом, выделяем время на исследовательскую работу!

Команда CRM занимается прямыми коммуникациями с клиентами (пуши, емейлы, смски и тд)

Наш стек
● Python (Numpy, SciPy, Pandas, sklearn, PyTorch);
● Экосистема Hadoop (PySpark, Hive, Kafka);
● Airflow;

Задачи:
● Повышение эффективности пуш-уведомлений, емейлов и других каналов прямых коммуникаций с клиентами;
● Оптимизация коммуникационной нагрузки, выбор оптимального канала коммуникации, выбор оптимального времени отправки;

Требования к кандидату
● Опыт: Не менее 3х лет релевантного опыта на позиции DS в продуктовой компании
● Python: пишет легко читаемый и поддерживаемый код
● SQL (оконные функции, оптимизация запросов)
● Apache стек: HDFS/Kafka/Spark (DF API)
● Классический ML: бустинги, линейные модели.
● Базовые знания в NLP и CV: трансформеры, TF-IDF
● DL: PyTorch.

Плюшки:
ДМС с первого дня (стоматология, госпитализация, полис ВЗР), Кафетерий льгот Benefactory, 5 day off в год, помимо основного отпуска.

Пишите в ЛС рекрутеру / мне (@DANAlina95 / @kgavrilchik) или скидывайте свои резюме на [email protected]

#Python #Numpy #SciPy #Pandas #sklearn #PyTorch #Hadoop #PySpark #Hive #Kafka #Airflow

4.9K views18:04

Data Science Jobs

#вакансия #hadoop #sql #java #hive #spark #python #scrum #agile

🚀 Вакансия: Старший разработчик Hadoop 🚀

Локация: Санкт-Петербург/Москва (гибридный формат)
Вилка: 250 - 350К
✈️ Готовы обсудить релокационный пакет для кандидата не из Санкт-Петербурга и Москвы.

О нас:
Мы — ведущий банк России, активно развивающий свои цифровые продукты и услуги. Сейчас мы ищем опытного и амбициозного Старшего разработчика Hadoop, который присоединится к нашей команде для работы над инновационными проектами в области данных и аналитики.

Что вам предстоит делать:

- 🤝 Взаимодействовать с бизнес-заказчиками, понимать и структурировать их требования.
- ✍️ Разрабатывать функциональные требования для построения витрин данных.
- 🛠 Создавать прототипы витрин с использованием SQL, Java, Python, Spark.
- 🧪 Разрабатывать алгоритмы тестирования.
- 📑 Документировать разрабатываемые компоненты ПО.
- 🔧 Устранять дефекты, анализировать и исправлять инциденты в рамках 3-й линии поддержки.
- 🏃‍♂️ Работать в SCRUM спринтах.

Наши ожидания:

- ✅ Знание SQL (подтверждается прохождением теста).
- 📈 Опыт в бизнес и системном анализе не менее 2 лет: выявление, фиксация, согласование требований, постановка задач разработке, разработка проектной и сопроводительной системной документации.
- 👥 Опыт командной разработки с использованием Jira и Confluence; знание BitBucket будет плюсом.
- 🧩 Умение формализовывать задачи в виде четких и понятных алгоритмов.
- 🎓 Высшее образование.
- 💬 Отличные коммуникативные навыки, самостоятельность, внимательность к деталям, обязательность, ответственность.

Будет преимуществом:

- 📚 Опыт работы с Hadoop и знания его архитектуры.
- 🖥 Знание Hive, Java, Python, Spark.
- 🏃 Опыт работы в Agile.
- 📜 Знание и умение работы с wiki-системой Confluence и трекинговыми системами (Jira, Redmine и т.д.).
- 🏦 Знание банковской предметной области.

Мы предлагаем:

- 📄 Официальное оформление и стабильный, прозрачный доход.
- 🏆 Все льготы и преимущества работы в аккредитованной ИТ-компании.
- 🎁 Партнерские программы и скидки для сотрудников.
- 🏢 Гибридный формат работы.

Если вы хотите развиваться в динамичной компании и работать над интересными проектами в сфере больших данных, мы будем рады видеть вас в нашей команде!

🙋🏼‍♀️По всем вопросам к @BekhterevaElena

4.5K views14:02

Data Science Jobs

#вакансия #de #dataengineer #etl #sql #hadoop #spark

Data Engineer для агротехнологических проектов

При отклике на вакансию сразу присылайте резюме @echeveria_woman
Отклики без резюме рассматриваться не будут!

Ключевые обязанности:
- Разработка и поддержка ETL-процессов
- Управление базами и хранилищами данных
- Интеграция данных из разных источников (сенсоры, спутниковые снимки,
IoT устройства, и тд, и тп)
- Оптимизация систем обработки данных

Ключевые требования:
- 3+ лет опыта в Data Engineering
- Уверенное владение SQL и базами данных (PostgreSQL, MySQL, NoSQL)
- Опыт работы с ETL-инструментами (Apache Airflow, Talend, Informatica, и тд)
- Знание облачных платформ (AWS, GCP, Azure)
- Навыки программирования (Python/Java)
- Опыт с big data (Hadoop, Spark)
- Понимание DevOps и CI/CD

Будет преимуществом:
- Опыт в агросфере
- Знание GIS-технологий
- Опыт с Docker и Kubernetes

Мы предлагаем:
- Вилку 3.5-5 тысяч долларов в месяц
- Гибкий график
- Работу в команде профессионалов
- Возможности для роста
- Участие в значимых агропроектах

5.3K views11:03

Data Science Jobs

#вакансия #lead #DataEngineer #DWH #hadoop #spark #airflow #clickhouse #SODA #remote

Ищу к себе в команду DWH в AliExpress Lead Data Engineer

Стек: Hadoop, Spark, Airflow, ClickHouse, SODA (DQ).

Удаленка, возможность оформления вне РФ.

Зона ответственности команды DWH - качественные и своевременные данные в удобном для аналитики виде. За платформу данных и подключение источников к озеру данных отвечает отдельная платформенная команда. Объемы данных в компании исчисляются петабайтами.

Чем предстоит заниматься:
- Оптимизация производительности сложных процессов загрузки данных (Spark);
- Развитие используемых в команде практик и подходов (доработки CI/CD, мониторингов, внутренних библиотек)
- Разработка NRT пайплайнов (Kafka, Spark Structured Streaming, CH);
- Разработка витрин данных (Spark);
- Менторинг разработчиков и контроль за соблюдением стандартов.

Мы ожидаем от Вас:
- Опыт работы со Spark и глубокое понимание его устройства;
- Опыт работы с Python или Java от 3-х лет;
- Опыт работы c ClickHouse;
- Опыт написания дата пайплайнов, опыт работы с Airflow;
- Понимание подходов к организации разработки (CI/CD, DevOps).

Будет плюсом:
- Опыт разработки потоковой обработки данных;
- Опыт работы с форматом iceberg;
- Опыт управления небольшой командой.

По вопросам и с резюме: @shh1_01

4.3K views18:32

About

Blog

Apps

Platform