Ivan Begtin
9.32K subscribers
2.34K photos
4 videos
110 files
5.04K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email [email protected]

Ads/promotion agent: @k0shk
加入频道
Хорошая картинка (источник) отображающая основные дата профессии для тех кто выбирает чему учиться и куда переквалифицироваться.

К ним можно добавить ещё 3:
- data quality engineer (спец по качеству данных, подвид дата аналитика)
- platform engineer (дата инженерия на основе облачных платформ, подвид дата инженера)
- analytics engineer (гибрид дата аналитика и дата инженера)

И более редкая карьера в ответе на вопрос "любите ли Вы программировать?". Если да, то есть ещё путь в разработчики data продуктов.

Ничего не упустил?

#data #thoughts #career
210👍2
О предубеждениях программистов

На днях мне довелось общаться с командой которая делает один любопытный продукт по обработке данных. В какой-то момент они решили добавить в продукт работы с данными с помощью ИИ и, поначалу, поэкспериментировали с подключением ChatGPT, а потом весь механизм полностью заменили на движок llama.cpp (не путайте с Ollama) с помощью и перевели всю работу с данными в режим local-only. Это когда через интерфейс приложения можно скачать одну из двух моделей Llama 3.2 или Qwen 2.5 и с их помощью локально с данными работать.

Надо ли объяснять что тут не так? В первом случае они сделали решение которое было cloud-only, без облачного сервиса не работало. Во втором случае они сделали решение local-only, очень приватное, и почти неработоспособное. Кроме того что оно кушает много памяти и диска, оно ещё и замораживает компьютер пользователя, а пользователи могут быть не самые продвинутые по навыкам и по технике.

Мне буквально пришлось им объяснять что для большинства пользователей нужен выбор и оба подхода некорректны по умолчанию. Кого-то не пугают облачные LLM, у кого-то есть собственная инфраструктура с развертными Ollama или LM Studio на сервере или десктопе с сетевым подключением, кто-то пользуется хостинг провайдерами - Digital Ocean, Nebius, Яндекс.Клауд и др.

Поскольку эту команду я знаю достаточно давно и они из open source мира то подозреваю что первоначальное использование ChatGPT было скорее экспериментом, а потом они стремительно переключились на local-first решение как то которое они считают наиболее приемлемым.

Я совсем не уверен что мне удастся их переубедить, потому что у них есть два мощнейших предубеждения. Это Анти бигтех и Анти ИИ (пока не могу подобрать названий получше).

Первое заключается в том чтобы не использовать никаких сервисов биг техов и других крупных облачных провайдеров. Это довольно мощная установка в большой часть европейского open source движения в том что использовать только открытые альтернативы. Не использовать хостинг биг техов, не использовать их облачные сервисы, не использовать системы звонков/коммуникации и тд. Эта предустановка распространяется и на все американские ИИ стартапы и сейчас множится на концепцию цифрового суверенитета ЕС.

Второе - Анти ИИ, происходит от Анти бигтех, но с установкой того что большие ИИ компании "сжирают Интернет" и все открытые цифровые артефакты: открытый код, открытые данные, книги, статьи, иные открытые результаты, всё идёт в их обучение. Она выражается в том что обработка данных через ИИ не реализуется чтобы "не кормить ИИ своими данными".

Всё это в дополнение другим традиционным предубеждениям программных команд: Не изобретено здесь, Пользователь всегда неправ и ещё многих других.

#opensource #programming #thoughts #data #ai
17🔥6💯5