Ivan Begtin
9.32K subscribers
2.1K photos
3 videos
102 files
4.83K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email [email protected]

Ads/promotion agent: @k0shk
加入频道
- автоматизация обогащения данных, также напрямую зависит от задач по пониманию данных. Если мы знаем семантические типы данных то можем автоматически данные обогатить. Например, в данных есть коды стран, мы можем автоматически обогатить датасет информацией о макрорегионе, о размере территории, численности жителей, GDP, уровню дохода и тд. Особенно это важно при автоматизации визуализации данных, это резко сокращает время подготовки данных для дата аналитиков и дата журналистов.
- мэтчинг записей, очень распространённая задача связанная с данными об организациях и / или людях и/или адресах, недвижимости, имуществе и так далее. Это необходимость сопоставлять записи по наборам идентификаторов, не всегда нормализованных. Задача практическая во всех продуктах связанных с комплаенсом и анализе конкурентов.
- Автоматическая визуализация данных. Зависит от многих задач по пониманию данных, но даже когда и если известны типы полей и структура файла, отдельная задача в том как автоматически визуализировать датасет наиболее наглядным образом. Как сузить зону отображения для геоданных. Как лучше всего визуализировать статистические данные. Как визуализировать не статистические. Как избежать "перегрузки изображения" и ещё многое другое. Это задачи Auto-BI, понемногу решаются в частных случаев, и пока не решены в общем.

Кроме того ещё ещё немало ML задач в таких направлениях как обнаружение данных, извлечение данных, поиск данных и ещё многое другое, об этом я ещё думаю и напишу в одном из последующих постов.

Лично для себя, когда я смотрю на ML и data science то меня цепляют только вот такие задачи. Не самого прямого практического применения (это не распознавание людей или распознавание речи, к примеру), а именно в применении к данным как предмету исследований, а не как инструменту исследований.

#opendata #data #datascience #ml #machinelearning
Китайский стартап Deepseek [1] с его 3-й версией языковой модели показал что можно создать конкурентную языковую модель за $6 миллионов и ограниченными ресурсами, всего 10 тысяч процессоров Nvidia H100s [2]. Сейчас в США акции AI компаний упали, особенно Nvidia, а также приложение DeepSeek в топе скачиваний. Оно уже явно сбоит, невозможно зарегистрироваться через их сайт, ошибки одна за другой, но это явно из-за массового спроса.

Сама модель сделана небольшой командой AI исследователей, а Deepseek ранее был малоизвестным китайским стартапом.

Что важно так это то что их код открыт под свободной лицензией MIT и они опубликовали полный технический отчёт о том как они добились такого результата [3].

Если так дальше пойдет то совершенно то $500 миллиардов в проект Stargate США резко уменьшится в цене. Может быть даже очень резко, как и ожидаемые доходы AI лидеров.

Ссылки:
[1] https://www.deepseek.com
[2] https://www.axios.com/2025/01/27/deepseek-ai-model-china-openai-rival
[3] https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf

#ai #ml #llm