Ivan Begtin
9.32K subscribers
2.1K photos
3 videos
102 files
4.83K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email [email protected]

Ads/promotion agent: @k0shk
加入频道
Весьма любопытный обзор/мини-анализ инструментов машинного обучения [1] (на английском). Автор просмотрел более 200 ML инструментов и делает вывод что инструментарий для AI неразвит, несмотря на весь пузырь в этой области. Многие проблемы не решены, многие задачи требуют инструментов которые пока ещё никто не разрабатывает. И, в качестве резюме, то что хайп вокруг AI угасает и если Вы хотите заниматься данными, то выбирайте инженерию, а не машинное обучение. Машинное обучение всегда сможете наверстать, а без инженерных навыков в жизни никуда.

Ссылки:
[1] https://huyenchip.com/2020/06/22/mlops.html

#data #ai #ml
Для тех кто давно хочет поэкспериментировать с машинным переводом, Translator API [1] полностью с открытым кодом на Github, легко модифицируется, поддерживает 150 языков и работает на основе языковой модели Language Technology Research Group at the University of Helsinki [2].
Всё вместе работает на основе Cortex [3], решения с открытым кодом по развертыванию моделей машинного обучения.

Очень интересно было бы сравнить с автоматизированными облачными переводчиками.

Ссылки:
[1] https://github.com/cortexlabs/cortex/tree/translator-example/examples/model-caching/python/translator
[2] https://huggingface.co/Helsinki-NLP
[3] https://www.cortex.dev/

#ml #machinelearning #datascience #cooltools #data
Алгоритмы во благо это, например, предсказание поломок у жестких дисков с помощью машинного обучения в блоге Datto Engineering [1]. Хороший технический текст, с пониманием возможностей и ограничений.

В нём же ссылка на ещё один важный, но очень специальный набор открытых данных. С 2013 года компания Backblaze публикует очень подробные данные по своим жестким дискам [2]. несколько гигабайт в сжатом виде - это данные собираемые по показателям SMART по каждому диску, бесценны для их производителей и эксплуатантов этих дисков.

Ссылки:
[1] https://datto.engineering/post/predicting-hard-drive-failure-with-machine-learning
[2] https://www.backblaze.com/b2/hard-drive-test-data.html#helpful-hints-and-caveats

#opendata #data #ml