Ivan Begtin
9.32K subscribers
2.1K photos
3 videos
102 files
4.83K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email [email protected]

Ads/promotion agent: @k0shk
加入频道
Регулярная подборка ссылок по работе с данными, открытости и приватности

На инженеров по работе с данными (data engineers) больше чем на исследователей данных (data scientists), вывод Mihail Eric по итогам анализа вакансий компаний относящихся к данным в портфеле Y-Combinator, We Don't Need Data Scientists, We Need Data Engineers [1]
Я соглашусь с этим и применительно к России тоже, сейчас много хайпа вокруг data science и ИИ, при том что есть дефицит квалифицированных специалистов и большое число джунов, но также и дефицит специалистов по инфраструктуре данных и инженерии данных.

Best-of Machine Learning with Python [2] каталог из 830 инструментов с открытым кодом по работе с данными с помощью языка Python

Открытый код мессенжера Signal для Android, iPhone, настольного приложения и сервера [3] для тех кто хочет построить собственную автономную инфраструктуру на его основе. Есть лишь сомнения в том что серверный код актуален [4] потому как новые функции в приложениях появляются, а серверный код не обновлялся несколько месяцев.

GHunt [5] - инструмент для OSINT в отношении аккаунтов на Google, извлекает Google ID, данные календаря, отзывы, общедоступную информацию и ещё много чего. Работает не только с почтой на gmail.com, но и с аккаунтами привязанными к собственным доменам. Полезен для самопроверки тем кто думает о приватности и проверке других тем кто ведет расследования.

Поддерживаемый мной список Awesome forensic tools [6] с перечнем инструментов OSINT.

GitLab получили $195 миллионов финансирования при общей оценке в $6 миллиардов [7]

Ссылки:
[1] https://www.mihaileric.com/posts/we-need-data-engineers-not-data-scientists/
[2] https://github.com/ml-tooling/best-of-ml-python
[3] https://github.com/signalapp
[4] https://github.com/signalapp/Signal-Server
[5] https://github.com/mxrch/GHunt
[6] https://github.com/ivbeg/awesome-forensicstools
[7] https://techcrunch.com/2021/01/15/gitlab-oversaw-a-195-million-secondary-sale-that-values-the-company-at-6-billion/

#data #dataengineering #datascience #privacy #opendata
Для тех кто работает с данными и хочет разнообразить свой опыт, среди многих инструментов для работы с данными применяют не только Python и, например, для Jupyter Notebook существует множество ядер на других языках, позволяющих делать исполняемые публикации с помощью любимых, а не общепринятых языков программирования.

- IJulia - ядро для языка Julia
- IRKernel - ядро для языка R
- Wolfram Language for Jupiter - ядро для языка Wolfram Script
- Almond - ядро для языка Scala
- Xeus Cling - ядро для языка C++
- Jupiter NodeJS - ядро для языка Javascript (NodeJS)
- Kotlin kernel for Jupiter - ядро для языка Kotlin

существуют также ядра для PHP, C#, Go, OCaml, Powershell и десятков других

На мой взгляд, правда, мало что сравнится с Python по гибкости и доступности инструментов и готового кода, но многое обгонит по скорости. Для команд которым Python не является основным языком использование готовых ядер для Jyupiter может помочь в аналитической работе.

#datascience #jupiter #tools #overview
Фонд Chan-Zukerberg Initiative [1] выдал грант на 190 тысяч долларов проекту Galaxy [2]. Galaxy - это платформа интенсивной работы с данными используемая, в первую очередь, для биомедицинских расчетов с 250 тысячами пользователей по всему миру, большой коллекцией больших данных и значительным числом инструментов для работы с ними [3]

В мире есть более 163 сред и инсталляций для развертывания или использования общедоступных проектов на базе Galaxy [4]. Некоторые только для внутреннего пользования, другие, как австралийский [5] поддерживаются национальным исследовательским агентством Австралии и общедоступны.

У Galaxy полностью открытый код [6] и сам проект создавался под data intesive science и пример того что часто исследователям нужны не просто данные, а сложные комплексные расширяемые среды где кроме данных есть ещё и инструменты работы с ними с учётом их специфики

Ссылки:
[1] https://chanzuckerberg.com/
[2] https://ardc.edu.au/news/chan-zuckerberg-initiative-injects-funds-into-galaxy-platform-for-biomedical-research/
[3] https://usegalaxy.org/
[4] https://galaxyproject.org/use/
[5] https://usegalaxy.org.au
[6] https://github.com/galaxyproject

#data #datascience