Ivan Begtin
8.09K subscribers
1.99K photos
3 videos
102 files
4.7K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
加入频道
Вышло исследование Artificial Intelligence Policy and Funding in Canada [1] за авторством Ana Brandusescu [2] о том как в Канаде сформировалась экосистема компаний и их поддержки в области искусственного интеллекта. К исследованию прилагается набор данных в Excel [3] и в других форматах со списком компаний.

У исследования весьма простая и внятная методология основанная на анализе реестров юр. лиц, контрактов, грантов Правительства Канады и других открытых источников. При желании его не сложно повторить в России и масштабы, скорее всего, будут похожи.

Кстати ситуация в Канаде похожа на российскую:
- государство, в основном, инвестирует в технологии ИИ которые помогают частному сектору
- у Канады есть госполитика в области ИИ, но нет национальной стратегии
- компании пойманные правозащитниками на эксплуатации прав человека тем не менее являются предквалифицированными поставщиками для государства
- страх и опасения цифрового колониализма присутствует и там тоже

Хорошее исследование, вполне воспроизводимое в наших реалиях.

Ссылки:
[1] https://www.mcgill.ca/centre-montreal/files/centre-montreal/aipolicyandfunding_report_v8_withinfographic21955.pdf
[2] https://www.mcgill.ca/centre-montreal/people-0/professors-practice/ana-brandusescu
[3] https://www.mcgill.ca/centre-montreal/file/91477

#ai #research #studies
March 2, 2021
June 18, 2021
Для всех кто учится работать с данными и работать с SQL я рекомендую сразу начинать изучать dbt, например, по ссылкам из awesome-dbt [1] и начиная с бесплатного официального курса [2]. Пройдёт год-два максимум и dbt в России начнут повсеместно использовать, а для работы инженера-аналитика (analytics engineer) дистанционно на проект/компанию в любой стране - это будет одна из наиболее востребованных технологий.

Почему dbt? Потому что пока это наиболее развитый инструмент преобразования данных. Если в областях ETL/ELT, data orchestration, data visualization, BI и других есть масштабная конкуренция и авторы и создатели проектов регулярно пишут о том как заменить одно на другое или как отказаться от чего-либо, например, как отказаться от Airflow [3], то про dbt все пишут только о том как они заменили свои механизмы трансформации данных на dbt.

Продукт получился просто таки попаданием в яблочко, в России он мало применяется только по причине малой применимости тут других зарубежных облачных продуктов. Но важная особенность dbt что он, и облачный, и как изначальный open source продукт.

Ссылки:
[1] https://github.com/Hiflylabs/awesome-dbt
[2] https://courses.getdbt.com/collections
[3] https://blog.fal.ai/the-unbundling-of-airflow-2/

#datatools #studies #learning #sql #dbt
February 22, 2022
August 26, 2022
Самое поразительное на рынке труда для меня лично то что многие соискатели работы джуниоры приходят с совсем пустыми резюме. Понятно что составление резюме для многих - это стресс и относят его к soft skills, а не к реальным навыкам. Но, как бы, нет ничего сложного чтобы хотя бы пройти самостоятельно несколько курсов или записаться на один из имеющихся.

Аналогично со специалистами которые меняют специализацию. Сложно интервьюировать людей претендующих на позиции не совпадающие с их предыдущим опытом. Недостаточно просто перечислить 5-10-20 языков программирования, фреймворков и баз данных чтобы показать свои знания.

Поэтому учиться, учиться и ещё раз учиться необходимо непрерывно. Это можно делать для резюме, а можно для себя, потому что профессия обязывает.

Я собрал курсы и программы не на русском языке которые могу порекомендовать, которые прохожу сам и на которые обращаю внимание в резюме которые читаю․ Всё это с акцентом на данные и инженерию данных:
- DataCamp - интерактивная образовательная платформа с акцентом на data science, data engineering, data analytics и языки Python, R и Julia. Организовано очень грамотно, с постепенным повышением сложности и так что не пройти курсы просто невозможно. Стоит максимум $180 за годовую подписку, много бесплатных курсов.
- dbt courses - курсы по инструменту dbt по инженерии данных, бесплатные, дают погружение в то что такое ELT, Modern Data Stack, обработку данных и тд. Требуют базовых знаний программной инженерии, SQL и хотя бы одной SQL СУБД.
- Scylla University - бесплатные курсы по NoSQL СУБД Scylla. Для понимания что такое NoSQL, как устроена Scylla (аналог Apache Cassandra) и многие другие NoSQL связанные темы. Курсов много, все бесплатные.
- Pluralsight - большая платная платформа курсов, я рекомендуют там Core Python, но кому-то может быть интересно что-то другое. Платформа стоит небольших денег, $160 в год, многое бесплатно. Например, тестирование знания. Я раз в полгода тестирую там своё знание Python.
- Redis University - подборка бесплатных курсов от компании Redis по продуктам их Redis Stack включая NoSQL базу данных и другие продукты. Redis - это большая NoSQL экосистема, курсы там весьма полезны для тех кто хочет погружаться в эту тему. Но требует, базовых навыков программирования

Для более глубокого погружения в технологии есть много значительно более серьёзных курсов, сертификаций и тд., но это уже другой уровень специализации и понимания собственного карьерного пути.

#data #education #studies
September 12, 2022
Отличный открытый курс по анализу данных от Яндекса и Европейского университета в СПб Прикладной анализ данных в социальных науках на русском языке.
Для тех кто только начинает работать с данными или переключается в эту область из другой профессии, рекомендую. Особенно это полезно для тех кто работает с данными в академической среде.

У Яндекса, в принципе, хороший набор русскоязычных хэндбуков. Лично мне не хватает хэндбуков про данные, например, про data discovery. С другой стороны я подозреваю если подходить к делу серьёзно, то мне же самому такой хэндбук надо делать.

#education #studies #learning #dataanalysis #data
June 7, 2023