Подборка актуального чтения про открытость данных:
- началась расшифровка и публикация геномов вируса обезьяньей оспы на сайте Nextstrain [1]
- The Future of Open Data [2] книга о будущем открытости данных от канадских исследователей Teresa Scassa и Pamela Robinson. В книге есть отдельный акцент на открытых государственных геопространственных данных.
- Policy Brief: Harnessing data to accelerate the transition from disaster response to recovery [3] рекомендации по управлению данными в ситуациях восстановления при катастрофах
- в Новой Зеландии публикуют данные лидаров нескольких территорий [4]
- власти Великобритании планируют принять закон [5] переводящий в открытые данные данные о городском планировании
- открытый каталог не-открытых данных Ирландии [6], фактически это каталог данных находящихся в управлении органов власти Ирландии, но не публикуемых в силу наличия в них персональных данных или иной чувствительной информации.
- данные и визуализация изменения потребления, генерации и цены на электричество в мире [7] особенно заметен сейчас резкий рост цен на электричество в Европе
- свежее исследование о низком качестве исследовательских данных [8], это отдельная большая работа объяснять учёным как и зачем публиковать данные в пригодном для работы формате.
Ссылки:
[1] https://nextstrain.org/monkeypox
[2] https://ruor.uottawa.ca/handle/10393/43648
[3] https://zenodo.org/record/6566685
[4] https://t.co/YeSmZbOF1Z
[5] https://www.computerweekly.com/news/252518138/Government-levelling-up-bill-promotes-open-data-based-digital-planning
[6] https://datacatalogue.gov.ie/
[7] https://ember-climate.org/data/data-explorer/
[8] https://royalsocietypublishing.org/doi/full/10.1098/rspb.2021.2780
#opendata #reading
- началась расшифровка и публикация геномов вируса обезьяньей оспы на сайте Nextstrain [1]
- The Future of Open Data [2] книга о будущем открытости данных от канадских исследователей Teresa Scassa и Pamela Robinson. В книге есть отдельный акцент на открытых государственных геопространственных данных.
- Policy Brief: Harnessing data to accelerate the transition from disaster response to recovery [3] рекомендации по управлению данными в ситуациях восстановления при катастрофах
- в Новой Зеландии публикуют данные лидаров нескольких территорий [4]
- власти Великобритании планируют принять закон [5] переводящий в открытые данные данные о городском планировании
- открытый каталог не-открытых данных Ирландии [6], фактически это каталог данных находящихся в управлении органов власти Ирландии, но не публикуемых в силу наличия в них персональных данных или иной чувствительной информации.
- данные и визуализация изменения потребления, генерации и цены на электричество в мире [7] особенно заметен сейчас резкий рост цен на электричество в Европе
- свежее исследование о низком качестве исследовательских данных [8], это отдельная большая работа объяснять учёным как и зачем публиковать данные в пригодном для работы формате.
Ссылки:
[1] https://nextstrain.org/monkeypox
[2] https://ruor.uottawa.ca/handle/10393/43648
[3] https://zenodo.org/record/6566685
[4] https://t.co/YeSmZbOF1Z
[5] https://www.computerweekly.com/news/252518138/Government-levelling-up-bill-promotes-open-data-based-digital-planning
[6] https://datacatalogue.gov.ie/
[7] https://ember-climate.org/data/data-explorer/
[8] https://royalsocietypublishing.org/doi/full/10.1098/rspb.2021.2780
#opendata #reading
Zenodo
Policy Brief: Harnessing data to accelerate the transition from disaster response to recovery
A number of challenges are usually faced following a disaster, including ineffective coordination between parties at both local and international levels, limited resources and financial constraints. These challenges have numerous complex factors, which lead…
Написал на английском языке заметку Headless and reverse [data] products [1], это перевод моей русскоязычной статьи [2] о безголовых и обратных продуктах для работы с данными такими как headless BI и reverse ETL.
Тема эта широкая, в качестве упражнения можно даже потренироваться и выписать 3 колонки:
- направление работы с данными
- безголовость (headless)
- обратность (reverse)
Направления можно взять из Modern Data Infrastructure [3], а можно из любых других областей ИТ.
Ссылки:
[1] https://medium.com/@ibegtin/headless-and-reverse-data-products-a20dc163b382
[2] https://begtin.substack.com/p/19?s=w
[3] https://future.a16z.com/emerging-architectures-modern-data-infrastructure/
#architecture #data #reading
Тема эта широкая, в качестве упражнения можно даже потренироваться и выписать 3 колонки:
- направление работы с данными
- безголовость (headless)
- обратность (reverse)
Направления можно взять из Modern Data Infrastructure [3], а можно из любых других областей ИТ.
Ссылки:
[1] https://medium.com/@ibegtin/headless-and-reverse-data-products-a20dc163b382
[2] https://begtin.substack.com/p/19?s=w
[3] https://future.a16z.com/emerging-architectures-modern-data-infrastructure/
#architecture #data #reading
Medium
Headless and reverse [data] products
Last month I read a lot of texts about modern data stack (MDS) — it is well described by Fivetran [1].
Свежее чтение про данные:
- Make a data engineer cry with just 4 words [1] очень смешной тред в твиттере, многое напоминает истории с открытыми данными. А варианты вроде Dataset stored in PowerPoint прекрасны и это тоже из жизни
- The Death of Data Modeling - Pt. 1 [2] о том что процесс моделирования данных требует перезапуска
- Data Mesh: Topologies and domain granularity [3] о гранулярности в проектах Data Mesh. Взгляд скорее сверху, чем от живых примеров, но для общего понимания полезно
- We should phase the "SQL Interview" out [4] о том почему интервью разработчиков с тестированием знания SQL бессмысленны и надо чтобы они понимали природу данных и умели бы работать разными инструментами
- Duo, the Push, and the Bandits [5] о том как устроена мотивационная система в Duolingo и о их технической архитектуре
- HTREC 2022 [6] конкурс по распознаванию греческих и византийских текстов на папирусе. Приз скромный - трэвел грант поездки в Венецию, но сама задача сложная и интересная. Участвовать можно почти из любой страны
Ссылки:
[1] https://twitter.com/AdiPolak/status/1533490998562660352
[2] https://dataproducts.substack.com/p/the-death-of-data-modeling-pt-1
[3] https://towardsdatascience.com/data-mesh-topologies-and-domain-granularity-65290a4ebb90
[4] https://counting.substack.com/p/we-should-phase-the-sql-interview
[5] https://vicki.substack.com/p/duo-the-push-and-the-bandits
[6] https://www.aicrowd.com/challenges/htrec-2022
#reading #news #data #ai
- Make a data engineer cry with just 4 words [1] очень смешной тред в твиттере, многое напоминает истории с открытыми данными. А варианты вроде Dataset stored in PowerPoint прекрасны и это тоже из жизни
- The Death of Data Modeling - Pt. 1 [2] о том что процесс моделирования данных требует перезапуска
- Data Mesh: Topologies and domain granularity [3] о гранулярности в проектах Data Mesh. Взгляд скорее сверху, чем от живых примеров, но для общего понимания полезно
- We should phase the "SQL Interview" out [4] о том почему интервью разработчиков с тестированием знания SQL бессмысленны и надо чтобы они понимали природу данных и умели бы работать разными инструментами
- Duo, the Push, and the Bandits [5] о том как устроена мотивационная система в Duolingo и о их технической архитектуре
- HTREC 2022 [6] конкурс по распознаванию греческих и византийских текстов на папирусе. Приз скромный - трэвел грант поездки в Венецию, но сама задача сложная и интересная. Участвовать можно почти из любой страны
Ссылки:
[1] https://twitter.com/AdiPolak/status/1533490998562660352
[2] https://dataproducts.substack.com/p/the-death-of-data-modeling-pt-1
[3] https://towardsdatascience.com/data-mesh-topologies-and-domain-granularity-65290a4ebb90
[4] https://counting.substack.com/p/we-should-phase-the-sql-interview
[5] https://vicki.substack.com/p/duo-the-push-and-the-bandits
[6] https://www.aicrowd.com/challenges/htrec-2022
#reading #news #data #ai
Twitter
Adi Polak
Make a data engineer cry with just 4 words
Некоторые мысли вслух по поводу технологических трендов последнего времени:
1. Возвращение профессионализации в ИТ.
Как следствие массового применения LLM для разработки и кризиса "рынка джуниоров" в ИТ. LLM ещё не скоро научатся отладке кода и в этом смысле не смогут заменить senior и middle разработчиков, а вот про массовое исчезновение вакансий и увольнения младших разработчиков - это всё уже с нами. Плохо ли это или хорошо? Это плохо для тех кто пошёл в ИТ не имея реального интереса к профессиональной ИТ разработке, хорошо для тех для кого программная инженерия - это основная специальность и очень хорошо для отраслевых специалистов готовых осваивать nocode и lowcode инструменты.
Перспектива: прямо сейчас
2. Регистрация и аттестация ИИ агентов и LLM.
В случае с ИИ повторяется история с развитием Интернета, когда технологии менялись значительно быстрее чем регуляторы могли/способны реагировать. Сейчас есть ситуация с высокой степенью фрагментации и демократизации доступа к ИИ агентам, даже при наличии очень крупных провайдеров сервисов, у них множество альтернатив и есть возможность использовать их на собственном оборудовании. Но это не значит что пр-ва по всему миру не алчут ограничить и регулировать их применение. Сейчас их останавливает только непрерывный поток технологических изменений. Как только этот поток хоть чуть-чуть сбавит напор, неизбежен приход регуляторов и введение аттестации, реестров допустимых LLM/ИИ агентов и тд. Всё это будет происходить под знамёнами: защиты перс. данных, защиты прав потребителей, цензуры (защиты от недопустимого контента), защиты детей, защиты пациентов, национальной безопасности и тд.
Перспектива: 1-3 года
3. Резкая смена ландшафта поисковых систем
Наиболее вероятный кандидат Perplexity как новый игрок, но может и Bing вынырнуть из небытия, теоретически и OpenAI и Anthropic могут реализовать полноценную замену поиску Google. Ключевое тут в контроле экосистем и изменении интересов операторов этих экосистем. А экосистем, по сути, сейчас три: Apple, Google и Microsoft. Понятно что Google не будет заменять свой поисковик на Android'е на что-либо ещё, но Apple вполне может заменить поиск под давлением регулятора и не только и пока Perplexity похоже на наиболее вероятного кандидата. Но, опять же, и Microsoft может перезапустить Bing на фоне этих событий.
Перспектива: 1 год
4. Поглощение ИИ-агентами корпоративных BI систем
Применение больших облачных ИИ агентов внутри компаний ограничено много чем, коммерческой тайной, персональными данными и тд., но "внутри" компаний могут разворачиваться собственные LLM системы которые будут чем-то похожи на корпоративные BI / ETL продукты, они тоже будут состыкованы со множеством внутренних источников данных. Сейчас разработчики корпоративных BI будут пытаться поставлять продукты с подключением к LLM/встроенным LLM. В перспективе всё будет наоборот. Будут продукты в виде корпоративных LLM с функциями BI.
Перспектива: 1-2 года
5. Сжимание рынка написания текстов / документации
Рынок документирования ИТ продукта если ещё не схлопнулся, то резко сжимается уже сейчас, а люди занимавшиеся тех писательством теперь могут оказаться без работы или с другой работой. В любом случае - это то что не просто поддаётся автоматизации, а просто напрашивающееся на неё. Всё больше стартапов и сервисов которые создадут Вам качественную документацию по Вашему коду, по спецификации API, по бессвязанным мыслям и многому другому.
Перспектива: прямо сейчас
#ai #thinking #reading #thoughts
1. Возвращение профессионализации в ИТ.
Как следствие массового применения LLM для разработки и кризиса "рынка джуниоров" в ИТ. LLM ещё не скоро научатся отладке кода и в этом смысле не смогут заменить senior и middle разработчиков, а вот про массовое исчезновение вакансий и увольнения младших разработчиков - это всё уже с нами. Плохо ли это или хорошо? Это плохо для тех кто пошёл в ИТ не имея реального интереса к профессиональной ИТ разработке, хорошо для тех для кого программная инженерия - это основная специальность и очень хорошо для отраслевых специалистов готовых осваивать nocode и lowcode инструменты.
Перспектива: прямо сейчас
2. Регистрация и аттестация ИИ агентов и LLM.
В случае с ИИ повторяется история с развитием Интернета, когда технологии менялись значительно быстрее чем регуляторы могли/способны реагировать. Сейчас есть ситуация с высокой степенью фрагментации и демократизации доступа к ИИ агентам, даже при наличии очень крупных провайдеров сервисов, у них множество альтернатив и есть возможность использовать их на собственном оборудовании. Но это не значит что пр-ва по всему миру не алчут ограничить и регулировать их применение. Сейчас их останавливает только непрерывный поток технологических изменений. Как только этот поток хоть чуть-чуть сбавит напор, неизбежен приход регуляторов и введение аттестации, реестров допустимых LLM/ИИ агентов и тд. Всё это будет происходить под знамёнами: защиты перс. данных, защиты прав потребителей, цензуры (защиты от недопустимого контента), защиты детей, защиты пациентов, национальной безопасности и тд.
Перспектива: 1-3 года
3. Резкая смена ландшафта поисковых систем
Наиболее вероятный кандидат Perplexity как новый игрок, но может и Bing вынырнуть из небытия, теоретически и OpenAI и Anthropic могут реализовать полноценную замену поиску Google. Ключевое тут в контроле экосистем и изменении интересов операторов этих экосистем. А экосистем, по сути, сейчас три: Apple, Google и Microsoft. Понятно что Google не будет заменять свой поисковик на Android'е на что-либо ещё, но Apple вполне может заменить поиск под давлением регулятора и не только и пока Perplexity похоже на наиболее вероятного кандидата. Но, опять же, и Microsoft может перезапустить Bing на фоне этих событий.
Перспектива: 1 год
4. Поглощение ИИ-агентами корпоративных BI систем
Применение больших облачных ИИ агентов внутри компаний ограничено много чем, коммерческой тайной, персональными данными и тд., но "внутри" компаний могут разворачиваться собственные LLM системы которые будут чем-то похожи на корпоративные BI / ETL продукты, они тоже будут состыкованы со множеством внутренних источников данных. Сейчас разработчики корпоративных BI будут пытаться поставлять продукты с подключением к LLM/встроенным LLM. В перспективе всё будет наоборот. Будут продукты в виде корпоративных LLM с функциями BI.
Перспектива: 1-2 года
5. Сжимание рынка написания текстов / документации
Рынок документирования ИТ продукта если ещё не схлопнулся, то резко сжимается уже сейчас, а люди занимавшиеся тех писательством теперь могут оказаться без работы или с другой работой. В любом случае - это то что не просто поддаётся автоматизации, а просто напрашивающееся на неё. Всё больше стартапов и сервисов которые создадут Вам качественную документацию по Вашему коду, по спецификации API, по бессвязанным мыслям и многому другому.
Перспектива: прямо сейчас
#ai #thinking #reading #thoughts