Ivan Begtin
8.09K subscribers
1.99K photos
3 videos
102 files
4.7K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
加入频道
February 22, 2022
Интересное и познавательное чтение про то как Amazon изучал рынок блокчейна в 2016 году, но компания не стала в него вкладываться [1]. Автор, Тим Брэй, бывший вице президент Amazon тогда изучал блокчейн-стартапы, встречался с финансовыми компаниями/банками/представителями бирж и по сути изучал рынок и спрос. Изучение показало что:
1) У финансовых институтов действительно был (и есть) запрос на распределённые базы данных, цифровые подписки, продукт на основе digital ledger, без привязки к блокчейну
2) Почти все напыщенные блокчейн стартапы декларирующие соответствие регуляторным требованиям, наличие крупных клиентов и тд, по факту ничем этим не обладали.

Автор в итоге возвращается к тому что отказ инвестиций в блокчейн и связанные с ним технологии было стратегически правильно для Amazon.

А поводом для его обсуждений является новость о том что австралийская биржа, в том же 2016 году запустившая эксперимент на блокчейне и потратившая на него $165 миллионов долларов теперь от него полностью отказалась [2]

Ссылки:
[1] https://www.tbray.org/ongoing/When/202x/2022/11/19/AWS-Blockchain
[2] https://www.forbes.com/sites/michaeldelcastillo/2022/11/16/seminal-blockchain-project--goes-down-the-drain-chairman-apologizes/?sh=566b795a17d3

#technology #blockchain
November 22, 2022
Интересное чтение про данные, технологии и не только։
- A bot that watched 70,000 hours of Minecraft could unlock AI’s next big thing [1] в OpenAI сделали бота который умеет "крафтить" инструменты в Minecraft и играть значительно лучше людей. Но фишка не в Minecraft'е, а в том что бот обучался на 70 тысячах часах видео и далее воспроизводил сложные действия людей. Иначе говоря, если иметь значительное время записи действий человека, то с помощью ИИ можно гораздо быстрее обучать машины делать какие-либо ручные монотонные действия.
- Trino at Apple [2] о том как работает движок для распределённых запросов Trino внутри Apple. Интерактивность выступления оставляет желать лучшего, а содержание интересно, поскольку инфраструктура у Apple велика и задачи непростые.
- Snack Stack: If Programming Languages Were Desserts … [3] если бы языки программирования были бы десертами. Лично я никогда бы не проассоциировал Perl с молекулярной кухней, но фантазии у автора весьма яркие, читать смешно.
- Modern Data Modeling: Start with the End? [4] современное моделирование данных с акцентом на dbt. Скорее техническое чем глубоко концептуальное, но небесполезное.
- Data Gaps Initiative [5] инициатива министров финансов G20 после финансового кризиса в 2009 году по систематизации сбора данных которые помогли бы предотвратить следующий подобный кризис. Во время встречи лидеров G20 на Бали инициативу расширили [6] на такие темы как։ изменение климата, распределение доходов и богатства, финтех и фининклюзивность и доступ к частным источникам данных и повышении качества, точности и оперативности официальной статистики.
- We could run out of data to train AI language programs [7] о том что гонка за увеличением объёмов данных для обучения больших языковых моделей уже не работает и что важнее повышать качество данных и работать над связностью используемых тренировочных данных. Проблема, кстати, актуальная в особенности для малых языков для которых мало текстов для обучения.

Ссылки։
[1] https://www.technologyreview.com/2022/11/25/1063707/ai-minecraft-video-unlock-next-big-thing-openai-imitation-learning/
[2] https://trino.io/blog/2022/11/28/trino-summit-2022-apple-recap.html
[3] https://thenewstack.io/snack-stack-if-programming-languages-were-desserts/
[4] https://www.adventofdata.com/modern-data-modeling-start-with-the-end/
[5] https://www.imf.org/en/News/Seminars/Conferences/g20-data-gaps-initiative
[6] https://www.imf.org/en/News/Articles/2022/11/28/pr22410-g20-leaders-welcome-ndgi-to-address-climate-change-inclusion-financial-innovation
[7] https://www.technologyreview.com/2022/11/24/1063684/we-could-run-out-of-data-to-train-ai-language-programs/

#ai #technology #data #regulation #readings
December 3, 2022
Полезное чтение про данные, технологии и не только։
- Working with large CSV files in Python from Scratch [1] о том как работать с большими CSV файлами и используя Python. Я иного сталкивался и сталкиваюсь с большими CSV файлами, но в этой заметке были и новые техники. Стоит почитать тем кто с работает с CSV файлами регулярно

- Tips For Hiring Junior Data Engineers [2] советы нанимающим дата инженеров начального уровня. Советы все по делу, но, конечно надо учитывать и рыночную специфику тоже.

- Google BigQuery Data Lineage [3] гугл добавляют в BigQuery вкладу про прослеживаемости данных. Большое дело, облегчит жизнь многим и многие коммерческие инструменты обесценит.

- Functional Data Engineering - A Blueprint [4] полезный архитектурный текст от автора Data Engineering Weekly. Хорошая цитата оттуда Data engineering has missed the boat on the “devops movement” and rarely benefits from the sanity and peace of mind it provides to modern engineers. They didn’t miss the boat because they didn’t show up; they missed the boat because the ticket was too expensive for their cargo. Которая. в свою очередь, из The Downfall of the Data Engineer [5]

- Stack Overflow 2022 devlopers survey [6] результаты опроса 70 тысяч разработчиков от Stack Overflow. Интересного много, всё просто даже не перечислишь. Выделил я бы малое число разработчиков использующих Clickhouse и стабильно высокое использование MongoDB. И это если только говорить про СУБД, а там ещё много чего. Но платят более всего тем кто владеет DynamoDB, языком программирования Clojure и веб фреймворком Phoenix

Ссылки։
[1] https://coraspe-ramses.medium.com/working-with-large-csv-files-in-python-from-scratch-134587aed5f7
[2] https://seattledataguy.substack.com/p/tips-for-hiring-junior-data-engineers
[3] https://cloud.google.com/bigquery/docs/data-catalog#data_lineage
[4] https://www.dataengineeringweekly.com/p/functional-data-engineering-a-blueprint
[5] https://maximebeauchemin.medium.com/the-downfall-of-the-data-engineer-5bfb701e5d6b
[6] https://survey.stackoverflow.co/2022/

#data #readings #technology
December 24, 2022
Полезное чтение про данные, технологи и не только. Сегодня выпуск посвящённый ИИ։

- PubMedGPT 2.7B [1] языковая модель для задач работы с текстами в области биомедицины. Пока есть гипотезы что языковые модели и продукты на их основе могут подорвать бизнес Google, тем временем можно точно предсказать что у учёных скоро будут инструменты-помощники в исследованиях. В биоинформатике и медицине точно.

- Petals [2] инструмент с открытым кодом для запуска до 100+ языковых моделей без дорогостоящего железа. Вполне возможно может упростить и удешевить работу с такими моделями.

- New software based on Artificial Intelligence helps to interpret complex data [3] ПО для интерпретации сложных данных. Основано на само-обучающихся нейросетях. Описание звучит интересно. Область применения в фотонной диагностике на электронных лазерах.

- 2022: A Year Full of Amazing AI papers- A Review [4] много ссылок на интересные статьи про ИИ за 2022 год. Всегда можно найти что-то что раньше пропустил

- 2 coders made a teleprompter AI that suggests smart things to say during your work meetings [5] два разработчика сделали бота подсказчика для совещаний. На базе GPT-3 и слушающий что Вы говорите и подсказывающий что говорить дальше

- Natural Language Processing Market Size to Reach USD 98.05 Billion in 2030 | Emergen Research [6] а это пожалуй одна из важнейших новостей, оценка рынка естественной обработки языка в 98 миллиардов долларов США к 2030 году. Это очень и очень скоро.

- Face Recognition Tech Gets Girl Scout Mom Booted From Rockettes Show — Due to Where She Works [7] реальная история о том как на женщину не пропустили на мероприятие от MSG Entertainment поскольку она была среди юристов которые в другом городе вели производство по одному из дел против компании. Всех юристов ведущих дела против компании добавили в систему распознавания лиц и её идентифицировали автоматически и уведомили охрану.

Ссылки։
[1] https://crfm.stanford.edu/2022/12/15/pubmedgpt.html
[2] https://github.com/bigscience-workshop/petals
[3] https://www.sciencedaily.com/releases/2022/12/221220112957.htm
[4] https://github.com/louisfb01/best_AI_papers_2022
[5] https://www.businessinsider.com/tele-prompt-ai-gpt-3-bot-what-to-say-meetings-2022-12
[6] https://finance.yahoo.com/news/natural-language-processing-market-size-193000299.html
[7] https://www.nbcnewyork.com/investigations/face-recognition-tech-gets-girl-scout-mom-booted-from-rockettes-show-due-to-her-employer/4004677/

#data #ai #technology #readings
December 26, 2022
Полезное чтение про данные, технологии и не только։
- Data science has a tool obsession [1] о том что в data science все слишком много обсуждают инструменты и что не всё сводится к инструментам.

- What if we rewrite everything ? [2] рассуждения о техническом долге и мыслях многих разработчиков о том что "всё надо переписать!". Кстати о техническом долге, главное отличие миддлов от сеньёров в осознании что не всегда и не всё можно и нужно переписывать, а вот документировать надо всегда.

- HTTPIE AI [3] изначально httpie была очень удобной, я бы даже сказал элегантной утилитой командной строки чтобы делать запросы к API, а теперь анонсируют AI Assistant превращающий человеческий текст в запросы. В прошлом году они подняли $6.5M инвестиций [4] и активно делают облачный сервис. Я ещё удивлялся в чём их бизнес модель, а они нацеливаются на вот такие фишки. ИМХО, в таком виде бизнес преимуществ немного.

- Recap: A Data Catalog for People Who Hate Data Catalogs [5] автор сделал то о чём я лично давно думал, каталог данных не для людей, а я для машин. Вернее, сделал некий хороший прототип с поддержкой кучи СУБД, но без документации и тд. Посмотрю как будет развиваться.

- Introducing ADBC: Database Access for Apache Arrow [6] проект по универсализации доступа к СУБД без привязки к вендорам, альтернатива JDBC и ODBC и с поддержкой стандарта/формата Arrow по умолчанию. Выглядит логично и полезно․ Расшифровывается как Arrow Database Connectivity.

- Salesforce Guts Tableau After Spending $15.7 Billion in 2019 Deal [7] в Salesforce увольняют 10% сотрудников, включая тех кто работает в приобретённым ими ранее Tableau. Интересно как это отразится на продукте в итоге.

Ссылки։
[1] https://counting.substack.com/p/data-science-has-a-tool-obsession
[2] https://blog.malt.engineering/what-if-we-rewrite-everything-e1662e86da41
[3] https://httpie.io/blog/ai
[4] https://yangx.top/begtin/3871
[5] https://cnr.sh/essays/recap-for-people-who-hate-data-catalogs
[6] https://arrow.apache.org/blog/2023/01/05/introducing-arrow-adbc/

#data #datatools #readings #technology
January 7, 2023
April 14, 2023
Интересное чтение про данные, технологии и не только:
- World’s largest battery maker announces major breakthrough in energy density [1] в компании CATL, ведущем производителе аккумуляторов в мире заявили о прорыве в хранении энергии и научились хранить до 500Wh на килограмм, для сравнения у батарей Tesla примерно вдвое меньше. Такая энергоёмкость снова возвращает к возможности создания электрических двигателей для самолётов. Если что CATL китайский производитель и это особенно интересно на фоне нынешних торговых войн. Подхлестнёт ли это исследования энергоёмкости в США и ЕС?

- Games are problems people pay to solve [2] короткий внятный текст про то что игры про то что люди платят за то что они решают задачи в изолированных безопасных пространствах. Со ссылками на хорошие книги по теме, а автор же написал книгу Mental Models Book.

- Prompt engineering [3] про инженерные методы взаимодействия с большими языковыми моделями. Без воды, много примеров, хорошо изложено. Отложил на почитать в ближайшие поездки.

- A genealogy of open [4] лонгрид о природе понятия открытости. Речь, в первую очередь, от открытости образования и образовательных материалов, но автор касается и других связанных тем: открытая наука, открытые данные и тд.

- Whose data commons? Whose city? [5] авторы рассуждают об открытости данных городов и важности инициатив в этой области. Выводы у них правда в форме: "надо об этом много говорить", кто же спорит. Но пишут со ссылками, хорошими аргументами и по делу.

Ссылки:
[1] https://thedriven.io/2023/04/21/worlds-largest-battery-maker-announces-major-breakthrough-in-battery-density/
[2] https://invertedpassion.com/games-are-problems-people-pay-to-solve/
[3] https://lilianweng.github.io/posts/2023-03-15-prompt-engineering/
[4] https://www.inthelibrarywiththeleadpipe.org/2023/genealogy-of-open/
[5] https://www.bennettinstitute.cam.ac.uk/blog/whose-data-commons-part-one/

#opendata #technology #readings #data #games #open
April 24, 2023
April 25, 2023
Я ранее давал ссылку на текст Стивена Вольфрама про то как устроен ChatGPT [1], а вот и близкий по смыслу текст Understanding Large Language Models [2] от Себастиана Рашка, автора многочисленных книг по машинному обучению. Собственно и этот текст ориентирован в основном на тех кто машинное обучение изучал и понимает хотя бы основу.

‘Godfather of AI’ quits Google with regrets and fears about his life’s work [3] новость о том что что "один из отцов ИИ" Geoffrey Hinton покинул Google. Скорее всего практического влияния на продукты компании его уход не имеет, но репутационно это минус для Google, поскольку он немного не мало, но Тюринговский лауреат (Нобель для комьютерных наук) и уходит со словами о бесконтрольном развитии AI в Google.

Неинвазивный метод превращения мыслей в текст с помощью ИИ Scientists develop A.I. system focused on turning peoples’ thoughts into text [4]. Пока только в лаборатории и требует сложных устройств, не портативно, но уже интересно. Как минимум для записи снов, как максимум для психологической диагностики. Мне на ум сразу приходит полиграф нового типа, одновременно записывающий не только сердечный ритм, но и мысли в ответ на задаваемые вопросы.

Ссылки:
[1] https://yangx.top/begtin/4612
[2] https://magazine.sebastianraschka.com/p/understanding-large-language-models
[3] https://www.theverge.com/2023/5/1/23706311/hinton-godfather-of-ai-threats-fears-warnings
[4] https://www.cnbc.com/2023/05/01/scientists-develop-ai-system-focused-on-turning-thoughts-into-text.html

#ai #readings #technology
May 3, 2023