Ivan Begtin
8.01K subscribers
1.94K photos
3 videos
101 files
4.64K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
В качестве полезного чтения свежий доклад State of AI report 2024 [1]. Много любопытного не только про ИИ, но и про датасеты для машинного обучения и прогресс в исследованиях с помощью ИИ.

Ссылки:
[1] https://www.stateof.ai/2024-report-launch

#ai #reports #readings
В рубрике полезного чтения про данные, технологии и не только:
- G7 Toolkit for Artificial Intelligence in the Public Sector [1] руководство от стран G7 по созданию и эксплуатации доверительного ИИ в госсекторе. Иначе говоря рекомендации госслужащим по работе с ИИ.
- Data’s Role in Unlocking Scientific Potential [2] обзор инициатив и набор рекомендаций о том как доступность данных для учёных меняет науку в США. Если коротко, то больше открытости - больше науки.
- The Age of AI Nationalism and Its Effects [3] о стремительном развитии ИИ национализма
- Interesting startup idea: benchmarking cloud platform pricing [4] любопытная идея для стартапа, сравнение расценок облачных платформ. Не знаю насчёт стартапа, но проблема есть, без сомнения.

Ссылки:
[1] https://www.oecd.org/en/publications/g7-toolkit-for-artificial-intelligence-in-the-public-sector_421c1244-en.html
[2] https://www.scsp.ai/wp-content/uploads/2024/10/Datas-Role-in-Unlocking-Scientific-Potential-Paper.pdf
[3] https://www.cigionline.org/publications/the-age-of-ai-nationalism-and-its-effects/
[4] https://blog.pragmaticengineer.com/spare-cores/

#opendata #ai #ideas #readings
Свежая AI модель предсказания погоды от NASA и IBM [1] причём модель обучена была на множестве GPU, а запустить её можно на настольном компьютере.

Причём модель эта была построена на базе датасета MERRA-2 [2] с более чем 40 годами наблюдения за Землёй

Ссылки:
[1] https://research.ibm.com/blog/foundation-model-weather-climate
[2] https://gmao.gsfc.nasa.gov/reanalysis/MERRA-2/

#opendata #datasets #data #climate #ai
Вчера я принял участие в EDPC, Евразийском конгрессе по защите данных [1] где рассказывал про то какие рейтинги и индексы оценки AI Governance бывают и что с ними делать. Думаю что скоро на сайте выложат видео где будет и моё короткое выступление.

Скажу лишь что рейтингов и индексов применительно к AI в мире сейчас будет много. Часть из них будут по, сути, про оценку рынков стран, часть про community empowerment, по сути про потенциальные направления поддержки НКО за борьбу за права в контексте внедрения ИИ, а часть будут про научные достижения.

Я упоминал там индексы Government AI Readiness, GIRAI и AGILE, но в реальности их сильно больше.

Относится к ним всем нужно очень рационально, понимая для кого они составляются и насколько они полезны.

Ссылки:
[1] https://edpc.network/

#ai #conferences
Хорошая статья в Системном блоке про судьбу ABBYY, их продукта Compreno и научного подхода в переводе текстов [1]. Если вкратце, то судьба печально, LLM ИИ пожирают мир. Я помню в 2010-х разговоры про Compreno как люди вовлеченные в этот проект его расхваливали, но вживую его так и не успел попробовать, а теперь уже и непонятно зачем.

А вообще то что пишет автор про то что простые методы обученные на бесконечном объёме данных дают больший эффект - это не только про гибель трансформацию компьютерной лингвистики, это и про будущее онтологического моделирования, это про судьбу проектов вроде Wolfram Alpha (похоже недолгую уже), это про применение LLM в моделировании и систематизации данных.

Вот я вам приведу пример, у нас в Dateno десятки миллионов карточек датасетов и далеко не у всех есть привязка к категориям, не у всех есть теги, не у всех есть геометки и тд.. Можно вложить усилия и категоризировать их вручную, а можно натравить одну или несколько LLM и проделать эту работу. Можно ещё на несколько задач LLM натравить и будет ещё больший эффект, вопрос лишь в цене запросов или развертывания open source LLM.

А что говорить про задачи онтологического моделирования во многих исследовательских проектах. Я всё жду когда появятся научные статьи с тезисами вроде "Мы заменили команду из 10 онтологов на LLM модель и результат был не хуже".

Ссылки:
[1] https://sysblok.ru/blog/gorkij-urok-abbyy-kak-lingvisty-proigrali-poslednjuju-bitvu-za-nlp/

#thoughts #readings #ai
Не успела появится профессия BI Engineer как её скоро заменит AI [1]. Полезная статья в блоге Rill о применении AI для корпоративной аналитики.

Это, кстати, вполне реалистичное применение технологий. Вместо построения дашбордов использование естественного языка для получения аналитики. Правда аналитики останутся без работы даже быстрее чем многие другие профессии. Потому что ничто не мешает членам совета директоров хотья прямо на совещании делать промпты на естественном языке к языковой модели которая имеет доступ к корпоративному хранилищу и получать почти моментальные ответы.

Ссылки:
[1] https://www.rilldata.com/blog/bi-as-code-and-the-new-era-of-genbi

#bi #analytics #ai #thoughts
Common Corpus [1] свежий дата продукт от Hugging Face с данными для обучения.

Внутри 2 триллиона токенов, а сам он построен на:

📦 OpenCulture: 926 миллиардов токенов из книг в открытом доступе
📦 OpenGovernment: 388 миллиардов токенов из финансовых и юридических документов
📦 OpenSource: 334 миллиарда токенов открытого кода, отфильтрованного по критериям качества
📦 OpenScience: 221 миллиард токенов из репозиториев открытой науки
📦 OpenWeb: 132 миллиарда токенов на контенте из сайтов с пермиссивной лицензией (Википедия и др.)

Можно обратить внимание что открытых данных нет в списке, но там был бы обучающий набор поменьше.

Корпус это огромен, в нём около 40% английского языка и много других язык.

Внутри всё состоит из бесконечно числа parquet файлов.

Ссылки:
[1] https://huggingface.co/blog/Pclanglais/two-trillion-tokens-open

#opendata #ai #datasets
Полезный свежий документ в форме отчёта по результатам мероприятия Commons Clause [1] от Open Knowledge Foundation про текущую повестку открытости технологий, кода, данных и тд. Оно примерно то же о чём я регулярно пишу, жаль мало примеров, но в части проблематики всё точно изложено.

В целом это всё, конечно, цифровой социализм в чистом виде с повесткой anti-bigtech, но многое изложено весьма правильно.

Приведу оттуда выдержку со страницей про ИИ, а вообще могу порекомендовать прочесть документ целиком.

Главное же опасение которое я давно слышу это AI eats Commons, ИИ пожирает общественное благо. Потому что ключевые бенефициары ИИ моделей приобретают от них столь много что это резко демотивирует создателей общественного блага (Commons).

Ссылки:
[1] https://blog.okfn.org/2024/11/18/report-open-movements-commons-causes/

#opendata #data #openmovement #ai
Полезное чтение про данные, технологии и не только:
- The Death of Search [1] полезная статья о том как ИИ убивает поиск и что мы потеряем в процессе. Я бы переименовал её в The Death of Google потому что главная поисковая монополия пострадает более других. Но ещё не время пессимистичных прогнозов
- The Emergent Landscape of Data Commons: A Brief Survey and Comparison of Existing Initiatives [2] статья о инициативах публикации данных как общественного блага. Тема актуальная и про частные инициативы, и про государственные и про технологические НКО. Довольно близко к инициативам по общественной цифровой инфраструктуре (Digital Public Infrastructure, DPI)
- Congress should designate an entity to oversee data security, GAO says [3] в США Счетная палата (GAO) рекомендовала Конгрессу выбрать федеральное агентство и дать ему полномочия по защите данных. Сейчас такого агентства нет и это создаёт дополнительные риски, о чём GAO и пишут в своём докладе [4]
- OECD Digital Economy Outlook 2024 (Volume 2) [5] свежий доклад ОЭСР по цифровой экономике. Про данные мало, про многое другое много. Явные акценты на особенностях медиапотребления и на цифровой безопасности.
- How to evaluate statistical claims [6] хороший лонгрид о том как читать статистику

Ссылки:
[1] https://archive.is/ZSzAP
[2] https://medium.com/data-stewards-network/the-emergent-landscape-of-data-commons-a-brief-survey-and-comparison-of-existing-initiatives-abab7bbc4fe1
[3] https://fedscoop.com/congress-data-security-civil-rights-liberties-gao-report/
[4] https://www.gao.gov/assets/gao-25-106057.pdf
[5] https://www.oecd.org/en/publications/oecd-digital-economy-outlook-2024-volume-2_3adf705b-en.html
[6] https://seantrott.substack.com/p/how-to-evaluate-statistical-claims

#data #ai #privacy #statistics #readings
Довольно неожиданный шаг со стороны испанского регулятора.

Вышел Проект Королевского указа, регулирующего выдачу расширенных коллективных лицензий на массовое использование работ и услуг, защищенных правами интеллектуальной собственности, для разработки моделей искусственного интеллекта общего назначения.[1]

Фактически разработчикам ИИ хотят дать право использовать интеллектуальную собственность через коллективные лицензии. Очень интересно как это будет развиваться, выйдет ли/уже выходит ли на наднациональные рамки Евросоюза и
как сами правообладатели к этому отнесутся.

Ссылки:
[1] https://www.cultura.gob.es/en/servicios-al-ciudadano/informacion-publica/audiencia-informacion-publica/abiertos/2024/concesion-licencias-colectivas.html

#regulation #ai #spain