Ivan Begtin
9.37K subscribers
2.13K photos
3 videos
103 files
4.87K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email [email protected]

Ads/promotion agent: @k0shk
加入频道
Скоро надо будет подводить итоги этого года. Личные, профессиональные и всякие. У меня не получится изложить их в один текст/пост, начну с того что пришлось отложить и что пока не сделано. Всё это, идёт не первым приоритетом потому что first things first.

Вот наиболее технические отложенные задачи:
- Новый интерфейс для Ruarxive. Уже давно откладываемая задача на которую нет ресурсов это перезагрузка Национального цифрового архива ruarxive.org так чтобы сделать нормальный поиск по архивам, индексирование WARC файлов и удобный поиск по ним. Это оказалось не то чтобы сложной задачей, но требующей времени и концентрации хотя бы по написанию ТЗ чтобы к ней кого-то привлечь.
- Архивация госсайтов в РФ. Надо провести повторную архивацию всех ключевых российских госресурсов, в особенности всех цифровых ресурсов Росстата, сохранность их вызывает большие опасения. Но это стало сильно сложнее, многие российские госсайты теперь активно блокируют внешние краулеры, особенно из других стран
- Автоматизация документирования датасетов и баз данных. Нарастающая по важности задача поскольку данных всё больше, документировать их вручную всё более болезненно. Есть наработки в виде инструмента metacrafter'а и рассеяного кода, но надо всё свести конкретную модель и архитектуру. Скорее всего это постепенно сдвигается в сторону повышения качества Dateno и нового качества поиска.
- Много неопубликованных датасетов. По многим странам, не только по РФ. Например, база всего законодательства Казахстана в структурированном виде. Данные готовы, но не оформлены, не описаны, недостаточно ещё задокументированы.
- Библиотека универсального доступа к каталогам данных. Очень давно об этом думаю о том как сделать универсальный инструмент для поиска и доступа к данным в типовых каталогах, CKAN, DKAN, DataVerse, GeoNode и десятку других. Потому что в этом есть необходимость и довольно актуальная. Возможно наиболее логично перенести это в Dateno и сдвинуть в сторону сбора метаданных.
- Перезапустить оценку понятности языка PlainRussian. Возможно отложенное надолго поскольку LLM'ки типа GPT умеют это лучше. Конкурировать с ними сложно и непонятно зачем. Туда же относится создание оценки понятности языка для других языков, таких как армянский язык. Ничего сложного в этом нет, но опять же LLM дают лучший результат.
- Незавершённые проекты в Open Data Armenia. Многое всё ещё существует в полусобранных проектах, надо собраться с мыслями и силами довести их до продуктового состояния и продолжать развивать сообщество не только конкурсами, но и общей инфраструктурой данных.
- Неопубликованные курсы. По веб архивации, по digital humanities, по data discovery и по автоматизации каталогизации данных и их извлечению. И про обработку данных новыми инструментами.
- Недописанные книги/тексты/мануалы. Их как-то очень много, про личные тексты написать отдельно надо, а про рабочие - это тексты/книга про то как устроены данные и, что даже важнее, метаданные.

Про более приоритетное, особенно про Dateno, я ещё напишу позже.

Передаю эстафету всем тем кто думает о несделанном и думает о грузе несделанного о за прошлый год и как это сделать в следующем году.

#endofyear #thoughts #thinking #plans
Я об этом редко упоминаю, но у меня есть хобби по написанию наивных научно фантастических рассказов и стихов, когда есть немного свободного времени и подходящие темы.

И вот в последнее время я думаю о том какие есть подходящие темы в контексте человечества и ИИ, так чтобы в контексте современного прогресса и не сильно повторяться с НФ произведениями прошлых лет.

Вот моя коллекция потенциальных тем для сюжетов.

1. Сила одного
Развитие ИИ и интеграции ИИ агентов в повседневную жизнь даёт новые возможности одиночкам осуществлять террор. Террористы не объединяются в ячейки, не общаются между собой, к ним невозможно внедрится или "расколоть" потому что они становятся технически подкованными одиночками с помощью дронов, ИИ агентов и тд. сеящие много хаоса.

2. Безэтичные ИИ.
Параллельно к этическим ИИ появляется чёрный рынок отключения этики у ИИ моделей и продажа моделей изначально с отключённой этикой. Все спецслужбы пользуются только такими ИИ, как и многие преступники. У таких ИИ агентов нет ограничений на советы, рекомендации, действия и тд.

3. Корпорация "Сделано людьми"
Почти всё творчество в мире или создаётся ИИ, или с помощью ИИ или в среде подверженной культурному влиянию ИИ. Появляется корпорация "Сделано людьми" сертифицирующая продукцию как гарантированно произведённой человеком. Такая сертификация это сложный и болезненный процесс, требующий от желающих её пройти большой самоотдачи.

#thoughts #future #thinking #ai
Некоторые мысли вслух по поводу технологических трендов последнего времени:

1. Возвращение профессионализации в ИТ.

Как следствие массового применения LLM для разработки и кризиса "рынка джуниоров" в ИТ. LLM ещё не скоро научатся отладке кода и в этом смысле не смогут заменить senior и middle разработчиков, а вот про массовое исчезновение вакансий и увольнения младших разработчиков - это всё уже с нами. Плохо ли это или хорошо? Это плохо для тех кто пошёл в ИТ не имея реального интереса к профессиональной ИТ разработке, хорошо для тех для кого программная инженерия - это основная специальность и очень хорошо для отраслевых специалистов готовых осваивать nocode и lowcode инструменты.

Перспектива: прямо сейчас

2. Регистрация и аттестация ИИ агентов и LLM.

В случае с ИИ повторяется история с развитием Интернета, когда технологии менялись значительно быстрее чем регуляторы могли/способны реагировать. Сейчас есть ситуация с высокой степенью фрагментации и демократизации доступа к ИИ агентам, даже при наличии очень крупных провайдеров сервисов, у них множество альтернатив и есть возможность использовать их на собственном оборудовании. Но это не значит что пр-ва по всему миру не алчут ограничить и регулировать их применение. Сейчас их останавливает только непрерывный поток технологических изменений. Как только этот поток хоть чуть-чуть сбавит напор, неизбежен приход регуляторов и введение аттестации, реестров допустимых LLM/ИИ агентов и тд. Всё это будет происходить под знамёнами: защиты перс. данных, защиты прав потребителей, цензуры (защиты от недопустимого контента), защиты детей, защиты пациентов, национальной безопасности и тд.

Перспектива: 1-3 года

3. Резкая смена ландшафта поисковых систем
Наиболее вероятный кандидат Perplexity как новый игрок, но может и Bing вынырнуть из небытия, теоретически и OpenAI и Anthropic могут реализовать полноценную замену поиску Google. Ключевое тут в контроле экосистем и изменении интересов операторов этих экосистем. А экосистем, по сути, сейчас три: Apple, Google и Microsoft. Понятно что Google не будет заменять свой поисковик на Android'е на что-либо ещё, но Apple вполне может заменить поиск под давлением регулятора и не только и пока Perplexity похоже на наиболее вероятного кандидата. Но, опять же, и Microsoft может перезапустить Bing на фоне этих событий.

Перспектива: 1 год

4. Поглощение ИИ-агентами корпоративных BI систем

Применение больших облачных ИИ агентов внутри компаний ограничено много чем, коммерческой тайной, персональными данными и тд., но "внутри" компаний могут разворачиваться собственные LLM системы которые будут чем-то похожи на корпоративные BI / ETL продукты, они тоже будут состыкованы со множеством внутренних источников данных. Сейчас разработчики корпоративных BI будут пытаться поставлять продукты с подключением к LLM/встроенным LLM. В перспективе всё будет наоборот. Будут продукты в виде корпоративных LLM с функциями BI.

Перспектива: 1-2 года

5. Сжимание рынка написания текстов / документации
Рынок документирования ИТ продукта если ещё не схлопнулся, то резко сжимается уже сейчас, а люди занимавшиеся тех писательством теперь могут оказаться без работы или с другой работой. В любом случае - это то что не просто поддаётся автоматизации, а просто напрашивающееся на неё. Всё больше стартапов и сервисов которые создадут Вам качественную документацию по Вашему коду, по спецификации API, по бессвязанным мыслям и многому другому.

Перспектива: прямо сейчас

#ai #thinking #reading #thoughts