Ivan Begtin
8.09K subscribers
1.97K photos
3 videos
102 files
4.68K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
Признаться я не слежу именно за ПМЭФом, но немного слежу за тем что касается ИТ отрасли. В канале Минцифры приводят фразу Чернышенко (вице-премьер) , я воспроизведу её часть.
...По данным Минцифры, до конца года в реестре отечественного ПО будет зарегистрировано 35 тыс. компаний. Стоит отметить, что они приходят не только за льготами (а они беспрецедентны), мы понимаем, что условия для ведения ИТ-бизнеса в России выгоднее, чем во всем мире, отрасль уже начинает показывать результат...

Я, честно говоря, этот оптимизм не разделяю, но обратить внимание хочу на некоторые ошибки:
1. В реестре отечественного ПО совершенно точно нет и не может быть 35 тысяч компаний, в лучшем случае 4-5 тысяч. Не все российские ИТ компании создают, регистрируют, патентуют ПО, увы.
2. 35 тысяч компаний - это цифра близкая к реестру аккредитованных ИТ компаний. Я про этот реестр уже писал неоднократно, не надо путать аккредитованные компании с ИТ рынком. Среди аккредитованных ИТ компаний есть ЧОПы, родильные дома, поликлиники и Высшая школа экономики и ещё много чего не ИТшного. По хорошему этот реестр надо резать и оставлять в нём только тех кто имеет ИТ льготы (около 8-9 тысяч компаний).
3. Не дай то Бог конечно если ещё и реестр отечественного ПО превратится в такую же помойку как реестр аккредитованных ИТ компаний. Реестр отечественного ПО неидеален и, по хорошему, его надо расширять SaaS, PaaS, IaaS сервисами и ещё много чем, но я лично приветствую его систематизацию и развитие в сторону возможности анализа ИТ рынка.

Вот как-то так.

UPD: Ведущие телеграм канал Минцифры слова Чернышенко поправили и как говорят слушавшие его речь - говорил он про реестр аккредитованных, но проблемы мусорности реестра аккредитованных компаний это не отменяет.

Ссылки:
[1] https://yangx.top/mintsifry/1215

#registries #it #itmarket
Много в последнее время новостей которые сложно не прокомментировать. Вот, к примеру, про то что ВЭБ.РФ собирается расширять свой индекс качества жизни в городах и предложил АСИ, Сбербанку, АНО Диалог и РАНХиГС [1] делать это вместе.

Признаться я не могу не отнестись к этой затее с глубочайшим пессимизмом особенно в текущей ситуации. Вижу что распилить бюджетные средства сейчас на этом могут многие и, показывать начальству красивые картинки, в том числе, а по факту результат, скажем так, не может быть сомнительным по определению.

Изложу тезисами:
1. ВЭБ.РФ и все заявленные участники - это государственные (правительственные) агенты, так или иначе, или выполняющие прямые поручения федеральной исполнительной власти, или находящиеся под прямым влиянием. Индекс не может не проходить жёсткую цензуру усиленную военную временем и общим трендом сокрытия федеральным правительством ключевых сведений о экономическом и социальном состоянии страны (это и есть данные про качество жизни).
2. ВЭБ.РФ изначально не нейтральный игрок, а агент правительства со своей стратегией осуществления инвестиций. Нет гарантий и подтвержденной воспроизводимой методологии с защитой от искажения подобного индекса в собственных интересах.
3. Ключевые индикаторы качества жизни известны, есть много примеров в мире как их измерять и именно они находятся в ведении фед. органов. Это уровень преступности, качество образования, качество здравоохранения. Все эти индикаторы недоступны на гиперлокальном уровне до уровня городов и детальнее, а иногда недоступны и на уровне регионов. Сейчас вместо прямых индикаторов составители индекса используют десятки косвенных, что достоверности индексу не добавляет. Можно ли доверять индексам без этих индикаторов? Я бы не доверял.

Резюме - вместо раскрытия данных о качестве жизни органами власти мы получаем очередной агрегированный суррогат в виде индекса составленными квазигосударственными структурами. Что дальше? На вопрос где данные о качестве жизни Минздрав, МВД и Минобрнауки будут говорить - "так вот же, смотрите, вам составили индекс добрые люди. Его и используйте, а от нас отстаньте".

Поэтому доверять этой инициативе можно будет только тогда когда её авторы официально и в явной и недвусмысленной форме заявят о работе с ФОИВами над раскрытием гиперлокальных данных о качестве жизни в форме открытых данных. А без этого - веры нет, доверия нет, результат бессмысленнен.

Ссылки:
[1] https://yangx.top/mislinemisli/11094

#opendata #lifequality
Новости и интересные события цифровой архивации в мире:
- 12-16 сентября 2022 года пройдет конференция iPres 2022 в Глазго посвящённая цифровому сохранению (digital preservation)․ Основной темой будет Data for all, for good, for ever: Let Digits Flourish [1]
- анонсированы финалисты премии Digital Preservation Awards 2022 [2], в премию входят, в основном, национальные номинации, много интересных проектов
- любопытный, но короткий текст [3] об использовании утилиты PyMuPDF для анализа файлов PDF для задач извлечения из них данных для цифровой консервации
- свежее руководство по оцифровке культурного наследия в США [4] от Federal Agencies Digital Guidelines Initiative ( FADGI). Руководство затрагивает только оцифровку объектов реального мира, но даёт рекомендации по сохранению отсканированных данных и материалов.
- дорожная карта развития проекта Software Heritage [5] на 2022 год. Опубликована ещё в апреле, включает описание новых возможностей и план разработки. Напомню Software Heritage - это крупнейший в мире архив программного кода.
- в Канаде компания Preservica анонсировала возможность бесплатной архивации до 5GB контента на их платформе [6] в рамках тарифа Starter, по которому не взимается плата с культурных учреждений.
- Game Walkthroughs and Web Archiving [7] проект по геймификации веб-архивации, попытка сделать процесс архивации сайтов более развлекательным и интерактивным.


Ссылки:
[1] https://ipres2022.scot/
[2] https://www.dpconline.org/events/digital-preservation-awards/the-finalists
[3] https://www.dpconline.org/blog/analysing-pdfs-with-pymupdf
[4] https://www.ica.org/en/fadgi-publishes-the-technical-guidelines-for-digitizing-cultural-heritage-material-3rd-ed-for-public
[5] https://docs.softwareheritage.org/devel/roadmap/roadmap-2022.html
[6] https://starter.preservica.com/
[7] https://netpreserve.org/projects/game-walkthroughs/

#digitalpreservation #webarchival
Forwarded from Bloomberg
❗️Власти Великобритании одобрили экстрадицию основателя WikiLeaks Джулиана Ассанжа в США, сообщает WikiLeaks, защита обжалует это решение. 2022[BBG]
Помните как Saxo банк публиковал весьма забавные и немного странные прогнозы? Вот я давно подумывал не начать ли писать похожие прогнозы по развитию рынка ИТ в России до конца года.
Всё написанное исключительно мои домыслы, никаких инсайдов у меня нет и, вообще, (с).

VPN станет госуслугой
Запрещать не будут, но сделают госуслугой или госмонопольной услугой, с авторизацией через Госуслуги и оказываемой, например, монопольно Ростелекомом. Все остальные VPN сервисы в России будут запрещены под угрозой уголовного преследования их создателей, тех кто их продвигает и пользователей. Основание - тотальная деанонимизация. Прогноз - 3 месяца

Весь российский ИТ сектор попадёт под санкции
Потому что ИТ сервисы обеспечивает инфраструктуру для всей экономики, а цель санкций - это максимальный ущерб именно всей экономике. Прогноз - 3 месяца

Госрасходы на ИТ сократятся минимум вдвое
Но мы об этом не узнаем или узнаем минимально потому что их начнут секретить и переводить в неконкурентные торги. Прогноз - анонс предварительной структуры бюджета на 2023 г, прогноз - 3-5 месяцев.

Появится сословие ИТшников
Создадут их реестр по аналогии с реестром ИТ компаний, зарегистрировавшись можно будет получить сертификат с гербовой печатью, личную печать, введут награждения заслуженного и народного артиста ИТшника.
А также будут как купцы по категориям: 1-й, 2-й, 3-й (senior, middle, junior)․ Все льготы привяжут к нахождению в этом реестре, по части персонифицированных льгот он заменит реестр(ы) ИТ компаний.
Прогноз - полгода

ИТшников будут ненавидеть больше чем москвичей
Потому что: а) сословие б) льготы в) [не]лёгкий снобизм как производное первого и второго.
Прогноз - полгода

#humour #predictions
В рубрике интересных продуктов для работы с данными SteamPipe. Это фреймворк для доступа к более чем 200+ источникам данных через SQL запросы [1].

Идея проста - любые данные должны иметь SQL интерфейс для этого у StreamPipe 78 плагинов [2] для доступа к большинству известных СУБД и к разного рода онлайн сервисам и протоколам.

Например, доступ к почтовому ящику IMAP через SQL [3] или доступ к сетевой информации сертификатов, доменов, IP адресов через SQL [4].

Сама идея подкупает своей универсальностью и реализация вполне рабочая. Скорее всего там есть существенные ограничения в работе с рядом иерархических данных, но, с другой стороны преимущества универсального доступа велики.

Проект написан на Go командой стартапа Turbot [5], доступен с открытым кодом и активно развивается [7].

Проект должен хорошо вписываться в любой ELT/ETL инструмент и стоит ожидать новых ETL продуктов на Go с его поддержкой.

Ссылки:
[1] https://steampipe.io/
[2] https://hub.steampipe.io/plugins
[3] https://hub.steampipe.io/plugins/turbot/imap
[4] https://hub.steampipe.io/plugins/turbot/net
[5] https://turbot.com/
[6] https://github.com/turbot/steampipe

#opensource #datatools #etl
Не секрет что поисковиков по данным очень мало, основной - это Google Dataset Search [1] который всё ещё скорее исследовательский проект и где просто ну очень много SEO спама поскольку проект основан на самостоятельной разметке объектов пользователями по стандарту Schema.org объектам типа Dataset [2].

Ещё в прошлом году исследователи Google из MIT проанализировали несколько сотен тысяч страниц с датасетами и разработали классификатор определяющий что на веб странице действительно набор данных [3]․ Они же выложили датасет с результатами такой разметки [4], можно сказать датасет про датасеты.

Лично по мне так той же цели, широкого покрытия наборов данных поиском без потери качества, можно достичь и более простыми методами, а классификация страниц и сам стандарт Schema.org уж очень сильно заточен под поисковые системы в отличие от других протоколов для обнаружения данных (data discovery).

Тем не менее исследование интересное и чуть приоткрывает свет на работу которую проделывают в Google Dataset Search.

Ссылки:
[1] https://datasetsearch.research.google.com/
[2] https://schema.org/Dataset
[3] http://people.csail.mit.edu/tarfah/papers/dataset.pdf
[4] https://www.kaggle.com/datasets/googleai/veracity-of-schemaorg-for-datasets-labeled-data

#opendata #datasets #search #research
Тут Минцифры РФ обещает не вводить наказания за использование VPN. Но мы то понимаем 😏 что наказания в нашей стране устанавливает не Минцифры, а совсем другие органы власти, которые телеграм каналы не ведут и в ПМЭФах и ЦИПРах не участвуют.

#vpn #privacy
Forwarded from Roskomsvoboda
Минцифры обещает не вводить наказания за использование VPN

Об этом рассказал глава министерства Максут Шадаев. Он также отметил, что использование таких приложений власти не приветствуют:

💬«Никаких наказаний для пользователей категорически не будет вводиться. Мы против этого. Поэтому, кому очень надо, такую возможность будет иметь, и будет иметь ее дальше, и сохранит. Но, конечно, политике государства, когда в принципе ограничивают доступ к каким-то ресурсам, это противоречит».

➡️ https://roskomsvoboda.org/post/mincif-prot-nakaz-vpn-youtube/
Весьма интересный обзор Welcome to the New Database Era [1] от Ethan Batraski из Ventrock о том как постепенно, но верно облачные базы данных выходят в мэйнстрим и про стартапы вроде Hasura, Xata, Ottertune, Polyscale и др.

Взгляд автора особенно интересен как взгляд венчурного капиталиста на рынок баз данных и про основные развития этого рынка.

Например, о том что команды работающие с данными просто хотят чтобы у них была рабочая инфраструктура, а не нанимать DevOps или DBA и других или о том что всё большую актуальность приобретает HTAP или о том машинное обучение не используется практически для оптимизации баз данных (это важная идея, кстати) и о том что нет хороших промышленных примеров прорывов в индексировании данных.

По мне так текст просто наполнен инсайтами и идеями, хотя и для некоторых из них нужно большее погружение в рынок баз данных и сервисов на их основе.

Ссылки:
[1] https://ethanjb.medium.com/welcome-to-the-new-database-era-f4f8c8c407e1

#databases #opensource #data
Облачные сервисы повсеместны и имеют много плюсов и большой минус - доступ к облаку может пропасть в любой момент. Не говоря уже о том что облачные сервисы почти всегда нарушают пользовательскую приватность. Альтернативный архитектурный подход в разработке приложений по модели local first [1] это архитектурный шаблон разработки программ в которых данные, в первую очередь, обязательно хранятся локально и синхронизируются с облаком без потери функциональности приложения если сервер/сервис недоступен.

Основные идеалы архитектуры local-fist:
1. Никаких индикаторов загрузки (спиннеров): работа всегда доступна
2. Работа не ограничена одним устройством
3. Сеть опциональна
4. Прозрачная интеграция работы с коллегами
5. Длинное Сейчас (The Long Now)
6. Безопасность и приватность по умолчанию
7. Ваш полный контроль и владение данными и процессами

Здесь, конечно, можно вспомнить что именно такая модель использовалась многими приложениями из 90-х, и вот мода на такую архитектуру возвращается.

Например о такой архитектуре пишут создатели Riffle [2], исследовательского проекта по построению приложений на данных по модели local first.

Ссылки:
[1] https://www.inkandswitch.com/local-first/
[2] https://riffle.systems/essays/prelude/

#data #architecture
Burtch Works опубликовали исследование по изменениям заработной плате инженеров данных и дата сайентистов [1], доступ там через форму которую надо заполнить, можно также в Forbes прочитать оттуда краткие выводы [2].

Если кратко то это одни из самых востребованных профессий с беспрецедентным ростом зарплат. Доходы руководителей команд по ИИ достигают $300000 в год. А доходы профессионалов выросли на 10-13%.

Конечно, это обзор рынка в США, но, по моим ощущениям, ситуацию с кадровым рынком данных это отражает хорошо.

Ещё несколько инсайтов из этого исследования:
1. Среди дата инженеров кратно меньше PhD (5%), и около 32% бакалавров. Что отражает общий тренд на то что многие разработчики отказываются от высшего образования в пользу карьеры. В области dat science наоборот много именно PhD, почти 50%.
2. В области инженерии данных всего 12.5% женщин
3. Средний опыт дата инженера на рынке около 11 лет
4. В data science идет образовательный тренд на большую специализацию магистерских программ.

И ещё много много чего, в целом любопытно понимать как всё обстоит прямо сейчас на рынке труда.

Как это может повлиять на российский рынок data science и data engineering ? Не хочется делать несмешных предсказаний, но прогнозы весьма пессимистичные. Чем больше будет мировой спрос на специалистов и рост зарплат в этой области, тем больше может быть их отток из российских компаний и репрессивными мерами его точно не сдержать.

Ссылки:
[1] https://www.burtchworks.com/big-data-analyst-salary/big-data-career-tips/the-burtch-works-study/
[2] https://www.forbes.com/sites/gilpress/2022/06/14/a-booming-market-for-ai-skills-with-salaries-topping-300000/

#itmarket #data
Свежий доклад ORelly о каталогах данных сделанный в партнерстве/при поддержке стартапа Alation [1]. Хотя такие доклады при поддержке одного из коммерческих игроков нельзя назвать полностью нейтральными, но доклад полезный, определяет три вида каталогов данных: инструментальные, отраслевые и платформенные.

Плюс отсылки на интересные проекты, не все из них широко известны. Например, я неожиданно для себя открыл Ground [2], проект Google и UC Berkley по анализу контекста работы с данными.

Ссылки:
[1] https://www.alation.com/resource-center/snowflake-summit-2022/oreilly-implementing-a-modern-data-catalog
[2] http://www.ground-context.org

#datacatalogs #dataplatforms #data
Вышел Tauri 1.0 [1] первый релиз фреймворка для построения кросс-платформенных приложений с помощью языка Rust. Авторы очень постарались чтобы приложения на его основе имели минимальный футпринт - были бы как можно меньше по размеру, потребляли бы меньше CPU и оперативной памяти. В нынешнее время приложений распухающих до сотен гигабайт это вызывает большое уважение и признак высокой квалификации разработчиков. У создателей много бенчмарков подтверждающих такой подход [2] и в целом одного взгляда на код и на примеры достаточно чтобы понять что будущее приложений для десктопа если не за Tauri, то за подобными фреймворками как новым подходом.

А подход как раз в том о чём я ранее писал про модель local-first [3]. Дословно из их описания
Tauri allows you to build "local first" applications without a webserver, so your users don't have to share their data with big tech. Using local databases and rust based cryptography have never been easier.

При том что как раз big tech не связанный с разработкой ПО активно Tauri используют, например, Cloudflare и Digital Ocean.

Из любопытных продуктов на Tauri можно обратить внимание на SpaceDrive [4] файловый менеджер в активной разработке с множеством интересных возможностей вроде поддержки облачных файловых систем, шифрованного хранилища, управления ключами и тд.

А также большая подборка приложений в списке Awesome Tauri [5]

Если говорить про настольные приложения по интенсивной работе с данными, например, настольные приложения для data wrangling нового поколения, то Tauri выглядит как очень подходящий инструмент.

Ссылки:
[1] https://tauri.app/blog/tauri_1_0/
[2] https://tauri.app/about/benchmarks
[3] https://yangx.top/begtin/3977
[4] https://www.spacedrive.com/
[5] https://github.com/tauri-apps/awesome-tauri

#opensource #frameworks #datatools
Отвлекаясь от технологических тем, в Полит.ру есть проект "После" про моделирование будущего России, интервью со мной назвали «Единственная стратегия выживания – это радикальная деконсерватизация общества» [1] а я как мог говорил о самых радикальных преобразованиях как возможное будущее страны.

А может быть даже не о самых радикальных.

Ссылки:
[1] https://polit.ru/article/2022/06/21/begtin/

#politics #russia
Полезное чтение про данные
- The Death of Data Modeling - Pt. 1 [1] о том как текущие подходы к разработки влияют на моделирование данных и о том что это необходимо перезапускать/воскрешать уже в рамках Modern Data Stack
- Airflow Summit 2022 — The Best Of [2] материалы саммита AirFlow, хорошая подборка ссылок
- Automated Experiment Analysis - Making experimental analysis scalable [3] про автоматизацию ML экспериментов в Grab
- A framework for designing document processing solutions [4] фреймворк для потоковой обработки сканированных документов

Ссылки:
[1] https://dataproducts.substack.com/p/the-death-of-data-modeling-pt-1
[2] https://medium.com/apache-airflow/airflow-summit-2022-the-best-of-373bee2527fa
[3] https://engineering.grab.com/automated-experiment-analysis
[4] https://ljvmiranda921.github.io/notebook/2022/06/19/document-processing-framework/

#data #datatools #readings
В рубрике как это устроено у них портал GovInfo.gov [1] Правительства США. Единый портал раскрытия документов федеральных органов власти, начиная с законов и до всех остальных нормативных и иных распорядительных документов подлежащих обязательному раскрытию.

Например, все документы бюджетов США [2] или официальная экономическая статистика [3] или отчеты конгресса [4].

Все эти данные раскрываются для массовой выгрузки (bulk download) и через API [5].

В России нормативные документы публикуются в нескольких государственных информационных системах, ненормативные публикуются в на сайтах ведомств. Обязательные требования по архивации и централизованному раскрытию всех создаваемых отчетов, статистики, нормативных и иных документов отсутствуют или покрывают далеко не все.

Можно сказать что в России сейчас нет единого портала раскрытия государственных документов.

Ссылки:
[1] https://www.govinfo.gov
[2] https://www.govinfo.gov/app/collection/budget/2022
[3] https://www.govinfo.gov/app/collection/econi/2022/01/1
[4] https://www.govinfo.gov/app/collection/crpt
[5] https://www.govinfo.gov/developers

#opendata #usa #opengov
В рубрике стартапов на данных и связанных с данными

- CloudQuery [1] сервис инвентаризации облачных активов. Это когда у вас серверов и других сервисов много, а управлять ими уже сложно ну или надо хотя бы знать где что находится. Также есть в открытом коде [2]. Подняли $15M инвестиций 22 июня [3]

- Avo [4] система управления аналитикой и прослеживаемостью пользователей. Подняли $5M в 5 раундов, последний раунд в сентябре 2020 г. Дают удобный интерфейс для отслеживания каждого пользователя и с интеграцией с RudderStack, Segment, Posthog и другими инструментами.

- Y42 [5] платформа управления данными с претензией на полный цикл охвата: интеграция, моделирование, визуализация и оркестрация. Всего подняли 33.9M в 2 раунда. Последний раунд в октябре 2021 г.

- Castor [6], стартап по каталогизации данных, получил инвестиций в объёме $23.5M в начале июня [7]. В основном делают акцент на большей понимаемости данных, удобном интерфейсе каталога и тд.

- Immuta [8] разработчики платформы по защите данных с функциями обнаружения чувствительных данных подняли раунд E на $100M [9] инвестиций. Это корпоративный каталог с акцентом на интеграцию со всеми крупнейшими облачными базами данных Snowflake, RedShift, BigQuery и тд. Общий объём привлеченных ими инвестиций $276M

Ссылки:
[1] https://www.cloudquery.io/
[2] https://github.com/cloudquery/cloudquery
[3] https://www.cloudquery.io/blog/cloudquery-raises-15m-series-a
[4] https://www.avo.app/
[5] https://www.y42.com/
[6] https://www.castordoc.com/
[7] https://techcrunch.com/2022/06/07/castor-a-data-catalog-startup-nabs-23-5m-to-expand-its-platform/
[8] https://www.immuta.com
[9] https://www.immuta.com/articles/series-e-funding-announcement/

#startups #data #itmarket
В качестве регулярного напоминания проект по созданию каталога каталогов данных DataCatalogs [1] созданный командой @infoculture.

В нем собрано описание 263 каталогов данных всех типов и категорий: открытых, закрытых, государственных, общественных, частных и тд., сгруппированных по 115 темам.

Этот сайт создан поверх базы в Airtable которую мы ведем в Инфокультуре и можно предложить туда каталог данных через форму на сайте [2].

У Airtable есть большие достоинства в удобстве моделирования и ведения базы данных вручную, но минусы в проприетарности и невозможности простого построения веб-интерфейса открытыми решениями.

Из незавершённого:
- нет экспорта каталога в открытые данные и выкладкой на сайте или в Github. Проще всего через Github Actions скорее всего
- нет автоматизированного пополнения Awesome Opendata Russia [3], списка ссылок на порталы и ресурсы по открытым данным в России.

Если есть идеи и предложения по развитию этого каталога каталогов, присылайте нам, возьмём в работу.

Ссылки:
[1] https://datacatalogs.ru
[2] https://www.datacatalogs.ru/add-resource
[3] https://github.com/infoculture/awesome-opendata-rus

#opendata #russia #datasets #datacatalogs
YaLM 100B [1] GPT-подобная нейросеть для обработки и создания текста. Доступна под лицензией Apache 2.0 и вчера выложена командой Яндекса на Github.

Авторы заявляют 100 миллиардов параметров, отсюда 100B в названии, и то что модель создавалась на основе 1.7 ТБ текстов и рассчитывалась 65 дней на кластере из 800 видеокарт A100.

Подробнее в статье в Medium [2] и на Habr [3].

Ссылки:
[1] https://github.com/yandex/YaLM-100B
[2] https://medium.com/yandex/yandex-publishes-yalm-100b-its-the-largest-gpt-like-neural-network-in-open-source-d1df53d0e9a6
[3] https://habr.com/ru/company/yandex/blog/672396/

#datasets #gpt #neuralnetworks #ai