Ivan Begtin
8.05K subscribers
1.96K photos
3 videos
102 files
4.67K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
В рубрике полезного чтения про данные, технологии и не только։
1. The state of AI in 2022—and a half decade in review [1]

Свежий обзор от McKinsey в виде аналитики по результатам опроса компаний из разных секторов экономики по поводу использования ИИ в их работе. Конечно, это не ИИ по большей части, а разного рода системы принимающие решения автоматически (ADM systems), но у консультантов они все проходят сейчас как "ИИ".

Я, честно говоря, не особенно доверяю обзорам от топовых международных консультантов, они чаще показывают то что эти консультанты продают или собираются продавать, а не реальные тренды. Особенно после появления ChatGPT все эти обзоры кажутся слегка... устаревшими. Тем не менее, для кого-то будет полезно узнать что проблема найма дата-сайентистов и дата-инженеров для крупнейших компаний никуда не исчезла, может что-то ещё полезное найдется.

2. Types of data products [2]

Автор блога Product Management for Data рассуждает о том какие типы продуктов на данных бывает. Для меня всё кажется очевидным, но для кого-то эта систематизация может быть полезной. Вкратце он классифицирует продукты как։ Platform, Insights и Activation. Все этому не хватает примеров, и понимания что часто бизнес модели и продуктовые модели на данных являются гибридными и сложными.

3. NormConf [3]

Онлайн конференция про данные и машинное обучение с кучей явно очень интересных тем, спикеров оттуда знаю немногих, а вот темы выглядят как актуальные. Платить за участие не нужно, регистрация бесплатная. Будет 15 декабря, но надо учитывать разницу во времени с США. Лично я скорее всего посмотреть смогу немного в трансляции, много дел в эти дни( Буду смотреть в записи довольно многое оттуда


Ссылки։
[1] https://www.mckinsey.com/capabilities/quantumblack/our-insights/the-state-of-ai-in-2022-and-a-half-decade-in-review
[2] https://pmdata.substack.com/p/types-of-data-products
[3] https://normconf.com

#data #readings #ai
Была или не была утечка данных из school.mos.ru - это мы достоверно узнаем когда на их основе выйдет очередное расследование коррупции (или не выйдет, и мы тогда узнаем что утечки небыло). Скорее всего это прояснится очень скоро. Я бы словам ДИТа Москвы, чисто для профилактики, не верил, особенно после мутной истории с утечкой данных о заболевших ковидом в Москве.

Но давайте предположим что была или будет и вообще после начала мобилизации я на рынке инфобеза в России немало слышал о проблемах того что многие специалисты уехали из страны на фоне мобилизации назад не спешат. И что специалистов среднего уровня большой дефицит, так что сложно поверить что утечек не будет в каком-то разумном будущем.

Так вот предположим происходит утечка с данными из крупной государственной информационной системы. Что делать в этом случае? А далее этот вопрос опросом https://yangx.top/begtin/4474

#privacy #dataleaks
В Ведомостях заметка о том что " «Сбер» предложил банкам, маркетплейсам и операторам открыть друг другу данные " [1]. Она под пэйволом, но смысл понятен даже из анонса. Если кратко, то Сбер в лице первого зампреда Александра Ведяхина говорит об обмене данными между банками и маркетплейсами и называет это open data в сравнении с open banking.

Как бы прокомментировать это помягче. Ведяхин плохо знает матчасть иначе он бы знал что open data - это не обмен данными между участниками рынка, а предоставление их неограниченному числу лиц под свободными лицензиями и в машиночитаемых форматах. А то что он описывает - это называется data sharing, практики обмена данными между участниками рынков. Причём эти практики в основном инициируются регуляторами для того чтобы монополисты делились данными с другими компаниями. Такие инициативы и многие проекты есть в Европейском союзе, например, в автомобильной отрасли или в фармацевтике. В ЕС есть целое руководство по этой теме Guidance on private sector data sharing [2].

Основная идея в таком обмене данных в том что есть отрасли в которых гражданин/пользователь/налогоплательщик выигрывает от обмена данными. Например, от обмена данными между фарм компании при разработке лекарств и ещё много где. Опять же, гражданин на первом месте во всех таких инициативах.

Выиграет ли что-то гражданин от того что банки и маркетплейсы будут обмениваться о нём информацией? Скорее проиграет, а то и потеряет когда о нём данные утекут в очередной раз.

Поэтому, я был о Ведяхине лучшего мнения, он мало того что путается в терминах, но и предлагает нечто прямо против интересов пользователей. Очень хочется надеяться что регулятор в лице ЦБ даст Сбербанку ․․․․․ (строгий ответ) за такие идейки.

И, повторюсь, что если в Сбербанке реально хотят раскрывать данные, то могут давно начать это делать публикуя их в открытым доступе, под свободными лицензиями в машиночитаемых форматах.

Ссылки։
[1] https://www.vedomosti.ru/technology/articles/2022/12/15/955362-sber-predlozhil-otkrit-drug-drugu-dannie
[2] https://digital-strategy.ec.europa.eu/en/policies/private-sector-data-sharing

#opendata #sberbank #idiotseverythere
Я всё забыл написать, ещё пару месяцев начал и почти доделал небольшую программную библиотеку для Python для чтения данных из файлов в любых форматах с данными։ csv, json, json lines, xml, parquet, orc, xls, xlsx и в перспективе других. Называется pyiterable [1] и воспроизводит и улучшает код который был в утилите командной строки undatum [2] и в ETL движке datacrafter [3].

По сути библиотека позволяет одинаковым образом читать любые табличные и не-табличные данные и возвращать их в виде словарей для Python (python dict). Причём файлы могут быть, например, сжатыми разными архиваторами и это тоже поддерживается.

Аналогично, для ряда форматов, поддерживается не только чтение, но и запись, опять же в виде записей в виде python dict.

Мне эта библиотека нужна была чтобы в итоге заменить код внутри Undatum и сделать универсальную утилиту преобразования данных из любого в любой формат которые могут быть контейнерами для данных.

На картинке изначальная модель библиотеки, сейчас реализовано около 70% возможностей. Ошибки, предложения можно отправлять в issues, исправления в код в pull request

Ссылки։
[1] https://github.com/apicrafter/pyiterable
[2] https://github.com/datacoon/undatum
[3] https://github.com/apicrafter/datacrafter

#datatools #opensource #apicrafter #data
Microsoft, AWS, Meta и TomTom объединились и создали Overture Maps Foundation [1], фонд по созданию открытых картографических продуктов на основе открытых наборов данных, данных OpenStreetMap и других ресурсов. Почти наверняка к фонду присоединятся и другие игроки и, на сегодняшний день, это самый серьёзный вызов де-факто монополии Google в картографических сервисах. В какой-то другой исторический период я бы сказал что к этому фонду могли бы присоединиться и российские компании, но это маловероятно.

Что также важно։
- фонд создаётся при The Linux Foundation
- первые продукты могут появиться уже в первом квартале 2023 года.
- работа фонда предполагает создание новых стандартов схем данных и глобальной идентификации [2]
- картографические данные будут доступны вот свободными лицензиями [3]

Я бы предположил что следующие усилия фонда будут ещё и в направлениях։
- работы с органами власти по публикации открытых данных в определяемых фондом форматах
- грантовой поддержки проектов на открытых данных в области геоданных по созданию данных и инструментов
- создания инструментов совместной работы над геоданными։ разметки и тд.

В любом случае - это очень интересная инициатива которая добавит аргументов почему органам власти надо публиковать геоданные по определенным стандартам.

Ссылки։
[1] https://techcrunch.com/2022/12/15/meta-microsoft-aws-and-tomtom-launch-the-overture-maps-foundation-to-develop-interoperable-open-map-data/
[2] https://overturemaps.org/working-groups/
[3] https://www.linuxfoundation.org/press/linux-foundation-announces-overture-maps-foundation-to-build-interoperable-open-map-data

#opendata #data #cartography #microsoft #amazon #meta #tomtom
Simon Wilson собрал данные по притоку пользователей на платформу Mastodon и выложил данные и визуализацию [1]. Всего на платформу(-ы) Mastodon с 20 ноября 2022 года пришло около 1.8 миллиона человек. Много это или мало ? По сравнению с твиттером пока что мало, в Твиттере более 486 миллионов пользователей было на август 2022 г.

Важно помнить что Mastodon - это не один сайт, а более 16 тысяч связанных платформ для социального контента. К примеру, я пользуюсь mastodon.world, многие используют mastodon.social, как самый популярный, а есть много профессиональных сообществ, например, сообщество по цифровой архивации digipress.club и многие другие.


Ссылки։
[1] https://observablehq.com/@simonw/mastodon-users-and-statuses-over-time

#opendata #twitter #mastodon #social
Для тех кто задавался вопросом почему Google переносит карты с домена на "https://maps [dot] google [dot] com" на "https://google [dot] com/maps" есть объяснение этого события [1].

Нюанс в том что домен google.com теперь целиком будет получать доступ к вашему местонахождению, а не только сервис карт.

Идеи супераппов, кстати, построены на том же принципе. Запросить у вас как можно больше разрешений в рамках одного приложения.


Ссылки։
[1] https://twitter.com/Rudcher/status/1598596534656024576

#privacy #google #data
В рубрике "как это устроено у них" исследование DHS Open for Business [1] о том как организовано финансирование государственной слежки в городах США, взаимосвязь Department of Homeland Security, крупных корпоративных подрядчиков, муниципалитетов и лоббистов из отраслевых ассоциаций. Подготовлен The Public Accountability Initiative (PAI), командой которая ведёт проект LittleSis [2] в виде базы лоббистов, олигархов и госчиновников (Facebook of powerful people).

Доклад о том как DHS раздаёт деньги муниципалитетам в рамках программы Urban Area Security Initiative (UASI) и о том какие системы наблюдения за гражданами внедряются. А там полный список всякого разного среди подрядчиков։ Microsoft, SiteShoot, LexisNexis, Palantir, Motorola Solutions и ещё многие другие. А системы включают такие продукты как объединённые базы данных, системы автоматического распознавания номерных знаков, системы сбора биометрии, системы автоматического формирования профилей, системы анализа социальных сетей и многое другое.

Доклад, в виду специфики интересов авторов, посвящён рекомендациям того что такие технологии надо прекращать финансировать. На удивление я не увидел в рекомендациях того чтобы ставить их под гражданский контроль. Всем кто интересуется направлениями регулирования в этой отрасли и темами predictive policing (предсказательной/прогностической полиции) это будет интересно.

Ссылки։
[1] https://public-accountability.org/report/dhs-open-for-business/
[2] https://www.littlesis.org/

#privacy #security #government #usa #spending
Результаты опроса о реакции на утечки персональных данных. Если по каким-то пунктам есть разные мнения, то по двум։ аудит информационных систем и публичное расследование, всё достаточно очевидно. Компаниям пострадавшим от утечек персональных данных будет полезно взять это на заметку.

#privacy #security #polls
По поводу несмышлённой инициативы депутатов по запрету дистанционной работы для многих уехавших из РФ мне есть что сказать. У многих отъезд был и остаётся связан с ощущением, как бы помягче grande désastre (большой катастрофы), связанной, как с мобилизацией, так и с общим ухудшением окружающей действительности, так и с возможностью заниматься профессиональной деятельностью. Рассчитывать на то что ИТшники начнут возвращаться из-за запрета на дистанционную работу - это, даже не наивно, это [уже не]редкое недомыслие.

При введение запрета будет примерно так։
- крупный ИТ бизнес создаст дочерние предприятия в странах куда уехали их специалисты и переведёт их туда;
- расцветёт появление аутстаффинговых компаний с которыми будет контрактоваться средний бизнес. Раньше аутстафф западных компаний был в России, а теперь будет аутстафф российских в условном Узбекистане
- малый бизнес начнёт переоформлять программистов в ведомостях на "дистанционных исполнителей экзотических танцев" и иные интересные профессии не подпадающие под действие закона.

#russia #legislation #idiotseverythere
Свежий доклад Open Data Maturity Report 2022 Европейского союза [1].

Лучше всего госполитика и порталы открытых данных во Франции, хуже всего в Боснии и Герцеговине. Сравнение тут вполне объективное поскольку сравнение идёт по странам где примерно сравнимы подходы и госполитика открытости.

Доклад интересный, рекомендации в нём в основном про обмен практиками, коллаборацию и сообщества. Можно также обратить внимание на большом акценте на стандартизацию порталов данных и использование стандарта DCAP-AP и измерение качества данных как качества метаданных

Ссылки։
[1] https://data.europa.eu/en/publications/datastories/assessing-open-data-developments-across-europe-discover-open-data-maturity

#opendata #policy #reports #europe
Полезное чтение про данные, технологии и не только։
- NormConf: Selected talks and lessons learned [1] в блоге Prefect про конференцию Normconf и избранные выступления про машинное обучение. Там же ссылки на все выступления и, в принципе, интересная конференция с разными докладами про данные и ML
- List of AI and ML Conferences in 2023 [2] большая подборка конференций по ИИ и машинному обучению в 2023 году. Большая часть в США и Европе, несколько в Восточной Азии.
- Uber’s Facial Recognition Is Locking Indian Drivers Out of Their Accounts [3] о том как алгоритмы блокировали доступ водителей в Индии к их аккаунтам в Uber из-за невозможности их идентифицировать после изменения стрижки, к примеру. Обзор влияния применения распознавания по лицам для "gig workers" (курьеров, водителей и иных схожих уберизированных профессий).
- Updating dbt Cloud pricing to support long-term community growth [4] команда продукта dbt обновила его ценовую модель, как бы красиво они не подавали изменения в ценах, в реальности для небольших команд цена вырастает в 100%, если пользоваться их онлайн облаком и IDE. Это важно поскольку dbt превратился в один из ключевых инфраструктурных проектов в современных стеках работы с данными.
- A Zero ETL Future [5] о будущем ETL продуктов и о том что вероятна весьма скорая их замена владельцами крупнейших онлайн хранилищ. Об этом давно идут разговоры, что если Snowflake и AWS добавят ETL функции в их продукты, то весь рынок облачных ETL быстро развалится.
- Daath AI Parser [6] необычный парсер HTML который на вход получает HTML код и с помощью OpenAI разбирает видимые элементы и возвращает данные. Я уже думал о подобной штуке, а тут автор напрямую начал её реализовывать. Для многих задач у неё хороший потенциал.

Ссылки։
[1] https://medium.com/the-prefect-blog/what-i-learned-from-normconf-2022-f8b3c88f0de7
[2] https://tryolabs.com/blog/machine-learning-deep-learning-conferences
[3] https://pulitzercenter.org/stories/ubers-facial-recognition-locking-indian-drivers-out-their-accounts
[4] https://www.getdbt.com/blog/dbt-cloud-package-update/
[5] https://seattledataguy.substack.com/p/a-zero-etl-future
[6] https://github.com/kagermanov27/daath-ai-parser

#opensource #ai #machinelearning #dbt #dataengineering #etl
Почти всё что сейчас обсуждается про ИИ сводится или не обходится без упоминания ChatGPT. Но интереснее упоминание GPT-4, вот, например, удалённый теперь уже твит [1] с мыслями Сэма Альтмана, главы OpenAI.

Ключевые мысли։
1. Microsoft "по уши" в OpenAI. Bing получит ИИ поиск в следующем году.
2. GPT-4 выйдет во втором квартале 2023 г.
3. Google в большом волнении и планируют также ASAP внедрять ИИ для поиска. Вопрос как при этом они не порушат их же бизнес модель.
4. Ключевое сейчас не в прокачке конфигруации и языковых моделях, а тупо в безграничности экзафлопсов для потраченных на обучение моделей.
5. Большая рыночная тема в применении языковых моделей к конкретным областям, вроде программирования.

И, туда же, вдогонку статья в Forbes [2]
о 10 предсказаниях о ИИ на 2023 год.

Ссылки։
[1] https://twitter.com/rmlpt110/status/1605261913306308616
[2] https://archive.ph/IkRxT

#data #ai #future #2023 #chatgpt #gpt4
Из свежих интересных инструментов для работы с API Cadl [1] язык от Microsoft для описания облачных API и автогенерации кода для сервера и клиента. Существует в виде компилятора командной строки, расширений для VS Code и Visual Studio, написан полностью на nodejs, поддерживает спецификации OpenAPI, но ими не ограничивается.

Областей применения немало, в части работы с данными годится, например, для автогенерации API под разные источники данных.


Ссылки։
[1] https://microsoft.github.io/cadl/

#opensource #microsoft
Global Biodata Coalition опубликовали список Global Core Biodata Resources [1]. Это перечень баз данных с биоданными особо значимыми для долгосрочного развития науки.

Эти базы данных должны соответствовать следующим критериям։
- предоставлять бесплатный и открытый доступ к данным
- используются активно по числу и распределённости их пользователей
- зрелые и всесторонние
- рассматриваются как авторитетные в своей области
- обладают высоким научным качеством
- и демонстрируют высокий профессиональный стандарт в предоставлении сервиса.

Открытость и свобода доступа определяются через совместимость с лицензиями OpenDefinition [2].

Очень хорошо сформулированные критерии, актуальные для любой области, не только для биологии, медицины и биоинформатики.

Всё вместе это данные огромного объёма, используемые исследователями по всему миру.

Ссылки։
[1] https://globalbiodata.org/scientific-activities/global-core-biodata-resources/
[2] https://opendefinition.org/licenses/

#opendata #datasets #biosciences
Я ранее писал про библиотеку кода Iterable data для Python предназначенную для потоковой обработки файлов с данными [1] и наконец-то нашёл время обновить её в Github'е [2] и залить в Python packages [3]. Теперь установить код можно командой "pip install iterabledata".

Про то зачем это нужно я писал ранее. Основная задача в том унифицировать обработку файлов данных так чтобы не было заметной разницы работаешь ли ты с файлом JSON, CSV, NDJSON, BSON, Parquet или другим. Сейчас поддерживаются 11 форматов файлов и 5 кодеков (алгоритмов) сжатия. Это даёт возможность не только упростить и унифицировать обработку файлов, но и достаточно просто делать преобразования между файлами в разных форматах. Всё это рождается из реальных задач с которыми приходится сталкиваться когда работаешь с файлами в "дикой среде", а то есть не можешь управлять тем в каком первичном виде они существуют.

По сути это код выделенный из утилиты undatum и доработанный для универсальной поддержки разных форматов. Он альтернативен к использованию pandas и датафреймов, потому что датафреймы не поддерживают JSON/NDJSON, а уплощение данных (flattening) допустимо и удобно далеко не всегда.

Что добавилось։
1. Универсальная функция open_iterable("название файла") которая на вход может получать файл в формате csv, json, ndjson, bson, parquet и тд и возвращать итератор
2. Класс Pipeline и функция Pipeline для очень простой перегонки данных из одного файла в другой с промежуточной обработкой.
3. Обновлены многие типы форматов, добавлен кодек lz4.
4. Практически все основные функции покрыты тестами
5. Добавлено множество вспомогательных функций для работы с разными типами данных, они будут уже в документации

Ссылки։
[1] https://yangx.top/begtin/4476
[2] https://github.com/apicrafter/pyiterable
[3] https://pypi.org/project/iterabledata/

#opensource #dataengineering #data #datatools