"Когда алгоритм твой босс" [1] - это свежий подкаст от Mozilla с большим числом фактов, графиков в виде лонгрида [2] о экономике, влиянии, подотчетности ИИ и деятельности BigTech компаний.
Вот факты из этого лонгрида:
- $15.7 триллионов ожидаемый вклад ИИ в экономику мира к 2030 году
- $52.88 миллиарда - это частные инвестиции в ИИ в США, лидере инвестиций в этой области
- 0 из 100 баллов уровень прозрачности алгоритмов Apple, и 55 и 100 у Microsoft по оценке Ranking Digital Rights, 2022
- 71% просмотренных видео на YouTube о просмотре которых пользователи жалеют они смотрят через рекомендации сервиса
- 3-х кратной может быть разница за одинаковую услугу в дэйтинговых сервисах в США через персонифицированное ценообразование
- около 40% работников онлайн платформ, курьеров, водителей и т.д. (gig workers), получают ежемесячный доход ниже минимальной оплаты труда
- около 1 миллиарда камер видеонаблюдения установлено в мире
- в 3.8 раза выросло число учёных аффилированных с компаниями BigTech, с 12.77% в 2008 г. до 47.17% в 2018 г.
- лишь 3% исследований машинного обучения связаны с правами человека и этическими принципами
И там же рекомендации по регулированию ИИ и этическим принципам.
Практически весь материал - это факты со ссылками на другие исследования и публикации, он хорош именно как систематизированная постановка проблемы.
И, хотя многие материалы, звучат как призывы к цифровому социализму, например, про минимальную оплату работникам, это всё про то как мир меняется и BigTech компании довольно быстро становятся корпорациями зла в восприятии общества.
Всё это о том что компании BigTech уже сейчас находятся на развилке саморегулирования с существенными самоограничениями или гораздо более жесткого государственного регулирования.
Ссылки:
[1] https://2022.internethealthreport.org/episodes/when-an-algorithm-is-your-boss/
[2] https://2022.internethealthreport.org/facts/
#privacy #ai #regulation
Вот факты из этого лонгрида:
- $15.7 триллионов ожидаемый вклад ИИ в экономику мира к 2030 году
- $52.88 миллиарда - это частные инвестиции в ИИ в США, лидере инвестиций в этой области
- 0 из 100 баллов уровень прозрачности алгоритмов Apple, и 55 и 100 у Microsoft по оценке Ranking Digital Rights, 2022
- 71% просмотренных видео на YouTube о просмотре которых пользователи жалеют они смотрят через рекомендации сервиса
- 3-х кратной может быть разница за одинаковую услугу в дэйтинговых сервисах в США через персонифицированное ценообразование
- около 40% работников онлайн платформ, курьеров, водителей и т.д. (gig workers), получают ежемесячный доход ниже минимальной оплаты труда
- около 1 миллиарда камер видеонаблюдения установлено в мире
- в 3.8 раза выросло число учёных аффилированных с компаниями BigTech, с 12.77% в 2008 г. до 47.17% в 2018 г.
- лишь 3% исследований машинного обучения связаны с правами человека и этическими принципами
И там же рекомендации по регулированию ИИ и этическим принципам.
Практически весь материал - это факты со ссылками на другие исследования и публикации, он хорош именно как систематизированная постановка проблемы.
И, хотя многие материалы, звучат как призывы к цифровому социализму, например, про минимальную оплату работникам, это всё про то как мир меняется и BigTech компании довольно быстро становятся корпорациями зла в восприятии общества.
Всё это о том что компании BigTech уже сейчас находятся на развилке саморегулирования с существенными самоограничениями или гораздо более жесткого государственного регулирования.
Ссылки:
[1] https://2022.internethealthreport.org/episodes/when-an-algorithm-is-your-boss/
[2] https://2022.internethealthreport.org/facts/
#privacy #ai #regulation
The Internet Health Report 2022
When an Algorithm is Your Boss — The Internet Health Report 2022
Gig workers worldwide report directly to artificial intelligence in precarious jobs created by secretive corporations. What can be done?
Ещё находки про аккредитованные ИТ компании, как можно было догадаться самые интересные находки я не публиковал.
1. Мини-отель (хостел) Старый город (ООО Старый город) в Перми. ИНН 5902993839, аккредитованы как ИТ решением АО-20220310-3784246043-3 от 2022-03-11
Сайта нет, только отзывы в сервисах
- https://yandex.ru/maps/org/stary_gorod/174934420361/?ll=56.251450%2C58.016896&z=15
- https://www.tripadvisor.ru/Hotel_Review-g298516-d8655713-Reviews-Stary_Gorod-Perm_Perm_Krai_Volga_District.html
По ЕГРЮЛ основной ОКВЭД у них ИТшный, но никакого подтверждения этой деятельности нет.
2. Общество с ограниченной ответственностью Микрокредитная компания «Рубикон».
Это микрофинансовая организация с сайтом https://denginadom.ru, аккредитована в мае этого года АО-20220506-4449719929-3.
Страница на сайте ЦБ РФ https://cbr.ru/finorg/foinfo/?ogrn=1152468038568
Достаточно очевидно что занимается она не ИТ деятельности, а просто выдает микрозаймы. Даже к цифровым/технологическим компаниям отнести её сложно, ну а к ИТ рынку не имеет отношения.
3. Общество с ограниченной ответственностью Микрокредитная компания «БАСС»
Была аккредитована в марте 2022 г., решение АО-20220311-3795855648-3 сайт организации http://vzaim1.ru/ , страница в реестре ЦБ РФ https://cbr.ru/finorg/foinfo/?ogrn=1176820001621
В создании ИТ продуктов и иной ИТ деятельности не замечена.
—
Я могу продолжать такое публиковать бесконечно, потому что реестр аккредитованных ИТ компаний превратился в помойку.
И необходимо проверить каждую компанию в этом реестре, а не заниматься ситуативной чисткой.
Пока ещё аккредитация без ИТ льгот (подтверждения ФНС) давала лишь отсрочку от армии, но если она будет давать хоть какие-то преференции, то следователи могут, с легкостью, трактовать её как мошенничество по предварительному сговору.
И не могу не добавить что нахожу очень странным что аккредитацию у Ростелекома аннулировали, а у сотен других телеком компаний нет. В чёмправда критерии, брат (с) ?
Я продолжу время от времени публиковать апдейты и данные по этому реестру под хэштегом #itmarket
1. Мини-отель (хостел) Старый город (ООО Старый город) в Перми. ИНН 5902993839, аккредитованы как ИТ решением АО-20220310-3784246043-3 от 2022-03-11
Сайта нет, только отзывы в сервисах
- https://yandex.ru/maps/org/stary_gorod/174934420361/?ll=56.251450%2C58.016896&z=15
- https://www.tripadvisor.ru/Hotel_Review-g298516-d8655713-Reviews-Stary_Gorod-Perm_Perm_Krai_Volga_District.html
По ЕГРЮЛ основной ОКВЭД у них ИТшный, но никакого подтверждения этой деятельности нет.
2. Общество с ограниченной ответственностью Микрокредитная компания «Рубикон».
Это микрофинансовая организация с сайтом https://denginadom.ru, аккредитована в мае этого года АО-20220506-4449719929-3.
Страница на сайте ЦБ РФ https://cbr.ru/finorg/foinfo/?ogrn=1152468038568
Достаточно очевидно что занимается она не ИТ деятельности, а просто выдает микрозаймы. Даже к цифровым/технологическим компаниям отнести её сложно, ну а к ИТ рынку не имеет отношения.
3. Общество с ограниченной ответственностью Микрокредитная компания «БАСС»
Была аккредитована в марте 2022 г., решение АО-20220311-3795855648-3 сайт организации http://vzaim1.ru/ , страница в реестре ЦБ РФ https://cbr.ru/finorg/foinfo/?ogrn=1176820001621
В создании ИТ продуктов и иной ИТ деятельности не замечена.
—
Я могу продолжать такое публиковать бесконечно, потому что реестр аккредитованных ИТ компаний превратился в помойку.
И необходимо проверить каждую компанию в этом реестре, а не заниматься ситуативной чисткой.
Пока ещё аккредитация без ИТ льгот (подтверждения ФНС) давала лишь отсрочку от армии, но если она будет давать хоть какие-то преференции, то следователи могут, с легкостью, трактовать её как мошенничество по предварительному сговору.
И не могу не добавить что нахожу очень странным что аккредитацию у Ростелекома аннулировали, а у сотен других телеком компаний нет. В чём
Я продолжу время от времени публиковать апдейты и данные по этому реестру под хэштегом #itmarket
Яндекс Карты
Старый город, кафе, Петропавловская ул., 15, Пермь — Яндекс Карты
Рейтинг 3,7. 11 отзывов, 20 фото. Посмотреть номер телефона, часы работы, вход на карте и построить маршрут — вы можете в Яндекс Картах
В качестве регулярных напоминаний, если Вы изучаете открытые данные и хотите больше погрузиться в эту тему:
1. Работа с открытыми данными: особенности публикации и использования в российском правовом поле [1] аналитический доклад 2020 года про возможности и проблемы работы с открытыми данными.
2. Карты данных [2] по многим отраслям составленные нами 3.5 года назад в виде инфографики. Изначально это было куча майндмапов в виде вопросов и ответов. Для наглядности пришлось их переработать. То что получилось делалось, в первую очередь для печати и раздачи на хакатонах.
3. Хаб открытых данных [3] наш негосударственный портал открытых данных. Создавался как независимый от гос-ва портал для публикации данных. Мы его поддерживаем вот уже много лет.
Если хотите помочь Инфокультуре то сделать можно это на странице https://www.infoculture.ru/donation/ пожертвованием однократно или ежемесячно (лучше ежемесячно, конечно!).
Лично я считаю после всей той помощи что я оказал Минцифре РФ по чистке реестра аккредитованных ИТ компаний, сотрудники министерства, не могут пройти мимо и не пожертвовать кто сколько может на благое дело приведения наборов данных в порядок 😜
Ну а если серьёзно, то пандемийные годы были непростыми, а этот год - это ещё больший вызов многократно. До сих пор непонятно как продолжать развивать открытость данных, всё ещё понятно что можно делать в части цифровой архивации и всегда понятно что делать по теме приватности, хотя, это тоже стало сложнее.
А я не могу не напомнить что был и остаюсь в России, и пока рассматриваю варианты отъезда, только по состоянию здоровья (если аллергия на березы начнёт зашкаливать).
Ссылки:
[1] https://opendatareview.infoculture.ru/
[2] https://www.infoculture.ru/2018/12/10/datamaps/
[3] https://hubofdata.ru
#opendata #infoculture #donate
1. Работа с открытыми данными: особенности публикации и использования в российском правовом поле [1] аналитический доклад 2020 года про возможности и проблемы работы с открытыми данными.
2. Карты данных [2] по многим отраслям составленные нами 3.5 года назад в виде инфографики. Изначально это было куча майндмапов в виде вопросов и ответов. Для наглядности пришлось их переработать. То что получилось делалось, в первую очередь для печати и раздачи на хакатонах.
3. Хаб открытых данных [3] наш негосударственный портал открытых данных. Создавался как независимый от гос-ва портал для публикации данных. Мы его поддерживаем вот уже много лет.
Если хотите помочь Инфокультуре то сделать можно это на странице https://www.infoculture.ru/donation/ пожертвованием однократно или ежемесячно (лучше ежемесячно, конечно!).
Лично я считаю после всей той помощи что я оказал Минцифре РФ по чистке реестра аккредитованных ИТ компаний, сотрудники министерства, не могут пройти мимо и не пожертвовать кто сколько может на благое дело приведения наборов данных в порядок 😜
Ну а если серьёзно, то пандемийные годы были непростыми, а этот год - это ещё больший вызов многократно. До сих пор непонятно как продолжать развивать открытость данных, всё ещё понятно что можно делать в части цифровой архивации и всегда понятно что делать по теме приватности, хотя, это тоже стало сложнее.
А я не могу не напомнить что был и остаюсь в России, и пока рассматриваю варианты отъезда, только по состоянию здоровья (если аллергия на березы начнёт зашкаливать).
Ссылки:
[1] https://opendatareview.infoculture.ru/
[2] https://www.infoculture.ru/2018/12/10/datamaps/
[3] https://hubofdata.ru
#opendata #infoculture #donate
Telegram
Инфокультура
Новости Информационной культуры. https://infoculture.ru
В The Markup очередная хорошая статья про приватность [1], на сей раз о компаниях которые собирают данные из автомобилей и о автомобилях.
В общей сложности это 37 компаний связанных с индустрией подключений к автомобилям, в оригинале - connected vehicle data industry. При том что этот рынок считают относительно молодым, его оценивают от 300 до 800 миллиардов долларов США к 2030 году [2].
Из автомобиля собирается самая разная информация: местонахождение, скорость, когда нажат тормоз, какая музыка играет, была ли открыта дверь, внутренняя температура и так далее. Всё это собирается, обрабатывается локально и передаётся, например, производителю автомобиля.
В статье немало примеров, особенно компаний создающих хабы данных перепродаваемых, например, страховым компаниям.
Выводы там оптимистичные, в том что производители автомобилей начинают идти по пути Apple и предлагать приватность как часть услуги, давая возможность ограничивать передачу данными другим компаниям. Например, так делает Porshe, в этой индустрии.
Лично я не столь оптимистичен, потому что целью Apple было перестроить рынок под себя и не только повысить приватность, но снизить возможности её нарушения для конкурентов и сохранить такую возможность для себя.
Тем не менее я бы зафиксировал следующее именно в отношении автомобилей:
1. Тренд на усиление сбора данных с автомобилей сохраняется и усиливается. Данных собирается всё больше и с большей частотой и гранулярностью.
2. Технологии позволяют собирать данные хоть со всех машин в мире, ограничения скорее в количестве машин выпускаемых основными вендорами и наличию чипов для них.
3. Учитывая значимость этих данных национальные регуляторы точно будут требовать их локализацию, а полиция захочет иметь к ним доступ.
Ссылки:
[1] https://themarkup.org/the-breakdown/2022/07/27/who-is-collecting-data-from-your-car
[2] https://www.documentcloud.org/documents/22120767-capgeminiinvent_vehicledatamonetization_pov_sep2020#document/p5/a2130948
#privacy #data
В общей сложности это 37 компаний связанных с индустрией подключений к автомобилям, в оригинале - connected vehicle data industry. При том что этот рынок считают относительно молодым, его оценивают от 300 до 800 миллиардов долларов США к 2030 году [2].
Из автомобиля собирается самая разная информация: местонахождение, скорость, когда нажат тормоз, какая музыка играет, была ли открыта дверь, внутренняя температура и так далее. Всё это собирается, обрабатывается локально и передаётся, например, производителю автомобиля.
В статье немало примеров, особенно компаний создающих хабы данных перепродаваемых, например, страховым компаниям.
Выводы там оптимистичные, в том что производители автомобилей начинают идти по пути Apple и предлагать приватность как часть услуги, давая возможность ограничивать передачу данными другим компаниям. Например, так делает Porshe, в этой индустрии.
Лично я не столь оптимистичен, потому что целью Apple было перестроить рынок под себя и не только повысить приватность, но снизить возможности её нарушения для конкурентов и сохранить такую возможность для себя.
Тем не менее я бы зафиксировал следующее именно в отношении автомобилей:
1. Тренд на усиление сбора данных с автомобилей сохраняется и усиливается. Данных собирается всё больше и с большей частотой и гранулярностью.
2. Технологии позволяют собирать данные хоть со всех машин в мире, ограничения скорее в количестве машин выпускаемых основными вендорами и наличию чипов для них.
3. Учитывая значимость этих данных национальные регуляторы точно будут требовать их локализацию, а полиция захочет иметь к ним доступ.
Ссылки:
[1] https://themarkup.org/the-breakdown/2022/07/27/who-is-collecting-data-from-your-car
[2] https://www.documentcloud.org/documents/22120767-capgeminiinvent_vehicledatamonetization_pov_sep2020#document/p5/a2130948
#privacy #data
The Markup
Who Is Collecting Data from Your Car?
A firehose of sensitive data from your vehicle is flowing to a group of companies you’ve probably never heard of
В рубрике интересных больших наборов данных OpenAlex [1], полностью открытая база о глобальной системе исследований включающая данных о исследователях, журналах, работах, институтах. Основано на Microsoft Academic Graph [2], далее поддерживается и развивается НКО OurResearch [3], создающими многие инструменты для исследователей.
Кроме того что данные доступны в виде API, также они выложены как наборы данных на Amazon AWS [4] в рамках проекта AWS Open Data Sponsorship Program [5], это когда Amazon спонсирует раскрытие больших наборов открытых данных на их инфраструктуре через покрытие стоимости их передачи и хранения.
Для всех кто исследует то устроена система исследований в мире - этот набор данных определенно будет очень интересен.
И, вдогонку к этому интереснейшему набору данных, один из крупнейших по объёму, а не количеству данных, источник - это Academic Torrents [6], сервисы раздачи датасетов для исследователей. Включает датасеты до 4.8ТБ, в основном для машинного обучения и число наборов данных там только растёт. Уже более 127ТБ в 867 наборах данных. Скажу что ни один государственный портал открытых данных в мире по объёмам с ним не сравнится. Кроме, может быть, data.gov в США где основной объём данных, также, составляют исследовательские данные крупнейших государственных научных центров.
Ссылки:
[1] https://docs.openalex.org/
[2] https://www.microsoft.com/en-us/research/project/microsoft-academic-graph/
[3] https://ourresearch.org/
[4] https://registry.opendata.aws/openalex/
[5] https://aws.amazon.com/opendata/open-data-sponsorship-program/
[6] https://academictorrents.com/
#opendata #academy #openscience #machinelearning #datasets
Кроме того что данные доступны в виде API, также они выложены как наборы данных на Amazon AWS [4] в рамках проекта AWS Open Data Sponsorship Program [5], это когда Amazon спонсирует раскрытие больших наборов открытых данных на их инфраструктуре через покрытие стоимости их передачи и хранения.
Для всех кто исследует то устроена система исследований в мире - этот набор данных определенно будет очень интересен.
И, вдогонку к этому интереснейшему набору данных, один из крупнейших по объёму, а не количеству данных, источник - это Academic Torrents [6], сервисы раздачи датасетов для исследователей. Включает датасеты до 4.8ТБ, в основном для машинного обучения и число наборов данных там только растёт. Уже более 127ТБ в 867 наборах данных. Скажу что ни один государственный портал открытых данных в мире по объёмам с ним не сравнится. Кроме, может быть, data.gov в США где основной объём данных, также, составляют исследовательские данные крупнейших государственных научных центров.
Ссылки:
[1] https://docs.openalex.org/
[2] https://www.microsoft.com/en-us/research/project/microsoft-academic-graph/
[3] https://ourresearch.org/
[4] https://registry.opendata.aws/openalex/
[5] https://aws.amazon.com/opendata/open-data-sponsorship-program/
[6] https://academictorrents.com/
#opendata #academy #openscience #machinelearning #datasets
docs.openalex.org
Overview | OpenAlex technical documentation
В OECD.ai, проекте ОЭСР по мониторингу инициатив внедрения ИИ в мире, на странице Российской Федерации [1] пропали все ссылки и упоминания инициатив по ИИ. Остались только новости которые, как я понимаю, собираются и отображаются автоматически.
По прямым ссылкам они ещё доступны [2], но по факту их более нет, даже при том что OECD.ai включает сведения не только по членам и кандидатам в ОЭСР.
Аналогично, теперь, недоступна страница страны в OECD Going Digital [3] где были профили стран по метрикам цифровой трансформации.
Хотя по России данных там теперь нет, проекты ОЭСР всё ещё хороший источник информации о госполитике в ИИ, цифровой трансформации и инноваций в госуправлении (OPSI) [4]
Ссылки:
[1] https://oecd.ai/en/dashboards/countries/RussianFederation
[2] https://oecd.ai/en/dashboards/policy-initiatives/2019-data-policyInitiatives-24901
[3] https://goingdigital.oecd.org/countries/rus
[4] https://oecd-opsi.org/
#opengov #government #oecd #ai
По прямым ссылкам они ещё доступны [2], но по факту их более нет, даже при том что OECD.ai включает сведения не только по членам и кандидатам в ОЭСР.
Аналогично, теперь, недоступна страница страны в OECD Going Digital [3] где были профили стран по метрикам цифровой трансформации.
Хотя по России данных там теперь нет, проекты ОЭСР всё ещё хороший источник информации о госполитике в ИИ, цифровой трансформации и инноваций в госуправлении (OPSI) [4]
Ссылки:
[1] https://oecd.ai/en/dashboards/countries/RussianFederation
[2] https://oecd.ai/en/dashboards/policy-initiatives/2019-data-policyInitiatives-24901
[3] https://goingdigital.oecd.org/countries/rus
[4] https://oecd-opsi.org/
#opengov #government #oecd #ai
OECD Going Digital Toolkit
How are countries going digital? The OECD’s Toolkit helps measure, compare and find policy solutions.
Global Data Governance - это свежий рейтинг/индекс стран по уровню/качеству управления данными [1]․ Публикуется институтом Джорджа Вашингтона, включает интерактивную карту [2] и профили отдельных стран, например, России [3].
Оценивается по 6 направлениям:
- Strategic. У правительства есть видение или план для разных типов данных в экономике и госполитике
- Regulatory. Правительство выстроило юридический режим вокруг типов данных и/или их использования
- Responsible. Правительство думает о этике, доверии и том как затронуты права человека при использовании и переиспользовании данных
- Structural. Правительство меняет институциональные структуры в ответ на трансформацию основанную на данных
- Participatory. Государство информирует граждан и бизнес о его активности и запрашивает публичные комментарии с целью применения обратной связи.
- International. Государство присоединяется к другим нациям в общих международных усилиях для установления общих правил и норм управления данными.
Если кратко, то у России всего 27 баллов из 100.
По нулям в направлениях Responsible, Participatory и International.
По направлению Strategic всего 25 баллов, в направлении Regulatory 60 и в направлении Structural 75.
В целом новость то неплохая, к примеру, у Нигерии, всего 21 балл, а у Ирана вообще их всего 3, но всё же, поменьше чем у Вьетнама, там всего 29 баллов.
Выглядит всё это куда менее политически ангажировано чем многие другие рейтинги, он даже не про открытость, а про системной работы правительств стран. О том что у нас с системностью в стране всё не очень я пишу давно( А вот и очередное подтверждение этого.
Ссылки:
[1] https://datagovhub.elliott.gwu.edu/
[2] https://datagovhub.letsnod.com
[3] https://datagovhub.letsnod.com/country-level-data/europe-central-asia/russia
#data #datagovernance #government #russia
Оценивается по 6 направлениям:
- Strategic. У правительства есть видение или план для разных типов данных в экономике и госполитике
- Regulatory. Правительство выстроило юридический режим вокруг типов данных и/или их использования
- Responsible. Правительство думает о этике, доверии и том как затронуты права человека при использовании и переиспользовании данных
- Structural. Правительство меняет институциональные структуры в ответ на трансформацию основанную на данных
- Participatory. Государство информирует граждан и бизнес о его активности и запрашивает публичные комментарии с целью применения обратной связи.
- International. Государство присоединяется к другим нациям в общих международных усилиях для установления общих правил и норм управления данными.
Если кратко, то у России всего 27 баллов из 100.
По нулям в направлениях Responsible, Participatory и International.
По направлению Strategic всего 25 баллов, в направлении Regulatory 60 и в направлении Structural 75.
В целом новость то неплохая, к примеру, у Нигерии, всего 21 балл, а у Ирана вообще их всего 3, но всё же, поменьше чем у Вьетнама, там всего 29 баллов.
Выглядит всё это куда менее политически ангажировано чем многие другие рейтинги, он даже не про открытость, а про системной работы правительств стран. О том что у нас с системностью в стране всё не очень я пишу давно( А вот и очередное подтверждение этого.
Ссылки:
[1] https://datagovhub.elliott.gwu.edu/
[2] https://datagovhub.letsnod.com
[3] https://datagovhub.letsnod.com/country-level-data/europe-central-asia/russia
#data #datagovernance #government #russia
В рубрике интересных инструментов по работе с данными.
PipeRider [1] - движок с открытым кодом по автоматизации оценки качества данных. Позволяет писать простые правила оценки типов данных, количества, максимальных и минимальных значений и многое другое. Поддерживает пока только три SQL СУБД: Postgres, Sqlite и Snowflake. Делается тайваньской компанией InfuseAI [2] с прицелом на облачную монетизацию в сервисе PipeRider Cloud, который они обещают вскоре выпустить. В целом выглядит как конкурент Soda, стоит потратить время для дополнительного изучения.
ByteBase [3] система управления изменениями в СУБД и версиями с открытым кодом. Существует в виде открытого кода и облачного сервиса, в облачном сервисе предлагают поддержку с SLA. Главное что позволяет - это подходы Database-as-Code и GitOps.
Поддерживает MySQL, Postgres, Clickhouse, TiDB и Snowflake. Они уже несколько месяцев стремительно набирают звёзды на Github'е [4]. Основатели выходцы из Google, часть команды находится в Шанхае. По данным в Crunchbase привлекли инвестиций на $3M, основной инвестор китайцы в Matrix China Partners. Для компаний внутри которых базы данных имеют клиентов/потребителей такой инструмент будет полезен.
QuestDB [5] быстрая база для временных рядов с открытым кодом, сами они пишут что быстрейшая, но это ещё надо проверять/доказать. Есть те кто сомневаются что QuestDB быстрее Clickhouse [6], тем не менее конкуренция присутствует. Создается одноименной компанией получившей $14.3M инвестиций из которых $12M в прошлом году. Самая очевидная применимость в сборе логов, данных сенсоров и разного рода телеметрии.
Ссылки:
[1] https://www.piperider.io/
[2] https://www.infuseai.io/
[3] https://www.bytebase.com/
[4] https://star-history.com/#bytebase/bytebase&Date
[5] https://questdb.io/
[6] https://telegra.ph/No-QuestDB-is-not-Faster-than-ClickHouse-06-15
#opensource #dbms #dbtools #data #startups
PipeRider [1] - движок с открытым кодом по автоматизации оценки качества данных. Позволяет писать простые правила оценки типов данных, количества, максимальных и минимальных значений и многое другое. Поддерживает пока только три SQL СУБД: Postgres, Sqlite и Snowflake. Делается тайваньской компанией InfuseAI [2] с прицелом на облачную монетизацию в сервисе PipeRider Cloud, который они обещают вскоре выпустить. В целом выглядит как конкурент Soda, стоит потратить время для дополнительного изучения.
ByteBase [3] система управления изменениями в СУБД и версиями с открытым кодом. Существует в виде открытого кода и облачного сервиса, в облачном сервисе предлагают поддержку с SLA. Главное что позволяет - это подходы Database-as-Code и GitOps.
Поддерживает MySQL, Postgres, Clickhouse, TiDB и Snowflake. Они уже несколько месяцев стремительно набирают звёзды на Github'е [4]. Основатели выходцы из Google, часть команды находится в Шанхае. По данным в Crunchbase привлекли инвестиций на $3M, основной инвестор китайцы в Matrix China Partners. Для компаний внутри которых базы данных имеют клиентов/потребителей такой инструмент будет полезен.
QuestDB [5] быстрая база для временных рядов с открытым кодом, сами они пишут что быстрейшая, но это ещё надо проверять/доказать. Есть те кто сомневаются что QuestDB быстрее Clickhouse [6], тем не менее конкуренция присутствует. Создается одноименной компанией получившей $14.3M инвестиций из которых $12M в прошлом году. Самая очевидная применимость в сборе логов, данных сенсоров и разного рода телеметрии.
Ссылки:
[1] https://www.piperider.io/
[2] https://www.infuseai.io/
[3] https://www.bytebase.com/
[4] https://star-history.com/#bytebase/bytebase&Date
[5] https://questdb.io/
[6] https://telegra.ph/No-QuestDB-is-not-Faster-than-ClickHouse-06-15
#opensource #dbms #dbtools #data #startups
Многие разработчики возмущены появлением Github Copilot [1] и использованием их кода ИИ для написания нового кода. А, тем временем, Brendan Dolan-Gavitt из NYU Tandon School of Engineering создал его аналог с открытым кодом и который можно использовать локально. Встречаем FauxPilot [2] в основе которого модели Salesforce CodeGet [3] и NVIDIA Triton Inference Server [4].
Для работы требуется процессор NVIDIA с объёмом видеопамяти от 2ГБ и где-то до 32ГБ для самых больших языковых моделей, выбор из нескольких моделей предусмотрен.
Для тех кто хочет поработать продуктами по кодогенерации локально и сделать что-то своё и уникальное, это хороший пример того с чего можно начать и что доступно с открытым кодом.
Ссылки:
[1] https://yangx.top/begtin/4020
[2] https://github.com/moyix/fauxpilot
[3] https://github.com/salesforce/CodeGen
[4] https://developer.nvidia.com/nvidia-triton-inference-server
#opensource #github #copilot #datatools #programming #fauxpilot
Для работы требуется процессор NVIDIA с объёмом видеопамяти от 2ГБ и где-то до 32ГБ для самых больших языковых моделей, выбор из нескольких моделей предусмотрен.
Для тех кто хочет поработать продуктами по кодогенерации локально и сделать что-то своё и уникальное, это хороший пример того с чего можно начать и что доступно с открытым кодом.
Ссылки:
[1] https://yangx.top/begtin/4020
[2] https://github.com/moyix/fauxpilot
[3] https://github.com/salesforce/CodeGen
[4] https://developer.nvidia.com/nvidia-triton-inference-server
#opensource #github #copilot #datatools #programming #fauxpilot
Telegram
Ivan Begtin
Вокруг ИИ помощника по написанию кода Github Copilot разгораются нешуточные баталии [1], НКО Software Freedom Conservancy призывают всех разработчиков покинуть Github [2].
Причём корень проблемы в том что открытый код не делает ограничений на его использование…
Причём корень проблемы в том что открытый код не делает ограничений на его использование…
Вжух и данные, вжух и продукт на данных (с)
В качестве небольшого отступления от новостей про продукты и стартапы на данных, я сформирую мысли вокруг трендов которые я вижу. Есть некоторый, не на поверхности, но, достаточно хорошо ощутимый тренд, это запрос на автоматизацию/ИИзацию работы с данными. Причём на всех уровнях от хранения данных до их визуализации и продукт-изации.
Во многом это не только про появление no-code инструментов для конечных пользователей, но и усилением этих инструментов инструментами понимания неструктурированных пользовательских запросов.
Например, пока нет инструментов которые могли бы принимать запросы вроде: "Возьми данные оттуда и оттуда, слинкуй их и подбери наилучшую визуализацию по показателям прошлого месяца".
При этом, есть системы ответов на вопросы пользователей, есть системы со-написания исходного кода, но нет, пока нет, аналогичных инструментов для аналитиков/маркетологов/руководителей, иначе говоря конечных потребителей внутренних дата-продуктов.
И бы не сказал что это феноменально сложно, это решаемо, но как и многие продукты такого типа будет вызывать неоднозначную реакцию у тех кто в индустрии работы с данными существует уже сейчас. Подобные инструменты не могут её не менять, причём непонятно, в сторону усиления специалистов среднего уровня или наоборот в сторону снижения их числа на тех же задачах.
Сейчас работа аналитиков - это, часто, очень много ручной работы. Работа дата сайентистов тоже, включает множество экспериментов и чистки данных. В этой области частично всё сдвигается в Automated ML (AutoML), в задачах поддающихся автоматизации. А вот Automated analytics и Automated dashboard в том виде как они существуют сейчас - это лишь преднастроенные отчеты и панели в которых автоматизируют потоки данных. Реальной автоматизации с анализом источников и природы данных пока не наблюдается. Есть на это спрос уже прямо сейчас? Я склоняюсь что он появится вместе с первыми продуктами в этой области.
В итоге я вижу достаточно четкий тренд на усиление конечных пользователей без обучения их дополнительным техническим навыкам. Причём, похоже, он будет только усиливаться в ближайшие годы и туда явно продолжат развитие существующие и новые продукты.
#thoughts #data #datatools
В качестве небольшого отступления от новостей про продукты и стартапы на данных, я сформирую мысли вокруг трендов которые я вижу. Есть некоторый, не на поверхности, но, достаточно хорошо ощутимый тренд, это запрос на автоматизацию/ИИзацию работы с данными. Причём на всех уровнях от хранения данных до их визуализации и продукт-изации.
Во многом это не только про появление no-code инструментов для конечных пользователей, но и усилением этих инструментов инструментами понимания неструктурированных пользовательских запросов.
Например, пока нет инструментов которые могли бы принимать запросы вроде: "Возьми данные оттуда и оттуда, слинкуй их и подбери наилучшую визуализацию по показателям прошлого месяца".
При этом, есть системы ответов на вопросы пользователей, есть системы со-написания исходного кода, но нет, пока нет, аналогичных инструментов для аналитиков/маркетологов/руководителей, иначе говоря конечных потребителей внутренних дата-продуктов.
И бы не сказал что это феноменально сложно, это решаемо, но как и многие продукты такого типа будет вызывать неоднозначную реакцию у тех кто в индустрии работы с данными существует уже сейчас. Подобные инструменты не могут её не менять, причём непонятно, в сторону усиления специалистов среднего уровня или наоборот в сторону снижения их числа на тех же задачах.
Сейчас работа аналитиков - это, часто, очень много ручной работы. Работа дата сайентистов тоже, включает множество экспериментов и чистки данных. В этой области частично всё сдвигается в Automated ML (AutoML), в задачах поддающихся автоматизации. А вот Automated analytics и Automated dashboard в том виде как они существуют сейчас - это лишь преднастроенные отчеты и панели в которых автоматизируют потоки данных. Реальной автоматизации с анализом источников и природы данных пока не наблюдается. Есть на это спрос уже прямо сейчас? Я склоняюсь что он появится вместе с первыми продуктами в этой области.
В итоге я вижу достаточно четкий тренд на усиление конечных пользователей без обучения их дополнительным техническим навыкам. Причём, похоже, он будет только усиливаться в ближайшие годы и туда явно продолжат развитие существующие и новые продукты.
#thoughts #data #datatools
В RSpectr свежая статья про реестр аккредитованных ИТ компаниям, в том числе с моими комментариями [1].
Я ещё раз зафиксирую мою позицию что реестр ИТ компаний получающих льготы (ведёт ФНС) и реестр аккредитованных ИТ компаний (ведёт Минцифры) должны быть одним реестром с правилом двух ключей. Аккредитация должна давать ИТ льготы и подтверждение их должны давать Минцифра и ФНС.
Все остальные "сложные схемы" формирования реестра аккредитованных ИТ компаний можно придумывать сколько угодно, но эта самая простая и понятная.
Ссылки:
[1] https://rspectr.com/articles/svet-moj-reestr-skazhi
#itmarket #digital
Я ещё раз зафиксирую мою позицию что реестр ИТ компаний получающих льготы (ведёт ФНС) и реестр аккредитованных ИТ компаний (ведёт Минцифры) должны быть одним реестром с правилом двух ключей. Аккредитация должна давать ИТ льготы и подтверждение их должны давать Минцифра и ФНС.
Все остальные "сложные схемы" формирования реестра аккредитованных ИТ компаний можно придумывать сколько угодно, но эта самая простая и понятная.
Ссылки:
[1] https://rspectr.com/articles/svet-moj-reestr-skazhi
#itmarket #digital
Rspectr
Свет мой, реестр, скажи… - RSpectr
Минцифры обновило реестр IT-компаний, исключив из него более 400 организаций, для которых деятельность в цифровой сфере не является основной.
Написал сегодня очередной текст в рассылку, на сей раз чуть подробнее рассказал о том как применяется и для чего делается утилита metacrafter [1] выявляющая семантические типы данных.
Если кратко, то это:
- выявление персональных данных
- улучшение data discovery
- автоматическое документирование
Тем временем могу сказать что утилита пополнилась новыми правилами и этой работы там ещё много, а также в базовом варианте она теперь позволяет анализировать XML файлы. В базовом, потому что у ей надо передавать название тега в который вложен объект, а автоматическое определение таких тегов где-то на следующем шаге.
Ссылки:
[1] https://begtin.substack.com/p/28
#metadata #metacrafter #datatools #data #opensource
Если кратко, то это:
- выявление персональных данных
- улучшение data discovery
- автоматическое документирование
Тем временем могу сказать что утилита пополнилась новыми правилами и этой работы там ещё много, а также в базовом варианте она теперь позволяет анализировать XML файлы. В базовом, потому что у ей надо передавать название тега в который вложен объект, а автоматическое определение таких тегов где-то на следующем шаге.
Ссылки:
[1] https://begtin.substack.com/p/28
#metadata #metacrafter #datatools #data #opensource
Ivan’s Begtin Newsletter on digital, open and preserved government
#28. Data discovery, автодокументирование и выявление персональных данных
Я довольно давно не писал про инструмент metacrafter [1] который я постепенно развиваю как небольшой экспериментальный проект по идентификации семантических типов данных, но которые имеет самое что ни на есть прямое применение.
В рубрике как это работает у них, небольшой обзор проектов по работе с данными в биоинформатике. Небольшой потому что сама эта тема огромна, а публикуемые данные значительно превосходят любой портал открытых государственных данных.
Я сделаю акцент не на обработки больших наборов данных, а на проектах по повышению понимания данных и их систематизации.
Bioschemas
Многие знают про существование Schema.org как совместной инициативы поисковиков Google, Microsoft, Yahoo и Yandex для создания реестра для разметки именованных объектов. Bioschemas [1] - это расширение Schema.org объектами относящимся к химическим веществам, генам, таксонам, молекулам и другим данным важным для исследователей. Создание проекта финансируется Евросоюзом в рамках программы ELIXIR [2]. Проект идет уже более 5 лет [3] и его основная цель в том чтобы метаданные в каталогах и репозиториях данных связанных с науками о жизни были бы стандартизированы и удобны для работы.
Data Discovery Engine
Помимо структурированного описания объектов и понятий в каталогах данных важна ещё и возможность поиска по этому структурированному описанию. Data Discovery Engine [4] - это проект с руководствами по описанию метаданных и по их сбору из существующих каталогов данных таких как CD2H, N3C, Outbreak.info и NIAID Data Portal. Сейчас там агрегируются наборы данных (Datasets) и программные инструменты (Computational Tools), а в основе профили объектов определённые в Schema.org
FAIRSharing
Помимо Bioschemas в мире существуют сотни других стандартов публикации метаданных, как в науках о жизни, так и в других науках. FAIRSharing [5] - это один из крупнейших в мире каталогов таких стандартов в реестре которого собраны руководства, схемы, описания идентификаторов, рекомендации и тд. для данных публикуемых исследователями.
—
Ссылки:
[1] https://bioschemas.org
[2] https://www.elixir-europe.org/about-us/how-funded/eu-projects/excelerate
[3] https://docs.google.com/document/d/1vfRIT7Jk-RixpA7-_8vWLpXgFuYi2rjecx2wn04E2x0/edit#heading=h.7p6phpp9ttsf
[4] https://discovery.biothings.io/
[5] https://fairsharing.org
#opendata #openscience #openaccess #standards #data
Я сделаю акцент не на обработки больших наборов данных, а на проектах по повышению понимания данных и их систематизации.
Bioschemas
Многие знают про существование Schema.org как совместной инициативы поисковиков Google, Microsoft, Yahoo и Yandex для создания реестра для разметки именованных объектов. Bioschemas [1] - это расширение Schema.org объектами относящимся к химическим веществам, генам, таксонам, молекулам и другим данным важным для исследователей. Создание проекта финансируется Евросоюзом в рамках программы ELIXIR [2]. Проект идет уже более 5 лет [3] и его основная цель в том чтобы метаданные в каталогах и репозиториях данных связанных с науками о жизни были бы стандартизированы и удобны для работы.
Data Discovery Engine
Помимо структурированного описания объектов и понятий в каталогах данных важна ещё и возможность поиска по этому структурированному описанию. Data Discovery Engine [4] - это проект с руководствами по описанию метаданных и по их сбору из существующих каталогов данных таких как CD2H, N3C, Outbreak.info и NIAID Data Portal. Сейчас там агрегируются наборы данных (Datasets) и программные инструменты (Computational Tools), а в основе профили объектов определённые в Schema.org
FAIRSharing
Помимо Bioschemas в мире существуют сотни других стандартов публикации метаданных, как в науках о жизни, так и в других науках. FAIRSharing [5] - это один из крупнейших в мире каталогов таких стандартов в реестре которого собраны руководства, схемы, описания идентификаторов, рекомендации и тд. для данных публикуемых исследователями.
—
Ссылки:
[1] https://bioschemas.org
[2] https://www.elixir-europe.org/about-us/how-funded/eu-projects/excelerate
[3] https://docs.google.com/document/d/1vfRIT7Jk-RixpA7-_8vWLpXgFuYi2rjecx2wn04E2x0/edit#heading=h.7p6phpp9ttsf
[4] https://discovery.biothings.io/
[5] https://fairsharing.org
#opendata #openscience #openaccess #standards #data
bioschemas.org
Bioschemas - Bioschemas
Bioschemas relies and extends from schema.org and aims to reuse existing standards and reach consensus among a wide number of life sciences organizations and communities.
Свежий европейский отчет eGovernment Benchmark 2022 [1] о зрелости электронного правительства в Евросоюзе со сравнению EU27+ стран членов и кандидатов в ЕС.
К нему же презентация с фактами по каждой стране [2].
Акцент в отчете сделан на то что в России называют госуслугами, но включает такой блок как прозрачность действий государства при отборе услуг для цифровизации и прозрачность их создания.
Ссылки:
[1] https://ec.europa.eu/newsroom/dae/redirection/document/88517
[2] https://ec.europa.eu/newsroom/dae/redirection/document/88733
#opengovernment #opengov #eu #policy #government
К нему же презентация с фактами по каждой стране [2].
Акцент в отчете сделан на то что в России называют госуслугами, но включает такой блок как прозрачность действий государства при отборе услуг для цифровизации и прозрачность их создания.
Ссылки:
[1] https://ec.europa.eu/newsroom/dae/redirection/document/88517
[2] https://ec.europa.eu/newsroom/dae/redirection/document/88733
#opengovernment #opengov #eu #policy #government
Одна из тем на которые я регулярно пишу здесь, в телеграм канале, это регулирование цифры и, в первую очередь, данных в ЕС, США и других развитых странах. Пишу я об этом всём уже чёрт знает сколько лет, минимум лет 12, на разных площадках и читать об этом регулировании регулярно у меня уже вошло в привычку.
Но вот в свежих дискуссиях с коллегами/экспертами/лоббистами, в последние месяцы постоянно всплывает одна и та же тема что приводить в России сейчас малорезультативно приводить в пример ЕС или США. Как минимум в части GR, как максимум в части большей части публичных коммуникаций. Например, не поможет в разговоре с Роскомнадзором говорить про GDPR, а в разговоре с Минцифрой про европейские экосистемы обмена данными или американский опыт публикации данных. Это касается не только этих регуляторов, а уже практически любых.
Но, как минимум, русскоязычный мир Россией не ограничивается и нельзя сказать что в России настолько всё хорошо с работой с данными чтобы чужой опыт можно было бы не учитывать.
Поэтому я подумывал сократить число публикаций про регулирование и госполитику в своём канале, но останавливает пока то что:
a) Есть и другие постсоветские страны и русскоязычные читатели по всему миру
б) "Вся эта хрень" не навсегда и думать про то как мир устроен надо.
А что вы думаете про нерелеватность мирового опыта для GR в России? Предлагаю поговорить об этом в комментариях и сейчас я размещу опрос для тех кто готов только проголосовать.
#thoughts #gr #government #regulation
Но вот в свежих дискуссиях с коллегами/экспертами/лоббистами, в последние месяцы постоянно всплывает одна и та же тема что приводить в России сейчас малорезультативно приводить в пример ЕС или США. Как минимум в части GR, как максимум в части большей части публичных коммуникаций. Например, не поможет в разговоре с Роскомнадзором говорить про GDPR, а в разговоре с Минцифрой про европейские экосистемы обмена данными или американский опыт публикации данных. Это касается не только этих регуляторов, а уже практически любых.
Но, как минимум, русскоязычный мир Россией не ограничивается и нельзя сказать что в России настолько всё хорошо с работой с данными чтобы чужой опыт можно было бы не учитывать.
Поэтому я подумывал сократить число публикаций про регулирование и госполитику в своём канале, но останавливает пока то что:
a) Есть и другие постсоветские страны и русскоязычные читатели по всему миру
б) "Вся эта хрень" не навсегда и думать про то как мир устроен надо.
А что вы думаете про нерелеватность мирового опыта для GR в России? Предлагаю поговорить об этом в комментариях и сейчас я размещу опрос для тех кто готов только проголосовать.
#thoughts #gr #government #regulation
Актуален ли ещё в России опыт ЕС и США в части цифры или теперь всё по другому, а этот опыт идет скорее на негативную реакцию гос-ва?
Final Results
9%
Не актуален, понятно что кооперация с ЕС, США, ОЭСР и др. в цифре уже невозможна
43%
Актуален, потому что основной опыт, всё равно, в развитых странах
6%
Не актуален, потому что в России не остаётся людей и технологий на которых этот опыт реализуем
26%
Актуален, потому что без этого не достичь никакого развития в цифре в ближайшие годы
13%
Не актуален, потому что паранойя в госорганах растёт, будут подозревать в чем-то несусветном
7%
Актуален, потому что останутся всяческие международные рейтинги и Правительство продолжит на них ...
11%
Актуально, неактуально, не о том думаете
17%
Мнения не имею, ответы посмотреть хочу!
Полезные материалы по управлению метаданными и каталогами данных
Open source продукты
- Amundsen [1] создан внутри Lyft
- OpenMetadata [2] пытаются создавать стандарт
- Datahub [3] создан в LinkedIn, передан в Acryl Data
- Metacat [4] создан в Netflix
- Apache Atlas [5] передан в Apache Foundation
- Marquez [6] передан в Linux Foundation
- Whale [7] не обновлялся около года
Обзоры
- Top 7 Data Catalog Tools in 2022 [8] обзор от Hevo Data облачных, открытых и корпоративных каталогов
Видео и выступления на русском языке
- Data-docs — как найти данные о данных — Олег Харатов, Авито [9]
- Как мы строим Metadata Managemen — Юлия Кошелева и Энрика Матвейчук, Тинькофф [10]
- Под капотом каталога данных — Анастасия Ожигина, Тинькофф [11]
Видео на английском языке
- Data Catalog for data discovery and metadata management [12] от Google и про Google Data Catalog
- Amundsen: A Data Discovery Platform From Lyft | Lyft [13] видео 2019 года, про раннюю стадию создания Amunsen
Ссылки:
[1] https://www.amundsen.io/
[2] https://open-metadata.org/
[3] https://datahubproject.io/
[4] https://github.com/Netflix/metacat
[5] https://atlas.apache.org
[6] https://marquezproject.ai/
[7] https://github.com/hyperqueryhq/whale
[8] https://hevodata.com/learn/data-catalog-tools/
[9] https://www.youtube.com/watch?v=Cr1DDmhoLKI
[10] https://www.youtube.com/watch?v=3xuNp5L_ikU
[11] https://www.youtube.com/watch?v=puH3uBNoDXk
[12] https://www.youtube.com/watch?v=eUKqXZDXj78
[13] https://www.youtube.com/watch?v=EOCYw0yf63k
#datacatalogs #data #metadata #datatools
Open source продукты
- Amundsen [1] создан внутри Lyft
- OpenMetadata [2] пытаются создавать стандарт
- Datahub [3] создан в LinkedIn, передан в Acryl Data
- Metacat [4] создан в Netflix
- Apache Atlas [5] передан в Apache Foundation
- Marquez [6] передан в Linux Foundation
- Whale [7] не обновлялся около года
Обзоры
- Top 7 Data Catalog Tools in 2022 [8] обзор от Hevo Data облачных, открытых и корпоративных каталогов
Видео и выступления на русском языке
- Data-docs — как найти данные о данных — Олег Харатов, Авито [9]
- Как мы строим Metadata Managemen — Юлия Кошелева и Энрика Матвейчук, Тинькофф [10]
- Под капотом каталога данных — Анастасия Ожигина, Тинькофф [11]
Видео на английском языке
- Data Catalog for data discovery and metadata management [12] от Google и про Google Data Catalog
- Amundsen: A Data Discovery Platform From Lyft | Lyft [13] видео 2019 года, про раннюю стадию создания Amunsen
Ссылки:
[1] https://www.amundsen.io/
[2] https://open-metadata.org/
[3] https://datahubproject.io/
[4] https://github.com/Netflix/metacat
[5] https://atlas.apache.org
[6] https://marquezproject.ai/
[7] https://github.com/hyperqueryhq/whale
[8] https://hevodata.com/learn/data-catalog-tools/
[9] https://www.youtube.com/watch?v=Cr1DDmhoLKI
[10] https://www.youtube.com/watch?v=3xuNp5L_ikU
[11] https://www.youtube.com/watch?v=puH3uBNoDXk
[12] https://www.youtube.com/watch?v=eUKqXZDXj78
[13] https://www.youtube.com/watch?v=EOCYw0yf63k
#datacatalogs #data #metadata #datatools
www.amundsen.io
Amundsen, the leading open source data catalog
В Евросоюзе, очень похоже, начался сезон индексов и рейтингов и вышел рейтинг Digital Economy and Society Index (DESI) 2022 [1] о состоянии цифровой экономики и общества.
Индекс по 4-м направлениям:
- человеческий капитал
- цифровая инфраструктура
- интеграция цифровых технологий
- цифровые государственные услуги
Он почти полностью основан на статистике Евростата, данных опросов Еврокомиссии, данных по участию стран ЕС в общих проектах и данные о стартапах из Startup Genome.
Сравнение стран - это, конечно, важно, но самое интересное в таких публикациях это материалы о многочисленных страновых проектах перечисленные в документах профилей стран. Среди этих проектов немало национальных порталов открытых данных и иных проектов по обмену данными.
Ссылки:
[1] https://digital-strategy.ec.europa.eu/en/library/digital-economy-and-society-index-desi-2022
#opendata #government #eu #opengov #digital #economy
Индекс по 4-м направлениям:
- человеческий капитал
- цифровая инфраструктура
- интеграция цифровых технологий
- цифровые государственные услуги
Он почти полностью основан на статистике Евростата, данных опросов Еврокомиссии, данных по участию стран ЕС в общих проектах и данные о стартапах из Startup Genome.
Сравнение стран - это, конечно, важно, но самое интересное в таких публикациях это материалы о многочисленных страновых проектах перечисленные в документах профилей стран. Среди этих проектов немало национальных порталов открытых данных и иных проектов по обмену данными.
Ссылки:
[1] https://digital-strategy.ec.europa.eu/en/library/digital-economy-and-society-index-desi-2022
#opendata #government #eu #opengov #digital #economy
XML файлы бывают разными, мы практически все сталкиваемся с ними когда надо работать с данными и API по ранее разработанным стандартам или когда работа идёт с унаследованными системами.
Но, в целом, XML как семейство стандартов - это, обычно, хорошо структурированные данные. Обычное применение XML стандарта - это обмен данными, конфигурационные файлы, хранение данных и тому подобное. Но, не все знают, но XML как стандарт часто используется и как язык разметки. Например, в MS Office есть возможность сохранить документ как XML-документ Word или XML-документ Excel. Расширение у него будет XML, но содержание будет в виде специального языка разметки.
Почему я это рассказываю? Одна из причин низкой востребованности порталов открытых данных, в особенности федерального data.gov.ru - это полное отсутствие контроля качества, мониторинга качества и тд. И это касается не только частоты обновления данных, но и того что по факту публикуется. Про качество данных там я писал неоднократно, и вот дополню.
Примеры таких файлов [1] [2], а всего их более 48.
Это не так много количественно, но важнее что качественно - такие "данные" это подлог, отсутствие контроля данных и на уровне тех кто их публикует и на уровне тех кто ведёт портал.
Таких примеров много, я в последние годы перестал приводить их в пример в виду общей мёртвости федерального портала data.gov.ru, но это всё к разговору о том что одна из главных претензий к порталам открытых данных. Минэкономразвития не может справится даже с загрузкой собственных данных, публикуя пустышки вроде проектов государственных программ с пустым XML документом [3].
Поэтому я повторю свой тезис что федеральный портал открытых данных в России в текущей форме малопригоден для осмысленного использования, кроме очень редких кейсов.
Ссылки:
[1] https://data.gov.ru/opendata/0274034308-infoobrash
[2] https://data.gov.ru/opendata/0274034308-zakdohodigod
[3] https://data.gov.ru/opendata/7710349494-project71
#opendata #data #government #opengov
Но, в целом, XML как семейство стандартов - это, обычно, хорошо структурированные данные. Обычное применение XML стандарта - это обмен данными, конфигурационные файлы, хранение данных и тому подобное. Но, не все знают, но XML как стандарт часто используется и как язык разметки. Например, в MS Office есть возможность сохранить документ как XML-документ Word или XML-документ Excel. Расширение у него будет XML, но содержание будет в виде специального языка разметки.
Почему я это рассказываю? Одна из причин низкой востребованности порталов открытых данных, в особенности федерального data.gov.ru - это полное отсутствие контроля качества, мониторинга качества и тд. И это касается не только частоты обновления данных, но и того что по факту публикуется. Про качество данных там я писал неоднократно, и вот дополню.
Примеры таких файлов [1] [2], а всего их более 48.
Это не так много количественно, но важнее что качественно - такие "данные" это подлог, отсутствие контроля данных и на уровне тех кто их публикует и на уровне тех кто ведёт портал.
Таких примеров много, я в последние годы перестал приводить их в пример в виду общей мёртвости федерального портала data.gov.ru, но это всё к разговору о том что одна из главных претензий к порталам открытых данных. Минэкономразвития не может справится даже с загрузкой собственных данных, публикуя пустышки вроде проектов государственных программ с пустым XML документом [3].
Поэтому я повторю свой тезис что федеральный портал открытых данных в России в текущей форме малопригоден для осмысленного использования, кроме очень редких кейсов.
Ссылки:
[1] https://data.gov.ru/opendata/0274034308-infoobrash
[2] https://data.gov.ru/opendata/0274034308-zakdohodigod
[3] https://data.gov.ru/opendata/7710349494-project71
#opendata #data #government #opengov
Закрываю опрос и по его итогам большинство читателей, всё же, считает что зарубежный опыт развитых стран в цифре в России нужен и актуален. Пока такое настроение сохраняется продолжу писать на эту тему на регулярной основе.
Forwarded from Ivan Begtin (Ivan Begtin)
Актуален ли ещё в России опыт ЕС и США в части цифры или теперь всё по другому, а этот опыт идет скорее на негативную реакцию гос-ва?
Final Results
9%
Не актуален, понятно что кооперация с ЕС, США, ОЭСР и др. в цифре уже невозможна
43%
Актуален, потому что основной опыт, всё равно, в развитых странах
6%
Не актуален, потому что в России не остаётся людей и технологий на которых этот опыт реализуем
26%
Актуален, потому что без этого не достичь никакого развития в цифре в ближайшие годы
13%
Не актуален, потому что паранойя в госорганах растёт, будут подозревать в чем-то несусветном
7%
Актуален, потому что останутся всяческие международные рейтинги и Правительство продолжит на них ...
11%
Актуально, неактуально, не о том думаете
17%
Мнения не имею, ответы посмотреть хочу!