Ivan Begtin
8.09K subscribers
1.97K photos
3 videos
102 files
4.68K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
По данным из Study on data sharing between companies in Europe [1], исследования по обмену данных в странах Евросоюза в EU присутствует:
- 255 000 компаний поставщиков данных
- 661 000 компаний потребителей данных и продуктов на их основе

В исследовании также немало цифр и анализа того как устроен рынок данных в Евросоюзе, в том числе и его расширительная трактовка на все компании компании которые встраивают сбор данных в свои продукты. К рынку данных относят рынки "Умного сельского хозяйства" и, например, рынки автопроизводителей встраивающих сбор данных в автомобили.

Также там неплохо перечислены основные механизмы обмена данными между компаниями.
Это такие способы как:
- продажа (монетизация) данных
- площадки продажи данных (data markets)
- индустриальные дата платформы
- использование технологических сервисов предоставления данных (technical enablers)
- политика открытых данных

Это большое и интересное исследование о котором я напишу ещё подробнее позже.

Ссылки:
[1] https://publications.europa.eu/en/publication-detail/-/publication/8b8776ff-4834-11e8-be1d-01aa75ed71a1/language-en

#datamarket #data
Важнейшая новость которая ещё не раз вернётся в разных формах - IBM покупает RedHat за 34 миллиарда долларов [1]. RedHat - это далеко не только Linux, это широкий набор корпоративных продуктов и огромные инвестиции в открытый исходный код. Сами RedHat пишут что это крупнейшая транзакция по покупке в софтверном мире [2].

Что такое 34 миллиарда долларов? Сравним с близким о понятным. Расходы на госпроект "Цифровая экономика" - это 1 триллион рублей или в долларах, это 15,2 миллиарда долларов. Или вот ещё для сравнения, капитализация Газпрома достигла в октябре 4 триллионов рублей (61 миллиард долларов).

То есть это как 1/2 Газпрома или как более чем 2 программы Цифровая экономика. Но важнее то что мир облачных решений уже не будет прежним.

Ссылки:
[1] https://www.nytimes.com/2018/10/28/business/ibm-red-hat-cloud-computing.html
[2] https://twitter.com/RedHat/status/1056625960831909888/photo/1

#redhat #ibm #techit
К вопросу о данных и о социальной справедливости. В Великобритании правительство провело опрос всех работодателей с более чем 250 сотрудниками о разнице в заработной плате между мужчинами и женщинами, после чего опубликовали результаты на специальном сервисе Gender pay gap service [1] и в виде открытых данных [2] небольших по объёму, но охватывающих 10533 крупнейшие компании.

И также дают справку по каждой компании, например Barklays Bank [3], одна из 4 компаний с более чем 20 тысячами сотрудников и в среднем женщины получают за час работы на 26% денег меньше. И там же видно что очень много женщин на малооплачиваемой работе. Для сравнения в профиле Microsoft Limited сотрудников женщин крайне мало, менее четверти, но разница в оплате минимальна [4]. А есть и такие исключения как Paystream [5] где женщинам платят на треть больше, но самих их очень мало.

Абстрагируясь от разнице в оплате, это пример того как государство может мониторить социальную справедливость. При этом в России гораздо сильнее запрос не на справедливость гендерную, а на справедливость сословную. Куда сильнее запрос на выравнивание зарплат руководитель/топ менеджмента и рядовых сотрудников. Если составить коэффициент неравенства (коэффициент GINI) для российских компаний и учреждений, то он окажется очень высок.

Ссылки:
[1] https://gender-pay-gap.service.gov.uk/
[2] https://gender-pay-gap.service.gov.uk/viewing/download
[3] https://gender-pay-gap.service.gov.uk/Employer/42zKA5cf/2017
[4] https://gender-pay-gap.service.gov.uk/Employer/uH4NnzOp/2017
[5] https://gender-pay-gap.service.gov.uk/Employer/IZQ2C7qH/2017

#opendata #socialjustice
А ведь неудивительно, меня поражает лишь что масштаб нарушений в госИТ так мал
Госорганами нарушаются требования механизма координации информатизации
http://audit.gov.ru/press_center/news/34932

Госорганами нарушаются требования механизма координации информатизации
Да тут оказывается и до анонимных телеграм каналов дошла тема с подготовкой CDO/CDTO, только в терминологии они путаются. Chief Data Officer - это про данные, а CDTO - это Chief Digital Transformation Officer, он про цифровые продукты. Первый высокопоставленный исполнитель, второй руководитель ставящий задачи.

Но вот до чего же смешно читать всю эту конспирологию.

Всё гораздо проще. CDO и CDTO - это синхронизация государства с окружающей его действительностью. Для бизнеса сейчас цифра - это такое неизбежное настоящее, требующее быстрой адаптации. Для государства - это попытка соответствовать нарастающим ожиданиям потребителям его функций и услуг.
Forwarded from Shadow policy
Chief Digital Officer готовят отдельно по расширенной программе.

Кто контролирует цифру - контролирует нервную систему госуправления. И вопрос лояльности этих CDO остаётся открытым - будут ли они работать на команды губернаторов и министров; группы, пролоббировавшие их участие в программе переподготовки; либо идеологов этого повышения квалификации и неких демиургов цифрового госуправления, стоящих за ними.
https://yangx.top/scienpolicy/1795

Если Россия сможет организовать подготовку CDO самого высокого уровня, то появится потенциал для экспорта этого ресурса, как минимум, в пространстве ЕАЭС.
Дабы там все позиции не перехватили специалисты из других государств.
- Какой должна быть государственная политика открытости?
- Как должно измениться отношение государства ко всей этой теме с учётом всего того что Открытое правительство успело сделать хорошего и плохого за последние 6 лет?
- И делается ли всё это так чтобы было полезно нам - гражданам и бизнесу ?

АНО "Инфокультура" проводит опрос по открытости государства. По ссылке [1] можно и нужно пройти и заполнить его. Ваша помощь будет неоценима, потому что в диалоге с государством мы сами и многие кто занимаются этой темой должны иметь опору в лице потребителей данных. Как рядовых граждан, так и журналистов, активистов, предпринимателей и, в том числе, государственных служащих также использующих открытые данные в своей работе.

Подробнее об этом опросе в статье Анны Сакоян на Polit.ru [2]

Не забудьте, также, распространить этот пост, и попросить Ваших коллег и друзей заполнить форму опроса.

Ссылки:
[1] https://docs.google.com/forms/d/e/1FAIpQLSfW-KrAXNtf6uIZC4acTi7k6rL6EXS_-qERNeNU_SOyBIh-WQ/viewform
[2] http://polit.ru/article/2018/10/24/open/

#opendata #opengov
Оперирующие термином большие данные часто не знают что это такое и называют ими данные в условные 1-2 гигабайта, кто-то говорит что большие данные это то что не может обработать 1 сервер. Поскольку это маркетинговый термин с самого начала, то как и вокруг многих терминов было много баталий.

Но есть те кто использует именно большие данные - пример это Uber. В последнем посте блога в Uber Engineering [1] они пишут про их платформу больших данных. А у них они _действительно велики_ - это более 100 петабайт в кластере серверов и Hadoop'е и в рамках их аналитической платформы Hudi [2] [3] с открытым кодом [4] поверх Hadoop'а.

Это данные 700 городов, 70 стран и от более чем 2 миллионов водителей собираемые в реальном времени и анализируемые data scientist'ами на платформе Hudi и это по настоящему большие данные.

Ссылки:
[1] https://eng.uber.com/uber-big-data-platform/
[2] https://databricks.com/session/hudi-near-real-time-spark-pipelines-at-petabyte-scale
[3] https://conferences.oreilly.com/strata/strata-ny-2018/public/schedule/detail/70937
[4] https://github.com/uber/hudi

#data #bigdata
Каков размер рынков данных? В обзоре OnAudience Global Data Market Size 2016-2018 он измеряется в 18,2 миллиарда долларов США на 2018 год. Это значительно меньше 65 миллиардов евро размера рынка в Европе по оценке Lisbon Group, к примеру, и методология OnAudience не проясняет как они получили их цифры.

Однако даже если считать эту оценку консервативной, то 1 миллиард долларов размер рынка в России, в отчёте OnAudience - это хорошая минимальная оценка объёма рынка данных в России.

Ссылки:
[1] https://www.onaudience.com/files/Global_Data_Market_Size_OnAudience_Report.pdf

#data #datamarket
Только что отшумела публично и думаю что крепко шумит теперь непублично история про утечку перс-данных вип персон, данных по инфраструктуре и т.д. у оператора Акадо [1] у которого обнаружили раскрытие персональных данных в их whois сервисе.

Случай не беспрецендентный, их не так уж мало, скорее тут важно что после обращения в службу безопасности Акадо не предпринял вообще никаких действий. Это действительно плохо, хуже может быть только если Акадо ещё и проблему не признает и никого не уволит.

Впрочем бывают ситуации гораздо серьёзнее. Я неоднократно сталкиваюсь с утечками перс. данных из государственных систем, но ничего не публикую об этом, вместо этого связываюсь с администраторами системы и объясняю им что надо исправить. Но бывают ситуации которые не исправить просто отключив whois сервис, часто проблемы куда глубже и куда серьёзнее.

Ссылки:
[1] https://bit.ly/2AHKFgZ

#dataleaks
Очередная инициатива по снижению открытости государства

... Авторы доклада предлагают рекомендовать Верховному суду РФ при участии заинтересованных госорганов проработать вопрос о необходимости внесения ряда изменений в 262-й федеральный закон. Они касаются исключения размещения в интернете текстов судебных актов, которые содержат упомянутую информацию о безопасности транспортной инфраструктуры...

Подробнее по ссылке: [1]

Проблема в том что и сейчас доступ к судебным актам для серьёзного анализа ограничен. Для арбитражных судов - это pravo.ru являющееся де-факто монополистом, для судов общей юрисдикции нет открытых данных. Впрочем открытых данных в российской юриспруденции что в судебной что в законодательной - нет нигде. Хотя это главный продукт производства государства

Ссылки:
[1] https://legal.report/article/02112018/publikaciyu-sudebnyh-aktov-predlagaetsya-ogranichit

#opendata #opengov
В Open Data Institute обзор их попыток рисовать "карты данных" [1]. Хорошая затея, не от владельцев, а от характеристик данных. Впрочем все карты данных сложны в отрисовке, всегда упираешься в сложность темы, отраслевую специфику и необходимость понимания как работа с данными устроена. Мне ближе подход идущий от инвентаризации источников данных, тогда карта данных - это лишь промежуточный продукт брейншторма

Ссылки:
[1] https://theodi.org/article/data-access-archipelago-mapping-the-myriad-ways-we-share-data/

#opendata
У Минкомсвязи (официальное сокращённое наименование - Министерства цифрового развития и т.д.) не открывается нормальным образом сайт под https потому чтор работает он с сертификатом Symantec который постепенно Google выводит из поддержки в Google Chrome.

Если открыть сайт https://minsvyaz.ru в Google Chrome то можно увидеть предупреждение безопасности.

Ситуация смешная сапожника без сапог.
#security
Проблема с HTTPS совсем не новая, у многих стран и госорганов плохо с политиками безопасности и приватности и тут в пору вспомнить "а как там у них". В США на правительственном уровне действует проект Pulse [1] где мониторится внедрение не только HTTPS на каждом веб-сайте, но и его безопасные расширения. Например в США для госдоменов сейчас обязательным является использование стандарта HSTS [2], есть требования по использованию HTTPS-only [3] без использования HTTP протокола, а также есть требования по отказу от старых алгоритмов шифрования RC4 и RC5 и старых версий SSLv2 [4].

Всё это и мониторит Pulse, кстати проект с открытым кодом и ничто не мешает и никогда не мешало Минкомсвязи взять этот код и организовать мониторинг госсайтов в России. А если у них нет списка госдоменов, то он есть тут в открытом доступе [5].

А то ведь рано или поздно такой мониторинг сделает кто-нибудь от общественности и будут регулярно тыкать Минкомсвязь в некомпетентность. Некрасиво будет, ну право слово.

Ссылки:
[1] https://pulse.cio.gov/https/domains/
[2] https://https.cio.gov/guide/#options-for-hsts-compliance
[3] https://https.cio.gov/
[4] https://cyber.dhs.gov/bod/18-01/
[5] http://github.com/infoculture/govdomains

#security #privacy #https