Ivan Begtin
8.05K subscribers
1.96K photos
3 videos
102 files
4.67K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
Замечательный стартап из Республики Беларусь - OpenSoil [1] мониторит посадки в сельхозугодиях в странах и даёт высокую точность определения того что посажено и что растёт: трава, кукуруза, пшеница и тд. Оказывается в мире такого мало, очень активно его комментируют на ProductHunt [2].

Я бы сказал что ему прямая дорога на внедрение в госсекторе, это куда эффективнее многих инструментов мониторинга, но скорее первыми пользователями будут крупнейшие агрохолдинги, аналитики и тд.

Ссылки:
[1] https://onesoil.ai/ru/
[2] https://www.producthunt.com/posts/onesoil-map-2

#opendata #data
Возможно кто-то помнит про OpenData bullshit bingo, игра в которую мы играли во время обсуждения открытых данных с чиновниками.

Смысл был в том чтобы пока слушаешь выступление надо ставить крестики в полях и когда колонка или ряд будут заполнены полностью то надо встать и крикнуть "Бинго!".

Игра не потеряла актуальности и для неё наш дизайнер Павел сделал крутые стикерпаки для Телеграма.

Вот тут они https://yangx.top/addstickers/infoculture

Пользуйтесь стикерами на здоровье.

#opendata
Стикерпак
Не только у Google есть поиск по наборам данных. В Австралии разработали позаказу правительства движок Magda [1] который агрегирует данные со всех порталов открытых данных страны и дает возможность быстрого и удобного поиска на search.data.gov.au [2].

Кроме публичных порталов он агрегирует данные и из закрытых порталов и вычищает данные от ошибок, сломанных ссылок и так далее.

Но пользователь всегда по умолчанию видит поисковую строку с возможностью предпросмотра результатов в виде таблиц и графиков.

Если сравнить с поиском по датасетам Гугла, то австралийский поиск куда удобнее. С той лишь оговоркой что поиск Гугла ориентирован на наборы данных по которым предпросмотр очень ограничен их объёмами.

Ссылки:
[1] https://magda.io/
[2] https://search.data.gov.au/

#opendata #search
3-й день проходит в комментариях к законопроекту о больших данных. Я успел прокомментировать Фонтанке [1]
и RSpectr [2] и ещё нескольким изданиям я не успел прокомментировать поскольку был на конференции и других мероприятиях несколько дней.

Что хорошо: практически все комментаторы против закона, регулирование данных в такой форме - это форменное издевательство и законопроект очень сырой.

Что плохо: законопроект таки внесли в госдуму

Ссылки:
[1] https://www.fontanka.ru/2018/10/25/120/
[2] https://rspectr.com/articles/452/prinyat-kak-bolshuyu-dannost

#bigdata
Каналы на которые всячески рекомендую подписаться:

Автоматические каналы с трансляцией новостей
@infoculture - канал Инфокультуры
@govdigest - трансляция новостей с сайтов Правительства, Администрации Президента и др. ключевых госорганов
@opengovdigest - новости про открытость гос-ва и открытые данные по всему миру

Каналы про данные
@urbandata - отличный канал Андрея Кармацкого про данные в городах (много визуализации)
@ahminfin - авторский канал Ольги Пархимович про открытые финансовые данные
@data_publication - Андрей Дорожный о дата журналистике

Каналов интересных много, присылайте в @begtinchat если знаете интересные каналы по теме, я и сам буду читать и поделюсь с читателями
Ещё одна свежая новость в том что Правительство (Минцифра?) решили распределить расходы на цифровую экономику в субъекты минуя региональные бюджеты, а выдавая гранты юр. лицам на реализацию пилотных проектов. Об этом говорили на их презентации в Сочи и написал CNews [1].

Тема эта очень серьёзная и требует обстоятельного осмысления. Вот лишь несколько тезисов:
1. Распределение денег не по госбюджетам, а грантами напрямую меняет природу создаваемых продуктов и инфраструктуры. Гранты - это деньги не подтверждённые обязательствами передавать имущество созданное в рамках гранта грантодателю. Это означает что все программные продукты, ИТ инфраструктура и так далее останутся в собственности у грантополучателей.

2. Исходя из того что эти проекты, всё таки, декларируются как часть федерального проекта, и предполагают 50:50 софинансирование со стороны грантополучателя, то стоит ожидать концессий на инфраструктуру, в первую очередь, и информационные системы во вторую. Это фактическая приватизация многих госфункций, конкретнее будет понятно когда будет известна информация о проектах.

3. Требования по суммам грантов, требованиям к софинансированию, а самое главное то что направление финансирования теперь будет в ведении Минсвязи, а не региональных властей, всё это приведет к ещё большему перераспределению ИТ бюджетов к федеральным игрокам.

4. ИТ директора администраций субъектов федерации, а также CDTO и CDO резко теряют влияние, крупнейшие проекты по ЦЭ будут идти с их соучастием, но без их власти. В итоге тут будут неизбежные конфликты властей субъектовв федерации и отобранных по конкурсу грантополучателей. Если только эти грантополучатели не будут с самого начала компаниями из субъекта федерации.

5. Ещё один большой вопрос, а что такое "коммерческая организация" ? Например, могут ли быть получателями грантов компании на 100% принадлежащие государству, казенные учреждения, бюджетные учреждения, АНО, унитарные предприятия и тд. Если да, тов тех регионах где созданы специализированные учреждения по информатизации, то они и будут подаваться.

6. Ограничение на иностранное участие в подобных организациях до 50% - это такой, мягко говоря, очень странный заход. Интересно что об этом скажут на Совете Безопасности в итоге, потому что в идеологии всей программы импортозамещения и так далее, там не должно быть компаний с иностранным участием вообще.

7. Фактически вся эта схема - это вывод средств из под бюджетного регулирования и регулирования госзакупок. Странно что Минфин на такое согласился, ещё более странно будет если Минфин не предложит делать такие проекты с Казначейским сопровождением.

В качестве резюме поделюсь личным мнением. Идея с раздачей грантов имеет право на существование, однако в текущей форме и на эту сумму в 35 миллиардов рублей - это скорее инвестиционный проект, причём скорее государственная инвестиционная поддержка региональных государственно-частных партнёрств и концессий в области ИТ.

Ссылки:
[1] http://www.cnews.ru/news/top/2018-10-26_regiony_ostavyat_bez_deneg_na_tsifrovuyu_ekonomiku

#digitaleconomy #regions #budgets #procurement #spending
По данным из Study on data sharing between companies in Europe [1], исследования по обмену данных в странах Евросоюза в EU присутствует:
- 255 000 компаний поставщиков данных
- 661 000 компаний потребителей данных и продуктов на их основе

В исследовании также немало цифр и анализа того как устроен рынок данных в Евросоюзе, в том числе и его расширительная трактовка на все компании компании которые встраивают сбор данных в свои продукты. К рынку данных относят рынки "Умного сельского хозяйства" и, например, рынки автопроизводителей встраивающих сбор данных в автомобили.

Также там неплохо перечислены основные механизмы обмена данными между компаниями.
Это такие способы как:
- продажа (монетизация) данных
- площадки продажи данных (data markets)
- индустриальные дата платформы
- использование технологических сервисов предоставления данных (technical enablers)
- политика открытых данных

Это большое и интересное исследование о котором я напишу ещё подробнее позже.

Ссылки:
[1] https://publications.europa.eu/en/publication-detail/-/publication/8b8776ff-4834-11e8-be1d-01aa75ed71a1/language-en

#datamarket #data
Важнейшая новость которая ещё не раз вернётся в разных формах - IBM покупает RedHat за 34 миллиарда долларов [1]. RedHat - это далеко не только Linux, это широкий набор корпоративных продуктов и огромные инвестиции в открытый исходный код. Сами RedHat пишут что это крупнейшая транзакция по покупке в софтверном мире [2].

Что такое 34 миллиарда долларов? Сравним с близким о понятным. Расходы на госпроект "Цифровая экономика" - это 1 триллион рублей или в долларах, это 15,2 миллиарда долларов. Или вот ещё для сравнения, капитализация Газпрома достигла в октябре 4 триллионов рублей (61 миллиард долларов).

То есть это как 1/2 Газпрома или как более чем 2 программы Цифровая экономика. Но важнее то что мир облачных решений уже не будет прежним.

Ссылки:
[1] https://www.nytimes.com/2018/10/28/business/ibm-red-hat-cloud-computing.html
[2] https://twitter.com/RedHat/status/1056625960831909888/photo/1

#redhat #ibm #techit
К вопросу о данных и о социальной справедливости. В Великобритании правительство провело опрос всех работодателей с более чем 250 сотрудниками о разнице в заработной плате между мужчинами и женщинами, после чего опубликовали результаты на специальном сервисе Gender pay gap service [1] и в виде открытых данных [2] небольших по объёму, но охватывающих 10533 крупнейшие компании.

И также дают справку по каждой компании, например Barklays Bank [3], одна из 4 компаний с более чем 20 тысячами сотрудников и в среднем женщины получают за час работы на 26% денег меньше. И там же видно что очень много женщин на малооплачиваемой работе. Для сравнения в профиле Microsoft Limited сотрудников женщин крайне мало, менее четверти, но разница в оплате минимальна [4]. А есть и такие исключения как Paystream [5] где женщинам платят на треть больше, но самих их очень мало.

Абстрагируясь от разнице в оплате, это пример того как государство может мониторить социальную справедливость. При этом в России гораздо сильнее запрос не на справедливость гендерную, а на справедливость сословную. Куда сильнее запрос на выравнивание зарплат руководитель/топ менеджмента и рядовых сотрудников. Если составить коэффициент неравенства (коэффициент GINI) для российских компаний и учреждений, то он окажется очень высок.

Ссылки:
[1] https://gender-pay-gap.service.gov.uk/
[2] https://gender-pay-gap.service.gov.uk/viewing/download
[3] https://gender-pay-gap.service.gov.uk/Employer/42zKA5cf/2017
[4] https://gender-pay-gap.service.gov.uk/Employer/uH4NnzOp/2017
[5] https://gender-pay-gap.service.gov.uk/Employer/IZQ2C7qH/2017

#opendata #socialjustice
А ведь неудивительно, меня поражает лишь что масштаб нарушений в госИТ так мал
Госорганами нарушаются требования механизма координации информатизации
http://audit.gov.ru/press_center/news/34932

Госорганами нарушаются требования механизма координации информатизации
Да тут оказывается и до анонимных телеграм каналов дошла тема с подготовкой CDO/CDTO, только в терминологии они путаются. Chief Data Officer - это про данные, а CDTO - это Chief Digital Transformation Officer, он про цифровые продукты. Первый высокопоставленный исполнитель, второй руководитель ставящий задачи.

Но вот до чего же смешно читать всю эту конспирологию.

Всё гораздо проще. CDO и CDTO - это синхронизация государства с окружающей его действительностью. Для бизнеса сейчас цифра - это такое неизбежное настоящее, требующее быстрой адаптации. Для государства - это попытка соответствовать нарастающим ожиданиям потребителям его функций и услуг.
Forwarded from Shadow policy
Chief Digital Officer готовят отдельно по расширенной программе.

Кто контролирует цифру - контролирует нервную систему госуправления. И вопрос лояльности этих CDO остаётся открытым - будут ли они работать на команды губернаторов и министров; группы, пролоббировавшие их участие в программе переподготовки; либо идеологов этого повышения квалификации и неких демиургов цифрового госуправления, стоящих за ними.
https://yangx.top/scienpolicy/1795

Если Россия сможет организовать подготовку CDO самого высокого уровня, то появится потенциал для экспорта этого ресурса, как минимум, в пространстве ЕАЭС.
Дабы там все позиции не перехватили специалисты из других государств.
- Какой должна быть государственная политика открытости?
- Как должно измениться отношение государства ко всей этой теме с учётом всего того что Открытое правительство успело сделать хорошего и плохого за последние 6 лет?
- И делается ли всё это так чтобы было полезно нам - гражданам и бизнесу ?

АНО "Инфокультура" проводит опрос по открытости государства. По ссылке [1] можно и нужно пройти и заполнить его. Ваша помощь будет неоценима, потому что в диалоге с государством мы сами и многие кто занимаются этой темой должны иметь опору в лице потребителей данных. Как рядовых граждан, так и журналистов, активистов, предпринимателей и, в том числе, государственных служащих также использующих открытые данные в своей работе.

Подробнее об этом опросе в статье Анны Сакоян на Polit.ru [2]

Не забудьте, также, распространить этот пост, и попросить Ваших коллег и друзей заполнить форму опроса.

Ссылки:
[1] https://docs.google.com/forms/d/e/1FAIpQLSfW-KrAXNtf6uIZC4acTi7k6rL6EXS_-qERNeNU_SOyBIh-WQ/viewform
[2] http://polit.ru/article/2018/10/24/open/

#opendata #opengov
Оперирующие термином большие данные часто не знают что это такое и называют ими данные в условные 1-2 гигабайта, кто-то говорит что большие данные это то что не может обработать 1 сервер. Поскольку это маркетинговый термин с самого начала, то как и вокруг многих терминов было много баталий.

Но есть те кто использует именно большие данные - пример это Uber. В последнем посте блога в Uber Engineering [1] они пишут про их платформу больших данных. А у них они _действительно велики_ - это более 100 петабайт в кластере серверов и Hadoop'е и в рамках их аналитической платформы Hudi [2] [3] с открытым кодом [4] поверх Hadoop'а.

Это данные 700 городов, 70 стран и от более чем 2 миллионов водителей собираемые в реальном времени и анализируемые data scientist'ами на платформе Hudi и это по настоящему большие данные.

Ссылки:
[1] https://eng.uber.com/uber-big-data-platform/
[2] https://databricks.com/session/hudi-near-real-time-spark-pipelines-at-petabyte-scale
[3] https://conferences.oreilly.com/strata/strata-ny-2018/public/schedule/detail/70937
[4] https://github.com/uber/hudi

#data #bigdata