Как работает защита приватности в странах где есть сдержки и противовесы в парламентской демократии.
В Израиле правительство изначально разрешило использовать данные сотовых операторов для трекинга контактов в период COVID-19, но на ограниченное время. Сейчас парламентская надзорная группа кнессета заблокировала инициативу правительства по продолжению использования этих данных. О чём пишет BBC [1] и у них же немало других актуальных публикаций о приватности при COVID-19 [2], например, о том как Google и Apple мешают правительствам нарушать приватность [3] и давление правительства Франции на них к примеру.
И там же об масштабном производстве и внедрении трекеров движения с мониторингом температуры [4]
У Privacy International появился большой раздел на сайте посвящённых нарушениям приватности при COVID-19 [5].
Apple и Google разрабатывают стандарт трекинга людей с соблюдением приватности [6].
Большой раздел по приватности при COVID-19 появился на сайте Совета Европы [7]
Ссылки:
[1] https://www.bbc.com/news/technology-52395886
[2] https://www.bbc.com/news/topics/cz5jl9ydykpt/privacy
[3] https://www.bbc.com/news/technology-52415020
[4] https://www.bbc.com/news/technology-52409893
[5] https://privacyinternational.org/campaigns/fighting-global-covid-19-power-grab
[6] https://www.apple.com/covid19/contacttracing
[7] https://www.coe.int/en/web/data-protection/covid-19-data-protection-resources
#privacy #covid19 #democracy
В Израиле правительство изначально разрешило использовать данные сотовых операторов для трекинга контактов в период COVID-19, но на ограниченное время. Сейчас парламентская надзорная группа кнессета заблокировала инициативу правительства по продолжению использования этих данных. О чём пишет BBC [1] и у них же немало других актуальных публикаций о приватности при COVID-19 [2], например, о том как Google и Apple мешают правительствам нарушать приватность [3] и давление правительства Франции на них к примеру.
И там же об масштабном производстве и внедрении трекеров движения с мониторингом температуры [4]
У Privacy International появился большой раздел на сайте посвящённых нарушениям приватности при COVID-19 [5].
Apple и Google разрабатывают стандарт трекинга людей с соблюдением приватности [6].
Большой раздел по приватности при COVID-19 появился на сайте Совета Европы [7]
Ссылки:
[1] https://www.bbc.com/news/technology-52395886
[2] https://www.bbc.com/news/topics/cz5jl9ydykpt/privacy
[3] https://www.bbc.com/news/technology-52415020
[4] https://www.bbc.com/news/technology-52409893
[5] https://privacyinternational.org/campaigns/fighting-global-covid-19-power-grab
[6] https://www.apple.com/covid19/contacttracing
[7] https://www.coe.int/en/web/data-protection/covid-19-data-protection-resources
#privacy #covid19 #democracy
BBC News
Coronavirus: Israel halts police phone tracking over privacy concerns
An Israeli parliamentary committee suspends the tracking of phones to enforce quarantine.
Ранее я писал про то что такое альтернативные данные [1] и как они используются. Главное и основное применение - это хэдж фондами и другими игроками на биржах. Альтернативные данные поставляются чаще чем отчетность компаний и позволяет делать выводы о их успехах, иногда, значительно раньше.
Я буду делать регулярные обзоры компаний и продуктов создающих подобные альтернативные данные. Сегодня краткое описание 3-х из них: SatScout, Kpler, Ursa Space Systems
SatScout
—
Мониторинг нефтяных скважин в США от Westwood Global Energy Group. Отличается тем что осуществляется в реальном времени и с помощью спутниковых снимков, машинного обучения и команды аналитиков. Они умеют определять когда скважину начинают бурить, когда консервировать и так далее. Иначе говоря узнавать об активностях нефтяных компаний до того как они об этом сообщат в своих отчётах.
Ключевые особенности:
- мониторят 22 000+ нефтяных скважин с периодичность в 2-3 дня
- 2,1 миллиона спутниковых снимков обработали машинным обучением и вручную
- в 2,5 раза точнее выявляют гидроразрывы в отличие от отчетности компаний
Стоимость продукта начинается от 10 тысяч долларов США в месяц, агрегированные данные по некоторым месторождениям они публикуют у себя на сайте
Kpler
Спутниковый мониторинг морских грузоперевозок. Они используют официальные госданные, данные от перевозчиков, портовых служб и изображения со спутников для отслеживания судов, рыночных отчетов, мобильного приложения для отслеживания в реальном времени и так далее.
Компания существует с 2009 года и, судя по запускаемым ими продуктами и числу вакансий, активно развивается.
Ursa Space Systems
Вот это уже полноценный стартап, с раундами инвестиций и последним раундом в 15 миллионов долларов. Их фокус в измерении заполненности нефтехранилищ в мире и из общедоступных продуктов можно посмотреть на их панель загруженности нефтехранилищ.
Ссылки:
[1] https://yangx.top/begtin/1480
Я буду делать регулярные обзоры компаний и продуктов создающих подобные альтернативные данные. Сегодня краткое описание 3-х из них: SatScout, Kpler, Ursa Space Systems
SatScout
—
Мониторинг нефтяных скважин в США от Westwood Global Energy Group. Отличается тем что осуществляется в реальном времени и с помощью спутниковых снимков, машинного обучения и команды аналитиков. Они умеют определять когда скважину начинают бурить, когда консервировать и так далее. Иначе говоря узнавать об активностях нефтяных компаний до того как они об этом сообщат в своих отчётах.
Ключевые особенности:
- мониторят 22 000+ нефтяных скважин с периодичность в 2-3 дня
- 2,1 миллиона спутниковых снимков обработали машинным обучением и вручную
- в 2,5 раза точнее выявляют гидроразрывы в отличие от отчетности компаний
Стоимость продукта начинается от 10 тысяч долларов США в месяц, агрегированные данные по некоторым месторождениям они публикуют у себя на сайте
Kpler
Спутниковый мониторинг морских грузоперевозок. Они используют официальные госданные, данные от перевозчиков, портовых служб и изображения со спутников для отслеживания судов, рыночных отчетов, мобильного приложения для отслеживания в реальном времени и так далее.
Компания существует с 2009 года и, судя по запускаемым ими продуктами и числу вакансий, активно развивается.
Ursa Space Systems
Вот это уже полноценный стартап, с раундами инвестиций и последним раундом в 15 миллионов долларов. Их фокус в измерении заполненности нефтехранилищ в мире и из общедоступных продуктов можно посмотреть на их панель загруженности нефтехранилищ.
Ссылки:
[1] https://yangx.top/begtin/1480
Westwood
SatScout - U.S. Onshore Activity | Westwood Global Energy Group
Near real-time transparency on U.S. onshore drilling and completion activity with SatScout.
Тот момент когда международные корпорации веду себя значительно более ответственно чем национальные правительства некоторых стран. Обе компании, Google и Apple пообещали отключить функции отслеживания контактов, которые они разработали, сразу после того как пандемия будет взята под контроль [1]. Они создали раздел вопросов и ответов на сайте инициативы. [2]
Ссылки:
[1] https://www.theverge.com/2020/4/24/21234457/apple-google-coronavirus-contact-tracing-tracker-exposure-notification-shut-down
[2] https://covid19-static.cdn-apple.com/applications/covid19/current/static/contact-tracing/pdf/ExposureNotification-FAQv1.0.pdf
#privacy #google #apple
Ссылки:
[1] https://www.theverge.com/2020/4/24/21234457/apple-google-coronavirus-contact-tracing-tracker-exposure-notification-shut-down
[2] https://covid19-static.cdn-apple.com/applications/covid19/current/static/contact-tracing/pdf/ExposureNotification-FAQv1.0.pdf
#privacy #google #apple
The Verge
Apple and Google pledge to shut down coronavirus tracker when pandemic ends
New changes to the ambitious contact tracing effort from the two largest tech companies in the world
Мне тут надо написать несколько текстов, но идёт очень тяжело, так что попробую отрефлексировать одну давнюю мысль.
Многие ИТ специалисты столкнувшиеся с законами и прочими нормативными документами давно уже говорят, пишут, рассуждают на тему того что надо сделать "Git для законов". Для тех кто не из ИТ мира поясню.
Git - это такая система управления версиями кода и текстов в которой всё устроено через патчи к предыдущим версиям. На самом деле также устроено и во многих других системах контроля версий, но я буду использовать Git как базовый пример. Потому что такие размышления уже публиковались неоднократно [1] [2]
Основной тезис тут в том что с законами можно работать как с кодом. Это как devops - программирование инфраструктуры сложно это код или dataops - программирование систем управления данными словно это код и вот lawops - программирование законов словно это код.
Концепция непростая, но, как ни странно не невозможная. Ключевое в ней - это преодоление приоритета бумаги над цифрой. Бумага, в данном случае, момент признания нормативного правила/обязательства/права и форма его выражения. Если сейчас первичная "бумага", а то есть например, распоряжение о назначении или снятии кого-то вначале подписывается на бумаге и лишь потом реализуется через систему управления кадрами (если вообще есть такая система), то в случае приоритета цифры возникают "учётные действия" от которых уже порождаются документы "на бумаге".
Есть действия которые касаются простых понятий и показателей. Назначить, уволить, создать, ликвидировать, ратифицировать, изменить общий значимый параметр (МРОТ, ставка налога и тд). Если говорить про Россию то таких учётных действий до 90% всех подписываемых документов.
Всё это требует создания этой самой системы нормативных действий. Причём она должна иметь принципиально иные характеристики, как минимум, в части уведомления субъектов регулирования о появлении новой нормы. Это уже не классические нормативно-правовые системы, а вполне машиночитаемые уведомления на платформах любого типа.
Однако, именно нормативные документы являются основой госуправления. Изменить природу появления норм - это изменить и структурировать природу управления государством или даже чуть меньшей структурой (регион, муниципалитет, корпорация).
Такие изменения возможны только если "есть этого слона по частям", а то есть разделять НПА на блоки. Например, вначале распоряжения о назначении/увольнении, далее распоряжения награждении, далее распоряжения о ратификации, далее постановления по установлению базовых параметров, далее в части НПА идущих по короткому пути - ведомственные приказы, далее законы идущие по короткому пути, на каких-то этапах, и далее уже всё целиком.
На самом деле всё подобное возможно, и отнюдь не геймифицирует госуправление, а задаёт множество ограничительных рамок и значительно упрощает инструменты не только принятия решений, но и прогнозирования.
Более того, в некоторых направлениях эти изменения сильно прогрессируют. Например, закон о бюджете на федеральном уровне это давно уже не закон в привычном понимании, а сложный, автоматизированный процесс, а сам бюджет уже не документ, а "слепок в системе".
Я, при этом, не считаю что подобное "обесчеловечивания" будет просто внедрить. Слишком активна и влиятельна прослойка лиц находящихся между инициативой НПА и постановкой последней подписи и автоматизация этого процесса может лишить этих посредников заработка.
Но тренд на подобное совершенно ясно присутствует и я берусь предсказать что в течение 10-15 лет именно так всё и будет.
P.S. Хочу на эту тему большую международную дискуссию или хотя бы статью написать на английском. Пока делюсь мыслями тут
Ссылки:
[1] https://blog.abevoelker.com/gitlaw-github-for-laws-and-legal-documents-a-tourniquet-for-american-liberty/
[2] https://sunlightfoundation.com/2014/06/25/opengov-voices-how-gitlaw-turns-the-french-parliamentary-process-into-open-data/
#thoughts #discuss #law #lawtech #lawops
Многие ИТ специалисты столкнувшиеся с законами и прочими нормативными документами давно уже говорят, пишут, рассуждают на тему того что надо сделать "Git для законов". Для тех кто не из ИТ мира поясню.
Git - это такая система управления версиями кода и текстов в которой всё устроено через патчи к предыдущим версиям. На самом деле также устроено и во многих других системах контроля версий, но я буду использовать Git как базовый пример. Потому что такие размышления уже публиковались неоднократно [1] [2]
Основной тезис тут в том что с законами можно работать как с кодом. Это как devops - программирование инфраструктуры сложно это код или dataops - программирование систем управления данными словно это код и вот lawops - программирование законов словно это код.
Концепция непростая, но, как ни странно не невозможная. Ключевое в ней - это преодоление приоритета бумаги над цифрой. Бумага, в данном случае, момент признания нормативного правила/обязательства/права и форма его выражения. Если сейчас первичная "бумага", а то есть например, распоряжение о назначении или снятии кого-то вначале подписывается на бумаге и лишь потом реализуется через систему управления кадрами (если вообще есть такая система), то в случае приоритета цифры возникают "учётные действия" от которых уже порождаются документы "на бумаге".
Есть действия которые касаются простых понятий и показателей. Назначить, уволить, создать, ликвидировать, ратифицировать, изменить общий значимый параметр (МРОТ, ставка налога и тд). Если говорить про Россию то таких учётных действий до 90% всех подписываемых документов.
Всё это требует создания этой самой системы нормативных действий. Причём она должна иметь принципиально иные характеристики, как минимум, в части уведомления субъектов регулирования о появлении новой нормы. Это уже не классические нормативно-правовые системы, а вполне машиночитаемые уведомления на платформах любого типа.
Однако, именно нормативные документы являются основой госуправления. Изменить природу появления норм - это изменить и структурировать природу управления государством или даже чуть меньшей структурой (регион, муниципалитет, корпорация).
Такие изменения возможны только если "есть этого слона по частям", а то есть разделять НПА на блоки. Например, вначале распоряжения о назначении/увольнении, далее распоряжения награждении, далее распоряжения о ратификации, далее постановления по установлению базовых параметров, далее в части НПА идущих по короткому пути - ведомственные приказы, далее законы идущие по короткому пути, на каких-то этапах, и далее уже всё целиком.
На самом деле всё подобное возможно, и отнюдь не геймифицирует госуправление, а задаёт множество ограничительных рамок и значительно упрощает инструменты не только принятия решений, но и прогнозирования.
Более того, в некоторых направлениях эти изменения сильно прогрессируют. Например, закон о бюджете на федеральном уровне это давно уже не закон в привычном понимании, а сложный, автоматизированный процесс, а сам бюджет уже не документ, а "слепок в системе".
Я, при этом, не считаю что подобное "обесчеловечивания" будет просто внедрить. Слишком активна и влиятельна прослойка лиц находящихся между инициативой НПА и постановкой последней подписи и автоматизация этого процесса может лишить этих посредников заработка.
Но тренд на подобное совершенно ясно присутствует и я берусь предсказать что в течение 10-15 лет именно так всё и будет.
P.S. Хочу на эту тему большую международную дискуссию или хотя бы статью написать на английском. Пока делюсь мыслями тут
Ссылки:
[1] https://blog.abevoelker.com/gitlaw-github-for-laws-and-legal-documents-a-tourniquet-for-american-liberty/
[2] https://sunlightfoundation.com/2014/06/25/opengov-voices-how-gitlaw-turns-the-french-parliamentary-process-into-open-data/
#thoughts #discuss #law #lawtech #lawops
Abe Voelker
GitLaw: GitHub for Laws and Legal Documents - a Tourniquet for American Liberty
Вот меня спрашивают, а где взять медицинскую статистику, по госпитализации, по ОРВИ?
А мне есть что ответить и, я очень удивляюсь что журналисты до сих пор не подняли эту тему.
Ежегодно ФГБУ «ЦНИИОИЗ» Минздрава России [1} (расшифровывается как - Федеральное государственное бюджетное учреждение «Центральный научно-исследовательский институт организации и информатизации здравоохранения» Министерства здравоохранения Российской Федерации
получает до 540 миллионов рублей в 2019 году [3] и сравнимые суммы в другие годы в виде субсидий [3] лт Минздрава России.
У этого ФГБУ есть госзадание на 2019-2023 годы [4] из которого мы можем узнать о том что данное ФГБУ отвечает за:
---
Ведение базы данных значений форм статистического наблюдения, утвержденных приказами Росстата и Минздрава России, получаемых от органов исполнительной власти субъектов Российской Федерации с использованием программного комплекса МЕДСТАТ. Агрегация значений базы данных в целях формирования сводной информации по Российской Федерации. Ведение базы данных значений форм статистического наблюдения с использованием программного комплекса МЕДСТАТ, получаемых от ФГУ. Проведение контроля достоверности и качества представляемой информации при включении в базу данных статистических показателей, включая идентификацию и расшифровку единиц значений форм статистического наблюдения (словари строк и граф) для актуализации МЕДСТАТ.
---
Это в "Часть 2 Раздел 2" госзадания.
А где находятся эти сведения? В разделе "Медицинская статистика" [5] на сайде данного ФГБУ. Конечно же, закрытое паролем и недоступное.
При том что:
а) Эти сведения не содержат персональных данных
б) Эти сведения не содержат коммерческой тайны
в) Эти сведения не содержат государственной тайны
г) Эти сведения не могут быть "cлужебной тайной" и тд.
Иначе говоря, медицинская статистика должна быть общедоступной. Анализ регламентов её сбора подтвердит что ФГБУ собирает её не реже чем ежемесячно.
Если Вы посмотрите на контракты этого ФГБУ как госзаказчика, то окажется что в основном он тратит средства на заказ рекламы [6] у ООО "ВИЭНДЖИ"
То есть получается что наполнение данными и развитие системы Медстат они делают своими силами. Даже интересно зарегистрирована ли эта информационная система как ФГИС.
А теперь попробуйте запросить её у Минздрава или непосредственно у данного Института. Получится ли её получить? Почти 100% что ничего, даже в разрезе страны Минздрав не предоставит. А собираются то данные с детализацией до региона, муниципалитета и конкретного учреждения. Статистические формы сбора найти не сложно.
Все наводки для полноценного журналистского расследования я предоставил, дальше сами;)
Ссылки:
[1] https://mednet.ru
[2] https://spending.gov.ru/subsidies/subsidies_list/05620PAC000/
[3] https://spending.gov.ru/subsidies/receivers/001X7262/
[4] https://mednet.ru/images/materials/gz/gz_na_2019-2021.xlsx
[5] https://mednet.ru/miac/meditsinskaya-statistika
[6] https://spending.gov.ru/goscontracts/customers/03731000146/
#opendata #stats #medstat
А мне есть что ответить и, я очень удивляюсь что журналисты до сих пор не подняли эту тему.
Ежегодно ФГБУ «ЦНИИОИЗ» Минздрава России [1} (расшифровывается как - Федеральное государственное бюджетное учреждение «Центральный научно-исследовательский институт организации и информатизации здравоохранения» Министерства здравоохранения Российской Федерации
получает до 540 миллионов рублей в 2019 году [3] и сравнимые суммы в другие годы в виде субсидий [3] лт Минздрава России.
У этого ФГБУ есть госзадание на 2019-2023 годы [4] из которого мы можем узнать о том что данное ФГБУ отвечает за:
---
Ведение базы данных значений форм статистического наблюдения, утвержденных приказами Росстата и Минздрава России, получаемых от органов исполнительной власти субъектов Российской Федерации с использованием программного комплекса МЕДСТАТ. Агрегация значений базы данных в целях формирования сводной информации по Российской Федерации. Ведение базы данных значений форм статистического наблюдения с использованием программного комплекса МЕДСТАТ, получаемых от ФГУ. Проведение контроля достоверности и качества представляемой информации при включении в базу данных статистических показателей, включая идентификацию и расшифровку единиц значений форм статистического наблюдения (словари строк и граф) для актуализации МЕДСТАТ.
---
Это в "Часть 2 Раздел 2" госзадания.
А где находятся эти сведения? В разделе "Медицинская статистика" [5] на сайде данного ФГБУ. Конечно же, закрытое паролем и недоступное.
При том что:
а) Эти сведения не содержат персональных данных
б) Эти сведения не содержат коммерческой тайны
в) Эти сведения не содержат государственной тайны
г) Эти сведения не могут быть "cлужебной тайной" и тд.
Иначе говоря, медицинская статистика должна быть общедоступной. Анализ регламентов её сбора подтвердит что ФГБУ собирает её не реже чем ежемесячно.
Если Вы посмотрите на контракты этого ФГБУ как госзаказчика, то окажется что в основном он тратит средства на заказ рекламы [6] у ООО "ВИЭНДЖИ"
То есть получается что наполнение данными и развитие системы Медстат они делают своими силами. Даже интересно зарегистрирована ли эта информационная система как ФГИС.
А теперь попробуйте запросить её у Минздрава или непосредственно у данного Института. Получится ли её получить? Почти 100% что ничего, даже в разрезе страны Минздрав не предоставит. А собираются то данные с детализацией до региона, муниципалитета и конкретного учреждения. Статистические формы сбора найти не сложно.
Все наводки для полноценного журналистского расследования я предоставил, дальше сами;)
Ссылки:
[1] https://mednet.ru
[2] https://spending.gov.ru/subsidies/subsidies_list/05620PAC000/
[3] https://spending.gov.ru/subsidies/receivers/001X7262/
[4] https://mednet.ru/images/materials/gz/gz_na_2019-2021.xlsx
[5] https://mednet.ru/miac/meditsinskaya-statistika
[6] https://spending.gov.ru/goscontracts/customers/03731000146/
#opendata #stats #medstat
mednet.ru
ФГБУ «ЦНИИОИЗ» Минздрава России - Главная страница
Федеральное государственное бюджетное учреждение «Центральный научно-исследовательский институт организации и информатизации здравоохранения» Министерства здравоохранения Российской Федерации (ФГБУ «ЦНИИОИЗ» Минздрава России).
TERN [1], австралийский государственный проект создан для формирования инфраструктуры данных наблюдения о земле. Австралия 6-я в мире по размеру страна, с общей площадью в 7 692 024 квадратных километров и для правительства Австралии большую роль играет мониторинг состояния земель, в том числе и отслеживание пожаров, оползней, наводнений и восстановление экосистемы.
Основные результаты
- Открытый каталог данных об исследования о земле TERN Data [2]
- Инструмент упрощения сбора метаданных SHARed [3]
- Виртуальные исследовательские десктопы CoESRA [4], дают возможность исследователям сразу работать с необходимым комплектом инструментов: OpenRefine, LibreOffice, RStudio, Kepler, Canopy, QGis, Biodiverse, Panoply, Knime
- Облачный сервис для работы с большими эко-данными Ecocloud [5]
Текущие показатели
- 700 точек сбора данных
- 2500 наборов данных
- 50 национальных и международных партнеров
- 90 лет продолжительность мониторинга по некоторым данным
- 1600 научных публикаций на данных TERN
Управление
TERN - это проект по созданию научной инфраструктуры осуществляемый Университетом Квинсленда по гранту от CSIRO и в партнёрстве с Университетом Джеймса Кука и Университетом Аделаиды, являющихся операционными партнёрами и формирующие управляющий совет инициативы.
Финансирование
За 2017-2019 годы на проект было потрачено $12,545,078 австралийских долларов (примерно 602 миллиона рублей) [6] из программы National Collaborative Research Infrastructure Strategy (NCRIS). [7]
Итого
Проект TERN - это часть обще-австралийской инициативы по кооперации в научной сфере. Его главными особенностями можно выделить:
- акцент на открытости данных и качестве их описания (включая разработку стандартов метаданных)
- акцент на результатах на основе данных, в виде научных публикаций
- кооперативное управление через группу университетов с одним университетом лидером и университетами партнёрами
- создание облачной и виртуальной инфраструктуры для работы исследователей
Ссылки:
[1] https://www.tern.org.au
[2] https://portal.tern.org.au
[3] https://shared.tern.org.au/
[4] https://www.tern.org.au/coesra/
[5] https://ecocloud.org.au/
[6] https://docs.education.gov.au/system/files/doc/other/ncris_projects_2017_funding_allocations.pdf
[7] https://www.education.gov.au/national-collaborative-research-infrastructure-strategy-ncris
#opendata #research #australia #openaccess
Основные результаты
- Открытый каталог данных об исследования о земле TERN Data [2]
- Инструмент упрощения сбора метаданных SHARed [3]
- Виртуальные исследовательские десктопы CoESRA [4], дают возможность исследователям сразу работать с необходимым комплектом инструментов: OpenRefine, LibreOffice, RStudio, Kepler, Canopy, QGis, Biodiverse, Panoply, Knime
- Облачный сервис для работы с большими эко-данными Ecocloud [5]
Текущие показатели
- 700 точек сбора данных
- 2500 наборов данных
- 50 национальных и международных партнеров
- 90 лет продолжительность мониторинга по некоторым данным
- 1600 научных публикаций на данных TERN
Управление
TERN - это проект по созданию научной инфраструктуры осуществляемый Университетом Квинсленда по гранту от CSIRO и в партнёрстве с Университетом Джеймса Кука и Университетом Аделаиды, являющихся операционными партнёрами и формирующие управляющий совет инициативы.
Финансирование
За 2017-2019 годы на проект было потрачено $12,545,078 австралийских долларов (примерно 602 миллиона рублей) [6] из программы National Collaborative Research Infrastructure Strategy (NCRIS). [7]
Итого
Проект TERN - это часть обще-австралийской инициативы по кооперации в научной сфере. Его главными особенностями можно выделить:
- акцент на открытости данных и качестве их описания (включая разработку стандартов метаданных)
- акцент на результатах на основе данных, в виде научных публикаций
- кооперативное управление через группу университетов с одним университетом лидером и университетами партнёрами
- создание облачной и виртуальной инфраструктуры для работы исследователей
Ссылки:
[1] https://www.tern.org.au
[2] https://portal.tern.org.au
[3] https://shared.tern.org.au/
[4] https://www.tern.org.au/coesra/
[5] https://ecocloud.org.au/
[6] https://docs.education.gov.au/system/files/doc/other/ncris_projects_2017_funding_allocations.pdf
[7] https://www.education.gov.au/national-collaborative-research-infrastructure-strategy-ncris
#opendata #research #australia #openaccess
TERN Australia
TERN - Australia's Terrestrial Ecosystem Research Network
Australia's Terrestrial Ecosystem Research Network (TERN) provides model-ready terrestrial ecosystem data for research. Click here to access.
Narrative.io [1] - дата-стартап из Нью-Йорка с фокусом на создание структурированной биржи данных для продавцов и покупателей данных. Продукт состоит из двух решений Narrative Acquire для покупателей и Narrative Distribute для продавцов.
Обещают контроль качества, прозрачность в работе с данными, приватность и многое другое.
Основные приоритеты
- возрастные данные из опросов
- данные об устройствах
- данные по цифровой идентификации (сведение профилей пользователей из разных систем)
- гендерные данные
- данные о местонахождении
- мобильные приложения и поведение в сети
- данные по транзакциям и покупкам
- данные по телепросмотру
Бизнес модель
Для покупателей доступ к данным от стандартного режима за 5000 USD в месяц, до специальных режимов под клиента [2]. По сути заработок только на покупателях, поскольку Narrative I/O не перепродают данные, а интегрируют данные от поставщиков в перечисленную ранее структуру данных, предоставляя клиенту вычищенные результаты.
Ценностное предложение
Ключевое в их предложении - это контроль качества, потому они и берут на себя коммуникацию с продавцами данных и, по сути, делают свою базу, наполняя её внешними данными и обогащая их. Data enrichment [3] [4] одна из важных их особенностей на которой они сами делают акценты.
Финансирование
В 2019 году получили очередной транш от инвесторов на 3 миллиона долларов США, что в совокупности теперь составляет 5,3 миллиона долларов США инвестиций с 2016 года, когда они были основаны.
—
От себя добавлю что я давно читаю их блог [5], там много полезного не только по их подходам, но и ссылкам на инструменты, подходы и стартапы в области управления данными и качестве данных.
Ссылки:
[1] http://www.narrative.io
[2] https://www.narrative.io/pricing
[3] https://blog.narrative.io/data-enrichment
[4] https://www.narrative.io/solutions/customer-enrichment
[5] https://blog.narrative.io
#data #startups #dataquality
Обещают контроль качества, прозрачность в работе с данными, приватность и многое другое.
Основные приоритеты
- возрастные данные из опросов
- данные об устройствах
- данные по цифровой идентификации (сведение профилей пользователей из разных систем)
- гендерные данные
- данные о местонахождении
- мобильные приложения и поведение в сети
- данные по транзакциям и покупкам
- данные по телепросмотру
Бизнес модель
Для покупателей доступ к данным от стандартного режима за 5000 USD в месяц, до специальных режимов под клиента [2]. По сути заработок только на покупателях, поскольку Narrative I/O не перепродают данные, а интегрируют данные от поставщиков в перечисленную ранее структуру данных, предоставляя клиенту вычищенные результаты.
Ценностное предложение
Ключевое в их предложении - это контроль качества, потому они и берут на себя коммуникацию с продавцами данных и, по сути, делают свою базу, наполняя её внешними данными и обогащая их. Data enrichment [3] [4] одна из важных их особенностей на которой они сами делают акценты.
Финансирование
В 2019 году получили очередной транш от инвесторов на 3 миллиона долларов США, что в совокупности теперь составляет 5,3 миллиона долларов США инвестиций с 2016 года, когда они были основаны.
—
От себя добавлю что я давно читаю их блог [5], там много полезного не только по их подходам, но и ссылкам на инструменты, подходы и стартапы в области управления данными и качестве данных.
Ссылки:
[1] http://www.narrative.io
[2] https://www.narrative.io/pricing
[3] https://blog.narrative.io/data-enrichment
[4] https://www.narrative.io/solutions/customer-enrichment
[5] https://blog.narrative.io
#data #startups #dataquality
www.narrative.io
Drive growth with AI-Enabled Data Collaboration
The world’s most powerful data collaboration platform, interoperable across all platforms and industries.
Минэкономразвития запустило портал data.economy.gov.ru [1] состоящий из разделов "Системообразующие предприятия" и "Для регионов" где представлены данные по списку системообразующих предприятий в России и аналитические материалы по данным ПФР.
Хочется сказать про этот проект что-то хорошее, но сказать нечего.
Список предприятий опубликован в формате Excel, а аналитика в PDF. То есть как раз данных там и нет. Похоже авторы перепутали название домена, и выбрали под-домен data, вместо nodata.
Хотя и сам список системообразующих предприятий интересен.
Ссылки:
[1] https://data.economy.gov.ru
#opendata #nodata
Хочется сказать про этот проект что-то хорошее, но сказать нечего.
Список предприятий опубликован в формате Excel, а аналитика в PDF. То есть как раз данных там и нет. Похоже авторы перепутали название домена, и выбрали под-домен data, вместо nodata.
Хотя и сам список системообразующих предприятий интересен.
Ссылки:
[1] https://data.economy.gov.ru
#opendata #nodata
Forwarded from TAdviser
11% денег «Цифровой экономики» перевели в резервный фонд. Среди пострадавших направлений - 5G, госуслуги, отечественное ПО http://www.tadviser.ru/a/389793
Пришла пора поговорить о качестве данных собираемых органами власти. Забегая вперёд скажу что она невысокая, в качестве примера рассмотрим свежеопубликованный [1]
Минэкономразвития список системообразующих предприятий. его можно скачать напрямую в Excel [2].
Посмотрев на этот список внимательно, можно обратить внимание что на какие-то самые очевидные проблемы, когда указан ИНН организации с размером меньше на один символ, но даже беглая автоматизированная проверка показала что там не только с этим плохо.
Поскольку я хочу, в дальнейшем, этот кейс использовать как обучающий, дальше буду объяснять максимально подробно, надеюсь тем кто умеет работать с данными будет не очень скучно;)
Краткие выводы (Executive Summary)
В 4,3% записей в списке системообразующих предприятий содержатся ошибки, включая
- у 31 организации, неверно указан код ИНН (опечатка или ошибка форматирования с потерей первого символа)
- у 12 организаций указано устаревшее название, как правило ОАО или ЗАО вместо АО
- у 6 организаций те или иные ошибки в их наименовании, опечатки смысловые и иные
- у 2 организаций указаны реквизиты других существующих организаций, ошибки которые невозможно совершить опечатками
Причины этого в низкой культуре работы с данными в Минэкономразвития России, отсутствии мер по проверки поступающих им данных.
Методика
Итак, какие правила валидации сведений об организациях обычно применяют:
- проверка кодов реквизитов (ИНН и ОГРН), в нашем случае у организаций есть только коды ИНН
- корректность названия организации, разделяется на (устаревшее название, ошибка в названии)
- указание неверной организации, когда реквизиты и название организаций ошибочны. Например, ИНН указывает на одну, а название на совершенно другую.
Входящие данные и их подготовка
Что у нас есть на входе, Excel файл [2] со списком организаций, однако в поле ИНН по некоторым из них вписано до двух кодов, а то есть юр. лиц у нас как минимум больше на эти дополнительные коды.
1. Проводим перестройку списка и получаем на выходе список из 1173 организаций (у 22 записей были по 2 кода ИНН, так что и получается 1151 + 22 = 1173), остальные значения в строках для добавленных записей оставляем прежними.
Всё это делается автоматически, коды ИНН в колонке "ИНН" разделены запятыми.
2. Преобразуем всё в CSV файл, нормируем названия полей в англоязычный формат (удобнее для обработки и большая стандартизация названий)
3. Делаем очистку поля ИНН от пробелов, "тримминг" так чтобы остались только значения цифр.
В итоге получаем CSV файл пригодный для последующего обогащения данными
Начальная проверка
Полученного нормализованного файла достаточно чтобы провести первую, быструю проверку. В репозитории утилиты Undatum есть код проверки ИНН [3], достаточно выполнить функцию _check_inn и сохранить результаты в новом CSV файле c колонкой valid_inn.
После проверки у нас должно получиться 31 ИНН не проходящих валидацию. У 4-х кодов будут опечатки в цифрах и у 27 кодов ошибка при форматировании, "съеден" ноль в численном значении, поскольку Excel часто считает что в колонке ИНН указано число, а не численная строка, то удаляет нули. Но грамотные Excel пользователи это знают и за таким следят.
После начальной проверки переходим к углублённой и для этого обогатим данные.
Обогащение данных
Для анализа нам необходимо:
a) Проверить реквизиты, в нашем случае код ИНН, уже сделано, данные новые тут не нужны
б) Проверить названия организаций, для чего нам нужны другие названия этой организации которые можно взять в статрегистре Росстата (обновляется раз в год, может быть устаревшим) и в ЕГРЮЛе (всегда актуально).
в) Возможно нам в будущем понадобятся другие данные, поэтому почему бы нам не добавить из ЕГРЮЛа ещё и код ОГРН, он поможет сопоставить с другими реестрами и основной код ОКВЭД, вдруг мы захотим проверить как отрасль указанная в списке соответствует основной деятельности организации.
Минэкономразвития список системообразующих предприятий. его можно скачать напрямую в Excel [2].
Посмотрев на этот список внимательно, можно обратить внимание что на какие-то самые очевидные проблемы, когда указан ИНН организации с размером меньше на один символ, но даже беглая автоматизированная проверка показала что там не только с этим плохо.
Поскольку я хочу, в дальнейшем, этот кейс использовать как обучающий, дальше буду объяснять максимально подробно, надеюсь тем кто умеет работать с данными будет не очень скучно;)
Краткие выводы (Executive Summary)
В 4,3% записей в списке системообразующих предприятий содержатся ошибки, включая
- у 31 организации, неверно указан код ИНН (опечатка или ошибка форматирования с потерей первого символа)
- у 12 организаций указано устаревшее название, как правило ОАО или ЗАО вместо АО
- у 6 организаций те или иные ошибки в их наименовании, опечатки смысловые и иные
- у 2 организаций указаны реквизиты других существующих организаций, ошибки которые невозможно совершить опечатками
Причины этого в низкой культуре работы с данными в Минэкономразвития России, отсутствии мер по проверки поступающих им данных.
Методика
Итак, какие правила валидации сведений об организациях обычно применяют:
- проверка кодов реквизитов (ИНН и ОГРН), в нашем случае у организаций есть только коды ИНН
- корректность названия организации, разделяется на (устаревшее название, ошибка в названии)
- указание неверной организации, когда реквизиты и название организаций ошибочны. Например, ИНН указывает на одну, а название на совершенно другую.
Входящие данные и их подготовка
Что у нас есть на входе, Excel файл [2] со списком организаций, однако в поле ИНН по некоторым из них вписано до двух кодов, а то есть юр. лиц у нас как минимум больше на эти дополнительные коды.
1. Проводим перестройку списка и получаем на выходе список из 1173 организаций (у 22 записей были по 2 кода ИНН, так что и получается 1151 + 22 = 1173), остальные значения в строках для добавленных записей оставляем прежними.
Всё это делается автоматически, коды ИНН в колонке "ИНН" разделены запятыми.
2. Преобразуем всё в CSV файл, нормируем названия полей в англоязычный формат (удобнее для обработки и большая стандартизация названий)
3. Делаем очистку поля ИНН от пробелов, "тримминг" так чтобы остались только значения цифр.
В итоге получаем CSV файл пригодный для последующего обогащения данными
Начальная проверка
Полученного нормализованного файла достаточно чтобы провести первую, быструю проверку. В репозитории утилиты Undatum есть код проверки ИНН [3], достаточно выполнить функцию _check_inn и сохранить результаты в новом CSV файле c колонкой valid_inn.
После проверки у нас должно получиться 31 ИНН не проходящих валидацию. У 4-х кодов будут опечатки в цифрах и у 27 кодов ошибка при форматировании, "съеден" ноль в численном значении, поскольку Excel часто считает что в колонке ИНН указано число, а не численная строка, то удаляет нули. Но грамотные Excel пользователи это знают и за таким следят.
После начальной проверки переходим к углублённой и для этого обогатим данные.
Обогащение данных
Для анализа нам необходимо:
a) Проверить реквизиты, в нашем случае код ИНН, уже сделано, данные новые тут не нужны
б) Проверить названия организаций, для чего нам нужны другие названия этой организации которые можно взять в статрегистре Росстата (обновляется раз в год, может быть устаревшим) и в ЕГРЮЛе (всегда актуально).
в) Возможно нам в будущем понадобятся другие данные, поэтому почему бы нам не добавить из ЕГРЮЛа ещё и код ОГРН, он поможет сопоставить с другими реестрами и основной код ОКВЭД, вдруг мы захотим проверить как отрасль указанная в списке соответствует основной деятельности организации.
Для всего этого у нас есть доступ к API статрегистра и ЕГРЮЛа (из сервиса apicrafter.ru), но их много разных на рынке, можете воспользоваться любым. Через них проверяем каждую организацию и заполняем колонки:
- statreg_name - название организации в статрегистре,
- ogrn - код ОГРН
- egrul_name - название организации в ЕГРЮЛ (сокращённое),
- okved_code - код ОКВЭД
- okved_name - наименование основного кода ОКВЭД
На выходе имеем CSV файл где к изначальным колонкам добавлены ещё и эти, собранные в процессе обогащения данных.
Финальные проверки
Есть 2 способа проводить проверки. Для малого объёма данных, делать это вручную, для большого автоматизировано. В нашем случае объём скорее малый, вручную проверяется за пару часов, поэтому можно сделать и то и то.
Коды ИНН уже проверены, поэтому проверять надо остальные 1142 организации (1142 = 1173 всего - 31 с невалидными ИНН).
Далее я пропущу автоматическую проверку названий, она включает чуть более сложные проверки чем корректность кодов ИНН, фактически разбор и нормализация названия организации и я чуть позже опубликую её код. Пока это можно проделать и вручную.
Простейшие проверки:
а) У организации в списке указано что она в юр. форме ОАО или ЗАО, а в ЕГРЮЛе указано что это АО или ООО. Дело в том что юридические формы ОАО и ЗАО более не существуют и организации должны сменить юр. форму в ОАО или ООО по выбору при первом изменении в ЕГРЮЛ.
б) У организации понятная юр. форма ООО или АО, но в ЕГРЮЛе указана другая. Это скорее всего ошибка, неверное название.
в) Название организаций не совпадает полностью. В этом случае пробиваем ЕГРЮЛ на название в из поля названия в списке и ищем ИНН. Если у организации находится ИНН, то это ошибка с указанием другой организации. Если нет, то это ошибка в названии организации.
Всё это проверяем вручную в 2 прохода. В промышленной работе, это обычно, делают специалисты по ручной обработке, которые проверяют после алгоритмов. В данном примере, я описываю то как, примерно, ставится им задача.
Инструментально всё это можно проделать в Excel, LibreOffice, Google Spreadsheets или в OpenRefine. Я считаю что последний удобнее для любых задач преобразования данных (data wrangling), но неудобен для совместной работы нескольких человек проверяющих вручную. Выбор тут есть, и коммерческие решения тоже существуют.
Итоги и выводы
Итого у нас на выходе 20 подобных записей, а вместе с 31 записью с некорректными ИНН это 51 запись с ошибками, что около 4,3% реестра. Много это или мало? Об этом лучше судить тем кто может измерить экономические последствия неверно представленных данных. Например неполучение поддержки организациями имеющими на неё право или получение её теми что не имеют. Это вопрос уже к экономистам, аудиторам и следователям.
Если вдуматься в причины почему такой важный реестр ошибочен на 4,3% то причин тут несколько:
1) Отсутствие культуры работы с данными. Основная и главная причина, поскольку более 27 или 51 ошибки - это ошибки самого базового уровня работы с Excel.
2) Отсутствие проверки и валидации данных на стороне Минэкономразвития, что бы не поступало им на вход, они должны были перепроверить и затребовать исправление.
3) Низкое качество реестров ФОИВов где указаны устаревшие названия организаций и просто наименования с ошибками
4) Более системная проблема, отсутствие регламентов ведения подобных списков именно с точки зрения данных.
Итоговый файл с результатами и конкретными ошибками можно скачать на Data.world [4]
P.S. Этот материал - это заготовка для обучающих материалов по работе с данными. Он очень хорошо помогает в формировании наглядных примеров того как проверять корректность данных и для чего это необходимо. Вскоре на его основе будет Jupiter Notebook или какой-то его аналог где всё уже будет ещё более подробно разобрано.
Ссылки:
[1] https://data.economy.gov.ru/
[2] https://data.economy.gov.ru/system_org.xlsx
[3] https://github.com/datacoon/undatum/blob/master/undatum/validate/ruscodes.py
[4] https://data.world/infoculture/system-orgs-analysis
- statreg_name - название организации в статрегистре,
- ogrn - код ОГРН
- egrul_name - название организации в ЕГРЮЛ (сокращённое),
- okved_code - код ОКВЭД
- okved_name - наименование основного кода ОКВЭД
На выходе имеем CSV файл где к изначальным колонкам добавлены ещё и эти, собранные в процессе обогащения данных.
Финальные проверки
Есть 2 способа проводить проверки. Для малого объёма данных, делать это вручную, для большого автоматизировано. В нашем случае объём скорее малый, вручную проверяется за пару часов, поэтому можно сделать и то и то.
Коды ИНН уже проверены, поэтому проверять надо остальные 1142 организации (1142 = 1173 всего - 31 с невалидными ИНН).
Далее я пропущу автоматическую проверку названий, она включает чуть более сложные проверки чем корректность кодов ИНН, фактически разбор и нормализация названия организации и я чуть позже опубликую её код. Пока это можно проделать и вручную.
Простейшие проверки:
а) У организации в списке указано что она в юр. форме ОАО или ЗАО, а в ЕГРЮЛе указано что это АО или ООО. Дело в том что юридические формы ОАО и ЗАО более не существуют и организации должны сменить юр. форму в ОАО или ООО по выбору при первом изменении в ЕГРЮЛ.
б) У организации понятная юр. форма ООО или АО, но в ЕГРЮЛе указана другая. Это скорее всего ошибка, неверное название.
в) Название организаций не совпадает полностью. В этом случае пробиваем ЕГРЮЛ на название в из поля названия в списке и ищем ИНН. Если у организации находится ИНН, то это ошибка с указанием другой организации. Если нет, то это ошибка в названии организации.
Всё это проверяем вручную в 2 прохода. В промышленной работе, это обычно, делают специалисты по ручной обработке, которые проверяют после алгоритмов. В данном примере, я описываю то как, примерно, ставится им задача.
Инструментально всё это можно проделать в Excel, LibreOffice, Google Spreadsheets или в OpenRefine. Я считаю что последний удобнее для любых задач преобразования данных (data wrangling), но неудобен для совместной работы нескольких человек проверяющих вручную. Выбор тут есть, и коммерческие решения тоже существуют.
Итоги и выводы
Итого у нас на выходе 20 подобных записей, а вместе с 31 записью с некорректными ИНН это 51 запись с ошибками, что около 4,3% реестра. Много это или мало? Об этом лучше судить тем кто может измерить экономические последствия неверно представленных данных. Например неполучение поддержки организациями имеющими на неё право или получение её теми что не имеют. Это вопрос уже к экономистам, аудиторам и следователям.
Если вдуматься в причины почему такой важный реестр ошибочен на 4,3% то причин тут несколько:
1) Отсутствие культуры работы с данными. Основная и главная причина, поскольку более 27 или 51 ошибки - это ошибки самого базового уровня работы с Excel.
2) Отсутствие проверки и валидации данных на стороне Минэкономразвития, что бы не поступало им на вход, они должны были перепроверить и затребовать исправление.
3) Низкое качество реестров ФОИВов где указаны устаревшие названия организаций и просто наименования с ошибками
4) Более системная проблема, отсутствие регламентов ведения подобных списков именно с точки зрения данных.
Итоговый файл с результатами и конкретными ошибками можно скачать на Data.world [4]
P.S. Этот материал - это заготовка для обучающих материалов по работе с данными. Он очень хорошо помогает в формировании наглядных примеров того как проверять корректность данных и для чего это необходимо. Вскоре на его основе будет Jupiter Notebook или какой-то его аналог где всё уже будет ещё более подробно разобрано.
Ссылки:
[1] https://data.economy.gov.ru/
[2] https://data.economy.gov.ru/system_org.xlsx
[3] https://github.com/datacoon/undatum/blob/master/undatum/validate/ruscodes.py
[4] https://data.world/infoculture/system-orgs-analysis
GitHub
datacoon/undatum
undatum: a command-line tool for data processing. Brings CSV simplicity to JSON lines and BSON - datacoon/undatum
system_orgs_refined_final.xlsx
173.4 KB
Итоговый файл проверки на корректность списка системных организаций опубликованного Минэкономразвития России
На ComNews неожиданно довольно вдумчивый текст про проблемы тиражирования практик Московской области в виде решений Добродел и других [1] которыми ранее занимался Максут Шадаев.
Я, на самом деле, по возможности, реже комментирую деятельность нынешнего состава Минкомсвязи. Честно говоря вообще подумываю не комментировать деятельность любого состава Минкомсвязи, потому что толку-то;)
Кто бы ни был министром связи и как бы не менялся состав федерального правительства важно запомнить следующие важные тезисы:
1. Региональные системы/функции/полномочия будут продолжать концентрировать в федеральных ГИС под управлением профильных федеральных ведомств.
2. Все "условно государственные" данные будут концентрироваться в Москве или околомосковских ЦОДах и, может быть, с какими то крупными ЦОДами в паре субъектов федерации.
3. Регионы не имеющие собственных внедрений систем автоматизации своих полномочий не будут аргументов в спорах с фед. центром когда им будут навязывать централизованные решения.
4. Почти все глубоко дефицитные регионы будут в безвыходном положении, внедрять федеральные решения.
Примеры федеральных ГИС уже работающих: ЕИС (госзакупки), ЕПБС, ГИС ЖКХ, ГИС для ведения ФРДО, ЕГР ЗАГС и ещё десятки других.
Тренд этот идёт не от Максута Шадаева и не от Константина Носкова до него и нет от Николая Никифорова до него. Это тренд исключительно корпоративно политический на ужесточение контроля над всеми субъектами федерации.
Зачем это нужно спрашивайте у политологов.
Ссылки:
[1] https://www.comnews.ru/content/205774/2020-04-27/2020-w18/pochemu-tema-tirazhirovaniya-sistem-podmoskovya-i-kremlya-okazalas-zakrytoy
#data #russia #government
Я, на самом деле, по возможности, реже комментирую деятельность нынешнего состава Минкомсвязи. Честно говоря вообще подумываю не комментировать деятельность любого состава Минкомсвязи, потому что толку-то;)
Кто бы ни был министром связи и как бы не менялся состав федерального правительства важно запомнить следующие важные тезисы:
1. Региональные системы/функции/полномочия будут продолжать концентрировать в федеральных ГИС под управлением профильных федеральных ведомств.
2. Все "условно государственные" данные будут концентрироваться в Москве или околомосковских ЦОДах и, может быть, с какими то крупными ЦОДами в паре субъектов федерации.
3. Регионы не имеющие собственных внедрений систем автоматизации своих полномочий не будут аргументов в спорах с фед. центром когда им будут навязывать централизованные решения.
4. Почти все глубоко дефицитные регионы будут в безвыходном положении, внедрять федеральные решения.
Примеры федеральных ГИС уже работающих: ЕИС (госзакупки), ЕПБС, ГИС ЖКХ, ГИС для ведения ФРДО, ЕГР ЗАГС и ещё десятки других.
Тренд этот идёт не от Максута Шадаева и не от Константина Носкова до него и нет от Николая Никифорова до него. Это тренд исключительно корпоративно политический на ужесточение контроля над всеми субъектами федерации.
Зачем это нужно спрашивайте у политологов.
Ссылки:
[1] https://www.comnews.ru/content/205774/2020-04-27/2020-w18/pochemu-tema-tirazhirovaniya-sistem-podmoskovya-i-kremlya-okazalas-zakrytoy
#data #russia #government
ComNews
Почему тема тиражирования систем Подмосковья и Кремля оказалась закрытой
В России снова единое федеральное решение. Снова внедряют быстро. Минимум обсуждений. Сначала внедрение, деньги, потом вопросы. Центр управления регионом или центр управления общественным мнением должен стать новой захватывающей федеральной инициативой? История…
В ИТ по миру начинаются крупные увольнения и сокращения. Если Google пока только прекратили нанимать новых сотрудников в подразделение маркетинга, то Uber увольняет 5400 человек (20% штата) [1].
Techcrunch выдаёт всё больше новостей по тегу layoffs [2], а Bloomberg пишет о том что крупнейшие ИТ бренды дают обещания никого не увольнять [3].
А что у нас в России? Есть ли ресурсы собирающие информацию о массовых увольнениях в ИТ и не только?
Ссылки:
[1] https://www.theverge.com/2020/4/28/21240414/uber-cto-thuan-pham-resign-layoffs-kalanick
[2] https://techcrunch.com/tag/layoffs/
[3] https://www.bloomberg.com/opinion/articles/2020-04-27/coronavirus-nvidia-cisco-paypal-are-smart-to-pledge-no-layoffs
#jobs #layoffs
Techcrunch выдаёт всё больше новостей по тегу layoffs [2], а Bloomberg пишет о том что крупнейшие ИТ бренды дают обещания никого не увольнять [3].
А что у нас в России? Есть ли ресурсы собирающие информацию о массовых увольнениях в ИТ и не только?
Ссылки:
[1] https://www.theverge.com/2020/4/28/21240414/uber-cto-thuan-pham-resign-layoffs-kalanick
[2] https://techcrunch.com/tag/layoffs/
[3] https://www.bloomberg.com/opinion/articles/2020-04-27/coronavirus-nvidia-cisco-paypal-are-smart-to-pledge-no-layoffs
#jobs #layoffs
The Verge
Uber’s CTO steps down as company reportedly mulls 20 percent layoffs
Layoffs of 20 percent would affect at least 5,400 employees at Uber.
В Defense One пишут о сокращении производства на российских оборонительных заводах [1] из-за COVID-19, а PWC France опубликовали записку о результатах геомониторинга экономической активности на фоне COVID-19 [2] и о падении производства на многих китайских заводах.
В обоих случаях авторы ссылаются на данные от Orbital Insight, стартапа из Palo Alto, в Кремниевой долине. С 2013 года, своего основания, они получили 128,7 миллионов USD инвестиций из которых 50 миллионов USD в 2019 году.
Их основная специализация - это геомониторинг, с распознаванием того для чего используются земельные ресурсы, скоплений людей, машин и объектов и анализу социальной активности.
Orbital Insight - это один из ключевых источников альтернативных данных, используемых параллельно с официальной корп. отченостью или госданными. Они, при этом, безусловно не единственные в этой области. Был обзор платформы Quandl по подобным проектам в 2016 году [3]
Ссылки:
[1] https://www.defenseone.com/technology/2020/05/russian-arms-production-slowed-coronavirus-analysts-find/165071/?oref=d-river
[2] https://www.pwc.fr/fr/assets/files/pdf/2020/04/en-france-pwc-covid-19-insights-from-space.pdf
[3] https://blog.quandl.com/alternative-data-satellite-companies
#alternativedata #data #satellite
В обоих случаях авторы ссылаются на данные от Orbital Insight, стартапа из Palo Alto, в Кремниевой долине. С 2013 года, своего основания, они получили 128,7 миллионов USD инвестиций из которых 50 миллионов USD в 2019 году.
Их основная специализация - это геомониторинг, с распознаванием того для чего используются земельные ресурсы, скоплений людей, машин и объектов и анализу социальной активности.
Orbital Insight - это один из ключевых источников альтернативных данных, используемых параллельно с официальной корп. отченостью или госданными. Они, при этом, безусловно не единственные в этой области. Был обзор платформы Quandl по подобным проектам в 2016 году [3]
Ссылки:
[1] https://www.defenseone.com/technology/2020/05/russian-arms-production-slowed-coronavirus-analysts-find/165071/?oref=d-river
[2] https://www.pwc.fr/fr/assets/files/pdf/2020/04/en-france-pwc-covid-19-insights-from-space.pdf
[3] https://blog.quandl.com/alternative-data-satellite-companies
#alternativedata #data #satellite
Orbitalinsight
Home
Orbital Insight is a geospatial data analytics company based in California. Our mission is to measure and quantify what is happening on and to the Earth.
Максим Смирнов очень кратко и точно [1] про правильное определение digital disruption. Это вынужденная ситуация зависимости как альтернативы потери эффективности. Наиболее эффективные стартапы автоматизируют очень узкую функцию, но очень эффективно. И в определённый момент ты оказываешься в ситуации когда, либо ты от этого сервиса отказываешься и занимаешься, прости Господи за неприличное слово, импортозамещением, или используешь с кучей рисков: санкций, банкротства сервис провайдера, смены его бизнес модели, безальтернативного повышения цены и так далее. Самый очевидный и наглядный пример сейчас - это Zoom. Нишевый сервис который создавался совсем не для того для чего сейчас используется, как следствие, при всём богатстве выбора альтернативы не радуют.
В итоге технологические решения оказываются, часто, сложнослепленным набором разных узкозаточенных профессиональных решений и современное искусство что программирования, что проектирования - это уметь собирать такие конструкторы. Крупнейшие ИТ экосистемы, такие как AWS, Azure, Google Cloud и др. имеют ценность именно в том что они предоставляют возможность получить "сразу всё из коробки" и, в то же время, поднастроить под себя то что хочется получить в иной форме.
В России в госсекторе собирать такие сложные конструкции всегда было большой проблемой и остаётся, кстати, тоже. Создатели гособлаков или ГосТеха не понимают что такое создание конкурентной среды и экосистемы для G2G сервисов. Отсюда и возникают ровно противоположные по устремлениям и одинаково вредные активности по "централизации ИТ" и "децентрализации ИТ", вместо среды где каждому есть место, а главное что любой создаваемый продукт/сервис можно было бы делать не с нуля.
В России из коммерческих сервисов только Яндекс.Облако немного приближается к созданию экосистемы, но других конкурентных преимуществ кроме отечественности у него, увы, нет.
Ссылки:
[1] https://yangx.top/it_arch/801
#govtech #technology #startups
В итоге технологические решения оказываются, часто, сложнослепленным набором разных узкозаточенных профессиональных решений и современное искусство что программирования, что проектирования - это уметь собирать такие конструкторы. Крупнейшие ИТ экосистемы, такие как AWS, Azure, Google Cloud и др. имеют ценность именно в том что они предоставляют возможность получить "сразу всё из коробки" и, в то же время, поднастроить под себя то что хочется получить в иной форме.
В России в госсекторе собирать такие сложные конструкции всегда было большой проблемой и остаётся, кстати, тоже. Создатели гособлаков или ГосТеха не понимают что такое создание конкурентной среды и экосистемы для G2G сервисов. Отсюда и возникают ровно противоположные по устремлениям и одинаково вредные активности по "централизации ИТ" и "децентрализации ИТ", вместо среды где каждому есть место, а главное что любой создаваемый продукт/сервис можно было бы делать не с нуля.
В России из коммерческих сервисов только Яндекс.Облако немного приближается к созданию экосистемы, но других конкурентных преимуществ кроме отечественности у него, увы, нет.
Ссылки:
[1] https://yangx.top/it_arch/801
#govtech #technology #startups
Telegram
Архитектура ИС
Мне довольно утомительно повторять идею, которую мне внушили еще лет десять назад: digital disruption – это не о том, что надо всю деятельности перевести в цифру, а скорее о том, что завтра придет какая-то неизвестная ранее компания и начнет делать некоторую…
Forwarded from Архитектура ИТ-решений
Мне довольно утомительно повторять идею, которую мне внушили еще лет десять назад: digital disruption – это не о том, что надо всю деятельности перевести в цифру, а скорее о том, что завтра придет какая-то неизвестная ранее компания и начнет делать некоторую, очень малую часть вашей цепочки создания ценности в десять раз эффективней, чем вы это делали сами. При этом, скорее всего платить ей за использование этой фичи вы будете в десять раз больше, чем тратили на этот шаг цепочки раньше. Потому, что это капитализм. Отказаться будет можно только потеряв часть клиентов, возможно значительную часть. Ну, просто клиенты начнут орать: почему вы не продаёте айфоны или еще что-то подобное. Главное, что требуется от компаний (и от их айтишников), четко и экономически выгодно на это отреагировать. Т.е. не раздавать айфоны бесплатно у метро, а сделать что-то чуть более осмысленное
Тем временем Bloomberg запустил свой трекер восстановления экономики [1], в основном на альтернативных данных:
- новые случаи COVID-19
- индекс закрытия (Lockdown Index)
- запросы на пособие по безработице
- число поездок общественным транспортом
- ипотечные запросы
- удобство потребителей
- продажи в тех же магазинах (непонятный критерий)
- бронирования в ресторанах
- активные нефтяные скважины
- производство стали
- индекс S&P
- финансовое состояние рынка
Почти все индексы негосударственные, основанные на альтернативных данных.
Ссылки:
[1] https://www.bloomberg.com/graphics/recovery-tracker/
- новые случаи COVID-19
- индекс закрытия (Lockdown Index)
- запросы на пособие по безработице
- число поездок общественным транспортом
- ипотечные запросы
- удобство потребителей
- продажи в тех же магазинах (непонятный критерий)
- бронирования в ресторанах
- активные нефтяные скважины
- производство стали
- индекс S&P
- финансовое состояние рынка
Почти все индексы негосударственные, основанные на альтернативных данных.
Ссылки:
[1] https://www.bloomberg.com/graphics/recovery-tracker/
Очень часто приходится слышать термины Data Warehouse, Data Lake, Data Hub, при этом часто произносящие их не задумываются о реальных отличиях этих понятий. В блоге The Startup на Medium хороший обзор на английском [1] об отличии и сходствах таких понятий как:
- Data Lake
- Data Hub
- Data Virtualization / Data Federation
- Data Warehouse
- Operational Data Store
Все отличия объяснены на редкость доходчиво, я как-нибудь найду время перевести этот текст на русский язык.
Краткий ликбез такой:
- Data Lake (Озеро данных) - это несвязанные данные удобные для data science и аналитической работы. Работает в ситуации возникновения задач и адаптации данных под конкретные задачи.
- Data Hub - это данные собранные в одно хранилище с некоторой работой по преобразованию и обработке. Больше форматирования, контроля и управления по сравнениею с озером данных.
- Data Virtualization/Data Federation - это пробрасывание виртуальных связей между источниками, иногда уже начало ведение общих справочников. Больше ориентировано на данные реального времени и интеграцию
- Data Warehouse - наиболее подходит для подготовки управленческих отчетов, готовится на основе масштабной обработки данных, контроля справочников и так далее. Очень негибко, но наиболее пригодно к управлению циклом жизни данных
- Operational Data Store - это, как правила, зеркала для хранения транзакционных баз данных чтобы не затрагивать сами базы данных работающих в режиме реального времени.
Ссылки:
[1] https://medium.com/swlh/the-5-data-store-patterns-data-lakes-data-hubs-data-virtualization-data-federation-data-27fd75486e2c
#opendata #data #datalakes #datamanagement #datagovernance
- Data Lake
- Data Hub
- Data Virtualization / Data Federation
- Data Warehouse
- Operational Data Store
Все отличия объяснены на редкость доходчиво, я как-нибудь найду время перевести этот текст на русский язык.
Краткий ликбез такой:
- Data Lake (Озеро данных) - это несвязанные данные удобные для data science и аналитической работы. Работает в ситуации возникновения задач и адаптации данных под конкретные задачи.
- Data Hub - это данные собранные в одно хранилище с некоторой работой по преобразованию и обработке. Больше форматирования, контроля и управления по сравнениею с озером данных.
- Data Virtualization/Data Federation - это пробрасывание виртуальных связей между источниками, иногда уже начало ведение общих справочников. Больше ориентировано на данные реального времени и интеграцию
- Data Warehouse - наиболее подходит для подготовки управленческих отчетов, готовится на основе масштабной обработки данных, контроля справочников и так далее. Очень негибко, но наиболее пригодно к управлению циклом жизни данных
- Operational Data Store - это, как правила, зеркала для хранения транзакционных баз данных чтобы не затрагивать сами базы данных работающих в режиме реального времени.
Ссылки:
[1] https://medium.com/swlh/the-5-data-store-patterns-data-lakes-data-hubs-data-virtualization-data-federation-data-27fd75486e2c
#opendata #data #datalakes #datamanagement #datagovernance
Medium
The 5 Data Consolidation Patterns — Data Lakes, Data Hubs, Data Virtualization/Data Federation, Data Warehouse, and Operational…
How to choose the right one, and why you may need more than one
Для тех кто хочет сделать полезное в открытых данных, имеет свободное время и свободный английский - проект OpenRefine ищет специалиста/команду/компанию тех кто создаст им документацию по продукту [1]
В общей сложности они хотят сделать эту работу за 6 месяцев и 25 000 USD (примерно 1,86 миллиона рублей). Финансируется проект полностью из грантовых источников нескольких фондов Кремниевой долины. В частности из фонда Чан-Цукерберг по поддержке науки.
OpenRefine хороший проект, важная часть многих академических проектов по созданию инфраструктуры данных. Например, они активно используются в австралийском Data61 CSIRO. Однако у команды которая им занималась с самого начала не задалась коммерциализация и попытки создать онлайн сервис для Data wrangling (Манипулирования данными) не увенчались успехом. Сейчас они все ещё предлагают услуги в виде компании RefinePro [2], но не то чтобы заметны на рынке.
Сам проект происходит из когда-то выложенного в виде открытого кода проекта Google Refine [3]. Ранее он был разработан в Metaweb , компании занимавшейся проектом Freebase, пожалуй, одним из наиболее успешных стартапов занимавшихся связанными данными и выкупленной Google в 2010 году.
Ссылки:
[1] http://openrefine.org/blog/2020/04/23/documentation-hire.html
[2] https://refinepro.com
[3] https://en.wikipedia.org/wiki/OpenRefine
#opendata #openrefine #datajobs
В общей сложности они хотят сделать эту работу за 6 месяцев и 25 000 USD (примерно 1,86 миллиона рублей). Финансируется проект полностью из грантовых источников нескольких фондов Кремниевой долины. В частности из фонда Чан-Цукерберг по поддержке науки.
OpenRefine хороший проект, важная часть многих академических проектов по созданию инфраструктуры данных. Например, они активно используются в австралийском Data61 CSIRO. Однако у команды которая им занималась с самого начала не задалась коммерциализация и попытки создать онлайн сервис для Data wrangling (Манипулирования данными) не увенчались успехом. Сейчас они все ещё предлагают услуги в виде компании RefinePro [2], но не то чтобы заметны на рынке.
Сам проект происходит из когда-то выложенного в виде открытого кода проекта Google Refine [3]. Ранее он был разработан в Metaweb , компании занимавшейся проектом Freebase, пожалуй, одним из наиболее успешных стартапов занимавшихся связанными данными и выкупленной Google в 2010 году.
Ссылки:
[1] http://openrefine.org/blog/2020/04/23/documentation-hire.html
[2] https://refinepro.com
[3] https://en.wikipedia.org/wiki/OpenRefine
#opendata #openrefine #datajobs
RefinePro
At RefinePro, we help organization to automate processes and create new products, services, and insights.