За время коронавируса появляются новые отраслевые озёра данных (data lakes) для исследователей, многие с коммерческим уклоном. Например, CVID data lake [1] в рамках продукта Cortelis Research Intelligence от Clarivate [2] аналитического агентства с широким спектром продуктов для исследователей. Они анонсировали это облако, буквально, 5 дней назад, 20 августа [3] и, пока, без подробностей того что находится внутри него.
Существует и другое, бесплатное озеро данных, C3.ai COVID-19 Data Lake [4] от C3.ai соответственно. Подробностей чуть больше, есть демо и описание доступа к озеру через REST API с примерами в Jupiter Notebook и других научных записных книжках. О них была заметка в Forbes [5] ещё в мае 2020 года.
Чуть более простое и, также, бесплатное озеро данных по COVID-19 есть в Amazon AWS [6], включая базы данных и наборы данных особенно большого размера. Например, CORD19 [7], база исследований по коронавирусу для которой на базе AWS существует, в том числе, поисковик cord19.aws [8]
Несколько меньшее по объёму озеро данных есть и в облаке Microsoft Azure [9].
Озера данных это не единственный способ работы исследователей с данными связанными с коронавирусом. Офис стратегии по науке работы с данными при National Institutes of Health в США ведет реестр открытых (open access) ресурсов для исследователей [10] работающих с данных.
В целом складывается ощущение что формирование озер данных в отраслевом применении становится трендом и, в зависимости от выбранной стратегии, здесь большую роль могут сыграть крупнейшие игроки облачных сервисов. Фактически, постепенное развитие Azure Open Datasets, Google BigQuery и Open Data on AWS и показывает что большие общедоступные наборы данных - это хорошая приманка для пользователей облачных сервисов. Некоторые наборы и базы данных давно существуют, только, в облаках. Например, база поискового индекса Commoncrawl существует по умолчанию на Amazon AWS [11]
Для этого у Amazon есть Open Data Sponsorship program [12], у Microsoft есть Open Data Initiative [13], у Google нет отдельной программы, но есть рассказ о том как они работают над открытостью кода и данных [14]
Подводя итог, очень похоже что озера данных для исследователей окажутся устойчивым продуктом и далее будут существовать в двух формах. Профессиональной - закрытые озера данных для профессионалов, с большим числом узкоспециализированных инструментов и общедоступной форме где данные предоставляются крупнейшими игроками облачных решений в рамках их инициатив по открытым данным.
Ссылки:
[1] https://clarivate.com/cortellis/solutions/cvid-data-lake/
[2] https://en.wikipedia.org/wiki/Clarivate
[3] https://finance.yahoo.com/news/clarivate-launches-coronavirus-virology-infectious-140300688.html
[4] https://c3.ai/products/c3-ai-covid-19-data-lake/
[5] https://www.forbes.com/sites/adrianbridgwater/2020/05/27/tom-siebels-c3ai-charts-new-data-lake-for-covid-19-research/
[6] https://aws.amazon.com/ru/covid-19-data-lake/
[7] https://www.semanticscholar.org/cord19
[8] https://cord19.aws
[9] https://azure.microsoft.com/ru-ru/services/open-datasets/catalog/covid-19-data-lake/
[10] https://datascience.nih.gov/covid-19-open-access-resources
[11] https://registry.opendata.aws/commoncrawl/
[12] https://aws.amazon.com/ru/opendata/open-data-sponsorship-program/
[13] https://www.microsoft.com/en-us/open-data-initiative
[14] https://www.blog.google/technology/research/open-source-and-open-data/
#datalakes #data #opendata #covid19 #research
Существует и другое, бесплатное озеро данных, C3.ai COVID-19 Data Lake [4] от C3.ai соответственно. Подробностей чуть больше, есть демо и описание доступа к озеру через REST API с примерами в Jupiter Notebook и других научных записных книжках. О них была заметка в Forbes [5] ещё в мае 2020 года.
Чуть более простое и, также, бесплатное озеро данных по COVID-19 есть в Amazon AWS [6], включая базы данных и наборы данных особенно большого размера. Например, CORD19 [7], база исследований по коронавирусу для которой на базе AWS существует, в том числе, поисковик cord19.aws [8]
Несколько меньшее по объёму озеро данных есть и в облаке Microsoft Azure [9].
Озера данных это не единственный способ работы исследователей с данными связанными с коронавирусом. Офис стратегии по науке работы с данными при National Institutes of Health в США ведет реестр открытых (open access) ресурсов для исследователей [10] работающих с данных.
В целом складывается ощущение что формирование озер данных в отраслевом применении становится трендом и, в зависимости от выбранной стратегии, здесь большую роль могут сыграть крупнейшие игроки облачных сервисов. Фактически, постепенное развитие Azure Open Datasets, Google BigQuery и Open Data on AWS и показывает что большие общедоступные наборы данных - это хорошая приманка для пользователей облачных сервисов. Некоторые наборы и базы данных давно существуют, только, в облаках. Например, база поискового индекса Commoncrawl существует по умолчанию на Amazon AWS [11]
Для этого у Amazon есть Open Data Sponsorship program [12], у Microsoft есть Open Data Initiative [13], у Google нет отдельной программы, но есть рассказ о том как они работают над открытостью кода и данных [14]
Подводя итог, очень похоже что озера данных для исследователей окажутся устойчивым продуктом и далее будут существовать в двух формах. Профессиональной - закрытые озера данных для профессионалов, с большим числом узкоспециализированных инструментов и общедоступной форме где данные предоставляются крупнейшими игроками облачных решений в рамках их инициатив по открытым данным.
Ссылки:
[1] https://clarivate.com/cortellis/solutions/cvid-data-lake/
[2] https://en.wikipedia.org/wiki/Clarivate
[3] https://finance.yahoo.com/news/clarivate-launches-coronavirus-virology-infectious-140300688.html
[4] https://c3.ai/products/c3-ai-covid-19-data-lake/
[5] https://www.forbes.com/sites/adrianbridgwater/2020/05/27/tom-siebels-c3ai-charts-new-data-lake-for-covid-19-research/
[6] https://aws.amazon.com/ru/covid-19-data-lake/
[7] https://www.semanticscholar.org/cord19
[8] https://cord19.aws
[9] https://azure.microsoft.com/ru-ru/services/open-datasets/catalog/covid-19-data-lake/
[10] https://datascience.nih.gov/covid-19-open-access-resources
[11] https://registry.opendata.aws/commoncrawl/
[12] https://aws.amazon.com/ru/opendata/open-data-sponsorship-program/
[13] https://www.microsoft.com/en-us/open-data-initiative
[14] https://www.blog.google/technology/research/open-source-and-open-data/
#datalakes #data #opendata #covid19 #research
Cortellis
Coronavirus, Virology and Infectious Disease (CVID) Data Lake- Cortellis
Analyze the COVID-19 & infectious disease landscape like never before. Our CVID data lake combines comprehensive data assets, analytics and experts.
Правительство утвердило Концепцию регулирования технологий ИИ и робототехники, новость на сайте Минэкономразвития [1] и в Российской газете [2] почему-то не содержит ссылки на текст самого актуального документа этой концепции. И тут я не могу не напомнить про одну большую проблему с сайтом федерального правительства и доступности информации на нём. Документы там публикуются с задержкой в месяц, если сейчас (25 августа) открыть сайт в разделе поиска по документам [3] то там будут документы начиная с 25 июля 2020 года. Некоторые, избранные, документы публикуются чуть актуальнее, за 22 августа [4].
Для сравнения, материалы на официальном интернет-портале правовой информации (publication.pravo.gov.ru) публикуются с задержкой около 3-6 дней с момента подписания [5]. Конечно, надо делать коррекцию на выходные и праздничные дни, но, в общем и в целом, что-то не так с публикацией документов на сайте федерального правительства.
Отходя ещё дальше от концепции и взглянув на номера публикуемых документов мы можем увидеть что на 21 августа было принято 1262 Постановление Правительства (ПП) и 2141 Распоряжение Правительства (РП). В прошлом году всего было принято 1960 ППсок и 3273 РПсок.
Для сравнения, последний номер Указа Президента (УП) на 21 августа был номер 520, в прошлом году их было 604 за весь 2019 год. Кстати на сайте Президента (kremlin.ru) также задержка с публикацией документов в 1.5 месяца (45 дней) [6]
А вот федеральных законов (ФЗ) у нас уже 309 на 31 июля 2020 года, в прошлом году было всего 444, а на 30 июля их было всего 256 [7].
Подвожу итоги:
- количество принятия постановлений и распоряжений правительства, указов Президента и фед. законов выросло за 2020 год несмотря на коронавирус;
- мои оценочные прогнозы к концу года: 4000 РП, 2500 ПП, 800 УП и 600 ФЗ
- оперативность публикации документов на сайтах Правительства и Президента РФ значительно снизилась
- качество написанных документов лучше оценят специалисты
P.S. Статистику нормативной деятельности я веду в небольшом проекте lawstats на data.world где есть и цифры и визуализации по принятым НПА с 1994 по 2019 годы, а также списки самих НПА и статистика по ним.
Ссылки:
[1] https://economy.gov.ru/material/news/pravitelstvo_utverdilo_koncepciyu_regulirovaniya_tehnologiy_ii_i_robototehniki.html
[2] https://rg.ru/2020/08/24/utverzhdena-koncepciia-pravovogo-regulirovaniia-iskusstvennogo-intellekta.html
[3] http://government.ru/docs/all/
[4] http://government.ru/docs/
[5] http://publication.pravo.gov.ru/Search/Period?type=weekly
[6] http://kremlin.ru/acts/bank
[7] http://publication.pravo.gov.ru/Document/View/0001201907300064
[8] https://data.world/infoculture/lawstats
#laws #lawstats #ai
Для сравнения, материалы на официальном интернет-портале правовой информации (publication.pravo.gov.ru) публикуются с задержкой около 3-6 дней с момента подписания [5]. Конечно, надо делать коррекцию на выходные и праздничные дни, но, в общем и в целом, что-то не так с публикацией документов на сайте федерального правительства.
Отходя ещё дальше от концепции и взглянув на номера публикуемых документов мы можем увидеть что на 21 августа было принято 1262 Постановление Правительства (ПП) и 2141 Распоряжение Правительства (РП). В прошлом году всего было принято 1960 ППсок и 3273 РПсок.
Для сравнения, последний номер Указа Президента (УП) на 21 августа был номер 520, в прошлом году их было 604 за весь 2019 год. Кстати на сайте Президента (kremlin.ru) также задержка с публикацией документов в 1.5 месяца (45 дней) [6]
А вот федеральных законов (ФЗ) у нас уже 309 на 31 июля 2020 года, в прошлом году было всего 444, а на 30 июля их было всего 256 [7].
Подвожу итоги:
- количество принятия постановлений и распоряжений правительства, указов Президента и фед. законов выросло за 2020 год несмотря на коронавирус;
- мои оценочные прогнозы к концу года: 4000 РП, 2500 ПП, 800 УП и 600 ФЗ
- оперативность публикации документов на сайтах Правительства и Президента РФ значительно снизилась
- качество написанных документов лучше оценят специалисты
P.S. Статистику нормативной деятельности я веду в небольшом проекте lawstats на data.world где есть и цифры и визуализации по принятым НПА с 1994 по 2019 годы, а также списки самих НПА и статистика по ним.
Ссылки:
[1] https://economy.gov.ru/material/news/pravitelstvo_utverdilo_koncepciyu_regulirovaniya_tehnologiy_ii_i_robototehniki.html
[2] https://rg.ru/2020/08/24/utverzhdena-koncepciia-pravovogo-regulirovaniia-iskusstvennogo-intellekta.html
[3] http://government.ru/docs/all/
[4] http://government.ru/docs/
[5] http://publication.pravo.gov.ru/Search/Period?type=weekly
[6] http://kremlin.ru/acts/bank
[7] http://publication.pravo.gov.ru/Document/View/0001201907300064
[8] https://data.world/infoculture/lawstats
#laws #lawstats #ai
А вот и новости госзакупок связанных с данными в нашей столице. ООО "Центр налоговой политики" [1], директором и единственным бенефициаром которого является, Кирилл Никитин, руководитель российской практики PwC по оказанию услуг государственным органам и компаниям государственного сектора и кандидат в Мосгордуму (остальное желающие сами могут найти в сети), 19 августа выиграло контракт на 100 миллионов рублей [1] у ГБУ города Москвы "Аналитический центр".
Тема контракта весьма интересна: выполнение научно-исследовательской работы по теме «Разработка методологии и реализация комплекса мероприятий по оперативному индикативному мониторингу и прогнозированию состояния отраслей экономики города Москвы».
Фактически он про НИР про работу с данными о состоянии экономики Москвы, про анализ источников, систематизацию и тд.
На что стоит обратить внимание так это на то как этот контракт устроен поэтапно:
- этап 1: даты 20.08.2020 - 18.09.2020 -> ~50 млн. рублей
- этап 2: даты 19.09.2020 - 17.12.2020 -> ~30 млн. руб
- этап 3: даты 18.12.2020 - 30.06.2021 -> ~20 млн рублей
Если считать в такой "смешной" единице измерений как миллионо-день то получится:
- этап 1: 50 млн. руб / 29 дней = 1,72 млн. руб в день
- этап 2: 30 млн. руб / 89 дней = 0,337 млн. руб в день
- этап 3: 20 млн. руб / 194 дней = 0,103 млн. руб в день
А теперь самое интересное, задачи первого этапа из ТЗ контракта (барабанная дробь):
1. Разработка плана мероприятий по организации индикативного мониторинга и прогнозирования состояния экономики города Москвы
2. Разработка плана мероприятий по разработке требований к автоматизированной системе мониторинга и отраслевых мер налоговой и бюджетной политики, способствующих экономическому росту в ключевых отраслях экономики города Москвы
—
Стоит ли это 50 миллионов рублей за 29 дней? Серьёзно? Два плана мероприятий за месяц и 50 миллионов? Интересно, какая там "маржа" заложена к себестоимости, 1000% ?
Ссылки:
[1] https://www.tax-policy.ru/
[2] https://zakupki.gov.ru/epz/contract/contractCard/document-info.html?reestrNumber=2770483583420000012
#data #spending #moscowgovernment #moscow
Тема контракта весьма интересна: выполнение научно-исследовательской работы по теме «Разработка методологии и реализация комплекса мероприятий по оперативному индикативному мониторингу и прогнозированию состояния отраслей экономики города Москвы».
Фактически он про НИР про работу с данными о состоянии экономики Москвы, про анализ источников, систематизацию и тд.
На что стоит обратить внимание так это на то как этот контракт устроен поэтапно:
- этап 1: даты 20.08.2020 - 18.09.2020 -> ~50 млн. рублей
- этап 2: даты 19.09.2020 - 17.12.2020 -> ~30 млн. руб
- этап 3: даты 18.12.2020 - 30.06.2021 -> ~20 млн рублей
Если считать в такой "смешной" единице измерений как миллионо-день то получится:
- этап 1: 50 млн. руб / 29 дней = 1,72 млн. руб в день
- этап 2: 30 млн. руб / 89 дней = 0,337 млн. руб в день
- этап 3: 20 млн. руб / 194 дней = 0,103 млн. руб в день
А теперь самое интересное, задачи первого этапа из ТЗ контракта (барабанная дробь):
1. Разработка плана мероприятий по организации индикативного мониторинга и прогнозирования состояния экономики города Москвы
2. Разработка плана мероприятий по разработке требований к автоматизированной системе мониторинга и отраслевых мер налоговой и бюджетной политики, способствующих экономическому росту в ключевых отраслях экономики города Москвы
—
Стоит ли это 50 миллионов рублей за 29 дней? Серьёзно? Два плана мероприятий за месяц и 50 миллионов? Интересно, какая там "маржа" заложена к себестоимости, 1000% ?
Ссылки:
[1] https://www.tax-policy.ru/
[2] https://zakupki.gov.ru/epz/contract/contractCard/document-info.html?reestrNumber=2770483583420000012
#data #spending #moscowgovernment #moscow
Forwarded from Госзатраты
[1] Научные исследования: cамые дорогие контракты за прошедшую неделю 16.08.2020-23.08.2020:
Услуги, связанные с научными исследованиями и экспериментальными разработками в области прочих общественных наук и др.
Сумма контракта: 100 млн. руб.
Наименование заказчика: ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ УЧРЕЖДЕНИЕ ГОРОДА МОСКВЫ "АНАЛИТИЧЕСКИЙ ЦЕНТР"
Поставщик: ООО "Центр налоговой политики"
Регион: Москва
Дата заключения: 19.08.2020
Подробнее о контракте
#научные_исследования
Услуги, связанные с научными исследованиями и экспериментальными разработками в области прочих общественных наук и др.
Сумма контракта: 100 млн. руб.
Наименование заказчика: ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ УЧРЕЖДЕНИЕ ГОРОДА МОСКВЫ "АНАЛИТИЧЕСКИЙ ЦЕНТР"
Поставщик: ООО "Центр налоговой политики"
Регион: Москва
Дата заключения: 19.08.2020
Подробнее о контракте
#научные_исследования
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Реестр субсидий на портале Электронного бюджета отображается в обновленном формате. Теперь в нем отсутствуют сведения о ГРБС (надеемся, это техническая ошибка, а не сокрытие данных, как в случае с поставщиками по 223-ФЗ). 🙂
Оперативно выявлять ошибки в открытых данных Минфина России и Казначейства России нам позволяет работа над проектами «Госрасходы» и «Госзатраты». Команды проектов не только собирают, преобразуют и структурируют данные, но и используют их (что редко встречается в госорганах).
Надеемся, указанные проблемы API и веб-интерфейса реестра субсидий будут быстро исправлены.
Оперативно выявлять ошибки в открытых данных Минфина России и Казначейства России нам позволяет работа над проектами «Госрасходы» и «Госзатраты». Команды проектов не только собирают, преобразуют и структурируют данные, но и используют их (что редко встречается в госорганах).
Надеемся, указанные проблемы API и веб-интерфейса реестра субсидий будут быстро исправлены.
Ivan Begtin
А вот и новости госзакупок связанных с данными в нашей столице. ООО "Центр налоговой политики" [1], директором и единственным бенефициаром которого является, Кирилл Никитин, руководитель российской практики PwC по оказанию услуг государственным органам и компаниям…
Вдогонку к моей прошлой публикации о контракте на индикативный мониторинг и прогнозирование в г. Москве со мной связался Кирилл Никитин, владелец Центра налоговой политики и привожу его комментарии:
- на самом деле цена первого этапа 30 миллионов рублей, а 20 миллионов рублей - это аванс по всему контракту
- с сентября 2019 года в PwC он не работает
Коллеги мне тут напомнили что Кирилл опытный консалтер и вполне возможно что его услуги/услуги его организации столько и стоят. Я не буду лично оценивать, не знаю. Готов выслушать разные мнения.
Но что безусловно, так, к сожалению, Правительство Москвы не публикует результаты таких контрактов. И к этом также очень и очень много вопросов, но уже не к исполнителям, а к заказчикам.
#spending #moscow #contracts
- на самом деле цена первого этапа 30 миллионов рублей, а 20 миллионов рублей - это аванс по всему контракту
- с сентября 2019 года в PwC он не работает
Коллеги мне тут напомнили что Кирилл опытный консалтер и вполне возможно что его услуги/услуги его организации столько и стоят. Я не буду лично оценивать, не знаю. Готов выслушать разные мнения.
Но что безусловно, так, к сожалению, Правительство Москвы не публикует результаты таких контрактов. И к этом также очень и очень много вопросов, но уже не к исполнителям, а к заказчикам.
#spending #moscow #contracts
Оказывается что в ГосДуму внесли законопроект о признании должностными лицами глав госкомпаний чтобы упростить подведение их под уголовные дела [1] (ссылка на ведомости, извините).
И тут я не могу прокомментировать и задать важный вопрос. А на руководителей фондов/АНО/некоммерческих партнерств и тд. с госучастием - это распространяется?
Должно распространяться, но там нет понятия "доли" государства и учредителя. Хотя и госкорпорации НКО.
Ссылки:
[1] https://www.vedomosti.ru/society/articles/2020/08/25/837741-pravitelstvo-priravnyalo
#govngo
И тут я не могу прокомментировать и задать важный вопрос. А на руководителей фондов/АНО/некоммерческих партнерств и тд. с госучастием - это распространяется?
Должно распространяться, но там нет понятия "доли" государства и учредителя. Хотя и госкорпорации НКО.
Ссылки:
[1] https://www.vedomosti.ru/society/articles/2020/08/25/837741-pravitelstvo-priravnyalo
#govngo
Ведомости
Правительство приравняло в УК менеджеров госкомпаний к должностным лицам
Это позволит проще возбуждать уголовные дела
В дополнение к предыдущей публикации, на руководителей НКО распространяется. Звучит определение так:
—
1) примечание 1 к статье 201 изложить в следующей редакции:
1. В статьях настоящей главы, а также в статье 304 настоящего Кодекса выполняющим управленческие функции в коммерческой или иной организации, за исключением организаций, указанных в примечании 1 к статье 285 настоящего Кодекса, а также в некоммерческой организации, не являющейся государственным органом, органом местного самоуправления, государственным или муниципальным учреждением, признается лицо, выполняющее функции единоличного исполнительного органа, члена совета директоров или иного коллегиального исполнительного органа, а также лицо, постоянно, временно либо по специальному полномочию выполняющее организационно-распорядительные или административно-хозяйственные функции в этих организациях.";
—
текст отсюда [1]. А то есть распространяется и на членов советов директоров тоже и членов коллегиальных органов.
Ссылки:
[1] https://sozd.duma.gov.ru/bill/1013018-7
#govngo
—
1) примечание 1 к статье 201 изложить в следующей редакции:
1. В статьях настоящей главы, а также в статье 304 настоящего Кодекса выполняющим управленческие функции в коммерческой или иной организации, за исключением организаций, указанных в примечании 1 к статье 285 настоящего Кодекса, а также в некоммерческой организации, не являющейся государственным органом, органом местного самоуправления, государственным или муниципальным учреждением, признается лицо, выполняющее функции единоличного исполнительного органа, члена совета директоров или иного коллегиального исполнительного органа, а также лицо, постоянно, временно либо по специальному полномочию выполняющее организационно-распорядительные или административно-хозяйственные функции в этих организациях.";
—
текст отсюда [1]. А то есть распространяется и на членов советов директоров тоже и членов коллегиальных органов.
Ссылки:
[1] https://sozd.duma.gov.ru/bill/1013018-7
#govngo
Новая социальная тема по нарушению прав граждан/потребителей - это property tech (proptech) также называемое landlord tech. Технологии для домовладельцев которые затрагивают и нарушают права арендующих жилые или нежилые помещения. В проекте Landlord tech watch [1] собраны многочисленные примеры, как видов таких нарушений прав, так и конкретных примеров на территории США.
Эти нарушения включают, например:
- установку систем распознавания лиц на вход
- установку внутренних систем слежения
- использование мобильных приложений для коммуникации с арендодателями
- проверку арендодателя через базы полиции, банковский скоринг и тд
и ещё многое другое.
В статьях которые приводятся на сайте есть много отсылок к housing inequality и digital housing, а также к джентрификации территорий по причине развития подобных технологий.
Актуально ли это в России? Технологическая задержка внедрения подобных технологий у нас может составлять от 5 до 25 лет, в зависимости от территории и области применения. Российский массовый рынок съёма жилья является "серым", но всё меняется, лично я не удивлюсь если proptech в российских реалиях окажется частно-государственным партнерством с акцентом на собираемость налогов и иных платежей, например, коммунальных.
Ссылки:
[1] https://antievictionmappingproject.github.io/landlordtech/
#proptech #govtech #landlordtech #surveillance
Эти нарушения включают, например:
- установку систем распознавания лиц на вход
- установку внутренних систем слежения
- использование мобильных приложений для коммуникации с арендодателями
- проверку арендодателя через базы полиции, банковский скоринг и тд
и ещё многое другое.
В статьях которые приводятся на сайте есть много отсылок к housing inequality и digital housing, а также к джентрификации территорий по причине развития подобных технологий.
Актуально ли это в России? Технологическая задержка внедрения подобных технологий у нас может составлять от 5 до 25 лет, в зависимости от территории и области применения. Российский массовый рынок съёма жилья является "серым", но всё меняется, лично я не удивлюсь если proptech в российских реалиях окажется частно-государственным партнерством с акцентом на собираемость налогов и иных платежей, например, коммунальных.
Ссылки:
[1] https://antievictionmappingproject.github.io/landlordtech/
#proptech #govtech #landlordtech #surveillance
Landlord Tech Watch
Landlord Tech—in industry so-called property tech or proptech—is leading to new forms of housing injustice in ways that increase the power of landlords and further disempower tenants and those seeking shelter.
Итоговый документ Концепции развития регулирования отношений в сфере технологий искусственного интеллекта и робототехники до 2024 года на сайте официального опубликования НПА publication.pravo.gov.ru [1] где он существует только в виде скана документа, как и все документы которые поступают и раскрываются на сайте официального опубликования в текстовом виде.
Это всё несмотря на то что в на дворе 20-е годы 21-го века, внедрённый документооборот и тд и даже дистанционная работа из-за коронавируса, но официальные документы до сих пор вначале сканами и потом уже, через месяцы в виде текста. Но о том как организована работа с НПА в России я уже писал и не хочу повторяться, там много что есть что исправлять.
По концепции, постараюсь её структурированно изложить.
Вовлечённые стороны
- Минэкономразвития России (сводит предложения по реализации)
- Федеральные органы исполнительной власти (направляют предложения по реализации и руководствуются концепцией)
- Госкорпорация Роскосмос (направляет предложения по реализации и руководствуется концепцией)
- Федеральное агентство технологического регулирования и метрологии (организация работы комитетов по разработке и уточнению терминов в ИИ, ч. II. п.6)
Сроки
- длительность действия: 3-4 года 3 месяца (19 августа 2020 - 31 декабря 2023(4?) года ). Не указано включён ли 2024 год.
- направление предложений ФОИВами в Минэкономразвития: до 19 ноября 2020 года
Финансирование
- Национальная программа "Цифровая экономика в Российской Федерации" (национальный проект)
{пропускаю здесь большой блок декомпозиции структуры самой стратегии и взаимосвязи с другими государственными инициативами}
На что стоит обратить внимание
- есть ГК Роскосмос, но нет других госкорпораций включая: ВЭБ.РФ (инвестиции в ИИ), Ростехнологии (разработка ИИ для военных и гражданских нужд) и тд.
- срок концепции до 2024 года - это удлинённый 3-х летний бюджетный цикл, очень короткий
- взаимодействие с отраслевыми ассоциациями нормативно не закреплено, если и будет то уже на уровне НПА Минэкономразвития
- организационная рамка не задана и не указана необходимость разработки НПА для этой организационной рамки
Есть ещё много что дополнить, но это надо уже читать не в виде скана, а в текстовом формате.
Ссылки:
[1] http://publication.pravo.gov.ru/Document/View/0001202008260005
#law #regulation #ai
Это всё несмотря на то что в на дворе 20-е годы 21-го века, внедрённый документооборот и тд и даже дистанционная работа из-за коронавируса, но официальные документы до сих пор вначале сканами и потом уже, через месяцы в виде текста. Но о том как организована работа с НПА в России я уже писал и не хочу повторяться, там много что есть что исправлять.
По концепции, постараюсь её структурированно изложить.
Вовлечённые стороны
- Минэкономразвития России (сводит предложения по реализации)
- Федеральные органы исполнительной власти (направляют предложения по реализации и руководствуются концепцией)
- Госкорпорация Роскосмос (направляет предложения по реализации и руководствуется концепцией)
- Федеральное агентство технологического регулирования и метрологии (организация работы комитетов по разработке и уточнению терминов в ИИ, ч. II. п.6)
Сроки
- длительность действия: 3-4 года 3 месяца (19 августа 2020 - 31 декабря 2023(4?) года ). Не указано включён ли 2024 год.
- направление предложений ФОИВами в Минэкономразвития: до 19 ноября 2020 года
Финансирование
- Национальная программа "Цифровая экономика в Российской Федерации" (национальный проект)
{пропускаю здесь большой блок декомпозиции структуры самой стратегии и взаимосвязи с другими государственными инициативами}
На что стоит обратить внимание
- есть ГК Роскосмос, но нет других госкорпораций включая: ВЭБ.РФ (инвестиции в ИИ), Ростехнологии (разработка ИИ для военных и гражданских нужд) и тд.
- срок концепции до 2024 года - это удлинённый 3-х летний бюджетный цикл, очень короткий
- взаимодействие с отраслевыми ассоциациями нормативно не закреплено, если и будет то уже на уровне НПА Минэкономразвития
- организационная рамка не задана и не указана необходимость разработки НПА для этой организационной рамки
Есть ещё много что дополнить, но это надо уже читать не в виде скана, а в текстовом формате.
Ссылки:
[1] http://publication.pravo.gov.ru/Document/View/0001202008260005
#law #regulation #ai
Тем временем в Беларуси 12 ИТ-компаний находятся в процессе полного релокейта, 59 — частичного, а 112 компаний ищут возможность релокейта [1].
Ситуация, конечно, печальная. В каком-то смысле именно ИТ было той области которая в Беларуси развивалась хорошо и отключения Интернета очень скоро могут превратить страну в "картофельную республику", без какого-либо современного производства и услуг.
Ссылки:
[1] https://dev.by/news/linkedin-relokeit
#belarus
Ситуация, конечно, печальная. В каком-то смысле именно ИТ было той области которая в Беларуси развивалась хорошо и отключения Интернета очень скоро могут превратить страну в "картофельную республику", без какого-либо современного производства и услуг.
Ссылки:
[1] https://dev.by/news/linkedin-relokeit
#belarus
dev.by
Опрос в LinkedIn: 12 ИТ-компаний в процессе полного релокейта, 59 — частичного
12 ИТ-компаний находятся в процессе полного релокейта, 59 — частичного. Ещё 112 компаний начали искать возможности для релокейта. Таковы предварительные результаты опроса, который организовал на своей странице в LinkedIn сооснователь и СЕО Iomico Николай…
Удивительно сколь многие данные о России можно и нужно искать не в России, а в глобальных базах данных, чаще открытых, иногда не до конца открытых, иногда коммерческих.
Вот несколько примеров:
- база электростанций в наборе данных Global Power Plant Database [1] на сайте проекта Resource Watch. Там же и много других данных по
- выплаты нефтяных компаний государству налогами и не только, на сайте Resource Projects [2], пример Роснефть [3]
- составы правления и отслеживания изменений в составах правления публичных компаний [4] в The Official Board (кроме них есть ещё несколько похожих сервисов)
- OpenSignal даёт интересные инсайты и доступ к коммерческим данным по работе операторов мобильной связи [5], а также данных в рамках OpenCellID Project [6] и Mozilla Location Service [7] о башнях сотовой связи
- о том как распространяются мобильные приложения для основных платформ в России можно узнать из сервисов AppFollow [8], AppAnnie [9] и ещё многих других
Всё это неполный список того что называют "альтернативными данными" и то что можно анализировать не пользуясь открытыми государственными данными, просто по той причине что этих данных просто может не быть.
Ссылки:
[1] https://resourcewatch.org/data/explore/Powerwatch
[2] http://www.resourceprojects.org/
[3] http://www.resourceprojects.org/company/Rosneft/
[4] https://www.theofficialboard.com/companies/c/russian-federation
[5] https://www.opensignal.com/reports/2020/05/russia/mobile-network-experience
[6] https://opencellid.org
[7] https://location.services.mozilla.com
[8] https://appfollow.io
[9] https://www.appannie.com
#opendata #data #alternativedata
Вот несколько примеров:
- база электростанций в наборе данных Global Power Plant Database [1] на сайте проекта Resource Watch. Там же и много других данных по
- выплаты нефтяных компаний государству налогами и не только, на сайте Resource Projects [2], пример Роснефть [3]
- составы правления и отслеживания изменений в составах правления публичных компаний [4] в The Official Board (кроме них есть ещё несколько похожих сервисов)
- OpenSignal даёт интересные инсайты и доступ к коммерческим данным по работе операторов мобильной связи [5], а также данных в рамках OpenCellID Project [6] и Mozilla Location Service [7] о башнях сотовой связи
- о том как распространяются мобильные приложения для основных платформ в России можно узнать из сервисов AppFollow [8], AppAnnie [9] и ещё многих других
Всё это неполный список того что называют "альтернативными данными" и то что можно анализировать не пользуясь открытыми государственными данными, просто по той причине что этих данных просто может не быть.
Ссылки:
[1] https://resourcewatch.org/data/explore/Powerwatch
[2] http://www.resourceprojects.org/
[3] http://www.resourceprojects.org/company/Rosneft/
[4] https://www.theofficialboard.com/companies/c/russian-federation
[5] https://www.opensignal.com/reports/2020/05/russia/mobile-network-experience
[6] https://opencellid.org
[7] https://location.services.mozilla.com
[8] https://appfollow.io
[9] https://www.appannie.com
#opendata #data #alternativedata
resourcewatch.org
Resource Watch
В Великобритании выяснилось что система предсказания вероятности наиболее тяжких преступлений, Most Serious Violence (MSV) определяла вероятности преступления со значительной меньшей точностью чем ранее было заявлено. В статье в Wired [1] есть отсылки на документ этического комитета за июль 2020 года [2] о текущем статусе внедрения системы NDAS и программной ошибке которая только в июле и была исправлена.
О разработке системы NDAS, в которую входит модуль MSV, формально было анонсировано в конце 2018 года и выделено 10 миллионов фунтов [3]. Это специальная аналитическая информационная система предсказания преступлений проходящая уже 2-й год пилотное внедрение в нескольких округах Великобритании. Её уникальность в том что это система работающая на огромных первичных данных учётов преступлений, баз по организованной преступности, иных учётов и баз данных позволяющих строить сложную детальную аналитику и вести списки лиц с наибольшей вероятностью могущих совершить преступления.
Я лично много лет изучаю precrime системы и считаю что их внедрение в каком-то смысле неизбежно и может быть ограничено только этическими принципами прописанными на уровне законов и способностью не только правоохранительной системы, но и социальных служб обеспечивать профилактику преступлений.
Ссылки:
[1] https://www.wired.co.uk/article/police-violence-prediction-ndas
[2] https://www.westmidlands-pcc.gov.uk/ethics-committee/ethics-committee-reports-and-minutes/
[3] https://www.gov.uk/government/news/home-office-funds-innovative-policing-technology-to-prevent-crime
#data #ai #precrime
О разработке системы NDAS, в которую входит модуль MSV, формально было анонсировано в конце 2018 года и выделено 10 миллионов фунтов [3]. Это специальная аналитическая информационная система предсказания преступлений проходящая уже 2-й год пилотное внедрение в нескольких округах Великобритании. Её уникальность в том что это система работающая на огромных первичных данных учётов преступлений, баз по организованной преступности, иных учётов и баз данных позволяющих строить сложную детальную аналитику и вести списки лиц с наибольшей вероятностью могущих совершить преступления.
Я лично много лет изучаю precrime системы и считаю что их внедрение в каком-то смысле неизбежно и может быть ограничено только этическими принципами прописанными на уровне законов и способностью не только правоохранительной системы, но и социальных служб обеспечивать профилактику преступлений.
Ссылки:
[1] https://www.wired.co.uk/article/police-violence-prediction-ndas
[2] https://www.westmidlands-pcc.gov.uk/ethics-committee/ethics-committee-reports-and-minutes/
[3] https://www.gov.uk/government/news/home-office-funds-innovative-policing-technology-to-prevent-crime
#data #ai #precrime
WIRED UK
Police built an AI to predict violent crime. It was seriously flawed
A Home Office-funded project that used artificial intelligence to predict gun and knife crime was found to be wildly inaccurate
NewAtlas пишет [1] о том что в США учёные из Purdue University стартовали исследование рецидивизма с помощью искусственного интеллекта. Вместе с местными властями в округа Типпекану (Tippecanoe) они намерены отслеживать сердечный ритм и состояние здоровья и поведение 250 досрочно освобожденных которым будет выдан специальный браслет и установлено мобильное приложение. Их действия будут сравниваться с действиями другой группы аналогичного размера, выступающей как контрольной.
Не все согласны что это исследование будет эффективным, например Liz O’Sullivan, технический директор проекта Surveillance Technology Oversight Project (S.T.O.P) [2] обращает внимание на то что люди меняют свое поведение когда знают что они находятся под наблюдением.
Подробнее о проекте информация [3] есть на сайте National Institute of Justice при департаменте юстиции США.
Я со своей стороны не могу не добавить что часто забывают что подобные персонализированные системы слежки охватывают не только тех кто носит браслеты или другие устройства и устанавливает специальное ПО на телефоны, но и всех кто их окружают там где они бывают. Устройства собирают сведения о инфраструктуре ad hoc momentum позволяя осуществлять слежку и за теми кто ими не пользуется, но находится рядом.
Ссылки:
[1] https://newatlas.com/computers/parolees-tracked-artificial-intelligence-prevent-recidivism/
[2] https://www.stopspying.org/
[3] https://nij.ojp.gov/topics/articles/specialized-smartphones-could-keep-released-offenders-track-successful-reentry
#precrime #ai #data #privacy
Не все согласны что это исследование будет эффективным, например Liz O’Sullivan, технический директор проекта Surveillance Technology Oversight Project (S.T.O.P) [2] обращает внимание на то что люди меняют свое поведение когда знают что они находятся под наблюдением.
Подробнее о проекте информация [3] есть на сайте National Institute of Justice при департаменте юстиции США.
Я со своей стороны не могу не добавить что часто забывают что подобные персонализированные системы слежки охватывают не только тех кто носит браслеты или другие устройства и устанавливает специальное ПО на телефоны, но и всех кто их окружают там где они бывают. Устройства собирают сведения о инфраструктуре ad hoc momentum позволяя осуществлять слежку и за теми кто ими не пользуется, но находится рядом.
Ссылки:
[1] https://newatlas.com/computers/parolees-tracked-artificial-intelligence-prevent-recidivism/
[2] https://www.stopspying.org/
[3] https://nij.ojp.gov/topics/articles/specialized-smartphones-could-keep-released-offenders-track-successful-reentry
#precrime #ai #data #privacy
New Atlas
AI surveillance study tracks criminals post release to cut recidivism
A pair of computer scientists from Purdue University are leading a controversial new four-year study using AI-enabled surveillance to track recently released prison parolees. The project’s goal is to lower rates of recidivism by identifying early interventions…
О работе с данными в академической среде на примере компьютерной лингвистики. Многие знают что компьютерная лингвистика - это область науки где, с одной стороны много данных, включая открытые, создается исследователями, а с другой стороны часто востребованы и коммерческими компаниями, в самых разных задачах обработки естественного языка. Это приводит к появлению гибридных бизнес моделей которые можно рассматривать, и как социально ответственный бизнеc, и как возможность самофинансирования некоммерческой деятельности - смотря как взглянуть.
Пример подобного коммерческого Sketch Engine [1], британо-чешского стартапа Lexical Computing [2] в котором собраны корпусы десятков языков всего мира. Корпуса созданы как на базе текстов в Википедии, так и на базе других крупных баз корпусов языков, таких как Aranea [3].
Важная особенность корпусов языков в их значительном объёме. С ними очень сложно работать без достаточных технических ресурсов памяти, процессора и хранения, поэтому поэтому коммерческий сервис даёт возможность работать с корпусами текстов несмотря на эти ограничения и предоставляет большой набор инструментов специально для исследователей в области компьютерной лингвистики.
При этом так же команда публикует сокращённую версию продукта под лицензией GPL - NoSketchEngine [4] который можно установить у себя локально и также с ним работать.
В это важная особенность сервисов создаваемых на базе академических/исследовательских данных. Практически во всех областях где есть вовлечение бизнеса и исследователей продукты построены по схожим принципам:
- бизнес модель основана на университетской подписке и подписке коммерческих компаний
- очень сильно заточены под предметную область и создают множество инструментов и интерфейсов под потребности именно исследователей
- значительно упрощают работу с данными очень большого объёма
- есть возможность указывать точные ссылки для библиографии
- есть или бесплатный доступ для исследователей, или какая-то часть кода/данных общедоступны
Таких примеров ещё много в разных областях. Такой продукт как Wolfram Alpha [5] создан не только для математиков, но и для всех кто исследует в сотнях отраслях и предоставляет, опять же, не данные, а инструменты на них основанные. Проект Censys [6] создавался как результаты академических работ по сканированию интернета на уязвимости, а сейчас является заметным коммерческим продуктом в области сетевой безопасности, с потребителями как из академической, так и коммерческой сред. А предоставление первичных больших данных стало в нём одним из продуктов Bulk Data [7]
Как и во всех продуктах основанных на данных, в данном случае важнейшим является то какую добавленную стоимость этот продукт создаёт.
Ссылки:
[1] https://www.sketchengine.eu
[2] https://www.lexicalcomputing.com/
[3] http://ucts.uniba.sk/aranea_about/index.html
[4] https://nlp.fi.muni.cz/trac/noske
[5] http://www.wolframalpha.com
[6] http://censys.io
[7] https://censys.io/product/product-data
#data #science #opendata #bigdata
Пример подобного коммерческого Sketch Engine [1], британо-чешского стартапа Lexical Computing [2] в котором собраны корпусы десятков языков всего мира. Корпуса созданы как на базе текстов в Википедии, так и на базе других крупных баз корпусов языков, таких как Aranea [3].
Важная особенность корпусов языков в их значительном объёме. С ними очень сложно работать без достаточных технических ресурсов памяти, процессора и хранения, поэтому поэтому коммерческий сервис даёт возможность работать с корпусами текстов несмотря на эти ограничения и предоставляет большой набор инструментов специально для исследователей в области компьютерной лингвистики.
При этом так же команда публикует сокращённую версию продукта под лицензией GPL - NoSketchEngine [4] который можно установить у себя локально и также с ним работать.
В это важная особенность сервисов создаваемых на базе академических/исследовательских данных. Практически во всех областях где есть вовлечение бизнеса и исследователей продукты построены по схожим принципам:
- бизнес модель основана на университетской подписке и подписке коммерческих компаний
- очень сильно заточены под предметную область и создают множество инструментов и интерфейсов под потребности именно исследователей
- значительно упрощают работу с данными очень большого объёма
- есть возможность указывать точные ссылки для библиографии
- есть или бесплатный доступ для исследователей, или какая-то часть кода/данных общедоступны
Таких примеров ещё много в разных областях. Такой продукт как Wolfram Alpha [5] создан не только для математиков, но и для всех кто исследует в сотнях отраслях и предоставляет, опять же, не данные, а инструменты на них основанные. Проект Censys [6] создавался как результаты академических работ по сканированию интернета на уязвимости, а сейчас является заметным коммерческим продуктом в области сетевой безопасности, с потребителями как из академической, так и коммерческой сред. А предоставление первичных больших данных стало в нём одним из продуктов Bulk Data [7]
Как и во всех продуктах основанных на данных, в данном случае важнейшим является то какую добавленную стоимость этот продукт создаёт.
Ссылки:
[1] https://www.sketchengine.eu
[2] https://www.lexicalcomputing.com/
[3] http://ucts.uniba.sk/aranea_about/index.html
[4] https://nlp.fi.muni.cz/trac/noske
[5] http://www.wolframalpha.com
[6] http://censys.io
[7] https://censys.io/product/product-data
#data #science #opendata #bigdata
Sketch Engine
language corpus management and query system
Sketch Engine is the ultimate corpus tool to create and search text corpora in 95+ languages. Try 30-day free trial.
Лучше всего получается то что делаешь под свои задачи (с)
Несколько внутренних инструментов решили перевести в open source и теперь они доступны на Github'е:
mongo2md - утилита помогающая в генерации документации/описания данных находящихся в коллекциях MongoDB [1]. Не умеет пока автодокуметировать поля к таблицам автоматически, но помогает очень сильно упростить работу тех кто документирует руками. Как можно понять из названия, создаёт Markdown файлы на основе схем коллекций которые само же распознает.
apibackuper - утилита по архивации данных отдаваемых через API. Подходит для всех тех случаев когда владелец данных предоставляет API с каким-то ограничением на один запрос, но не отдаёт нужные данные целиком для массовой выгрузки. В результате иногда надо делать тысячи запросов к API пролистывая все нужные данные. Эта утилита автоматизирует эти запросы к API, настраивается с помощью простого конфиг файла и экспортирует данные в нужном формате. Проверено на API на таких сайтах как как: Единый портал бюджетной системы, Корневой удостоверяющий центр, Headhunter API, Госрасходы. Функции именно в архивации на (полной копии данных) на определённый момент (фактически она нужна для создания внутреннего цифрового архива и архивации сайтов работащих через API/Ajax и не поддающихся веб-архивации классическими инструментами).
Ссылки:
[1] https://github.com/datacoon/mongo2md
[2] https://github.com/ruarxive/apibackuper
#opensource #api #data
Несколько внутренних инструментов решили перевести в open source и теперь они доступны на Github'е:
mongo2md - утилита помогающая в генерации документации/описания данных находящихся в коллекциях MongoDB [1]. Не умеет пока автодокуметировать поля к таблицам автоматически, но помогает очень сильно упростить работу тех кто документирует руками. Как можно понять из названия, создаёт Markdown файлы на основе схем коллекций которые само же распознает.
apibackuper - утилита по архивации данных отдаваемых через API. Подходит для всех тех случаев когда владелец данных предоставляет API с каким-то ограничением на один запрос, но не отдаёт нужные данные целиком для массовой выгрузки. В результате иногда надо делать тысячи запросов к API пролистывая все нужные данные. Эта утилита автоматизирует эти запросы к API, настраивается с помощью простого конфиг файла и экспортирует данные в нужном формате. Проверено на API на таких сайтах как как: Единый портал бюджетной системы, Корневой удостоверяющий центр, Headhunter API, Госрасходы. Функции именно в архивации на (полной копии данных) на определённый момент (фактически она нужна для создания внутреннего цифрового архива и архивации сайтов работащих через API/Ajax и не поддающихся веб-архивации классическими инструментами).
Ссылки:
[1] https://github.com/datacoon/mongo2md
[2] https://github.com/ruarxive/apibackuper
#opensource #api #data
GitHub
GitHub - datacoon/mongo2md: A command line tool for MongoDB documentation generation from mongodb collections schemas
A command line tool for MongoDB documentation generation from mongodb collections schemas - GitHub - datacoon/mongo2md: A command line tool for MongoDB documentation generation from mongodb collect...
Если кто-то не догадался сразу, то вот эти замечательные картинки - это "открытые данные" публикуемые Федеральным агентством лесного хозяйства в из их информационной системы дистанционного мониторинга.
Я бы восхитился вольностью интерпретации сотрудников Рослесхоза понятием открытые данные, но они такие не первые, я помню что были похожие "схемы" публикации данных и в других органах власти. Когда Word файл сохраняли в Word XML (язык разметки а ля HTML) и выдавали за машиночитаемые форматы, когда публиковали картинки вместо машиночитаемых файлов или когда с виду данные были, а одного клика было достаточно чтобы убедиться что они более недоступны.
В другой их системе, Единой государственная автоматизированная информационная система
"УЧЁТ ДРЕВЕСИНЫ И СДЕЛОК С НЕЙ" (ЛесЕГАИС) [2] также есть раздел открытых данных где их можно листать и искать, но скачать только некоторые и только в формате xlsx. В общем то тоже, открытость там на 3-чку и то только потому что за этим разделом API на базе GraphQL к которому опытные умы могут подключаться, но учитывая объёмы публикуемых данных - это крайне неудобно делать тысячи запросов по 20 записей каждая.
При этом в самом ведомстве знают что такое открытые данные и как их публиковать потому что соответствующий раздел на сайте Рослесхоза существует [3] и обновляется, но данные из их ФГИС не включает.
Ссылки:
[1] https://public.aviales.ru/main_pages/public.shtml
[2] https://lesegais.ru/
[3] http://rosleshoz.gov.ru/opendata
#opendata #opengov #rosles
В другой их системе, Единой государственная автоматизированная информационная система
"УЧЁТ ДРЕВЕСИНЫ И СДЕЛОК С НЕЙ" (ЛесЕГАИС) [2] также есть раздел открытых данных где их можно листать и искать, но скачать только некоторые и только в формате xlsx. В общем то тоже, открытость там на 3-чку и то только потому что за этим разделом API на базе GraphQL к которому опытные умы могут подключаться, но учитывая объёмы публикуемых данных - это крайне неудобно делать тысячи запросов по 20 записей каждая.
При этом в самом ведомстве знают что такое открытые данные и как их публиковать потому что соответствующий раздел на сайте Рослесхоза существует [3] и обновляется, но данные из их ФГИС не включает.
Ссылки:
[1] https://public.aviales.ru/main_pages/public.shtml
[2] https://lesegais.ru/
[3] http://rosleshoz.gov.ru/opendata
#opendata #opengov #rosles
ИСДМ
Открытые данные
Доступ без регистрациик данным ИСДМ-Рослесхоз
Почему в России так много (а на самом деле так мало) открытых данных? Почему самыми большими данными оказываются, например, данные о госзакупках и госфинансам [1] ?
Среди множества причин: политических, экономических и культурных, я хочу обратить внимание на отличия в том что и как публикуется на российских порталах открытых данных и как это отличается от происходящего в мире.
1. Одни из наиболее крупных по объёмам публикации данных в мире - это географические и геологические данные. Например, более 26% всех наборов данных (25 тысяч из 95 тысяч) на портале открытых данных Австралии [2] опубликованы Geoscience Australia. Почти все эти данные - это геоданные, в форматах GeoJSON и SHP и других, содержащие сведения о наблюдении за территорией, спутниковые снимки и тд.
2. Ещё примерно вдвое больше данных публикуется другими научными и исследовательскими организациями и, в итоге, всё вместе - примерно 75% всех данных публикуемых на data.gov.au - это научные и исследовательские данные.
3. В Великобритании на портале data.gov.uk из публикуемых данных, также, около 15-20% - это геоданные. Точно измерить сложно поскольку публикуются они многими органами власти и организациями. Научных данных там меньше только по той причине что существуют отдельные системы раскрытия научных данных в рамках проектов Dataverse, европейского Zenodo и многих других.
4. В США ситуация похожая и большая часть данных на data.gov - это данные из многочисленных научных центров раскрывающих кроме данных ещё и совершенно невероятные объёмы открытого кода, в основном через Github.
5. В России около 64% (15286 из 23864) опубликованных данных на портале data.gov.ru [2] - это административные данные отклассифицированные в категорию "Государство". Они так или иначе касаются отчетности органов власти, вакансий, списков терр. органов и иных данных которые требуются к раскрытию по 8-ФЗ и порождённых от него НПА. Практическая их применимость есть в очень и очень узких задачах. Геоданные не публикуются практически полностью, научных данных также нет.
С чем это связано? Причин несколько:
- секретность геоинформации в России. То что во всём мире раскрывается повсеместно, в России является предметом преследования географов, засекречивается и не раскрывается даже в самых очевидных случаях. То же самое касается если не всех то многих данных о недрах в России.
- полное отсутствие коммуникаций с действующими научными проектами, по астрофизике, по изучению недр, по изучению погоды и так далее. Это ещё на уровне Открытого правительства - фактически совсем ничего не делалось в этом направлении
- фрагментированность госполитики в области управления данными. Отдельно существует регулирование открытых данных, отдельно разрабатываются НПА по СМЭВу, отдельно существуют инициативы по платформам по исследованиям в Минобре, отдельно существует регулирование информационных систем. В результате даже если огромные объёмы данных создаются в таких системах как ЕСИМО, системах Росгидромета и других, на портал открытых данных они не поступают.
Можно ли это изменить? На техническом уровне нет. Только на политическом уровне. Главная беда большинства госпорталов открытых данных не в их технической реализации, а в отсутствии политической опоры внутри исполнительной власти. А можно ли это изменить?
Ссылки:
[1] https://spending.gov.ru
[2] https://data.gov.ru
#opendata #data #opengov
Среди множества причин: политических, экономических и культурных, я хочу обратить внимание на отличия в том что и как публикуется на российских порталах открытых данных и как это отличается от происходящего в мире.
1. Одни из наиболее крупных по объёмам публикации данных в мире - это географические и геологические данные. Например, более 26% всех наборов данных (25 тысяч из 95 тысяч) на портале открытых данных Австралии [2] опубликованы Geoscience Australia. Почти все эти данные - это геоданные, в форматах GeoJSON и SHP и других, содержащие сведения о наблюдении за территорией, спутниковые снимки и тд.
2. Ещё примерно вдвое больше данных публикуется другими научными и исследовательскими организациями и, в итоге, всё вместе - примерно 75% всех данных публикуемых на data.gov.au - это научные и исследовательские данные.
3. В Великобритании на портале data.gov.uk из публикуемых данных, также, около 15-20% - это геоданные. Точно измерить сложно поскольку публикуются они многими органами власти и организациями. Научных данных там меньше только по той причине что существуют отдельные системы раскрытия научных данных в рамках проектов Dataverse, европейского Zenodo и многих других.
4. В США ситуация похожая и большая часть данных на data.gov - это данные из многочисленных научных центров раскрывающих кроме данных ещё и совершенно невероятные объёмы открытого кода, в основном через Github.
5. В России около 64% (15286 из 23864) опубликованных данных на портале data.gov.ru [2] - это административные данные отклассифицированные в категорию "Государство". Они так или иначе касаются отчетности органов власти, вакансий, списков терр. органов и иных данных которые требуются к раскрытию по 8-ФЗ и порождённых от него НПА. Практическая их применимость есть в очень и очень узких задачах. Геоданные не публикуются практически полностью, научных данных также нет.
С чем это связано? Причин несколько:
- секретность геоинформации в России. То что во всём мире раскрывается повсеместно, в России является предметом преследования географов, засекречивается и не раскрывается даже в самых очевидных случаях. То же самое касается если не всех то многих данных о недрах в России.
- полное отсутствие коммуникаций с действующими научными проектами, по астрофизике, по изучению недр, по изучению погоды и так далее. Это ещё на уровне Открытого правительства - фактически совсем ничего не делалось в этом направлении
- фрагментированность госполитики в области управления данными. Отдельно существует регулирование открытых данных, отдельно разрабатываются НПА по СМЭВу, отдельно существуют инициативы по платформам по исследованиям в Минобре, отдельно существует регулирование информационных систем. В результате даже если огромные объёмы данных создаются в таких системах как ЕСИМО, системах Росгидромета и других, на портал открытых данных они не поступают.
Можно ли это изменить? На техническом уровне нет. Только на политическом уровне. Главная беда большинства госпорталов открытых данных не в их технической реализации, а в отсутствии политической опоры внутри исполнительной власти. А можно ли это изменить?
Ссылки:
[1] https://spending.gov.ru
[2] https://data.gov.ru
#opendata #data #opengov
Из "условно необычных" проектов про открытые данные - это Open Apparel (Открытая одежда) [1] проект по систематизации рынка одежды и фэшн индустрии в целом. В проекте собрано большое число объектов/предприятий большая часть которых собрана из списков вроде Better Cotton Initative [2] об улучшении работы фермеров работающих с хлопком, списков поставщиков крупных ритейлеров и так далее и тому подобное.
Сведений о предприятиях там, прямо скажем, "небогато". Название, местонахождение, указание в каких списках указано. А с другой стороны десятки тысяч объектов по всему миру.
Я не смог придумать как можно эти данные использовать, но кто знает, может быть проект будет развиваться.
Ссылки:
[1] https://openapparel.org
[2] https://bettercotton.org
#opendata
Сведений о предприятиях там, прямо скажем, "небогато". Название, местонахождение, указание в каких списках указано. А с другой стороны десятки тысяч объектов по всему миру.
Я не смог придумать как можно эти данные использовать, но кто знает, может быть проект будет развиваться.
Ссылки:
[1] https://openapparel.org
[2] https://bettercotton.org
#opendata
Better Cotton
The world doesn’t just need cotton, it needs Better Cotton.
Our mission is to help cotton communities survive and thrive, while protecting and restoring the environment.