Похоже что Tor в России заблокировали [1], а заодно и ajax.aspnetcdn.com относящийся к Microsoft Ajax Content Delivery Network, которая используется более чем в 3000+ сайтов в Рунете [2], включая веб-ресурсы аэрофлота и так далее.
Будьте внимательны и осторожны, синоптики прогнозируют в Рунете сбои и ошибки.
Ссылки:
[1] https://ntc.party/t/ooni-reports-of-tor-blocking-in-certain-isps-since-2021-12-01/1477
[2] https://trends.builtwith.com/websitelist/Microsoft-Ajax-Content-Delivery-Network/Russia
#security #blocking
Будьте внимательны и осторожны, синоптики прогнозируют в Рунете сбои и ошибки.
Ссылки:
[1] https://ntc.party/t/ooni-reports-of-tor-blocking-in-certain-isps-since-2021-12-01/1477
[2] https://trends.builtwith.com/websitelist/Microsoft-Ajax-Content-Delivery-Network/Russia
#security #blocking
В университете Коста-Рики запустили проект "Todos los contratos CR" (Все договора [Коста-Рики]) по мониторингу, анализу и оценке госконтрактов страны [1]. В основе методология RED FLAGS for integrity [2] созданная в 2016 году в международном проекте Open Contracting.
Проект создается при поддержке PODER [3] мексиканской НКО анализирующей контракты, открытость и прозрачность государства и всего остального входящего в political integrity.
У PODER есть платформа QuienEsQuien.wiki [4] (Кто-есть-кто) в которой они собирают базу лиц принимающих решения, базу госконтрактов, публичных институтов, поставщиков и тд.
Тут ещё можно напомнить что Todos los contratos в Коста-Рике - это клон одноименного мексиканского проекта PODER [5] и данные собранные в рамках Todos los contrators Коста-Рики также загружаются в эту платформу и, похоже, она явно будет развиваться в сторону охвата всех стран Латинской америки.
Ссылки:
[1] https://todosloscontratos.ucr.ac.cr
[2] https://www.open-contracting.org/wp-content/uploads/2016/11/OCP2016-Red-flags-for-integrityshared-1.pdf
[3] https://poderlatam.org
[4] https://www.quienesquien.wiki/es/inicio
[5] https://todosloscontratos.quienesquien.wiki/es/todos-los-contratos
#contracts #open #opendata #spending
Проект создается при поддержке PODER [3] мексиканской НКО анализирующей контракты, открытость и прозрачность государства и всего остального входящего в political integrity.
У PODER есть платформа QuienEsQuien.wiki [4] (Кто-есть-кто) в которой они собирают базу лиц принимающих решения, базу госконтрактов, публичных институтов, поставщиков и тд.
Тут ещё можно напомнить что Todos los contratos в Коста-Рике - это клон одноименного мексиканского проекта PODER [5] и данные собранные в рамках Todos los contrators Коста-Рики также загружаются в эту платформу и, похоже, она явно будет развиваться в сторону охвата всех стран Латинской америки.
Ссылки:
[1] https://todosloscontratos.ucr.ac.cr
[2] https://www.open-contracting.org/wp-content/uploads/2016/11/OCP2016-Red-flags-for-integrityshared-1.pdf
[3] https://poderlatam.org
[4] https://www.quienesquien.wiki/es/inicio
[5] https://todosloscontratos.quienesquien.wiki/es/todos-los-contratos
#contracts #open #opendata #spending
Todos los Contratos CR
Inicio
Todos los Contratos CR es una plataforma que agrupa, analiza y evalúa los datos de las contrataciones alojadas en el Sistema Integrado de Compras Públicas (SICOP). Este espacio se pone a disposición con el fin de promover la vigilancia, prevenir la corrupción…
Команда создателей Datahub [1], каталога управления метаданными от LinkedIn, в 2020 году выделились в отдельный стартап Metaphor и вот в ноябре этого года анонсировали Metaphor Platform [2].
По сути это коммерческая SaaS платформа, аналогичная Datahub, используемая для сбора данных о данных (метаданных), но с разделением на 3 типа метаданных:
- технические метаданных - данные из первоисточиков о структуре, качестве, описании таблиц и тд.
- метаданные бизнеса - мэппинг между физическими данными и их производственным рабочим представлением, от сценариев использования
- поведенческие метаданные - привязывание данных к конкретным пользователям и их поведению.
Сама идея этого интересна, хотя и сужает области применения такого продукта. В этой модели фокус сдвигается на бизнес пользователей и конечных пользователей, а далеко не все системы сбора метаданных эксплуатируются в средах где есть большое число внешних пользователей. Это, то что касается поведенческих метаданных, а то что касается метаданных бизнеса, то тут понятная идея с вовлечением управленцев в понимание данных.
В любом случае продукт ещё только в режиме demo, надо будет за ним последить внимательнее.
Ссылки:
[1] https://engineering.linkedin.com/blog/2019/data-hub
[2] https://metaphor.io/blog/metaphor-product-launch
#metadata #datacatalogs
По сути это коммерческая SaaS платформа, аналогичная Datahub, используемая для сбора данных о данных (метаданных), но с разделением на 3 типа метаданных:
- технические метаданных - данные из первоисточиков о структуре, качестве, описании таблиц и тд.
- метаданные бизнеса - мэппинг между физическими данными и их производственным рабочим представлением, от сценариев использования
- поведенческие метаданные - привязывание данных к конкретным пользователям и их поведению.
Сама идея этого интересна, хотя и сужает области применения такого продукта. В этой модели фокус сдвигается на бизнес пользователей и конечных пользователей, а далеко не все системы сбора метаданных эксплуатируются в средах где есть большое число внешних пользователей. Это, то что касается поведенческих метаданных, а то что касается метаданных бизнеса, то тут понятная идея с вовлечением управленцев в понимание данных.
В любом случае продукт ещё только в режиме demo, надо будет за ним последить внимательнее.
Ссылки:
[1] https://engineering.linkedin.com/blog/2019/data-hub
[2] https://metaphor.io/blog/metaphor-product-launch
#metadata #datacatalogs
Linkedin
DataHub: A generalized metadata search & discovery tool
Co-authors: Mars Lan, Seyi Adebajo, Shirshanka Das
Сегодня, буквально сейчас, начинаю лекцию про управление основанное на данных https://youtu.be/zFZQUQhz3Yo в рамках Digital Innopolis Days
YouTube
Визионерская лекция.Управление основное на данных в государственном и частном секторе
Визионерская лекция.
Управление основное на данных в государственном и частном секторе
Свияжские холмы, Прибрежная, 2,
зал 2
Управление основное на данных в государственном и частном секторе
Свияжские холмы, Прибрежная, 2,
зал 2
Open Data for Official Statistics: History, Principles, and Implementation [1] свежая статья от авторов Open Data Watch [2], международного НКО работающего в направлении открытости официальной статистики в мире. Статья подана в форме обзора практик с рекомендациями и с явным прицелом на то что в будущем эти рекомендации станут частью рекомендаций ООН по сбору статистики.
У них же много других публикаций с более узким фокусом [3], а также годовой обзор открытости официальной статистики за 2020 год [4] и в этом феврале ждём обновление за 2021 год.
Ссылки:
[1] https://opendatawatch.com/publications/open-data-for-official-statistics-history-principles-and-implentation/
[2] https://opendatawatch.com
[3] https://opendatawatch.com/publications/
[4] https://odin.opendatawatch.com/Report/annualReport2020
#opendata #statistics
У них же много других публикаций с более узким фокусом [3], а также годовой обзор открытости официальной статистики за 2020 год [4] и в этом феврале ждём обновление за 2021 год.
Ссылки:
[1] https://opendatawatch.com/publications/open-data-for-official-statistics-history-principles-and-implentation/
[2] https://opendatawatch.com
[3] https://opendatawatch.com/publications/
[4] https://odin.opendatawatch.com/Report/annualReport2020
#opendata #statistics
Open Data Watch
Open Data for Official Statistics: History, Principles, and Implentation
For data in national statistical offices to fully benefit society, they must be available to the public as open data. This report reviews the evolution of standards for open data, how standards are implemented, and what tools and models can guide NSOs in…
Вышел доклад The State of Open Data 2021 [1] от холдинга Digital Science и посвящённый открытым исследовательским данным, а то есть данным которые учёные публикуют для ученых. Доклад в форме альманаха статей по темам, с обзором существующих академических систем раскрытия данных, внедрения новых, основных проблем стоящих перед исследователями, управление метаданными и так далее.
И, конечно, с акцентом на том что open research data и open access преследуют две основные цели:
1) Воспроизводимость научных работ
2) Борьба с научной профанацией (недостоверными исследованиями)
Тут важно помнить что Digital Science - это коммерческий холдинг научной инфраструктуры, с такими сервисами как Figshare, Writeful, Ripeta и так далее. Соответственно и цели у них вполне коммерческие, в сторону отказа от бизнес модели продажи доступа к статьиям и данным, а взимание платы за инфраструктурные сервисы для исследователей.
Поэтому про открытые данные и чуть про открытый код в их обзоре написано, но тему сервисов открытой научной инфраструктуры они избегают, поскольку именно там их реальные конкуренты.
Как бы то ни было альманах полезен тем что заметки в нём написаны людьми реально работающими в сложной исследовательской инфраструктуре с большими данными.
Как-нибудь я напишу подробнее о том какие продукты по раскрытию данных есть у отраслевых исследователей. Как ни странно они очень неуниверсальны и инструменты которые используют компьютерные лингвисты, биоинформатики и, к примеру, физики-ядерщики для публикации данных - все они очень разные.
Ссылки:
[1] https://digitalscience.figshare.com/articles/report/The_State_of_Open_Data_2021/17061347
#opendata #openresearchdata #openscience #openacces
И, конечно, с акцентом на том что open research data и open access преследуют две основные цели:
1) Воспроизводимость научных работ
2) Борьба с научной профанацией (недостоверными исследованиями)
Тут важно помнить что Digital Science - это коммерческий холдинг научной инфраструктуры, с такими сервисами как Figshare, Writeful, Ripeta и так далее. Соответственно и цели у них вполне коммерческие, в сторону отказа от бизнес модели продажи доступа к статьиям и данным, а взимание платы за инфраструктурные сервисы для исследователей.
Поэтому про открытые данные и чуть про открытый код в их обзоре написано, но тему сервисов открытой научной инфраструктуры они избегают, поскольку именно там их реальные конкуренты.
Как бы то ни было альманах полезен тем что заметки в нём написаны людьми реально работающими в сложной исследовательской инфраструктуре с большими данными.
Как-нибудь я напишу подробнее о том какие продукты по раскрытию данных есть у отраслевых исследователей. Как ни странно они очень неуниверсальны и инструменты которые используют компьютерные лингвисты, биоинформатики и, к примеру, физики-ядерщики для публикации данных - все они очень разные.
Ссылки:
[1] https://digitalscience.figshare.com/articles/report/The_State_of_Open_Data_2021/17061347
#opendata #openresearchdata #openscience #openacces
figshare
The State of Open Data 2021
We're proud to release our sixth State of Open Data report.This year’s report includes contributions from around the world on data quality and curation, engaging researchers in open data practices, how open data can help validate research and combat scientific…
Если вспомнить, то темой открытости данных я занимаюсь уже больше 12 лет. С разными фокусами и акцентами, на political integrity, эффективность в гоусправлении, на необходимость для исследователей, на потребностях бизнеса. В самых разных формах от общественных проектов до коммерческих сервисов и каталогов.
Я помню как эта тема развивалась с нулевого старта и как я погружался в неё, во многом, от большего нежелания продолжать заниматься госзакупками где меня уже знали хорошо.
Как и многие другие идеи открытости, открытые данные - это, в первую очередь, идеология. Наиболее зрелая в свободных проектах, в открытости науки, и в политической ответственности. Куда более гибкая в делах бизнеса, поскольку для бизнеса открытые данные - это всего лишь одна из форм топлива для продуктов основанных на данных.
Особенность в том что российские политики, уйдя полностью в протекционисткую и внутреннюю повестку не видят что открытые данные сейчас стало основной темой открытости государств, международных организаций и межгосударственных образований. Разделы на сайтах или порталы открытых данных есть у всех агентств ООН, единый каталог открытых данных ООН собирает данные 76 организаций, инициативы по обмену генетическими данными при COVID-19 охватывают исследователей из большинства стран мира, общие стандарты обмена и раскрытия данными разрабатываются десятками международных НКО по всему миру. Открытость данных в мире продолжает развиваться и фокус последних лет на 3-й волне открытых данных с четким фокусом на целях создания данных и целях открытости.
И это ещё если не говорить о экономическом эффекте доступности данных и возврате расходов на их создание через налоги и социальный эффект.
Поэтому 12 лет назад когда я только начинал говорить про пользу от открытости данных небыло ничего - примеров, понимания, значительного рынка и не только. Сейчас всё это есть и, конечно, перезапуск всей повестки открытости данных - это вопрос лишь времени.
#opendata #opengov
Я помню как эта тема развивалась с нулевого старта и как я погружался в неё, во многом, от большего нежелания продолжать заниматься госзакупками где меня уже знали хорошо.
Как и многие другие идеи открытости, открытые данные - это, в первую очередь, идеология. Наиболее зрелая в свободных проектах, в открытости науки, и в политической ответственности. Куда более гибкая в делах бизнеса, поскольку для бизнеса открытые данные - это всего лишь одна из форм топлива для продуктов основанных на данных.
Особенность в том что российские политики, уйдя полностью в протекционисткую и внутреннюю повестку не видят что открытые данные сейчас стало основной темой открытости государств, международных организаций и межгосударственных образований. Разделы на сайтах или порталы открытых данных есть у всех агентств ООН, единый каталог открытых данных ООН собирает данные 76 организаций, инициативы по обмену генетическими данными при COVID-19 охватывают исследователей из большинства стран мира, общие стандарты обмена и раскрытия данными разрабатываются десятками международных НКО по всему миру. Открытость данных в мире продолжает развиваться и фокус последних лет на 3-й волне открытых данных с четким фокусом на целях создания данных и целях открытости.
И это ещё если не говорить о экономическом эффекте доступности данных и возврате расходов на их создание через налоги и социальный эффект.
Поэтому 12 лет назад когда я только начинал говорить про пользу от открытости данных небыло ничего - примеров, понимания, значительного рынка и не только. Сейчас всё это есть и, конечно, перезапуск всей повестки открытости данных - это вопрос лишь времени.
#opendata #opengov
Для тех кто интересовался, видеозапись моей лекции в рамках Digital Innopolis Days "Управление основное на данных в государственном и частном секторе" [1]. Я много повторяюсь в эти годы, не потому что люблю повторяться, а потому что некоторые понятия/события/явления актуальны надолго, а двигаются медленно.
А также экспертной дискуссии "Экспертная дискуссия.Практики предоставления государственных данных (data sharing)" [2]. На дискуссии было много участников: Андрей Яковлев (НИУ ВШЭ), Дарья Цыплакова (Счетная палата РФ), Жанна Устименко (Минсельхоз России), Александр Гаврилин (Яндекс), Айрат Хасьянов и Елена Макарова (КАИ). Дискуссия была очень продуктивная, про кооперацию государства, бизнеса и исследователей в работе с данными.
Я участвовал и помогал в организации экспертной дискусии от нашей Ассоциации участников рынка данных (АУРД). В следующем году будет ещё несколько мероприятий который мы организуем от нашей ассоциации, о них я обязательно и ещё не один раз напишу.
Ссылки:
[1] https://www.youtube.com/watch?v=zFZQUQhz3Yo
[2] https://www.youtube.com/watch?v=S7N66ZepG0s
#opendata #data #datasharing #events
А также экспертной дискуссии "Экспертная дискуссия.Практики предоставления государственных данных (data sharing)" [2]. На дискуссии было много участников: Андрей Яковлев (НИУ ВШЭ), Дарья Цыплакова (Счетная палата РФ), Жанна Устименко (Минсельхоз России), Александр Гаврилин (Яндекс), Айрат Хасьянов и Елена Макарова (КАИ). Дискуссия была очень продуктивная, про кооперацию государства, бизнеса и исследователей в работе с данными.
Я участвовал и помогал в организации экспертной дискусии от нашей Ассоциации участников рынка данных (АУРД). В следующем году будет ещё несколько мероприятий который мы организуем от нашей ассоциации, о них я обязательно и ещё не один раз напишу.
Ссылки:
[1] https://www.youtube.com/watch?v=zFZQUQhz3Yo
[2] https://www.youtube.com/watch?v=S7N66ZepG0s
#opendata #data #datasharing #events
YouTube
Визионерская лекция.Управление основное на данных в государственном и частном секторе
Визионерская лекция.
Управление основное на данных в государственном и частном секторе
Свияжские холмы, Прибрежная, 2,
зал 2
Управление основное на данных в государственном и частном секторе
Свияжские холмы, Прибрежная, 2,
зал 2
В каком-то смысле данные и проекты на данных становятся нормой в любой деятельности. Например, проект Native Data [1] о сборе и обмене личных данных, в первую очередь о здоровье между индейскими организациями/поселениями/сообществами в США.
Всё это подаётся как Tribal data sovereignty [2], контроль индейскими территориями собственных данных. Там много любопытного в этом подходе к реализации права на то чтобы знать о себе и иметь право управлять тем кто получает личные данные.
Ссылки:
[1] https://nativedata.npaihb.org/
[2] https://nativedata.npaihb.org/glossary/#tribal-data-sovereignty
#opendata #datasharing #tribes
Всё это подаётся как Tribal data sovereignty [2], контроль индейскими территориями собственных данных. Там много любопытного в этом подходе к реализации права на то чтобы знать о себе и иметь право управлять тем кто получает личные данные.
Ссылки:
[1] https://nativedata.npaihb.org/
[2] https://nativedata.npaihb.org/glossary/#tribal-data-sovereignty
#opendata #datasharing #tribes
NPAIHB NativeDATA |
Home | NPAIHB NativeDATA
What is NativeDATA? NativeDATA is a free online resource that offers practical guidance for Tribes and Native-serving organizations on obtaining and sharing health data.
Вот уже довольно долгое время я слежу за активностью Минцифры и её [квази]подведов (РФРИТ) в сторону открытого кода. Слежу и в том что происходит в открытом пространстве, и говорю с вовлеченными лицами, и вижу что происходит в мире параллельно.
Честно говоря по итогам этого всего у меня назрело материалов на большой текст/колонку/статью/лонгрид, пока же в краткой форме напишу ибо "Writing is Thinking".
Для начала надо чётко разделить три направления взаимоотношения государства и open source сообщества/рынка.
1. Поддержка отечественных open source компаний
Что, на самом деле, конечно, поддержка международных сообществ тоже, опосредовано через вклад отечественных open source разработчиков. Причём разработчиков и внедренцев, на самом деле. То есть тех кто напрямую делает свои продукты и внедряет продукты с открытым кодом, контрибьютит в открытые репозитории.
Задача понятная, во многих странах применяемая правительствами стран через разного рода государственные и квазигосударственные фонды раздающие целевые гранты на создание и развитие ПО с открытым кодом. Имеет много измеримых социально экономических эффектов.
Ключевые адресаты тут:
- компании в рынке open source
- компании внедряющие продукты и готовые использовать open source решения
Никакой истории про госуправление и тд. тут нет. Только рынок, измеримые экономические показатели, вполне понятные модели измерения эффекта от любых применяемых мер госполитики.
2. Контроль за разработкой исходного кода господрядчиков
Это совсем другая тема, ключевой её посыл в том что органы власти и госучреждения тратят слишком много на софт, ещё больше на его внедрение. ПО получается так себе, внедрение тоже по разному, все хором говорят "ну что вы хотите, среда такая" и они правы. Попытки внедрения ГЕОПа, ГосТех'а, ФАПа, а до этого разного рода типовых решений - они про это. Они все про то что сейчас этой сложный рынок, без единого центра управления и у него нет централизованного регулятора. Попытки загнать всех сейчас в единый репозиторий - это одна из таких попыток. Казалось бы при чём здесь открытый код? Истории про гослицензии при госконтрактах - это как раз такой подход с попыткой национализации исходного кода продуктов поставщиков. Госпоставщики по ИТ, мягко говоря, не подарки, и применяют полный спектр неприятных ИТ практик с "двойной продажей кода", с внедрением неотделимых компонентов, с внедрением незаменимых зависимостей, с привязкой к вендорам, с оптимизацией кода под какое-нибудь самое редкое ипоганое дорогое железо и ещё много чего. Но, одновременно с этим это не вполне open source, это скорее source control (контроль исходного кода). Он нужен, к open source имеет малое отношение.
3. Открытый код госкоманд
А вот это то о чём рассказывал и рассказываю уже лет 7-8. Государство очень много кода инсорсит на внутренние команды, на команды в госпредприятиях и так далее. Этот код даже больше принадлежит государству чем код поставщиков по госконтрактам. В мире такими командами являются OpenSG (Сингапур), Government Digital Service (США), AlphaGov (Великобритания), 18F (США), Team Digitale (Италия) и многие другие. В России такие команды могли бы быть... но, но их нет. Многие из приложений создаваемых, например, RTLabs в Ростелекоме могли бы быть полностью с открытым кодом. Это и куски портала госуслуг, и мобильные приложения и многие другие сервисы. Когда я упоминаю открытость госкода на Github то это именно про те команды которые ведут открытую разработку госкода по всему миру. Фактически органы власти осуществляют создание общественного блага.
Честно говоря по итогам этого всего у меня назрело материалов на большой текст/колонку/статью/лонгрид, пока же в краткой форме напишу ибо "Writing is Thinking".
Для начала надо чётко разделить три направления взаимоотношения государства и open source сообщества/рынка.
1. Поддержка отечественных open source компаний
Что, на самом деле, конечно, поддержка международных сообществ тоже, опосредовано через вклад отечественных open source разработчиков. Причём разработчиков и внедренцев, на самом деле. То есть тех кто напрямую делает свои продукты и внедряет продукты с открытым кодом, контрибьютит в открытые репозитории.
Задача понятная, во многих странах применяемая правительствами стран через разного рода государственные и квазигосударственные фонды раздающие целевые гранты на создание и развитие ПО с открытым кодом. Имеет много измеримых социально экономических эффектов.
Ключевые адресаты тут:
- компании в рынке open source
- компании внедряющие продукты и готовые использовать open source решения
Никакой истории про госуправление и тд. тут нет. Только рынок, измеримые экономические показатели, вполне понятные модели измерения эффекта от любых применяемых мер госполитики.
2. Контроль за разработкой исходного кода господрядчиков
Это совсем другая тема, ключевой её посыл в том что органы власти и госучреждения тратят слишком много на софт, ещё больше на его внедрение. ПО получается так себе, внедрение тоже по разному, все хором говорят "ну что вы хотите, среда такая" и они правы. Попытки внедрения ГЕОПа, ГосТех'а, ФАПа, а до этого разного рода типовых решений - они про это. Они все про то что сейчас этой сложный рынок, без единого центра управления и у него нет централизованного регулятора. Попытки загнать всех сейчас в единый репозиторий - это одна из таких попыток. Казалось бы при чём здесь открытый код? Истории про гослицензии при госконтрактах - это как раз такой подход с попыткой национализации исходного кода продуктов поставщиков. Госпоставщики по ИТ, мягко говоря, не подарки, и применяют полный спектр неприятных ИТ практик с "двойной продажей кода", с внедрением неотделимых компонентов, с внедрением незаменимых зависимостей, с привязкой к вендорам, с оптимизацией кода под какое-нибудь самое редкое и
3. Открытый код госкоманд
А вот это то о чём рассказывал и рассказываю уже лет 7-8. Государство очень много кода инсорсит на внутренние команды, на команды в госпредприятиях и так далее. Этот код даже больше принадлежит государству чем код поставщиков по госконтрактам. В мире такими командами являются OpenSG (Сингапур), Government Digital Service (США), AlphaGov (Великобритания), 18F (США), Team Digitale (Италия) и многие другие. В России такие команды могли бы быть... но, но их нет. Многие из приложений создаваемых, например, RTLabs в Ростелекоме могли бы быть полностью с открытым кодом. Это и куски портала госуслуг, и мобильные приложения и многие другие сервисы. Когда я упоминаю открытость госкода на Github то это именно про те команды которые ведут открытую разработку госкода по всему миру. Фактически органы власти осуществляют создание общественного блага.
GitHub and Government
Who’s using GitHub?
Government agencies at the national, state, and local level use GitHub to share and collaborate. If you don’t see your organization on this list, follow the instructions below to add it!
И вот эта часть как раз про реформу госуправления, кроссведомственные команды, возможность внешним разработчикам улучшать государственный код (код госприложений).
—
Как вы понимаете все эти три направления не зависят друг от друга. Поддержка open source компаний - это про экономический эффект.
Контроль за исходным кодом господрядчиков - это про изменение баланса управления и предполагаемую экономия в закупках.
А вот с открытым кодом госкоманд в России хуже всего. Его просто нет. И не потому что нет культуры разработки, и не потому что нет готовности команд разработчиков. Как раз если не все, то многие вполне готовы. Нет главного - политической воли легализующей такую практику и драйверов внутри государства готовых вкладывать в это усилия.
Поэтому вот так, пока кратким текстом, я хочу зафиксировать что, по хорошему, направления развития открытого кода и контроля за кодом в рамках госконтрактов должны иметь свои сфокусированные усилия, не зависящие от движения по другим направлениям. Они вполне автономны и потенциал их гораздо больше чем то что пока реализуется.
P.S. Текст, всё таки, получился слишком длинным для Telegram'а и разбился на две части. Тем кто хочет увидеть го целиком то он же в Facebook'е https://www.facebook.com/ibegtin/posts/10158653240263263
#opensource #policy #policies #government
—
Как вы понимаете все эти три направления не зависят друг от друга. Поддержка open source компаний - это про экономический эффект.
Контроль за исходным кодом господрядчиков - это про изменение баланса управления и предполагаемую экономия в закупках.
А вот с открытым кодом госкоманд в России хуже всего. Его просто нет. И не потому что нет культуры разработки, и не потому что нет готовности команд разработчиков. Как раз если не все, то многие вполне готовы. Нет главного - политической воли легализующей такую практику и драйверов внутри государства готовых вкладывать в это усилия.
Поэтому вот так, пока кратким текстом, я хочу зафиксировать что, по хорошему, направления развития открытого кода и контроля за кодом в рамках госконтрактов должны иметь свои сфокусированные усилия, не зависящие от движения по другим направлениям. Они вполне автономны и потенциал их гораздо больше чем то что пока реализуется.
P.S. Текст, всё таки, получился слишком длинным для Telegram'а и разбился на две части. Тем кто хочет увидеть го целиком то он же в Facebook'е https://www.facebook.com/ibegtin/posts/10158653240263263
#opensource #policy #policies #government
Первый в мире стандарт по алгоритмической прозрачности принят правительством Великобритании [1]. В описании Algorithmic Transparency Standard [2] присутствует технический стандарт заполнения сведений об алгоритмических системах [3], а также шаблон и руководство по заполнению [4]
Стандарт был разработан в CDDO, The Cabinet Office’s Central Digital and Data Office, службе созданной в апреле 2021 года с фокусом на цифровые продукты и данные.
Здесь важно напомнить что в Великобритании уже существуют Национальная стратегия данных [5] и Национальная стратегия ИИ [6], а работа по созданию этого стандарта предварялась несколькими исследованиями и анализом применения ИИ и регулирования ИИ в других странах.
Ссылки:
[1] https://www.gov.uk/government/news/uk-government-publishes-pioneering-standard-for-algorithmic-transparency
[2] https://www.gov.uk/government/collections/algorithmic-transparency-standard
[3] https://www.gov.uk/government/publications/algorithmic-transparency-data-standard
[4] https://www.gov.uk/guidance/provide-information-on-how-you-use-algorithmic-tools-to-support-decisions-pilot-version
[5] https://www.gov.uk/government/publications/uk-national-data-strategy/national-data-strategy
[6] https://www.gov.uk/government/publications/national-ai-strategy/national-ai-strategy-html-version
#ai #policy #standards #uk
Стандарт был разработан в CDDO, The Cabinet Office’s Central Digital and Data Office, службе созданной в апреле 2021 года с фокусом на цифровые продукты и данные.
Здесь важно напомнить что в Великобритании уже существуют Национальная стратегия данных [5] и Национальная стратегия ИИ [6], а работа по созданию этого стандарта предварялась несколькими исследованиями и анализом применения ИИ и регулирования ИИ в других странах.
Ссылки:
[1] https://www.gov.uk/government/news/uk-government-publishes-pioneering-standard-for-algorithmic-transparency
[2] https://www.gov.uk/government/collections/algorithmic-transparency-standard
[3] https://www.gov.uk/government/publications/algorithmic-transparency-data-standard
[4] https://www.gov.uk/guidance/provide-information-on-how-you-use-algorithmic-tools-to-support-decisions-pilot-version
[5] https://www.gov.uk/government/publications/uk-national-data-strategy/national-data-strategy
[6] https://www.gov.uk/government/publications/national-ai-strategy/national-ai-strategy-html-version
#ai #policy #standards #uk
GOV.UK
UK government publishes pioneering standard for algorithmic transparency
The CDDO has launched an algorithmic transparency standard for government departments and public sector bodies, delivering on commitments made in the National Data Strategy and National AI Strategy.
В рубрике больших наборов данных, подборка наборов открытых данных о сетевой инфраструктуре.
- Статистика работы сервисов Tor в проекте CollectTor [1]. В общей сложности там несколько десятков гигабайт машиночитаемых данных по инфраструктуре Tor собранные с 2005 года.
- Real world networking datasets [2] - большая коллекция ссылок на наборы данных о трафике и сетевой инфраструктуре
- Project Sonar [3] наборы открытых данных результатов сканирования серверов DNS, IP адресов, подсетей и иной сетевой инфраструктуры. Десятки терабайт данных
- Censys Datasets [4] - наборы данных коммерческого проекта Censys с результатами сканирования всех адресов IPv4 (доступно только с разрешения владельца данных)
- Greynoise [5] - "серый шум", сервис отслеживания тех кто регулярно сканирует интернет и ведущий лог/базу данных всей сканирующей активности. Бесплатный ограниченный некоммерческий доступ и очень дорогой, $25k, коммерческий.
- CRAWDAD [6] архивы беспроводных данных в колледже Dartmouth. Включают данные собранные мобильными приложниями, Wifi, Bluetooth, Zigbee и др.
- RadioML [7] - датасеты естественных и симулированных записей данных радиочастот от DeepSig
Ссылки:
[1] https://metrics.torproject.org/collector.html
[2] https://gist.github.com/stefanbschneider/96602bb3c8b256b90058d59f337a0e59
[3] https://opendata.rapid7.com/
[4] https://search.censys.io/data
[5] https://www.greynoise.io
[6] https://crawdad.org/all-bydate.html
#opendata #networks #traffic #radio #datasets
- Статистика работы сервисов Tor в проекте CollectTor [1]. В общей сложности там несколько десятков гигабайт машиночитаемых данных по инфраструктуре Tor собранные с 2005 года.
- Real world networking datasets [2] - большая коллекция ссылок на наборы данных о трафике и сетевой инфраструктуре
- Project Sonar [3] наборы открытых данных результатов сканирования серверов DNS, IP адресов, подсетей и иной сетевой инфраструктуры. Десятки терабайт данных
- Censys Datasets [4] - наборы данных коммерческого проекта Censys с результатами сканирования всех адресов IPv4 (доступно только с разрешения владельца данных)
- Greynoise [5] - "серый шум", сервис отслеживания тех кто регулярно сканирует интернет и ведущий лог/базу данных всей сканирующей активности. Бесплатный ограниченный некоммерческий доступ и очень дорогой, $25k, коммерческий.
- CRAWDAD [6] архивы беспроводных данных в колледже Dartmouth. Включают данные собранные мобильными приложниями, Wifi, Bluetooth, Zigbee и др.
- RadioML [7] - датасеты естественных и симулированных записей данных радиочастот от DeepSig
Ссылки:
[1] https://metrics.torproject.org/collector.html
[2] https://gist.github.com/stefanbschneider/96602bb3c8b256b90058d59f337a0e59
[3] https://opendata.rapid7.com/
[4] https://search.censys.io/data
[5] https://www.greynoise.io
[6] https://crawdad.org/all-bydate.html
#opendata #networks #traffic #radio #datasets
Gist
List of datasets related to networking. Useful for data-driven evaluation or machine learning approaches. Feel free to comment…
List of datasets related to networking. Useful for data-driven evaluation or machine learning approaches. Feel free to comment with updates. - networking_datasets.md
Довольно простое и давно планировавшееся обновление в DataCrafter'е - экспорт данных таблиц в простых форматах. Сейчас поддерживаются JSONl, csv и parquet. JSON lines для всех видов данных, а csv и parquet для данных в плоских таблицах. При генерации данных для экспорта всегда есть баланс между нагрузкой на базы данных, объёмами хранения и скоростью отдачи результатов. Эти данные экспортируются не на лету, а по расписанию, тем самым нагрузка на БД и процессор минимизируется, а хранить приходится сильно больше.
Forwarded from APICrafter
Обновления в каталоге APICrafter
Что нового
1. Данные о пакетах данных теперь публикуются более компактно. Страница пакета данных теперь включает сведения о характеристиках, таблицах и сборках данных вместе. Например [1] [2]
2. Таблицы открытых наборов данных теперь можно скачать в форматах JSONl, CSV и Parquet. Ссылки на данные публикуются на странице таблицы, например, "Точки обмена" [3]
Экспорт данных сейчас работает со следующими ограничениями:
- экспорт только для наборов данных менее чем с 100 тысячами записей
- форматы csv и parquet доступны только для таблиц без вложенных объектов
- сборки данных включают все данные и доступны всегда
Формат Parquet [4] популярен в data science и активно используется с помощью Jupyter Notebook.
Мы обязательно опубликуем примеры его использования.
Ссылки:
[1] https://tinyurl.com/2s3vuxaf
[2] https://tinyurl.com/2p89vp2k
[3] https://tinyurl.com/yckma22e
[4] https://tinyurl.com/mr4xjdmd
#apicrafter #datascience #datasets #parquet #json #csv
Что нового
1. Данные о пакетах данных теперь публикуются более компактно. Страница пакета данных теперь включает сведения о характеристиках, таблицах и сборках данных вместе. Например [1] [2]
2. Таблицы открытых наборов данных теперь можно скачать в форматах JSONl, CSV и Parquet. Ссылки на данные публикуются на странице таблицы, например, "Точки обмена" [3]
Экспорт данных сейчас работает со следующими ограничениями:
- экспорт только для наборов данных менее чем с 100 тысячами записей
- форматы csv и parquet доступны только для таблиц без вложенных объектов
- сборки данных включают все данные и доступны всегда
Формат Parquet [4] популярен в data science и активно используется с помощью Jupyter Notebook.
Мы обязательно опубликуем примеры его использования.
Ссылки:
[1] https://tinyurl.com/2s3vuxaf
[2] https://tinyurl.com/2p89vp2k
[3] https://tinyurl.com/yckma22e
[4] https://tinyurl.com/mr4xjdmd
#apicrafter #datascience #datasets #parquet #json #csv
Вышла свежая версия Delta Lake [1], open source продукта по созданию озер данных используемого во многих облачных решениях, например, в MS Azure [2], а также в Google Cloud и AWS. Создатели Delta Lake, компания Databricks [3], а сам проект переведен в Linux Foundation [4].
Инструмент полезный, если не первоочередной для инженеров данных не имеющих ограничений на работу с облачными продуктами.
Ссылки:
[1] https://github.com/delta-io/delta/releases/tag/v1.1.0
[2] https://docs.microsoft.com/en-us/azure/synapse-analytics/spark/apache-spark-what-is-delta-lake
[3] https://databricks.com/
[4] https://www.linuxfoundation.org/projects
#data #tools
Инструмент полезный, если не первоочередной для инженеров данных не имеющих ограничений на работу с облачными продуктами.
Ссылки:
[1] https://github.com/delta-io/delta/releases/tag/v1.1.0
[2] https://docs.microsoft.com/en-us/azure/synapse-analytics/spark/apache-spark-what-is-delta-lake
[3] https://databricks.com/
[4] https://www.linuxfoundation.org/projects
#data #tools
GitHub
Release Delta Lake 1.1.0 · delta-io/delta
We are excited to announce the release of Delta Lake 1.1.0 on Apache Spark 3.2. Similar to Apache Spark™, we have released Maven artifacts for both Scala 2.12 and Scala 2.13. The key features in th...
ICIJ опубликовали данные из Pandora Papers [1]. Они доступны для поиска на их сайте и в виде дампов [2] для графовой базы данных Neo4J. Проще всего их скачать из репозитория на Github [3] в виде файла дампа на 429 МБ, а работать с данными в Neo4J Desktop [4]. Я думаю что сейчас в ближайшее время много будет желающих заглянуть в эти данные, журналисты так наверняка найдут там что-то интересное.
И, конечно, есть актуальная задача преобразовать эти данные в более популярные формы, потому что дампы Neo4J только в Neo4J и можно обрабатывать, а простых инструментов конвертации этих дампов нет, только через загрузку в Neo4J и последующий экспорт данных.
Ссылки:
[1] https://offshoreleaks.icij.org/investigations/pandora-papers
[2] https://offshoreleaks.icij.org/pages/database
[3] https://github.com/ICIJ/offshoreleaks-data-packages/tree/main/data
[4] https://neo4j.com/download/
#leaks #data #opendata #datasets
И, конечно, есть актуальная задача преобразовать эти данные в более популярные формы, потому что дампы Neo4J только в Neo4J и можно обрабатывать, а простых инструментов конвертации этих дампов нет, только через загрузку в Neo4J и последующий экспорт данных.
Ссылки:
[1] https://offshoreleaks.icij.org/investigations/pandora-papers
[2] https://offshoreleaks.icij.org/pages/database
[3] https://github.com/ICIJ/offshoreleaks-data-packages/tree/main/data
[4] https://neo4j.com/download/
#leaks #data #opendata #datasets
offshoreleaks.icij.org
Browse | ICIJ Offshore Leaks Database
Find out who’s behind more than 800,000 offshore companies, foundations and trusts from ICIJ’s investigations.
Приложение родительского контроля Life360 поймали на продаже данных 33 миллионов пользователей [1]. Вернее как поймали, об этом и раньше было известно что продажа данных - это часть их бизнес модели, но подробности не были доступны. А вот теперь мы можем узнать из откровений бывшего сотрудника что Life360 продавали данные таким агрегаторам перс. данных как X-Mode и Safegraph. В статье также упоминается что X-Mode продавали данные департаменту обороны США, а Safegraph продавли их Centers for Disease Control and Prevention (CDC), агентству США отслеживающему распространение COVID-19.
Ссылки:
[1] https://themarkup.org/privacy/2021/12/06/the-popular-family-safety-app-life360-is-selling-precise-location-data-on-its-tens-of-millions-of-user
#privacy #apps #mobile
Ссылки:
[1] https://themarkup.org/privacy/2021/12/06/the-popular-family-safety-app-life360-is-selling-precise-location-data-on-its-tens-of-millions-of-user
#privacy #apps #mobile
The Markup
The Popular Family Safety App Life360 Is Selling Precise Location Data on Its Tens of Millions of Users
The app is a major source of raw location data for a multibillion-dollar industry that buys, packages, and sells people’s movements
А вот и первые современные медиа пишущие о цифровой архивации. В рассылке Сверхновой о том почему архивация сайтов важная и примеры того кто и как это делает [1]. Там же они упоминают мою инструкцию о том как архивировать сайты и я её напомню для тех кто мог пропустить [2].
Напомню также про другие мои тексты о цифровой архивации:
- The Bit list of Digitally endangered species [3]
- О архивации институтов развития [4]
- О сервисах веб-архивации [5]
- О исчезновении сайта установного суда Санкт-Петербурга [6]
- О подходах к цифровой архивации [7]
- О сравнении архивных копий веб-страниц [8]
- Рождённые в цифре. Цифровые архивы в новейшей истории [9]
- О Archives Unleashed Toolkit [10]
А также многом другом что можно найти у меня в телеграм канале по хэштегу #digitalpreservation
И, вновь, повторюсь что хорошо что о цифровых архивах начали писать журналисты. Это большой прогресс за прошедшие годы.
Ссылки:
[1] https://supernovamedia.substack.com/p/--e13
[2] https://begtin.substack.com/p/18
[3] https://yangx.top/begtin/3258
[4] https://yangx.top/begtin/3253
[5] https://yangx.top/begtin/3070
[6] https://yangx.top/begtin/3057
[7] https://yangx.top/begtin/2397
[8] https://yangx.top/begtin/2356
[9] https://begtin.substack.com/p/7-digital-born-
[10] https://yangx.top/begtin/2044
#digitalpreservation #webarchives #archives
Напомню также про другие мои тексты о цифровой архивации:
- The Bit list of Digitally endangered species [3]
- О архивации институтов развития [4]
- О сервисах веб-архивации [5]
- О исчезновении сайта установного суда Санкт-Петербурга [6]
- О подходах к цифровой архивации [7]
- О сравнении архивных копий веб-страниц [8]
- Рождённые в цифре. Цифровые архивы в новейшей истории [9]
- О Archives Unleashed Toolkit [10]
А также многом другом что можно найти у меня в телеграм канале по хэштегу #digitalpreservation
И, вновь, повторюсь что хорошо что о цифровых архивах начали писать журналисты. Это большой прогресс за прошедшие годы.
Ссылки:
[1] https://supernovamedia.substack.com/p/--e13
[2] https://begtin.substack.com/p/18
[3] https://yangx.top/begtin/3258
[4] https://yangx.top/begtin/3253
[5] https://yangx.top/begtin/3070
[6] https://yangx.top/begtin/3057
[7] https://yangx.top/begtin/2397
[8] https://yangx.top/begtin/2356
[9] https://begtin.substack.com/p/7-digital-born-
[10] https://yangx.top/begtin/2044
#digitalpreservation #webarchives #archives
сверхновая
Запомнить все хорошее
Как архивируют интернет
Forwarded from Инфокультура
В каталог открытых данных Инфокультуры (datacatalogs.ru) добавлены новые каталоги данных и репозитории
Генетические и биологические (зоологические и ботанические) коллекции Российской Федерации
Цель создания ресурса - разработка информационной системы по генетическим и биологическим (зоологическим и ботаническим) коллекциям РФ в виде общедоступного WEB - сервера, предназначенного для выполнения ключевых функций по проблеме инвентаризации и документирования генетических ресурсов в РФ и удовлетворения информационных потребностей федеральных органов власти, научного сообщества, международных и национальных общественных организаций.
Портал социологических данных РАНХиГС
"Портал социологических данных РАНХиГС — это большая тематическая информационная платформа, открытая база актуальных исследований, проводимых различными подразделениями Академии. Причем речь идет не только о социологических, но и о междисциплинарных проектах.
Фонд данных ДЗЗ
Геопортал Роскосмоса - ресурс, который сочетает в себе средство просмотра космических снимков земной поверхности и средство поиска/заказа данных из Федерального фонда данных ДЗЗ. Отдельным группам пользователей также предоставляется сервис заказа проведения космической съёмки российскими аппаратами ДЗЗ."
База социологических данных ВЦИОМ
Базы данных результатов социологических опросов ВЦИОМ. Включая базы данных Спутник, Архивариус и Roper
Каталог социальных исследований Евразийский монитор
Каталог результатов социологических исследований Евразийский монитор. Включает большое число исследований и данные в формате Microsoft Excel.
—
Если Вы знаете какой-либо каталог данных отсутствующий в репозитории, напишите нам о нём через в форму на сайте или на почту [email protected]. Это может быть государственный, общественный, частный, научный каталог данных по которому доступно хотя бы описание метаданных того что в нём содержится, а ещё лучше если это каталог открытых данных.
#opendata #datacatalogs #datasets
Генетические и биологические (зоологические и ботанические) коллекции Российской Федерации
Цель создания ресурса - разработка информационной системы по генетическим и биологическим (зоологическим и ботаническим) коллекциям РФ в виде общедоступного WEB - сервера, предназначенного для выполнения ключевых функций по проблеме инвентаризации и документирования генетических ресурсов в РФ и удовлетворения информационных потребностей федеральных органов власти, научного сообщества, международных и национальных общественных организаций.
Портал социологических данных РАНХиГС
"Портал социологических данных РАНХиГС — это большая тематическая информационная платформа, открытая база актуальных исследований, проводимых различными подразделениями Академии. Причем речь идет не только о социологических, но и о междисциплинарных проектах.
Фонд данных ДЗЗ
Геопортал Роскосмоса - ресурс, который сочетает в себе средство просмотра космических снимков земной поверхности и средство поиска/заказа данных из Федерального фонда данных ДЗЗ. Отдельным группам пользователей также предоставляется сервис заказа проведения космической съёмки российскими аппаратами ДЗЗ."
База социологических данных ВЦИОМ
Базы данных результатов социологических опросов ВЦИОМ. Включая базы данных Спутник, Архивариус и Roper
Каталог социальных исследований Евразийский монитор
Каталог результатов социологических исследований Евразийский монитор. Включает большое число исследований и данные в формате Microsoft Excel.
—
Если Вы знаете какой-либо каталог данных отсутствующий в репозитории, напишите нам о нём через в форму на сайте или на почту [email protected]. Это может быть государственный, общественный, частный, научный каталог данных по которому доступно хотя бы описание метаданных того что в нём содержится, а ещё лучше если это каталог открытых данных.
#opendata #datacatalogs #datasets
datacatalogs.ru/
Каталог каталогов открытых данных
Поиск и фильтрация каталогов открытых данных