Я в декабре 2019 года писал про проект ASPI по идентификации активности китайских технологических компаний в мире, он не обновлялся почти 2 года и, оказывается, неожиданно был обновлён в июне 2021 г. В виде большого набора данных и на карте собраны сведения о 3948 инициативах китайских технологических компаний в мире: совместных производствах, контрактах, обучении, дочерних предприятиях, тренингах и многом другом. Всего 27 компаний в 186 странах. В России всего 121 такой проект. Можно обратить внимание, например, на проекты Meiya Pico, продавших в 2018 году Следственному комитету РФ технологию MagiCube для вскрытия телефонов iPhone и Android. По видимому, они заменили, израильскую компанию Cellebrite продуктами которой ранее пользовались отечественные правоохранители.
Что тут добавить, если даже российские госорганы закрывают госзакупки, это не значит что информацию о них скроют поставщики. Им же надо привлекать клиентов и показывать успехи.
#privacy #china #surveillance
Что тут добавить, если даже российские госорганы закрывают госзакупки, это не значит что информацию о них скроют поставщики. Им же надо привлекать клиентов и показывать успехи.
#privacy #china #surveillance
В рубрике "открытые большие наборы данных", напомню про многочисленные открытые наборы данных с которыми можно работать в любое время.
* Common Crawl - огромный общедоступный поисковый индекс. На его основе создается множество проектов, включая, например, PrivaSeer, поисковик по условиям приватности.
* Wikipedia dumps - дампы базы данных Википедии и связанных с ней проектов, на всех языках.
* DBLP - открытая база данных библиографии в computer science. Полезная всем кто разрабатывает алгоритмы поиска трендов в научных исследованиях.
* Awesome Public Datasets - большой каталог источников открытых данных, как правило, большого объёма.
И, конечно, напомню про свежезапущенный нами каталог каталогов данных (datacatalogs.ru) где можно найти каталог данных в России, о России, связанных с России и русскоязычными пользователями данных.
#opendata #datasets #datasources
* Common Crawl - огромный общедоступный поисковый индекс. На его основе создается множество проектов, включая, например, PrivaSeer, поисковик по условиям приватности.
* Wikipedia dumps - дампы базы данных Википедии и связанных с ней проектов, на всех языках.
* DBLP - открытая база данных библиографии в computer science. Полезная всем кто разрабатывает алгоритмы поиска трендов в научных исследованиях.
* Awesome Public Datasets - большой каталог источников открытых данных, как правило, большого объёма.
И, конечно, напомню про свежезапущенный нами каталог каталогов данных (datacatalogs.ru) где можно найти каталог данных в России, о России, связанных с России и русскоязычными пользователями данных.
#opendata #datasets #datasources
Свежее расследование в The Markup о том как Amazon манипулирует выдачей в своём магазине и подсовывает свои товары в результаты поиска и просмотра так чтобы их чаще покупали. При этом продукты Amazon оказываются в топе выдачи даже если у их конкурентов выше оценки потребителей, их больше покупают и так далее. У The Markup получаются очень интересные лонгриды, с интерактивом, и с результатами соцопросов и обработки данных. А в этой статье они ещё и выложили весь код и все данные которые собрали проверяя теорию что Amazon продвигает свои бренды в первую очередь. Этот код и данные - это почти 300 ГБ в распакованном виде и около 11 ГБ в сжатом виде. Очень много данных, собранных на февраль 2021.
Лично мне нравится как The Markup подходит к расследованиям и акцент редакции на Big Tech. Не знаю воспроизводима ли их модель в стране отличной от США, но читать интересно.
#opendata #datasets #datajournalism #ddj #bigtech
Лично мне нравится как The Markup подходит к расследованиям и акцент редакции на Big Tech. Не знаю воспроизводима ли их модель в стране отличной от США, но читать интересно.
#opendata #datasets #datajournalism #ddj #bigtech
Postman опубликовали свежий отчет The State of API 2021 [1], отчет они проводили на своей платформе, поэтому неудивительно что в нём они фигурируют как лидер инструментария по работе с API, но даже несмотря на это искажение, вполне возможно что они правы. Удивительно малое присутствие другие API инструментов и сервисов, например, RapidAPI, маркетплейс для API родом из Израиля, оказывается малопопулярен среди разработчиков, а вот корпоративные продукты от Microsoft, Google, Oracle, IBM вполне интересны (почти все они это купленные стартапы). Как всегда интересное чтение, Postman, действительно, один из лучших коммерческих инструментов проектирования и тестирования API, но, конечно, далеко не единственный и не универсальный. Например, для GraphQL или проектирования SOAP есть альтернативы (хотя кому придёт в голову проектировать SOAP API в наше то время? ).
Как бы то ни было рынок API сейчас на подъёме в мире и это уже неплохой мотиватор делать продукты изначально ориентированные на предоставление API.
Ссылки:
[1] https://www.postman.com/state-of-api
#API #reports
Как бы то ни было рынок API сейчас на подъёме в мире и это уже неплохой мотиватор делать продукты изначально ориентированные на предоставление API.
Ссылки:
[1] https://www.postman.com/state-of-api
#API #reports
Postman API Platform
2024 State of the API Report
The most comprehensive survey on APIs with over 5,600 developers and API professionals the 6th year in a row.
В рубрике "интересные наборы данных" база данных пауков World Spider Catalog [1] с описанием более чем 49 000+ специй и с возможностью выгрузки всей базы данных целиком в машиночитаемом виде [2] в CSV формате. Каталог поддерживается Naturhistorisches Museum Bern, спонсируется несколькими организациями изучающими арахнологию.
Данные будут интересны не только опытным арахнологам, но и всем кто интересуется пауками всех возможных видов и форм.
Ссылки:
[1] https://wsc.nmbe.ch
[2] https://wsc.nmbe.ch/dataresources
#opendata #datasets #openaccess
Данные будут интересны не только опытным арахнологам, но и всем кто интересуется пауками всех возможных видов и форм.
Ссылки:
[1] https://wsc.nmbe.ch
[2] https://wsc.nmbe.ch/dataresources
#opendata #datasets #openaccess
wsc.nmbe.ch
NMBE - World Spider Catalog
Detailed taxonomic information about the spider families
То что мы в России называем машиночитаемыми законами в мире чаще называют machine-consumable legislation (машинопотребляемыми законами/регулированием). О них и концепции Rules as Code в обзоре Why you should develop a Rules as Code-enabled future [1] от Tim de Sousa, автора Rules as Code Handbook.
Он упоминает многие продукты которые уже создаются внутри технологических команд в государствах. Например, Policy Difference Engine [2] в Канаде и проект DataLex в Австралии
Ссылки:
[1] https://apolitical.co/solution-articles/en/develop-rules-as-code-enabled-future
[2] https://codefor.ca/blog/introducing-the-policy-difference-engine
#laws #regulation #legislation #legaltech
Он упоминает многие продукты которые уже создаются внутри технологических команд в государствах. Например, Policy Difference Engine [2] в Канаде и проект DataLex в Австралии
Ссылки:
[1] https://apolitical.co/solution-articles/en/develop-rules-as-code-enabled-future
[2] https://codefor.ca/blog/introducing-the-policy-difference-engine
#laws #regulation #legislation #legaltech
Forwarded from APICrafter
В каталог Datacrafter'а загружены данные 19 реестров и справочников из Федерального информационного фонд по обеспечению единства измерений (ФГИС Аршин), государственной информационной системы в ведении Росстандарта. В том числе такие наборы данных как:
- Аттестованные методики (методы) измерений - 39 тысяч записей
- Эталоны единиц величин - 114 тысяч записей
- Утверждённые типы средств измерений - 99 тысяч записей
Эти данные, а также остальные наборы данных загружены в раздел Справочники и классификаторы.
Все они доступны для бесплатного открытого использования через API DataCrafter и с возможностью получить весь набор данных в виде базы MongoDB.
Далее продолжится работа по классификаци и анализу всех загруженных метаданных в этих наборах данных.
В будущем ждите больше данных, идёт работа по агрегации крупнейших каталогов данных.
#opendata #datasets #metrology
- Аттестованные методики (методы) измерений - 39 тысяч записей
- Эталоны единиц величин - 114 тысяч записей
- Утверждённые типы средств измерений - 99 тысяч записей
Эти данные, а также остальные наборы данных загружены в раздел Справочники и классификаторы.
Все они доступны для бесплатного открытого использования через API DataCrafter и с возможностью получить весь набор данных в виде базы MongoDB.
Далее продолжится работа по классификаци и анализу всех загруженных метаданных в этих наборах данных.
В будущем ждите больше данных, идёт работа по агрегации крупнейших каталогов данных.
#opendata #datasets #metrology
DataCrafter
Справочники и классификаторы
Наборы данных справочников и классификаторов
В рубрике "интересные наборы данных" и "как это работает у них" данные раскрытия сведений о заболеваемости COVID-19 в Италии [1]. Репозиторий опубликован на платформе Github и включает ежедневно обновляемые сведения о статистике заболевания в разрезе страны и территорий, сведения о вакцинации и многое другое. Данные обновляются автоматически, опубликованы под лицензией Creative Commons CC-BY 4.0. Это официальный репозиторий сообщества государственных open source разработчиков Италии (developers.italia.it) [2].
Многие данные по COVID-19 в региональном и общестрановом разрезе публикуются на итальянском портале открытых данных [3]. Как и российский портал открытых данных он сделан на базе ПО Dkan, но отличается тем что его открытый код общедоступен [4], а сами данные обновляются на регулярной основе. Многие данные из 47 тысяч наборов открытых данных в итальянском национальном портале данных - это геоданные. Геоданные публикуются на портале geodati.gov.it [5], и значительная их часть доступны как открытые данные.
Ссылки:
[1] https://github.com/italia/covid19-opendata-vaccini
[2] https://developers.italia.it
[3] https://www.dati.gov.it/view-dataset?Cerca=covid
[4] https://github.com/FormezPA/dkan
[5] https://geodati.gov.it/
#opendata #opengov #italy #datasets
Многие данные по COVID-19 в региональном и общестрановом разрезе публикуются на итальянском портале открытых данных [3]. Как и российский портал открытых данных он сделан на базе ПО Dkan, но отличается тем что его открытый код общедоступен [4], а сами данные обновляются на регулярной основе. Многие данные из 47 тысяч наборов открытых данных в итальянском национальном портале данных - это геоданные. Геоданные публикуются на портале geodati.gov.it [5], и значительная их часть доступны как открытые данные.
Ссылки:
[1] https://github.com/italia/covid19-opendata-vaccini
[2] https://developers.italia.it
[3] https://www.dati.gov.it/view-dataset?Cerca=covid
[4] https://github.com/FormezPA/dkan
[5] https://geodati.gov.it/
#opendata #opengov #italy #datasets
GitHub
GitHub - italia/covid19-opendata-vaccini: Open Data su consegna e somministrazione dei vaccini anti COVID-19 in Italia - Commissario…
Open Data su consegna e somministrazione dei vaccini anti COVID-19 in Italia - Commissario straordinario per l'emergenza Covid-19 - italia/covid19-opendata-vaccini
У 77% от общего числа или, в цифрах, у 3852 некоммерческих организаций в России в форме АНО, фондов, благотворительных фондов, общественных фондов, экологических фондов, религиозных организаций зарегистрированных в России за 2021 год в ЕГРЮЛ отсутствуют сведения об учредителях. Много это или мало? За 2021 год было зарегистрировано всего 5143 подобных НКО. Соответственно 77% от их числа - это очень много.
Примерно с 24 августа это касается всех зарегистрированных НКО подобного типа. с 24 августа по 7 ноября их было зарегистрировано 1056 организаций, ни по одной из них в ЕГРЮЛ недоступны сведения об учредителях.
Примеры организаций, коды ОГРН: 1216900011151, 1217400031012, 1212400022680
Проверить их можно в сервисах проверки контрагентов или в ЕГРЮЛ напрямую egrul.nalog.ru [1].
Для сравнения в 2020 году было зарегистрировано 5291 юридическое лицо в этих формах собственности и из них по 965 отсутствуют сведения об учредителях, это 18,2% от общего числа. Тоже много, тоже надо разбираться почему, но это куда меньше чем в этом году,
Отдельно надо разбираться что было в предыдущие годы, но рост неполноты данных от 18,2% до 77% - это очень серьёзно. Хочется надеяться что этому есть какое-то разумное объяснение.
А я напомню что один из проектов Инфокультуры - Открытые НКО (openngo.ru) [2] открытая база и открытые данные по всем некоммерческим организациям. База включает, в том числе, сведения из баз APICrafter'а и регулярно обновляется данными из ЕГРЮЛ. Полнота и точность сведений об учредителях организаций необходима для всех проверок контрагентов, задач проверок комплаенс и многого другого привычного в деловой практике.
Повторяется ли подобная ситуация для юридических лиц в иных формах собственности сказать не возьмусь, тотальная проверка всех зарегистрированных за 2021 год юр. лиц задача куда более трудоёмкая.
Ссылки:
[1] https://egrul.nalog.ru
[2] https://openngo.ru
#opendata #data #registries
Примерно с 24 августа это касается всех зарегистрированных НКО подобного типа. с 24 августа по 7 ноября их было зарегистрировано 1056 организаций, ни по одной из них в ЕГРЮЛ недоступны сведения об учредителях.
Примеры организаций, коды ОГРН: 1216900011151, 1217400031012, 1212400022680
Проверить их можно в сервисах проверки контрагентов или в ЕГРЮЛ напрямую egrul.nalog.ru [1].
Для сравнения в 2020 году было зарегистрировано 5291 юридическое лицо в этих формах собственности и из них по 965 отсутствуют сведения об учредителях, это 18,2% от общего числа. Тоже много, тоже надо разбираться почему, но это куда меньше чем в этом году,
Отдельно надо разбираться что было в предыдущие годы, но рост неполноты данных от 18,2% до 77% - это очень серьёзно. Хочется надеяться что этому есть какое-то разумное объяснение.
А я напомню что один из проектов Инфокультуры - Открытые НКО (openngo.ru) [2] открытая база и открытые данные по всем некоммерческим организациям. База включает, в том числе, сведения из баз APICrafter'а и регулярно обновляется данными из ЕГРЮЛ. Полнота и точность сведений об учредителях организаций необходима для всех проверок контрагентов, задач проверок комплаенс и многого другого привычного в деловой практике.
Повторяется ли подобная ситуация для юридических лиц в иных формах собственности сказать не возьмусь, тотальная проверка всех зарегистрированных за 2021 год юр. лиц задача куда более трудоёмкая.
Ссылки:
[1] https://egrul.nalog.ru
[2] https://openngo.ru
#opendata #data #registries
openngo.ru
Полная база данных о некоммерческих организациях | Открытые НКО
Найдите информацию о том, чем занимаются НКО, кем и как финансируются : финансы, источники доходов, арбитраж, общая информация о некоммерческой организации
Специально для российских госорганов и крупного бизнеса которые очень стараются избегать любого прямого регулирования внедрения ИИ, приведу пример нерегуляторной модели. Этический комитет был создан при West Midlands Police департаменте полиции в Великобритании в котором происходили и происходят эксперименты по внедрению National Data Analytics Solution (NDAS) специальной прогностической системы предупреждения преступлений на основе больших данных. Этот комитет ежемесячно собирается и публикует, как результаты своего анализа, так и представленные полицией материалы. Материалы, кстати, весьма интересные всем кто интересуется тематикой цифрового дознания [1].
Да, саморегулирование может быть устроено подобным образом, но только через полную транспарентность решений и раскрытие деталей о том как обеспечивается обучение алгоритмов.
Ссылки:
[1] https://www.westmidlands-pcc.gov.uk/ethics-committee/ethics-committee-reports-and-minutes/
#ai #regulation #police #predictivepolicing #uk #ndas
Да, саморегулирование может быть устроено подобным образом, но только через полную транспарентность решений и раскрытие деталей о том как обеспечивается обучение алгоритмов.
Ссылки:
[1] https://www.westmidlands-pcc.gov.uk/ethics-committee/ethics-committee-reports-and-minutes/
#ai #regulation #police #predictivepolicing #uk #ndas
West Midlands Police & Crime Commissioner
Ethics Committee Reports and Minutes - West Midlands Police & Crime Commissioner
В рубрике интересные книги - свежевышедшая The Informed Company: How to Build Modern Agile Data Stacks that Drive Winning Insights [1] от Dave Fowler и Mattew David о том как организовать современный стэк технологий для работы с данными (data stack), как устроена архитектура с данными в облаке и какие стратегии работы с данными есть у малых, средних и крупных компаний.
Книга рассказывает в подробностях о том что такое Data Source, Data Lake, Data Warehouse и Data Marts (по русски - источники данных, озера данных, хранилища данных и витрины данных), но главное её достоинство для одних и недостаток для других - это простота изложения, вплоть до жанра "озера данных для самых маленьких". Для опытных специалистов это всё может показаться азами, например, там довольно ограниченный перечень описываемых архитектур, структуры и компонентов современного стэка. К примеру в прошлогоднем обзоре Emerging Architectures for Modern Data Infrastructure [2] от Andreessen Horowitz тоже наглядно, но несколько более детальнее>
А вот для руководителей которые должны быть компетентными заказчиками, но часто не разбираются в технологиях эта книга будет очень полезна также как и полезна для обучения студентов современным средам работы с данными.
Этот акцент на понятности у авторов неудивителен, оба они из компании ChartIO, недавно приобретённой Atlassian и у ChartIO есть серия веб-книг DataSchool [3] о том как научиться SQL, как преподавать SQL, как работать с данными в облаке и многое другое. Все они написаны в очень доступном стиле для обучения аналитиков с нуля и тех кто учит аналитиков с нуля. Если присмотреться, то The Informed Company и эти книжки пересекаются по содержанию где-то процентов на 50-60%, главное же изменение в смене акцента аудитории на руководителей и управлении данными.
Ссылки:
[1] https://www.amazon.com/Informed-Company-Modern-Winning-Insights-ebook-dp-B09K5ZMDDN/dp/B09K5ZMDDN/
[2] https://future.a16z.com/emerging-architectures-modern-data-infrastructure/
[3] https://dataschool.com/
#data #datamanagement #books #reviews
Книга рассказывает в подробностях о том что такое Data Source, Data Lake, Data Warehouse и Data Marts (по русски - источники данных, озера данных, хранилища данных и витрины данных), но главное её достоинство для одних и недостаток для других - это простота изложения, вплоть до жанра "озера данных для самых маленьких". Для опытных специалистов это всё может показаться азами, например, там довольно ограниченный перечень описываемых архитектур, структуры и компонентов современного стэка. К примеру в прошлогоднем обзоре Emerging Architectures for Modern Data Infrastructure [2] от Andreessen Horowitz тоже наглядно, но несколько более детальнее>
А вот для руководителей которые должны быть компетентными заказчиками, но часто не разбираются в технологиях эта книга будет очень полезна также как и полезна для обучения студентов современным средам работы с данными.
Этот акцент на понятности у авторов неудивителен, оба они из компании ChartIO, недавно приобретённой Atlassian и у ChartIO есть серия веб-книг DataSchool [3] о том как научиться SQL, как преподавать SQL, как работать с данными в облаке и многое другое. Все они написаны в очень доступном стиле для обучения аналитиков с нуля и тех кто учит аналитиков с нуля. Если присмотреться, то The Informed Company и эти книжки пересекаются по содержанию где-то процентов на 50-60%, главное же изменение в смене акцента аудитории на руководителей и управлении данными.
Ссылки:
[1] https://www.amazon.com/Informed-Company-Modern-Winning-Insights-ebook-dp-B09K5ZMDDN/dp/B09K5ZMDDN/
[2] https://future.a16z.com/emerging-architectures-modern-data-infrastructure/
[3] https://dataschool.com/
#data #datamanagement #books #reviews
Как-то я всё больше и больше и говорю про приватность, а не про открытость. Но что это означает? Нужно больше откртытых данных по теме приватности! Присоединяйтесь сегодня в 19 часов к голосовому чату на @GDPRru
Forwarded from Privacy GDPR Russia
#events #privacy #radiogroot
Когда: 09 ноября 19:00(мск)
Где: голосовой чат в канале Privacy GDPR Russia
Тема: RadioGroot. Privacy поболтушки
В гостях: Иван Бегтин
Кто: Автор канала про большие данные и приватность
Организатор: RPPA
Язык: русский
Стоимость: бесплатно
Подробности: заходи в канал
🗓 Добавить в календарь
💬Оставляй вопросы спикеру здесь⬇️⬇️⬇️
Когда: 09 ноября 19:00(мск)
Где: голосовой чат в канале Privacy GDPR Russia
Тема: RadioGroot. Privacy поболтушки
В гостях: Иван Бегтин
Кто: Автор канала про большие данные и приватность
Организатор: RPPA
Язык: русский
Стоимость: бесплатно
Подробности: заходи в канал
🗓 Добавить в календарь
💬Оставляй вопросы спикеру здесь⬇️⬇️⬇️
В рубрике инструментов работы с данными, об инструментах с открытым кодом для работы над качеством данных.
- OpenRefine - инструмент для ручной/автоматизированной очистки наборов данных. Работает преобразуя их в плоские таблицы, поддерживает Excel/CSV/JSON/JSON lines и другие форматы. Позволяет проводить довольно гибкие преобразования по отдельным колонкам. Основан на продукте Google Refine, когда-то переданным компанией в open source.
- Great Expectations - "Большие ожидания", библиотека для языка Python, одна из наиболее активно используемых для автоматической валидации значений в наборах данных, потоках данных, data pipelines и не только.
- Soda-SQL - инструмент с открытым кодом для создания метрик и тестирования данных в SQL базах данных. Поддерживает несколько SQL баз данных и несколько базовых видов/типов полей. Умеет анализировать данные в СУБД и на основе этого рекомендовать автоматизированные тесты.
- Re-data - инструмент подсчёта метрик и проверки качества данных в SQL базах данных. Включает возможность активного мониторинга данных.
- ODD Platform - Open Data Discovery Platform, включает механизмы проверки качества данных, а сама платформа делается на основе ODD Spec спецификации описания метаданных. Здесь Open Data Discovery - это [Open] [Data Discovery], не открытые данные, а открытое обнаружение данных.
—
Я от себя добавлю что часто инструменты контроля качества данных сильно замедляют работу с данными если они не оптимизированы. К примеру Soda-SQL и Great Expectations, скажем так, имеют большие возможности по их ускорению, потому про по умолчанию заложенные там проверки через регулярные выражения можно сильно оптимизировать. К примеру, решая похожие задачи по классификации данных в DataCrafter'е, могу сказать что там вообще нет регулярных выражений, но и нет жесткой закодированности идентифицирующих типы данных правил. Вместо них некий аналог RegExp'ов работающий многократно быстрее.
Много лет назад я подумывал написать свой движок для обработки регулярных выражений в контексте, оптимизированный под результаты предыдущих сравнений. К примеру, у тебя есть несколько тысяч регулярных выражений на соответствие которым надо проверить конкретную строку/текст. Как сделать это быстро? Идеальный сценарий - индекс построенный по этим регулярным выражениям и построение конечного автомата по проверке, неидеальный сценарий - хотя бы зависимости между регулярными выражениями и автоматический отсев каких-то сравнений после других сравнений (кривой аналог построения индекса, на самом деле).
В частных случаях задача решается. Лично я её решал и решил для сравнений связанных с датами и строками размера до 50 символов довольно грубым способом на 50% состоящим из замены регулярных выражений на их сборный конструктор-аналог и на 50% заменой индекса на код по предпроцессингу входящего потока. Результаты 3 года назад опубликовал в виде библиотеки для Python qddate, там не все наработки, но значительная часть по распознаванию дат в любых форматах. Поэтому можно ли ускорить проверку качества данных и расчёт метрик по миллиардам записей в базах данных? Конечно можно и значительно!
#opendata #metadata #dataquality #datatools #tools
- OpenRefine - инструмент для ручной/автоматизированной очистки наборов данных. Работает преобразуя их в плоские таблицы, поддерживает Excel/CSV/JSON/JSON lines и другие форматы. Позволяет проводить довольно гибкие преобразования по отдельным колонкам. Основан на продукте Google Refine, когда-то переданным компанией в open source.
- Great Expectations - "Большие ожидания", библиотека для языка Python, одна из наиболее активно используемых для автоматической валидации значений в наборах данных, потоках данных, data pipelines и не только.
- Soda-SQL - инструмент с открытым кодом для создания метрик и тестирования данных в SQL базах данных. Поддерживает несколько SQL баз данных и несколько базовых видов/типов полей. Умеет анализировать данные в СУБД и на основе этого рекомендовать автоматизированные тесты.
- Re-data - инструмент подсчёта метрик и проверки качества данных в SQL базах данных. Включает возможность активного мониторинга данных.
- ODD Platform - Open Data Discovery Platform, включает механизмы проверки качества данных, а сама платформа делается на основе ODD Spec спецификации описания метаданных. Здесь Open Data Discovery - это [Open] [Data Discovery], не открытые данные, а открытое обнаружение данных.
—
Я от себя добавлю что часто инструменты контроля качества данных сильно замедляют работу с данными если они не оптимизированы. К примеру Soda-SQL и Great Expectations, скажем так, имеют большие возможности по их ускорению, потому про по умолчанию заложенные там проверки через регулярные выражения можно сильно оптимизировать. К примеру, решая похожие задачи по классификации данных в DataCrafter'е, могу сказать что там вообще нет регулярных выражений, но и нет жесткой закодированности идентифицирующих типы данных правил. Вместо них некий аналог RegExp'ов работающий многократно быстрее.
Много лет назад я подумывал написать свой движок для обработки регулярных выражений в контексте, оптимизированный под результаты предыдущих сравнений. К примеру, у тебя есть несколько тысяч регулярных выражений на соответствие которым надо проверить конкретную строку/текст. Как сделать это быстро? Идеальный сценарий - индекс построенный по этим регулярным выражениям и построение конечного автомата по проверке, неидеальный сценарий - хотя бы зависимости между регулярными выражениями и автоматический отсев каких-то сравнений после других сравнений (кривой аналог построения индекса, на самом деле).
В частных случаях задача решается. Лично я её решал и решил для сравнений связанных с датами и строками размера до 50 символов довольно грубым способом на 50% состоящим из замены регулярных выражений на их сборный конструктор-аналог и на 50% заменой индекса на код по предпроцессингу входящего потока. Результаты 3 года назад опубликовал в виде библиотеки для Python qddate, там не все наработки, но значительная часть по распознаванию дат в любых форматах. Поэтому можно ли ускорить проверку качества данных и расчёт метрик по миллиардам записей в базах данных? Конечно можно и значительно!
#opendata #metadata #dataquality #datatools #tools
Forwarded from Малоизвестное интересное
Информационная прозрачность Китая (тюлевая занавеска) и России (ночные шторы).
В новом отчете американского Центра кибербезопасности и новых технологий "Запряженная молния: Как китайские военные осваивают искусственный интеллект" немало интересного.
Меня же поразило то, что он дает простую и наглядную возможность сравнить Россию и Китай по уровню информационной прозрачности и открытости.
Если в качестве критерия сравнения взять закупки военных, то результат получается поразительный. Это все равно что сравнивать прозрачность тюлевой занавески (у Китая) и ночных штор для спальни (у России).
В России закупки Минобороны (а также ФСБ и СВР) уже несколько лет, так сказать, привилегированные - на сайте Госзакупок они о своих тратах не отчитываются. А с 2022 станут также закрытыми закупки Росгвардии и ФСО.
В Китае открыто публикуются данные о всех закупках армии и военных госпредприятий: от сидений для унитазов до ударных военных беспилотников. Состав публикуемых данных отличается в зависимости от категории закупок:
• Для категории “public” (таких примерно 75%) публикуется: что закупается и сколько, подразделение-покупатель, для кого закупает, бюджет проекта, тендерное агентство, победитель тендера.
• Для категории “confidential” (таких примерно 22%) не указывается бюджет, а для категории “secret” (таких примерно 3%) еще и для кого закупается.
Другой печальный сюрприз отличий военных закупок Китая и России – состав поставщиков.
• В Китае 61% поставщиков – частные компании, 25% - госпредприятия и их дочки, 9% университеты, 2% - предприятия Академии наук и 3% - прочие.
• В России предположите сами (как пишет Коммерсантъ – «значительная их часть находится в госсобственности»).
Вы, наверное, думали, что с этим делом у Китая, примерно, как в России.
А оказалось, примерно, как в США.
Отчет: https://cset.georgetown.edu/publication/harnessed-lightning/
#Китай
В новом отчете американского Центра кибербезопасности и новых технологий "Запряженная молния: Как китайские военные осваивают искусственный интеллект" немало интересного.
Меня же поразило то, что он дает простую и наглядную возможность сравнить Россию и Китай по уровню информационной прозрачности и открытости.
Если в качестве критерия сравнения взять закупки военных, то результат получается поразительный. Это все равно что сравнивать прозрачность тюлевой занавески (у Китая) и ночных штор для спальни (у России).
В России закупки Минобороны (а также ФСБ и СВР) уже несколько лет, так сказать, привилегированные - на сайте Госзакупок они о своих тратах не отчитываются. А с 2022 станут также закрытыми закупки Росгвардии и ФСО.
В Китае открыто публикуются данные о всех закупках армии и военных госпредприятий: от сидений для унитазов до ударных военных беспилотников. Состав публикуемых данных отличается в зависимости от категории закупок:
• Для категории “public” (таких примерно 75%) публикуется: что закупается и сколько, подразделение-покупатель, для кого закупает, бюджет проекта, тендерное агентство, победитель тендера.
• Для категории “confidential” (таких примерно 22%) не указывается бюджет, а для категории “secret” (таких примерно 3%) еще и для кого закупается.
Другой печальный сюрприз отличий военных закупок Китая и России – состав поставщиков.
• В Китае 61% поставщиков – частные компании, 25% - госпредприятия и их дочки, 9% университеты, 2% - предприятия Академии наук и 3% - прочие.
• В России предположите сами (как пишет Коммерсантъ – «значительная их часть находится в госсобственности»).
Вы, наверное, думали, что с этим делом у Китая, примерно, как в России.
А оказалось, примерно, как в США.
Отчет: https://cset.georgetown.edu/publication/harnessed-lightning/
#Китай
Center for Security and Emerging Technology
Harnessed Lightning | Center for Security and Emerging Technology
This report examines nearly 350 artificial intelligence-related equipment contracts awarded by the People’s Liberation Army and state-owned defense enterprises in 2020 to assess how the Chinese military is adopting AI. The report identifies China’s key AI…
А есть ли где-либо подробный правовой разбор законопроекта о публичной власти № 1256381-7 [1] ?
Там гигантский текст на 174 страницы и даже без поправок в другие законы, а полностью новый закон. Что очень странно, обычно к таким законопроектам присоединяют ещё множество поправок в иные законы.
А то там про открытость и прозрачность хоть и немного, но обеспечение гласности упоминается, что редкость в наших законов последних лет. Хочется понять что за всем этим стоит.
Если знаете, приглашаю в чат @begtinchat
Ссылки:
[1] https://sozd.duma.gov.ru/bill/1256381-7
#laws #regulation
Там гигантский текст на 174 страницы и даже без поправок в другие законы, а полностью новый закон. Что очень странно, обычно к таким законопроектам присоединяют ещё множество поправок в иные законы.
А то там про открытость и прозрачность хоть и немного, но обеспечение гласности упоминается, что редкость в наших законов последних лет. Хочется понять что за всем этим стоит.
Если знаете, приглашаю в чат @begtinchat
Ссылки:
[1] https://sozd.duma.gov.ru/bill/1256381-7
#laws #regulation
sozd.duma.gov.ru
№1256381-7 Законопроект :: Система обеспечения законодательной деятельности
Информационный ресурс Государственной Думы. Здесь собрана информация о рассмотрении законопроектов и проектов постановлений Государственной Думы
Forwarded from 🗞 Виз Ньюз (Nikita Rokotyan)
This media is not supported in your browser
VIEW IN TELEGRAM
Энрико Бертини (Enrico Bertini), ассоциированный профессор визуализации данных Нью-Йоркского университета и со-ведущий подкаста Data Stories, с конца октября публикует образовательные статьи по визуализации в своем блоге. Энрико прекрасный преподаватель и исследователь, так что не проходите мимо.
Его новый материал посвящен тому, как сделать ваши визуализации более «чистыми» и простыми для восприятия. Маст рид, если вы новичок в области.
https://filwd.substack.com/p/clarity-and-aesthetics-in-data-visualization
Его новый материал посвящен тому, как сделать ваши визуализации более «чистыми» и простыми для восприятия. Маст рид, если вы новичок в области.
https://filwd.substack.com/p/clarity-and-aesthetics-in-data-visualization
Я лично особой нежностью "люблю" траты нашего отечества на создание аналога Википедии через вливание сотен миллионов рублей в ОАО "БРЭ" и одного не могу понять - зачем, почему и с чего это происходит?
По публичной отчетности на ресурсе ФНС [1] ОАО БРЭ потратило 565 из 688 миллионов рублей (82%!) за 2020 год.
Сайт ОАО почти не обновлялся в несколько лет [2], но при этом издательством он, не потерян, потому что в 2019 году они там создали раздел про АНО БРЭ [3].
Раскрытия информации о деятельности ОАО БРЭ не делает с 2015 года [4], что происходит на деньги этой субсидии неизвестно, электронная версия энциклопедии не даёт никакой истории изменений [5] и происходящее наводит на неприятные мысли что результата там и не будет.
При этом последние контракты ОАО БРЭ заключало в 2020 году [6].
Поэтому вопрос - где результат и куда идут деньги?
Ссылки:
[1] https://bit.ly/3wwnIJd
[2] https://greatbook.ru/
[3] https://bit.ly/3D500Gf
[4] https://bit.ly/3EZsxh2
[5] https://bigenc.ru/
[6] https://bit.ly/3n3Aa00
По публичной отчетности на ресурсе ФНС [1] ОАО БРЭ потратило 565 из 688 миллионов рублей (82%!) за 2020 год.
Сайт ОАО почти не обновлялся в несколько лет [2], но при этом издательством он, не потерян, потому что в 2019 году они там создали раздел про АНО БРЭ [3].
Раскрытия информации о деятельности ОАО БРЭ не делает с 2015 года [4], что происходит на деньги этой субсидии неизвестно, электронная версия энциклопедии не даёт никакой истории изменений [5] и происходящее наводит на неприятные мысли что результата там и не будет.
При этом последние контракты ОАО БРЭ заключало в 2020 году [6].
Поэтому вопрос - где результат и куда идут деньги?
Ссылки:
[1] https://bit.ly/3wwnIJd
[2] https://greatbook.ru/
[3] https://bit.ly/3D500Gf
[4] https://bit.ly/3EZsxh2
[5] https://bigenc.ru/
[6] https://bit.ly/3n3Aa00