Ivan Begtin
8.01K subscribers
1.94K photos
3 videos
101 files
4.64K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
Я, честно говоря, уже перестаю удивляться во что превратился реестр ИТ компаний. Теперь туда внесли ещё и Альфа-Банк [1].

Да внесите туда уже весь бизнес, ну право слово. В каждой компании есть хотя бы один "ИТшник". Хотя бы выглядеть будет не так странно, как внесение туда всех кого только можно.

Ссылки:
[1] https://tass.ru/ekonomika/15119991

#itmarket
Тут с 1-го июля pravo.gov.ru стал единственным официальным информационно-правовым ресурсом, потому что вступил в силу указ Пр-та РФ от 03.03.2022 № 90 [1].

Ключевое слово тут единственным поскольку ранее федеральные законы публиковались, также, в Российской Газете, видимо, РГ более не будет получать на это государственную субсидию и на сайте РГ более не будет обязательной публикации федеральных законов.

Другое изменение - это появление раздела "Тексты правовых актов с внесёнными изменениями" [2]. В остальном, на самом деле, в этой новости не так много хорошего потому что ФСО, управляющее pravo.gov.ru, это силовое, а не правовое ведомство, с высокой степенью закрытости даже в части их публичных полномочий.

Я напомню несколько важных фактов:
1. Наиболее актуальные тексты официально опубликованных документов на publication.pravo.gov.ru необосновано публикуются в виде сканов. У этого нет никаких обоснований, кроме нежелания публиковать их удобным образом для пользователей.
2. На pravo.gov.ru отсутствуют открытые данные. Когда-то, года 4 назад, они ещё были. Неудобные для работы, но хоть как-то. Потом все наборы данных убрали и оставили только API с существенными ограничениями на поиск и число запросов.
3. Мало кто знает, но власти субъектов федерации не обязаны публиковать свои НПА на pravo.gov.ru, они публикуют их только если заключили соглашение с ФСО России (вернее с их подведом). Например, НПА органов власти Москвы в publication.pravo.gov.ru отсутствуют [3]. Я писал об этом в марте 2021 года [4]

Ссылки:
[1] http://publication.pravo.gov.ru/Document/View/0001202203030006?index=0&rangeSize=1
[2] http://actual.pravo.gov.ru/
[3] http://publication.pravo.gov.ru/SignatoryAuthority/region77
[4] https://yangx.top/begtin/2656

#opendata #laws #lawmaking
Тем временем в Казахстане, в отличие от России, продолжает развиваться повестка открытости гос-ва и сам факт открытости диалога власти - это хороший признак такого развития.

Но есть и то за кто можно коллег из Казахстана покритиковать. Портал открытых данных РК data.egov.kz хотя и называется порталом открытых данных, но по факту таким не является. Помимо того что нет чётко сформулированных условий использования для каждого набора данных, таких как Creative Commons или ODBl, важно то что данные невозможно скачать без регистрации через государственный портал требующий местного кода ИИН. Фактически данные доступны только жителям республики и только после однозначной идентификации. Это противоречит принципам доступности открытых данных.

#opendata #kazakhstan
🔹 2022 жылғы 7 шілдеде сағат 12:00-де Ақпаратқа қол жеткізу мәселелері жөніндегі комиссияның отырысы өтеді.

Отырыста Шымкент қаласы, Түркістан, Жамбыл және Павлодар облыстары әкімдіктері қызметінің ашықтығын қамтамасыз етудің кейбір мәселелерін, «Мемлекеттік органның ашықтығы» бағыты бойынша жүргізілген операциялық бағалаудың қорытындыларын, мемлекеттік органдар деректерінің өзектілігі мәселесін қарастыру жоспарлануда.

Отырыстың тікелей көрсетілімі https://www.facebook.com/aqparatqogam бойынша өтеді.

🔸 7 июля 2022 года в 12.00 часов состоится заседание Комиссии по вопросам доступа к информации.

На заседании планируется рассмотреть вопросы обеспечения открытости деятельности акиматов г. Шымкент, Туркестанской, Жамбылской и Павлодарской областей, итоги операционной оценки по направлению «Открытость государственного органа», актуальности данных государственных органов.

Трансляция заседания пройдёт по ссылке: https://www.facebook.com/aqparatqogam

@aqparatqogam
Для тех кто следит за тем как развивается рынок данных в мире.

Полезные материалы с конференции Databricks AI, часть 1 и часть 2․ А также оттуда же разбор про Spark Connect.

Всё это весьма далеко, конечно, от российской реальности, но полезно всем тем кто продолжает работать с глобальными облачными провайдерами сервисов работы с данными.

#dataengineering #data #clouds
Комитет государственных доходов Армении опубликовал цифры поступления налогов по 1000 крупнейших налогоплательщиков за 1-й квартал 2022 г. [1]

Для тех кому сложно читать на армянском, можно посмотреть автопереведенную выжимку на starthub.am [2] в лидерах там Soft Construct (10-е место), Synopsys Armenia, Krisp, Webb Fontaine и ещё много других.

По сравнению с российскими интеграторами суммы невелики, но и Армения небольшая страна.

Цифры налоговая служба публикует с задержкой в квартал, а то есть через 3 месяца будет следующий отчет который покроет период с 1 апреля по 31 июня. Вот тогда и будет интересно что по факту происходит с релокацией российского ИТ сектора в Армению, не просто разработчиков, а компаний.

Ссылки:
[1] https://www.petekamutner.am/Shared/Documents/_ts/_ti/Taxpayer_Information_Listings/2022/ck_hhpektt_2022_1_1000_khv_hark.xlsx
[2] https://translated.turbopages.org/proxy_u/hy-ru.ru.fff8ec87-62c3fde1-559f95a6-74722d776562/https/starthub.am/news/13503.html

#itmarket #armenia
Как сохранять исходный код ? Как сохранять код публичных репозиториев который может исчезнуть, например, в связи с закрытием организации или проектов?

Проект Software Heritage [1] специализируется на архивации всего общедоступного исходного кода. Сбор кода осуществляется автоматически, используя такие системы контроля версий как Git, Mercurial, Subversion и Bazaar. Проект уже охватывает крупнейшие платформы с исходным кодом, а также можно самостоятельно добавлять туда репозитории с помощью сервиса "Save code now" [2].

А в июне добавился новый сервис "Add forge now" [3] для добавления новых источников открытого кода, платформ на базе Gitlab, Bitbucket, Gitea, cgit, Hectapod и других подобных продуктов.

Ссылки:
[1] https://softwareheritage.org
[2] https://archive.softwareheritage.org/save/
[3] https://archive.softwareheritage.org/add-forge/request/create/

#digitalpreservation #opensource #sourcecode
Как я ранее обещал буду понемногу выкладывать выборки из аналитической базы по российскому ИТ рынку.

Здесь два Excel файла.
В одном список ИТ компаний принадлежащих на 100% зарубежным юридическим лицам и одновременно имеющие ИТ льготы в России, а не просто аккредитацию Минцифры.

Во втором список госпредприятий и госучреждений имеющих налоговые льготы. Второй список, скорее всего, неполон, но основные точно отмечены.

А я скажу что сейчас аналитическая база уже готова. Она является сводом примерно 5 реестров и туда осталось только добавить данные по программным продуктам из реестра отечественного ПО. Дальше уже долгий процесс обогащения данных другими источниками и краудсорсингом.

#opendata #data #dataprojects
В продолжение предыдущего я ранее писал что разные части наших продуктов APICrafter и Datacrafter мы выложили с открытый доступ [1]

Сейчас они используются для сборки нескольких дата-продуктов и появилась возможность выложить несколько новых примеров и актуализировать код открытых репозиториев.

В репозитории datacrafter-examples [2] появились 3 новых примера:
- itbenef - реестр ИТ компаний получателей налоговых субсидий
- itregistry - реестр аккредитованных ИТ компаний
- softreg - реестр отечественного ПО

Вместо того чтобы размещать сами наборы данных, публикую код с помощью которого они создаются. Потому что первоисточники акцента на данных не делают, данные обычно в Excel форматах или не них нет прямой ссылки. Ну и, конечно, никакие новые полезные данные на госпорталах с открытыми данными вроде data.gov.ru не появляются.

Они все используют в качестве источников данные с сайта Минцифры РФ и их информационных систем.

Для запуска достаточно установить datacrafter [3] и выполнить команду 'datacrafter run' в директориях с файлами проектов "datacrafter.yml"

Причём надо использовать последний код из репозитория поскольку в нем как раз исправлены ошибки обработки Excel файлов.

datacrafter - это пока упрощённая, а далее усложняемая NoSQL утилита для задач ETL, по извлечению обработке и загрузке данных.

По умолчанию все данные там рассматриваются как JSON/JSON lines и сама утилита включает возможности преобразования плоских файлов в эти форматы.

Если найдете ошибки, пишите их в issues репозиториев.

Ссылки:
[1] https://github.com/apicrafter
[2] https://github.com/apicrafter/datacrafter-examples
[3] https://github.com/apicrafter/datacrafter

#opensource #datatools
Нынешние российские цензурные ограничения - это очень неприятное явление с плохими долгосрочными последствиями.

Многие включили самоцензуру и, кстати, тоже. Например, я почти перестал писать по теме госинфраструктуры и госдоменов, базу которых я продолжаю вести, но публиковать некоторые находки оттуда уже никак невозможно. Посыпятся обвинения в том что "помогаю хакерам" или, наоборот, "помогаю чиновникам, и мешаю хакерам".

Аналогично в отношении государственных информационных систем. Много можно знать, да не о многом теперь можно говорить.

#security #privacy #censorship
image_2022-07-07_20-43-04.png
249.7 KB
В связи с жизненными обстоятельствами публикации в канале "Клуб любителей КИИ", блог "Рупор бумажной безопасности" и телеграм-канале прекращаются.

Спасибо всем моим читателям и подписчикам, особенно за комментарии и предложения.

Опубликованные материалы удалятся не будут. При их использовании в работе необходимо учитывать, что законодательство страны меняется и предложенные действия могут не соответствовать актуальным требованиям.

Здоровья вам и благополучия, берегите себя.
Познавательная статья в Wired [1] о том что системы предсказаний преступлений не работают так как этого ожидают, поскольку объекты их измерений, люди и территории, меняются, а системы обучают на данных прошлого. В результате отдельные территории могут отмечаться как рискованные, а отдельные люди как склонные к преступной жизни, даже если социальные условия уже изменились.

Ответов в статье нет, впрочем у меня тоже нет. Более развитые алгоритмы могут нарушать приватность настолько насколько мы найдем это запредельным. Прекрасно поданные миры отражённые в Черном зеркале или Мире дикого запада - это примеры ИИ собирающих данные о всех в непрерывном режиме. К чему сейчас нет никакой социальной готовности, хотя всех и пугает готовность технологическая.

Ссылки:
[1] https://www.wired.com/story/crime-prediction-racist-history/

#privacy #crime #crimeprediction
Статья How China uses search engines to spread propaganda [1] и отчет Brookings Institution [2] о том как китайские власти манипулируют поисковой выдачей по теме Синцзяня и COVID-19.

Россию там тоже упоминают в контексте того что Google демонетизировал российские гос-СМИ.

Но важнее что авторы пишут о том что поисковые системы уже начали размечать контент от госСМИ Китая и не только и то что исследователи рекомендуют поисковым системам (технологическим кампаниями их создающим) поменять правила ранжирования и деприоритизировать "низкокачественный государственный контент".

Поэтому неприятная новость в том что "демократическая цензура" поисковых систем весьма вероятна и обсуждается․ Сейчас в контексте Китая, далее может и в контексте России.

Политический нейтралитет для big tech скоро станет уже абсолютно невозможен.

Ссылки:
[1] https://www.brookings.edu/techstream/how-china-uses-search-engines-to-spread-propaganda/
[2] https://www.brookings.edu/research/winning-the-web-how-beijing-exploits-search-results-to-shape-views-of-xinjiang-and-covid-19/

#search #censorship #china #russia #usa #microsoft #google
Я знаю много источников данных о России, внутри России, за пределами Росси и не только. Большая часть того что я знаю является госданными, но есть и альтернативные источники данных, негосударственные.

Сейчас многие официальные источники исчезают или "превращаются в тыквы" (теряют детализацию или оперативность). Я подозреваю что все соцопросы сейчас превратятся именно что в тыквы, они уже то не очень, а теперь будут ещё хуже.

Вопрос к читателям, есть ли альтернативные данные по тому что происходит с российской экономикой и обществом сейчас? В идеале, на гиперлокальном уровне, до городов, но региональный и страновой уровни тоже важно.

Например, есть ли источники данных для ежедневного мониторинга цен на потребительскую корзину? Или уровень ожиданий у предпринимателей? Причём неважно, источники этих данных бесплатные или платные, главное чтобы достоверные и не на госданных.

Обсудим в чате @begtinchat

#opendata #data #indicators
Актуальная аналитика по реестру аккредитованных ИТ компаний на 9 июля

• всего у 2946 организаций из реестра аккредитованных ИТ компаний есть зарегистрированное ПО в реестре отечественного ПО
• у 1143 организаций есть хотя бы один зарубежный учредитель
• 1665 организаций имеют статус ликвидированных и из них 207 отмечены в реестре как имеющие действующую аккредитацию
• всего 457 организаций государственные в той или иной форме
• найдено 48 крупных холдингов, в них в совокупности входит 867 организации
• крупнейший холдинг (на текущий момент) это 1С. 109 аккредитованных ИТ организаций из которых у 75 есть налоговые льготы
• 10 организаций находятся в подчинении Минцифры РФ
• 51 учреждений высшего образования. Возможно больше, это оценка снизу
• 102 некоммерческие организации
• 42 медицинских учреждения (госпитали и больницы)

#analytics #itmarket
Полезное чтение про данные и не только:
- о том что языковые модели для ИИ позволяют делать гораздо больше чем представляли их создатели [1]
- новый способ визуализации SQL JOIN'ов. Полезно для образовательных целей [2]
- отчет Open Data Institute о практиках повторного использования данных о здоровье в Европе [3]
- дроны управляемые ИИ с распознаванием образом уже летают лучше чем управляемые лучшими мировыми пилотами [4]
- о том как рисовать хорошие и понятные схемы [5]
- декомпозиция интервью с инженерами данных [6]
- полезный гайд по инженерии данных [7]

Ссылки:
[1] https://www.economist.com/interactive/briefing/2022/06/11/huge-foundation-models-are-turbo-charging-ai-progress
[2] https://towardsdatascience.com/you-should-use-this-to-visualize-sql-joins-instead-of-venn-diagrams-ede15f9583fc
[3] https://secondary-use-health-data.theodi.org/
[4] https://spectrum.ieee.org/zurich-autonomous-drone-race
[5] https://towardsdatascience.com/how-to-make-great-schemas-4940e4951a44
[6] https://afroinfotech.medium.com/cracking-the-data-engineering-interview-part-1-structure-28dd05705d4a
[7] https://www.blef.fr/learn-data-engineering/

#data #readings
Продолжаю делиться цифрами и аналитикой по реестру аккредитованных ИТ компаний.

В приложенном файле разбивка по аккредитованным ИТ компаниям из реестра аккредитованных их лицензированная деятельность.

Важно помнить что у одной компании может быть больше одной лицензии и внутри лицензии может быть более одной деятельности.

Из более чем 27+ тысяч компаний лицензии в ЕГРЮЛ есть, на сегодняшний день, у примерно 3644.

Поэтому надо исходить из того что эта таблица охватывает многое, но не всё, информация не из всех реестров есть у ФНС, есть виды деятельности не подлежащие лицензированию, есть и другие реестры и тд.

Но журналистам которые ищут экзотические юридические лица каким-то непонятным (на самом деле понятным) образом получившие аккредитацию, такие данные будут полезны.

Disclaimer: Эта таблица основана на открытых и общедоступных данных раскрываемых Минцифрой РФ, ФНС России и иными органами власти РФ.

Как я говорил база данных по ним готова, а делать ли интерфейс над ней и как, я ещё думаю. Команда занята другими проектами, а это пока живёт в режиме пэт проджекта.

#opendata #data #itmarket #datassets