Ivan Begtin
8.1K subscribers
2.03K photos
3 videos
102 files
4.76K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
加入频道
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
September 21, 2021
September 21, 2021
В рубрике интересные наборы данных, наборы данных связанные с анализом мобильных приложений.
- AndroZoo [1] база файлов .apk приложений для Android c более чем 16 миллионами приложений. Только сжатый файл csv с описанием более 2GB, а все файлы, конечно, гораздо большего объёма. Доступ предоставляют исследователям по запросу. Непонятно насколько часто обновляется, последнее упоминание научных работ в 2016 году
- MalDroid 2020 [2] база зловредных приложений для Андроида собранная в Универститете Нью Брунвика. Включает 17,341 приложений, доступ по запросу. У них же там много других датасетов, связанных с кибербезопасностью, даркнетом и тд [3]
- Android Malware Datasets [4] подборка ссылок на наборы данных вредоносных мобильных приложений для Android

Наборов данных гораздо больше, многие из них создают внутри университетов для исследования переупаковки приложений, наличия вредоносного кода, наличия рекламного кода (adware), сетевой безопасности, распространения технологий и многого другого.

Ссылки:
[1] https://androzoo.uni.lu/
[2] https://www.unb.ca/cic/datasets/maldroid-2020.html
[3] https://www.unb.ca/cic/datasets/index.html
[4] https://github.com/traceflight/Android-Malware-Datasets

#privacy #datasets #android #apps
September 22, 2021
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
September 22, 2021
У института Ады Лавлейс, специализирующегося на темах AI, вышло исследование Participatory data stewardship [1] о совместном надзоре/контроле/управлении данными с вовлечением пользователей, владельцев данных и иных вовлеченных сторон. На русский язык это можно перевести как "Совместное управление данными", но и это будет недостаточно точно.

Исследование интересно тем что описывает то чего почти нет в Российской практике, сбор обратной связи от получателей результата и вовлеченных сторон при создании крупных или значимых банков данных. Например, если создается банк геномных данных людей больных редкой генетической болезнью, или если это данные о городской среде, или если это данные медицинских анализов нужных в исследовательских целях.

Авторы приводят много разных примеров, системно подходят к вопросу описания проблем и задач которые решаются через такое совместное управление данными, но, ещё раз, совершенно далеки от российских реалий, где само понятие трастов данных (доверительных фондов управления данными) не существует.

Изучать эти материалы полезно, в любом случае.

Ссылки:
[1] https://www.adalovelaceinstitute.org/report/participatory-data-stewardship/

#data #datastewardship
September 22, 2021
September 23, 2021
Вокруг разговоров про импортозамещение, в основном, вокруг того как госорганам и компаниям надо переходить с зарубежного ПО и оборудования на российское, не могу не отметить значительную, скажем так, лукавость происходящего.

Я вот уже давно веду реестр госдоменов [1] в форме открытого репозитрия на Github, куда выкладываю уже очищенные данные. А также анализирую госинфраструктуру, в первую чтобы заархивировать [2], во вторую очередь чтобы наполнять данными каталоги данных вроде APICrafter'а [3], так вот могу сказать что наши госорганы и госструктуры вовсю используют зарубежную инфраструктуру. Сейчас сделаю значительное лицо и напишу что хостят госсайты в странах НАТО!, и, на самом деле, понятно почему это происходит, потому что качество хостинга и сервисов часто там лучше, а вот непонятна вся эта риторика про импортозамещение.

Вот несколько примеров:
1. Карта дорог Росавтодора хостится map.rosavtodor.gov.ru хостится во Франции на хостинге OVH по адресу 5.135.6.198
2. Непонятный домен госуслуг trackpos.gosuslugi.ru используемый в рассылках Sendpulse на хостинге Hetzner по адресу 168.119.2.85
3. Инфраструктура электронной переписки портала госзакупок zakupki.gov.ru находится в облаке Microsoft и указывает на почтовый сервер zakupki-gov-ru.mail.protection.outlook.com, IP адрес 104.47.8.36

А также не буду показывать пальцем на онлайн ресурсы одного города федерального значения где часть доменов указывают на адреса за пределами российской юрисдикции.

Здесь я не призываю это запретить, призываю лишь определиться и если меньше двуличности с импортозамещением.

Ссылки:
[1] https://github.com/infoculture/govdomains
[2] https://ruarxive.org
[3] https://data.apicrafter.ru

#government #infrastructure #it #domains
September 24, 2021
September 24, 2021
September 24, 2021
Australian National Audit Office (ANAO) [1] выявили что более 60% госзакупок с 2010 года в Австралии являются неконкурентными, об этом пишут Government News [2] по следам парламентского расследования начатого Парламентом Австралии с 1 июля 2021 года [3].

В Эквадоре правительтство открыло Public Contracts Observatory (Обсерватория государственных контрактов) [4] с публикацией сведений о контрактах в CSV.

В Казахстане компания Datanomix разработала набор индикаторов отслеживания криминальных денег включая анализ госзакупок [5]. Всего индикаторов не так много, около 40, часть из них могут быть автоматизированы [6]

Ссылки:
[1] https://www.anao.gov.au/
[2] https://www.governmentnews.com.au/more-than-half-commonwealth-procurement-non-competitive/
[3] https://www.aph.gov.au/Parliamentary_Business/Committees/House/ITC/Gov-fundedInfrastructure
[4] https://www.observatoriocomprapublica.go.cr/
[5] https://www.open-contracting.org/2021/09/20/how-one-data-team-is-rooting-out-procurement-corruption-in-kazakhstan/
[6] https://docs.google.com/spreadsheets/d/1diUhYGHquiQ4rKZTdx-qZvkvrtrXgpAKkzY9yxoqZzU/edit#gid=0

#opendata #data #procurement
September 26, 2021
​​📈Где в России пропадают люди
В рамках нашего уральского дата-трипа команда из Перми проанализировала данные МВД о пропавших людях. Из интересного:

🕷Ежегодно в Росии пропадает 150 тысяч человек. Это, чтобы вы понимали, население подмосковской Коломны или целого района Кузьминок

🕷 Больше всего пропадает (вернее, чаще всего заявляют о пропаже) помимо Москвы и Петербурга в Новгородской, Свердловской областях, В Ставропольском и Краснодарском краях, Мордовии и Татарстане.

🕷Одно дело пропасть, другое, чтобы вас нашли. Тут дела обстоят намного интереснее. Если вы потерялись на Чукотке или в Южной Осетии, шансы, что вас найдут минимальны. А вот если вы потерялись в Чечне, то они почти равны нулю. Из 9741 человека, которые потерялись в 2017-2020 гг., нашли только 62.

Не теряйтесь в Чечне и по жизни. А чтобы сделать больше дата-историй, приходите и приезжайте на наш уральский хакатон по дата-журналистике https://hackathon.ddjural.ru/
September 27, 2021
OpenAI представили языковую модель на базе GPT-3 для суммаризации текстов книг [1]. Суммаризатор последовательно создает краткое изложение каждой главы, а потом на основе этих кратких изложений пишет на одну страницу или меньше изложение всей книги. Сейчас для английского языка, а в будущем возможно и для других.

Конечно, OpenAI - это уже не открытый код и не открытые данные, с 2019 года - это вполне себе коммерческая компания [2] предоставляющая платный доступ к языковым моделям и инструментам на из основе.

Ссылки:
[1] https://openai.com/blog/summarizing-books/
[2] https://en.wikipedia.org/wiki/GPT-3

#ai #books
September 27, 2021
September 27, 2021
September 28, 2021
Новость из разряда "без комментариев " главу Group-IB Илью Сачкова арестовали за госизмену [1] на 2 месяца. Что-то много стало арестов в ИТ рынке в последние годы и не только на нём.

Ссылки:
[1] https://www.rbc.ru/society/29/09/2021/6154196c9a7947f1ba715233

#itmarket
September 29, 2021
К предыдущей новости про концепцию развития технологий машиночитаемого права [1], Минэкономразвития таки опубликовали документ концепции [2]

Хорошая новость - концепция оказалась сжатой в 25 страниц, это худо-бедно нормально/приемлимо для концепции.

Нейтральная новость - концепция в целом не вредная, где-то полезная потому что ничего аномального или охранительского в ней нет, но и приземления к российским реалиям тоже нет. Благопожелания, некоторые идеи - да.

И не очень хорошее - в концепции основной целью заявлено "систематизация представлений о методах и сферах перспективного развития технологий машиночитаемого права и подготовка предложений по стимулированию развития технологий машиночитаемого права."

Я категорически не понимаю как "систематизация представлений о методах" может быть концепцией. Диссертацией - да, концепцией - нет! В общем и целом надо поблагодарить коллег за проделанную работу, но практического применения у неё сейчас сейчас нет.

Отдельно есть о чём поговорить о том что в России документы которые называют концепциями имеют очень разную структуру, модель существования и будущее. Какие-то состоят исключительно из благопожеланий, другие имеют достаточно чёткую дорожную карту их внедрения. Поэтому я и говорю что этот документ больше похож способ описания мира через мировоззрение его авторов, а не план по изменению подходов к нормотворчеству.

Ссылки:
[1] https://yangx.top/begtin/3117
[2] https://economy.gov.ru/material/file/792d50ea6a6f3a9c75f95494c253ab99/31_15092021.pdf

#government #documents #law #it
September 29, 2021
Forwarded from Инфокультура
September 29, 2021
Вышло исследование Digital Economy Report 2021 [1] от UNCTAD о разных аспектах международного рынка цифровой экономики и с особым фокусом на кроссграничную передачу данных. Обратите особое внимание на приложение с обзором странового регулирования передачи данных [2]. То что кажется нам крайне странным, а иногда и запредельным, в части ограничений обмена данными происходит очень много где. Где-то это делается также дуболомно как у нас в России, где-то более изящно, но в целом тренд на strict localization (строгую локализацию) данных под эгидой защиты национальных интересов.

Российское регулирование там описано как запретительное (Restrictive), к таким же относится регулирование в таких странах как: Китай, Нигерия, Руанда, Турция, Пакистан, Кения, Индонезия и Индия.

В направлении к запретительной модели регулирования или с некоторыми её моделями в ряде секторов относят страны: ОАЭ, Саудовская Аравия, Вьетнам.

В большинстве стран регулирование не запретительно, но директивно (prescriptive) и в ряде стран регулирование пока ещё облегченное (lighе-touch): США, Канада, Максика, Сингапур, Филлипины, Австралия

Лично мне такое развитие мира не нравится, да и много кому оно не нравится. Именно поэтому и полезно читать как это происходит в мире потому что опыт стран с запретительной моделью быстро перенимают другие страны.

Ссылки:
[1] https://unctad.org/webflyer/digital-economy-report-2021
[2] https://unctad.org/system/files/official-document/der2021_annex2_en.pdf

#personaldata #privacy #regulation #data
September 29, 2021
В рубрике интересных наборов данных, открытый датасет всех доменов в проекте Domains Project [1]. Его автор собрал домены из 1522 TLD из которых 245 относятся к доменам стран, остальные домены общего типа. Общее число собранных доменов 1.7 миллиарда (1,789,946,688 на 29 сентября 2021 г.)

Все доменные имена можно скачать по адресу dataset.domainsproject.org [2] и в репозитории на GitHub [3].
После распаковки это примерно 49 гигабайт данных.

Конечно, это не единственный крупный набор данных о сетевой инфраструктуре, но полезный для тех кто изучает инфраструктуру интернета.

Ссылки:
[1] https://domainsproject.org
[2] https://dataset.domainsproject.org
[3] https://github.com/tb0hdan/domains

#opendata #datasets #data #internet #domains
September 29, 2021
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
October 1, 2021