Ivan Begtin
8.05K subscribers
1.96K photos
3 videos
102 files
4.67K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
Forwarded from ЗаТелеком 🌐
Кстати, в поддержку Телеграма и «против интернет-цезуры», включая «пакет яровой», подписались 26 международных организаций. Среди которых ARTICLE 19, Freedom House, WWW Foundation и самый уважаемый — Electronic Frontier Foundation

https://www.article19.org/resources/russia-telegram-block-leads-widespread-assault-freedom-expression-online/

Петиции ушли в ООН, Совет Европы, Организацию по безопасности и сотрудничеству в Европе (ОБСЕ), Европейский союз и другие заинтересованные организации, готовые оспаривать действия России и вести переговоры.

Тут нужно понимать, что быстро ничего не произойдет. Но если кто-то из перечисленных решит эскалировать процесс, то могут быть весьма неприятные последствия. Трудно пока представить какие, но времени их придумать — завались.

Например, Жаров вот уже в санкционных списках, откуда следует, что любые запросы по его ведомству за любую коллаборацию с американскими компаниями может неиллюзорно прилететь.

В список может попасть, например, действующий или новый министр связи. А это значит, что кое-кто не сможет улыбаться на всевозможных сабантуях в ITU.

Ну, например:
на Глобальном симпозиуме для регуляторных органов (ГСР) 2018 года (9−12 июля 2018 года) Женева, Швейцария​
или
Всемирное мероприятие ITU Telecom-2018
​10−13 сентября 2018 года, Дурбан, Южно-Африканская Республика​.

А это значит, что не будет каких-то выгодных контрактов и интересных проектов. Ну, например, магистраль «Европа-Азия» по территории России — про нее уже можно забыть.
Я, по старинке, значительную часть новостей читаю в почтовых рассылках и почти на все новости по работе с открытыми данными и данными вообще стараюсь подписываться. К счастью,большая часть этих рассылок вполне этичны и не спамят сотнями писем в неделю.

Вот список того на что я лично подписан:
- ORelly Data https://www.oreilly.com/topics/data для подписки надо завести там аккаунт и подписаться на тему "Data"
- DataElixir http://dataelixir.com/ еженедельные письма со ссылками по Data Science
- StackShare https://stackshare.io/news позволяет искать новости по инструментам разработки в том числе с данными. Темы Big Data Tools, Data Transfer, Real-time data processing, Data Science Tools позволяют подписаться на наиболее актуальные статьи по утилитам и продуктам по этой теме
- Towards Data Science https://towardsdatascience.com/ ежедневно статьи о работе с данными. Работает на базе Medium и после авторизации даёт возможность получать письма на почту
- Data Science Roundup http://roundup.fishtownanalytics.com/ больше акцента на аналитике и алгоритмах
- Data Science Weekly https://www.datascienceweekly.org/ аналогично больше про Data Science
- KD Nuggets https://www.kdnuggets.com не только про алгоритмы и большие данные, но и про курсы, обучение, работу, вакансии и многое другое
- Mode Analytics Newsletter https://about.modeanalytics.com/newsletter/ больше про аналитику от создателей платформы облачной аналитики
- Data Digest https://page.data.world/data-digest от Data.world, еженедельная рассылка с новостями и примерами работы с данными
- Center for data innovation newsletter http://www.datainnovation.org/ в основном рассылка про индустрию
- Kaggle blog newsletter http://blog.kaggle.com/ подписка на блог Kaggle, о их платформе, машинном обучении и не только.

В завершение добавлю упоминание нашей рассылки Инфокультуры, которая, кроме всего прочего охватывает и темы открытых данных в России. Прямая ссылка на подписку тут http://infoculture.us7.list-manage.com/subscribe?u=2e38b8af0d8a547b51427dc9b&id=dadb533f05

#opendata #machinelearning #newsletters
Мало кто знает что Тим Бернерс Ли, рыцарь британской империи, изобретатель World Wide Web и один из основателей Open Data Institute в Великобритании ещё и является активным разработчиком.

В его аккаунте на Github'е можно увидеть его активность [1]. С одной стороны это очень хорошо, он значительный контрибьютор и создатель кода по связанным данным, а сейчас и разработка идёт на проектом Solid, по декомпозиции веба таким образом чтобы пользователь сохранял контроль над своими данными, а с другой стороны проект хартии открытых данных выглядит заброшенным [2].


Ссылки:
[1] https://github.com/timbl/
[2] https://opendatacharter.net/

#linkeddata #opendata
А тем временем data.gov.ru так и не ожил. Надо бы проверить контракт разработчика, не нарушили ли они его положений делая сайт недоступным столь долго #opendata
Наглядная визуализация разницы того отчего люди умирают на самом деле, то чем они интересуются и то что освещается в СМИ. На примере данных о смерти в США, но актуально для всех стран, с учётом их специфики.
В блоге мессенжерна Signal о том как решение Google и Amazon отключить "domain fronting" для большинства клиентов привело к тому что теперь их мессенжер легче подвергается цензуре [1]

Там же о том что Amazon направили им письмо о заморозке аккаунта именно по причине использования "domain fronting".

Signal ищут способ обойти это ограничение и ищут разработчика в команду [2].

Ссылки:
[1] https://signal.org/blog/looking-back-on-the-front/
[2] https://signal.org/workworkwork/

#privacy
Countable [1] пример настоящего общественного контроля граждан за государством в США активизирует публичные дискуссии вокруг проектов законопроектов в конгрессе и собирает их десятками тысяч, а также предлагает инструкции того как писать представителям в конгрессе своё мнение.

В основе проекта - чёткое, краткое и ясное изложение законопроекта и активное вовлечение к дискуссии.

В апреле этого года они совместно с USAFacts [2] планирует выпускать углублённую аналитику по ключевым вопросам госполитики.

Ссылки:
[1] https://www.countable.us
[2] https://www.countable.us/articles/3919-countable-usafacts-savvy-civic-synergy

#opendata #analytics #openbudget
Обновлённая версия data.gov.uk
Обновился портал data.gov.uk [1], внутри его остался движок CKAN [2], но снаружи интерфейс в максимально упрощённой форме по аналогии с основным порталом gov.uk.

Не могу сказать что новый интерфейс мне нравится больше, но это скорее вопрос привычки. В этой версии они довольно много всего потеряли, например, в пока ещё доступны ссылки с отчётами по использованию наборов данных приложениями [3], но ссылки на сами приложения уже не работают.

Ссылки:
[1] https://data.gov.uk
[2] https://ckan.org
[3] https://data.gov.uk/data/report/app-dataset-report

#opendata #opengov
В New Republic вышла статья с подробностями китайской системы социальных кредитов [1] особенно интересная обзором контекста в котором это внедрение происходит. С официальными объявлениями в поездах, с высокой распространённостью обманов и подлогов среди китайцев, например, оформлением фиктивных разводов для обхода ограничений на покупку недвижимости и получения прав вождения.

В статье система социальных кредитов называется "высокотехнологичным Сталинизмом", но это кажется довольно вольным допущением. Китайская система довольно уникальна и сопряжена со свободной продажей персональных данных и риском утечки подобной централизованной базы данных.

Вопрос о том надо ли нам задумываться о вероятности введения подобной системы в России? У нас нет исторического опыта введения такой классификации с уровнями и рейтингами и нет такого фактического и эффективного влияния государства на нашу жизнь. В России воздействие государства сейчас на жизнь каждого усиливается, но не отличается системностью и стратегией.

Ссылки:
[1] https://newrepublic.com/article/148121/control-14-billion-people

#social #privacy
Живы ли открытые данные ? Is open data alive? https://begtin.tech/is-opendata-alive/

Написал в формате который никак не укладывается в формат телеграм канала, поэтому даю ссылкой на основной блог. Обсудить можно у меня в чате https://yangx.top/begtinchat

#opendata #opengov
Forwarded from Городские данные (Andrey Karmatsky)
Airbnb опубликовал почти 5 миллионов (4.85M) актуальных листингов в 300 городах из 80 стран — эти данные доступны для визуализации и аналитики для всех. Это прям очень классно, потому что из этих данных можно многое интересного выяснить про города и как там люди живут/приезжают в гости.
https://www.airbnbcitizen.com/data/#/


спасибо @subbotazh за ссылку
Центр стратегических разработок (ЦСР) выпустил доклад "Цифровая трансформация государства. Гражданин и государство в новой цифровой реальности", его описание есть на сайте ЦСР [1] и полный текст доступен по ссылке [2].

О докладе уже написали РБК [3], а я добавлю от себя что документ этот затрагивает многие аспекты ИТ в государстве в контексте их изменения.

Я лично принимал непосредственное участие в подготовке документа на уровне экспертной группы сформированной коллективом авторов, авторам и лично Марии Шклярук, отдельное спасибо за итоговый проработанный документ.


Вот важнейшие:
- активный переход на open source ПО (в отличие от "импортозамещения")
- внедрение института и культуры Chief Data Officer
- (самое сложное) выделение отдельного органа власти/центра ответственного за ИТ бюджеты
- API / OpenAPI

А также 4 ключевых показателя:
1. Снижение стоимости операций в системе государственного управления.
2. Увеличение скорости оказания государственных сервисов (на порядок).
3. Удовлетворенность пользователей.
4. Отсутствие традиционных «бумажных» сервисов.

Да, Вы можете обратить внимание что в нём нехватает упоминания открытости данных, причина этого в том что открытость данных может быть лишь порождением 2-х связанных процессов.
- повышение качества государственного управления ИТ и данными и, как следствие, работа государством с данными, в том числе и для раскрытия бизнесу и граждан
- политические решения и обязательства по обеспечению прозрачности государства для других частей общества.

Ссылки:
[1] https://www.csr.ru/news/tsifrovaya-transformatsiya-gosudarstva-grazhdanin-i-gosudarstvo-v-novoj-tsifrovoj-realnosti/
[2] https://www.csr.ru/wp-content/uploads/2018/05/GOSUDARSTVO-KAK-PLATFORMA_internet.pdf
[3] https://www.rbc.ru/economics/04/05/2018/5aeb3c439a794797cc22075b

#digitalgov #data
С данными AirBnb накладочка вышла, пока нет так хорошо как хотелось бы
Forwarded from Городские данные (Andrey Karmatsky)
Друзья, мне тут знакомый написал, говорит данные аггрегированные 👆
и правда, самих листингов я не нашел, так что прошу прощения,

а для всех кто интересовался листингами вот прекрасный сайт Inside Airbnb в котором пусть и не реалтайм данные, но листинги в полном наборе для исследований:
http://insideairbnb.com/get-the-data.html
Мало что так нуждается в переводе с цифровую структурированную форму как законодательство и мало где так сопротивляется среда изменениям. Пример успешного проекта - OpenFisca [1], французский проект от государственной команды Etalab [2].

Его идея в кодификации и структуризации всего что касается налогов и социальных льгот. Движок который они создали для этой цели универсален, но начали, конечно с Франции и реализовали их кодекс в виде API и документации [3], а на его основе создали онлайн калькулятор [4] подсчёта собственных льгот.

Охватывают 27 видов льгот включая 17 национальных льгот и 10 региональных.
OpenFisca сейчас делают аналогичное для Туниса [5] [6] и Италии [7].

Ссылки:
[1] http://openfisca.org/
[2] https://www.etalab.gouv.fr/en/
[3] https://fr.openfisca.org/
[4] https://mes-aides.gouv.fr/
[5] https://github.com/openfisca/openfisca-tunisia
[6] https://www.openfisca.tn/
[7] https://github.com/openfisca/openfisca-italy

#opengov
В биометрии [1], технологиях распознавания основанных на признаках человека таких как отпечатки пальцев, изображения радужной оболочки глаза, лица и почерку и многому другому, существует две важнейшие метрики.

FAR - False Acceptance Rate (коэффициент ложного пропуска ) и FRR - False Rejection Rate (коэффициент ложного отказа.

В большинстве случаев применения аутентификации пользователя важнее FAR, крайне важно чтобы под видом хорошего пользователя не мог войти злоумышленник и чтобы его отпечаток или изображение лица не могли использоваться для доступа к защищаемой системе/помещению/данным.

Но, в системах идентификации, когда надо найти конкретного человека из множества, важнее охватить больше условных подозреваемых, чем гарантированно идентифицировать конкретного человека. Идентификация может происходить дополнительными мерами.

По модели идентификации работают AFIS системы в правоохранительных органов где даже по неполным отпечаткам происходит поиск по базе данных и далее уже следователь/дознаватель/офицер полиции проводит отсев тех кто может быть причастен к приступлению.

Аналогично действуют системы выявления преступников на футбольных матчах. Например, The Guardian в заметке "Welsh police wrongly identify thousands as potential criminals" [2] пишут что во время футбольного матча Лиги Чемпионов в 2017 году полиция Уэльса ошибочно идентифицировала преступников.

Но это конечно же совсем не так. Из 170 тысяч посетителей матча алгоритмы автоматически определили 2 470 человек как преступников по базе данных фотографий, но из них ошибочно 2 297 человек (92%).

У полиции существует множество дополнительных инструментов проверки информации о человеке, системы проверки так или иначе будут дополнять друг друга со временем, и высокий процент срабатываний в данном случае - это не обвинение каждого человека при каждом срабатывании, а индикатор более тщательной проверки.

Кстати, к вопросу о социальных рейтингах. Спорт - это одна из тех областей где они могут применяться на практике. В первую очередь из-за очень высокой вероятности антисоциального поведения и все большей технологической готовности отслеживания спортивных болельщиков.

Ссылки:
[1] https://ru.wikipedia.org/wiki/%D0%91%D0%B8%D0%BE%D0%BC%D0%B5%D1%82%D1%80%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B8%D0%B5_%D1%82%D0%B5%D1%85%D0%BD%D0%BE%D0%BB%D0%BE%D0%B3%D0%B8%D0%B8
[2] https://www.theguardian.com/uk-news/2018/may/05/welsh-police-wrongly-identify-thousands-as-potential-criminals

#biometry #facialrecognition
9 мая как день подумать над проектами до которых не доходят руки.

Прошу "помощи зала".

Для национального цифрового архива https://ruarxive.org давно уже нужна полноценная инфраструктура, иначе приходится ограничиваться архивацией самого нужно, вместо архивации всего или почти всего.

Национальный архив должен охватывать по умолчанию все сайты в зонах .ru, .su и .рф, а также других относящихся к российским пользователям напрямую.

Для этого нужен как минимум 1, а далее более больших серверов сбора и хранения.

Я сейчас занимаюсь подсчётами того во сколько обойдётся пока только "железная инфраструктура", а следующей моей задачей будет поиск денег под это всё.

По ссылке https://notes.begtin.tech/s/SJBE77e0z мои расчёты стоимости 1 сервера в 2-х конфигурациях. Возможно кто-то найдёт там ошибки в расчёт, что-то я мог не учесть, а что-то переоценить. В общем нужны те кто понимают что такое RAID6, хранилища на пол-петабайта и каналы для массированной критики написанного.

Написать можно мне в телеграм https://yangx.top/ibegtin или в чате https://yangx.top/begtinchat

#digitalpreservation
По критерию по которой ФАС определяет картели можно зачистить весь ИТ гос поставщиков
ФАС раскрыла картель на рынке IT-услуг
http://fas.gov.ru/news/24913

ФАС раскрыла картель на рынке IT-услуг