Ivan Begtin
9.35K subscribers
2.12K photos
3 videos
103 files
4.85K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email [email protected]

Ads/promotion agent: @k0shk
加入频道
Итак, Роскомнадзор, поскольку заблокировал
всю подсеть Scaleway (Нидерланды) 51.15.0.0/16, то он заблокировал мой личный сайт и блог https://begtin.tech

http://isitblockedinrussia.com/?host=begtin.tech

Почему я развернул его на Scaleway? Потому что сайт работает на движке Ghost, а Scaleway по умолчанию развовачивает образ с Docker'ом и дальше через Docker я развернул образ Ghost. Очень удобно во всём, кроме Роскомсамизнаетекого.

Так что это становится личным.

#rkn
Все данные по контрактам и субсидиям Роскомнадзора мы выложили онлайн на хабе открытых данных [1], а в новости на сайте КГИ [2] о том что именно в выложенных файлах.

Охвачены 74 организации - Роскомнадзор и подведы.

Там 3 файла:
- Все контракты по 44-ФЗ, 223-ФЗ и 94-ФЗ в формате JSON. Данные представляют собой дамп базы проекта КГИ “Госзатраты” (clearspending.ru) и содержат информацию о перечисленных выше заказчиках, поставщиках, контрактах. Первоисточником данных является официальный портал госзакупок ( zakupki.gov.ru).

- Данные по предметам контрактов. Выборка представляет собой csv-файл, каждая строка которого - описание одного предмета контракта.

- Субсидии в формате JSON. Данные содержат все федеральные субсидии, распределенные Роскомнадзором. В качестве источника выборки использовано API проекта APICrafter, а первоисточником данных является портал Электронного бюджета ( budget.gov.ru).

Данные пригодятся всем исследователям, журналистам и аналитикам кто хочет проанализировать контракты Роскомнадзора с 2009 года.

Если будут вопросы - пишите нам на [email protected] или задавайте вопросы в чате https://yangx.top/begtinchat.

Ссылки:
[1] https://hubofdata.ru/dataset/rkn-finances
[2] https://komitetgi.ru/news/news/3745/

#opendata #rkn
--- Минутка рекламы —-

Вы наверняка знаете проекты которые ведёт Инфокультура (https://infoculture.ru) которую я возглавляю? Какие-то из них больше, какие-то меньше. На некоторые нам удаётся найти бюджет и финансирование, на другие гораздо сложнее.

Такие проекты без бюджетов, например:
- Национальный цифровой архив https://ruarxive.org
- Простой русский язык http://plainrussian.ru
- Хаб открытых данных http://hubofdata.ru

Все эти проекты про открытость, открытые данные, открытый код и открытое API.

Нам удаётся их поддерживать за счёт того что иногда мы делаем и небольшие коммерческие проекты, но в целом, скажу честно, фандрайзинг никогда не был нашей сильной стороной, а многие говорят что и фандрайзинг на эти темы очень сложен.

Мы сделали страницу на https://yasobe.ru/na/infoculture где каждый может пожертвовать немного на наши проекты. Это сбор на основную, уставную деятельность.

Отдельно на каждом сайте мы разместим ссылки как можно поддержать проекты.

А если кто-то захочет поддержать их не просто на 100-250 рублей, а выступить спонсором - с удовольствием отметим как важного спонсора. На сайте, в публикациях и не только.

P.S. И напомню что по проекту открытая полиция идёт сбор средств на памятку для футбольных болельщиков на период чемпионата мира по футболу в России - https://planeta.ru/campaigns/fifa

Не стоит недооценивать её полезность

#opendata #fundraising
Немного юмора, на фоне неуморительного Роскомнадзора. Ко дню супергероев в проекте госзатраты мы проанализировали контракты с "супергеройскими" поставщиками
Forwarded from Инфокультура
Тест: Супергерой Госзаказа
https://www.infoculture.ru/2018/04/28/quiz-superhero/

Сегодня 28 апреля — официальный день супергероя (National Superhero Day).
Marvel придумал этот праздник еще в 1995 году. Ежегодно в этот день миллионы
людей по всему миру чествуют не только вымышленных супергероев, но и реальных.
А мы обратили внимание, что супергерои из вселенных Marvel и DC окружают нас
на российском рынке госзаказа. Госзатраты решили посмотреть, как часто всем
известные супергерои: Бэтмен, Черная кошка, Халк, Человек-паук, Росомаха,
Чудо-женщина и другие, — встречаются в назв
Сегодня в 21:00 я буду на Эхо Москвы в передаче "Точка" Александра Плющева [1] про "Сломанный интернет"

Я немного кашляю, но надеюсь к 9 вечера смогу говорить.

Ссылки:
[1] https://echo.msk.ru/programs/tochka/2192332-echo/

#rkn #privacy
The Citizen Lab [1], канадское НКО занимающееся исследованием того как государства и корпорации нарушают приватность, 25 апреля выпустили исследование [2] по продуктам компании Netsweeper, которые уже много лет предоставляют технологии фильтрации для государства [3]

The Citizen Lab, фактически, обвиняют Netsweeper в том что те помогают цензурировать интернет в таких странах как: Афганистран, Бахрейн, Индия, Кувейт, Пакистан, Катар, Сомали, Судан, ОАЭ, Йемен

А всего нашлось более 30 стран где были найдены установленные ими устройства.

Самое интересное в том как именно они узнали что в этих странах используется Netsweeper. А вот тут то им и помогли открытые данные и открытые источники информации.

Авторы исследования собрали данных из систем Censys [4] и Shodan [5] (Censys отдаёт данные бесплатно и так, а Shodan они попросили и им дали нужное). Из этих данных они извлекли устройства имеющие признаки отношения к Netsweeper и выложили их набором данных на github [6], о том как именно они это делали подробности в методологии [7].

Ко всему прочем в исследовании они обращались к данным OONI [8] и ICLab [9], проектов по мониторингу цензуры в интернете. Далеко не во всех странах правительства принципиально дают возможность узнать что же они блокируют и тогда это выясняется с помощью специального ПО которое ставится на личные компьютеры и сервера и которое проверяет блокировку сайту по спискам.

Ссылки:
[1] https://citizenlab.ca/
[2] https://citizenlab.ca/2018/04/planet-netsweeper/
[3] https://www.netsweeper.com/government/
[4] http://censys.io/
[5] https://www.shodan.io/
[6] https://github.com/citizenlab/planetnetsweeper
[7] https://citizenlab.ca/2018/04/planet-netsweeper-section-1-methodology-technical-findings/
[8] https://ooni.torproject.org/
[9] https://iclab.org/

#opendata #privacy
На передаче "Сломанный интернет" на Эхо Москвы я говорил о том что Apple и Google не удалят приложения Telegram из своих магазинов именно потому что получат иски и публичные обвинения в цензуре.
Forwarded from ЗаТелеком 🌐
Кстати, в поддержку Телеграма и «против интернет-цезуры», включая «пакет яровой», подписались 26 международных организаций. Среди которых ARTICLE 19, Freedom House, WWW Foundation и самый уважаемый — Electronic Frontier Foundation

https://www.article19.org/resources/russia-telegram-block-leads-widespread-assault-freedom-expression-online/

Петиции ушли в ООН, Совет Европы, Организацию по безопасности и сотрудничеству в Европе (ОБСЕ), Европейский союз и другие заинтересованные организации, готовые оспаривать действия России и вести переговоры.

Тут нужно понимать, что быстро ничего не произойдет. Но если кто-то из перечисленных решит эскалировать процесс, то могут быть весьма неприятные последствия. Трудно пока представить какие, но времени их придумать — завались.

Например, Жаров вот уже в санкционных списках, откуда следует, что любые запросы по его ведомству за любую коллаборацию с американскими компаниями может неиллюзорно прилететь.

В список может попасть, например, действующий или новый министр связи. А это значит, что кое-кто не сможет улыбаться на всевозможных сабантуях в ITU.

Ну, например:
на Глобальном симпозиуме для регуляторных органов (ГСР) 2018 года (9−12 июля 2018 года) Женева, Швейцария​
или
Всемирное мероприятие ITU Telecom-2018
​10−13 сентября 2018 года, Дурбан, Южно-Африканская Республика​.

А это значит, что не будет каких-то выгодных контрактов и интересных проектов. Ну, например, магистраль «Европа-Азия» по территории России — про нее уже можно забыть.
Я, по старинке, значительную часть новостей читаю в почтовых рассылках и почти на все новости по работе с открытыми данными и данными вообще стараюсь подписываться. К счастью,большая часть этих рассылок вполне этичны и не спамят сотнями писем в неделю.

Вот список того на что я лично подписан:
- ORelly Data https://www.oreilly.com/topics/data для подписки надо завести там аккаунт и подписаться на тему "Data"
- DataElixir http://dataelixir.com/ еженедельные письма со ссылками по Data Science
- StackShare https://stackshare.io/news позволяет искать новости по инструментам разработки в том числе с данными. Темы Big Data Tools, Data Transfer, Real-time data processing, Data Science Tools позволяют подписаться на наиболее актуальные статьи по утилитам и продуктам по этой теме
- Towards Data Science https://towardsdatascience.com/ ежедневно статьи о работе с данными. Работает на базе Medium и после авторизации даёт возможность получать письма на почту
- Data Science Roundup http://roundup.fishtownanalytics.com/ больше акцента на аналитике и алгоритмах
- Data Science Weekly https://www.datascienceweekly.org/ аналогично больше про Data Science
- KD Nuggets https://www.kdnuggets.com не только про алгоритмы и большие данные, но и про курсы, обучение, работу, вакансии и многое другое
- Mode Analytics Newsletter https://about.modeanalytics.com/newsletter/ больше про аналитику от создателей платформы облачной аналитики
- Data Digest https://page.data.world/data-digest от Data.world, еженедельная рассылка с новостями и примерами работы с данными
- Center for data innovation newsletter http://www.datainnovation.org/ в основном рассылка про индустрию
- Kaggle blog newsletter http://blog.kaggle.com/ подписка на блог Kaggle, о их платформе, машинном обучении и не только.

В завершение добавлю упоминание нашей рассылки Инфокультуры, которая, кроме всего прочего охватывает и темы открытых данных в России. Прямая ссылка на подписку тут http://infoculture.us7.list-manage.com/subscribe?u=2e38b8af0d8a547b51427dc9b&id=dadb533f05

#opendata #machinelearning #newsletters
Мало кто знает что Тим Бернерс Ли, рыцарь британской империи, изобретатель World Wide Web и один из основателей Open Data Institute в Великобритании ещё и является активным разработчиком.

В его аккаунте на Github'е можно увидеть его активность [1]. С одной стороны это очень хорошо, он значительный контрибьютор и создатель кода по связанным данным, а сейчас и разработка идёт на проектом Solid, по декомпозиции веба таким образом чтобы пользователь сохранял контроль над своими данными, а с другой стороны проект хартии открытых данных выглядит заброшенным [2].


Ссылки:
[1] https://github.com/timbl/
[2] https://opendatacharter.net/

#linkeddata #opendata
А тем временем data.gov.ru так и не ожил. Надо бы проверить контракт разработчика, не нарушили ли они его положений делая сайт недоступным столь долго #opendata
Наглядная визуализация разницы того отчего люди умирают на самом деле, то чем они интересуются и то что освещается в СМИ. На примере данных о смерти в США, но актуально для всех стран, с учётом их специфики.
В блоге мессенжерна Signal о том как решение Google и Amazon отключить "domain fronting" для большинства клиентов привело к тому что теперь их мессенжер легче подвергается цензуре [1]

Там же о том что Amazon направили им письмо о заморозке аккаунта именно по причине использования "domain fronting".

Signal ищут способ обойти это ограничение и ищут разработчика в команду [2].

Ссылки:
[1] https://signal.org/blog/looking-back-on-the-front/
[2] https://signal.org/workworkwork/

#privacy
Countable [1] пример настоящего общественного контроля граждан за государством в США активизирует публичные дискуссии вокруг проектов законопроектов в конгрессе и собирает их десятками тысяч, а также предлагает инструкции того как писать представителям в конгрессе своё мнение.

В основе проекта - чёткое, краткое и ясное изложение законопроекта и активное вовлечение к дискуссии.

В апреле этого года они совместно с USAFacts [2] планирует выпускать углублённую аналитику по ключевым вопросам госполитики.

Ссылки:
[1] https://www.countable.us
[2] https://www.countable.us/articles/3919-countable-usafacts-savvy-civic-synergy

#opendata #analytics #openbudget
Обновлённая версия data.gov.uk
Обновился портал data.gov.uk [1], внутри его остался движок CKAN [2], но снаружи интерфейс в максимально упрощённой форме по аналогии с основным порталом gov.uk.

Не могу сказать что новый интерфейс мне нравится больше, но это скорее вопрос привычки. В этой версии они довольно много всего потеряли, например, в пока ещё доступны ссылки с отчётами по использованию наборов данных приложениями [3], но ссылки на сами приложения уже не работают.

Ссылки:
[1] https://data.gov.uk
[2] https://ckan.org
[3] https://data.gov.uk/data/report/app-dataset-report

#opendata #opengov
В New Republic вышла статья с подробностями китайской системы социальных кредитов [1] особенно интересная обзором контекста в котором это внедрение происходит. С официальными объявлениями в поездах, с высокой распространённостью обманов и подлогов среди китайцев, например, оформлением фиктивных разводов для обхода ограничений на покупку недвижимости и получения прав вождения.

В статье система социальных кредитов называется "высокотехнологичным Сталинизмом", но это кажется довольно вольным допущением. Китайская система довольно уникальна и сопряжена со свободной продажей персональных данных и риском утечки подобной централизованной базы данных.

Вопрос о том надо ли нам задумываться о вероятности введения подобной системы в России? У нас нет исторического опыта введения такой классификации с уровнями и рейтингами и нет такого фактического и эффективного влияния государства на нашу жизнь. В России воздействие государства сейчас на жизнь каждого усиливается, но не отличается системностью и стратегией.

Ссылки:
[1] https://newrepublic.com/article/148121/control-14-billion-people

#social #privacy
Живы ли открытые данные ? Is open data alive? https://begtin.tech/is-opendata-alive/

Написал в формате который никак не укладывается в формат телеграм канала, поэтому даю ссылкой на основной блог. Обсудить можно у меня в чате https://yangx.top/begtinchat

#opendata #opengov
Forwarded from Городские данные (Andrey Karmatsky)
Airbnb опубликовал почти 5 миллионов (4.85M) актуальных листингов в 300 городах из 80 стран — эти данные доступны для визуализации и аналитики для всех. Это прям очень классно, потому что из этих данных можно многое интересного выяснить про города и как там люди живут/приезжают в гости.
https://www.airbnbcitizen.com/data/#/


спасибо @subbotazh за ссылку