Ivan Begtin
8.1K subscribers
2.01K photos
3 videos
102 files
4.74K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
Всевозможным заседаниям рабочих групп, советов и комиссий чаще всего не хватает живых репортажей выходящие за пределы сухих протоколов. Если Вам интересно что происходит на совете по открытым данным - почитайте публикации Оли Пархимович о последнем его заседании https://habrahabr.ru/company/infoculture/blog/330864/

#opendata #opengov
Для всех кто интересуется текущем статусом проекта по цифровой архивации - я написал подробный пост на Medium
https://medium.com/p/digital-archive-8fbcd893e4e4

Национальный цифровой архив (archive.infoculture.ru) — это проект АНО “Информационная культура” по сохранению веб-сайтов.
В проекте архивируется самые разные сайты и другие цифровые ресурсы объединенные одной ключевой мыслью — они могут исчезнуть в скорое время.
Рапортую о текущем статусе:
всего собрано данных на 5.4 терабайта из которых:
- 39 гигабайт архивы госсайтов собранные до 2013 года в формате httrack
- 2 100 гигабайт архивы собранные до марта 2017 вручную с помощью wget в форматах WARC
- 3 200 гигабайт архивы собранные с марта 2017 автоматизировано с помощью технологий wpull + grab-site.
- 3,7 гигабайта коллекция вики-архива — дампы проектов на mediawiki
- остальное — архивы открытых данных

в общей сложности это 1822 сайта подавляющее число которых относится к государственным сайтам, конкретнее к сайтам федеральных органов власти и их территориальных управлений
все собранное доступно публично через хаб открытых данных hubofdata.ru в специальной группе “Архивы сайтов”.

Также на хабе созданы группы позволяющие просматривать архивы по темам:
- Группа “Агентство ипотечного жилого строительства” — 20 сайтов
- Группа “Арбитражный суд” — 64 сайта
- Группа “Олимпиада Сочи” — 18 сайтов
- и так далее, несколько десятков групп можно найти на сайте

Архивация значительно автоматизирована. Для запуска архивации формируется список сайтов и далее скармливается роботу который последовательно или параллельно выкачивает каждый из них. Функции оператора только в том чтобы отслеживать что краулер не попал в “crawler trap” с бесконечным числом страниц для выгрузки.

И обязательно хочу напомнить о том зачем все это делается и чем национальный цифровой архив отличается от Archive.org к примеру.
1. Национальный цифровой архив России охватывает только российские и близкие к России по теме сегменты Интернета. Цель в создании максимально полного среза наиболее ключевых, ценных и наиболее находящихся под угрозой ресурсов.

2. Архивация проводится одним из следующих способов:
- “полным слепком” сайта при котором сохраняется все его содержимое — все веб-страницы, изображения и файлы
- “полным слепком” FTP сервера если архивируется FTP сервер
- специальными инструментами архивации материалов социальных сетей таких как twarc для твиттера
- написанием специальных программ “парсеров/скрейперов” с помощью которых сохраняются страницы и файлы скрытые от обычных краулеров поисковыми формами.
- из материалов собранных внешними контрибьюторами, теми кто готов передать в архив какие-либо полезные архивные материалы на хранение.

3. У цифрового архива на сегодняшний день есть ряд ограничений:
- Нет непрерывной архивации веб-сайтов. Для этого требуется дополнительная инфраструктура и настройки специального движка Heritrix с помощью которого запускать краулеры на регулярной основе
- Доступ к архивным материалам идет в виде слепков целиком. То есть если Вам надо поднять какой-то конкретный документ, например, из архива сайта ФСКН, то Вам надо будет скачать сайт в формате WARC полностью и уже локально у себя запускать утилиты которые извлекали бы файл из этого архива.

Если у Вас есть идеи и предложения по архивации — пишите мне на [email protected]
Национальный цифровой архив создан АНО “Инфокультура” существует на наши собственные средства и частные пожертвования российских граждан. Если Вы хотите помочь проекту то можете сделать это в форме пожертвования вот тут — http://archive.infoculture.ru/donate/

Все пожертвования идут на поддержание и развитие инфраструктуры проекта — аренду серверов, оплату трафика и так далее.

#webarchiving #digitalpreservation #opendata
Команда проекта Protonmail, сервиса защищенной электронной почты запустила только что новый проект ProtonVPN [1] для обхода блокировок. Проект который не стыдно порекомендовать и который стоит не так уж дорого по нынешним меркам - бесплатно на низкой скорости и $4 за базовый тариф.

Как давний пользователь VPN сервисов я не могу не порадоваться появлению новых и напомнить о том что если Вы не доверяеете вообще никому из тех кто предоставляет такие услуги, то Вы всегда можете развернуть самостоятельно сервер с OpenVPN у одного из хостеров таких как Scaleway, Digital Ocean, OVH. Тех кто предлагает сервера в пределах 2-5 евро. У Scaleway есть готовый образ с OpenVPN [2], у остальных инструкции как его быстро настроить.

Я также напомню про статью в Ведомостях "Плохой ответ на мнимые угрозы" [3] в которой я пишу про VPN и попытки его регулирования.

Тема приватности данных мне всегда была и остается интересна, но она для меня в моей деятельности не основная. Меня она больше беспокоит с точки зрения "дата-этики", "приватности данных". Всем кто интересуется этой темой я могу посоветовать канал проекта Роскомсвобода https://yangx.top/roskomsvoboda откуда я и позаимствовал новость про ProtonVPN и где ребята публикуют актуальную информацию по приватности регулярно.

Ссылки:
[1] https://protonvpn.com/
[2] https://www.scaleway.com/imagehub/
[3] https://www.vedomosti.ru/opinion/articles/2017/06/14/694228-otvet-ugrozi

#privacy #vpn
Поскольку тема приватности все острее, я буду здесь в канале добавлять ее все больше. Разбавляя публикации про данные, государство и цифровую экономику.

Пока же для тех кто ни на шутку озабочен приватностью в сети - вот несколько ключевых ресурсов.
- Руководство EFF по самозащите от слежки - https://ssd.eff.org/ru
- Как быстро включить TLS/SSL на своем сайте - https://certbot.eff.org/
- Большой каталог инструментов обеспечения приватности - https://prism-break.org/ru/
- Детальное руководство по обеспечению безопасности MacOS для настоящих параноиков - https://github.com/drduh/macOS-Security-and-Privacy-Guide
- Еще один большой каталог инструментов https://privacytoolsio.github.io/privacytools.io

Мой личный выбор:
- не менее 2-х VPN сервисов. Я использую свой сервер с OpenVPN и один из популярных VPN сервисов который заменю на ProtonVPN скорее всего
- для безопасных дисков и файловых контейнеров - Veracrypt
- для почты - ProtonMail для безопасной переписки, GMail для бытовой/рабочей.
- двухфакторная авторизация во всех сервисах. Везде где возможно через приложение для одноразовых паролей
- для хранения паролей - KeePass
- для генерации сложных паролей - StrongPasswordGenerator, LastPass и личный рандомайзер
- для сертификатов серверов - Let's encrypt

И так далее. Могу сказать что я сейчас живу вдали от настоящей паранойи и обеспечиваю лишь тот комфортный уровень безопасности в котором можно обеспечить приватность.

#privacy #vpn #security
Новый государственный портал открытых данных появился в Великобритании, на сей раз это портал данных парламента data.parliament.uk [1]
на котором не только опубликовано много наборов данных, но и множество сервисов для разработчиков [2]

Например, документация для всех API в унифицированном формате [3].
Подробнее об этом проекте в его блоге [4], а также в цифровой статегии парламента Великобритании [5]

Ссылки:
[1] http://www.data.parliament.uk/
[2] http://www.data.parliament.uk/developers/
[3] http://explore.data.parliament.uk/
[4] https://pds.blog.parliament.uk/2017/06/23/a-new-data-service-for-parliament/
[5] https://pds.blog.parliament.uk/strategy-in-action/

#opendata #api #parliament
Итак, мы обновили сайт Инфокультуры - https://infoculture.ru
Там много-много всего собрано, в разделе проекты https://infoculture.ru/projects и в других разделах.
Самое главное, конечно, не пропустите кнопки "Подписаться на рассылку" и "Поддержать нас". Первое позволит Вам быть в курсе того что мы делаем, а второе поможет нам делать то что мы делаем.

Я же пока расскажу о том чего там нет.
Нет некоторых проектов которые мы делали давно и сейчас они не сохранились. Наша цель была открыть новый сайт как можно скорее, и лишь далее его наполнять.
Пока там перечислены не все наши мероприятия и хакатоны, наше участие в разработке национального плана по открытым данным много лет назад, нашего доклада об открытых данных, множество репозиториев кода отсюда https://github.com/infoculture и нет нескольких проектов которые прямо сейчас находятся в разработке.

Все будет обязательно. И, конечно, Инфокультура стоит на принципах открытости не только государства, но и сектора НКО. Мы также будем обеспечивать собственную открытость, от раскрытия обязательных документов, до публикации всех материалов под Creative Commons. Во всех некоммерческих проектах мы также обязательно предоставляем открытые данные и API.

Отдельно отмечу что, не имея возможности привлекать зарубежное финансирование, практически полностью мы существуем за счет финансирования проектов поддерживаемых российскими фондами, физ лицами и организациями. Не буду говорить сколько я лично вложил средств в Инфокультуру за последние 5 лет:)
Кроме некоммерческих проектов мы оказываем услуги центра компетенций по открытым данным. Мы помогаем госорганам, корпорациям, НКО, всем кто заинтересован в раскрытии информации и все заработанное нами идет на уставные цели.

Мы действуем не в одиночку и список партнеров у нас на сайте далеко не полон. Если мы забыли включить Вашу организацию в их список - напишите нам и мы быстро исправимся.

Конечно наш сайт не столь насыщен материалами как другие проекты которые мы делали за эти годы. Например, Госзатраты (проект Комитета гражданских инициатив) - http://clearspending.ru или Хаб открытых данных (http://hubofdata.ru) однако он будет не только визитной карточкой, но и полезным ресурсом для всех кто работает с открытыми данными и не только.

#opendata #infoculture #opengov
Анонсирована новая версия Data Journalism Handbook [1], руководства по журналистике данных написанное Саймоном Роджерсом в 2011 году и через 6 лет обновленное и готовящееся к выпуску сразу на 4-х языках в 2018 году. Согласно официальному анонсу [2] руководство выпускается совместно Европейским центром журналистики [3] и Google News Lab [4].

Автор руководства, Саймон Роджерс, изначально был автором Guardian Datablog, непрерывно обновляемого блога на сайте Guardian где публиковались графики, данные, инфографика и другие примеры работы журналиста данных. Сейчас он является редактором и журналистом данных в Google [6].

Обратите внимание на то что он не толькок datajournalist, но и dataeditor. Роль которая может показаться новой в российских медиареалиях, но вполне понятная в крупных международных медиахолдингах.

Google News Lab практически не представлены в России, хотя они и регулярно делают и публикуют очень интересные интерактивные проекты. Например, Rhythm of Food [7] о том как и в какой сезон ищут еду через поиск Google сделанное при поддежке Google News Lab в студии Truth-and-Beauty [8].

Другой интересный проект при их поддержке Tilegrams [9] визуализация регионов США, Франции и Германии в виде 6-ти угольников (хексагонов) с возможностью довольно тонкой настройки и подборки. Основной смысл в создании размерности регионов при котором они отображаются в пропорциях набора данных, например, населения. Создан этот проект в Pitch Interactive [10].

Ссылки:
[1] http://datajournalismhandbook.org/
[2] https://medium.com/we-are-the-european-journalism-centre/say-hello-to-the-new-data-journalism-handbook-6f8bc8f32c22
[3] http://ejc.net/
[4] https://newslab.withgoogle.com/
[5] https://www.theguardian.com/data
[6] https://medium.com/@smfrogers
[7] http://rhythm-of-food.net/
[8] http://truth-and-beauty.net/
[9] https://pitchinteractiveinc.github.io/tilegrams/
[10] http://pitchinteractive.com/

#opendata #data #datajournalism
Может ли журналистика остаться коммерческой? Чем отличается журналист от сотрудника некоммерческой органиации? Очень часто ничем, в России многие НКО одновременно являются СМИ и наоборот, многие СМИ являются НКО. Если в России это чаще связано с простотой получения госсубсидий для СМИ, то в мире похожий тренд связан с общим падением доходов СМИ от рекламы.

Journalism Funders Forum [1] организованный Европейским центром журналистики и Фондом Билла и Мелинды Гейтс с начала 2017 года выпустил три отчета и провел три сессии в Лондоне, Париже и Гамбурге посвященные некоммерческому финансированию журналистике.

В каждом из отчетов много примеров фондов финансирующих медиа проекты в этих странах, примеры конкретных проектов и о том как некоммерческое финансирование развивается за эти годы.

Ссылки:
[1] https://journalismfundersforum.com/

#datajournalism #newmedia
Помогите вспомнить наиболее заметные массовые исчезновения контента в Рунете?

Мой текущий список такой:
- региональные сайты МВД в 2013 году уничтожены введением http://www.mvd.ru
- исчезновение сайтов ФМС и ФСКН после присоединения их к МВД
- зачистка Минюстом отчетов НКО до 2015 года на http://unro.minjust.ru
- моментальное закрытие проекта Имхонет http://imhonet.ru
- зачистка архивных данных о бюджетах Москвы на сайте Департамента финансов Москвы http://findep.mos.ru

Менее жесткие (с предупреждением):
- образовательный портал Галактика Интел https://edugalaxy.intel.ru закрывается в конце июля 2017 года
- Сеть учителей Microsoft https://it-n.ru

Нужно больше примеров. Желательно чего-то важного потерянного безвозвратно.
Я хочу обо всем это сделать статью и презентацию.
Конечно с рекламой нашего общественного проекта - Цифровой архив http://archive.infoculture.ru
Может быть даже несколько статей.

Можно написать мне на @ibegtin или в чате @begtinchat

#digitalpreservation
Итак, уже давно пора анонсировать. В этом году мы открываем новый проект, для разнообразия, коммерческий посвященный API и доступу к данным.
Он называется APICrafter и открыт на сайте http://apicrafter.ru

Идея проекта в том что кроме общественных потребителей открытых данных есть немало бизнеса которому нужны открытые и не только, но данные с удобным доступом и с регулярным обновлением.

Мы анонсируем api к данным по госзакупкам, госконтрактам, госфинансам, организациям, банкам и многому другому что мы насобирали за эти годы. А также к тем коммерческим источникам данных к которым получаем доступ сейчас.

Акцент проекта в том что:
- мы не просто предоставляем данные, а также объясняем как с ними работать;
- мы не только продаем интерфейс для доступа к данным, но и сотрудничаем с теми кто планирует сделать коммерческий доступ к своим данным
- мы помогаем делать собственные API и разрабатываем API на заказ
- плюс делаем выгрузки данных по запросу, для тех клиентов кому нужны данные в каком-то специальном формате.
- мы вычищаем и обрабатываем первоисточники в тех случаях когда это необходимо
- мы адаптируем наши API под клиентов у которых в этом возникает потребность.

Сейчас организован доступ к пакету API по госзакупкам и госконтрактам. До конца года мы будем открывать остальные пакеты API к другим данным. В том числе пока не анонсированным.

Оплата возможна по безналу, в ближайшем будущем мы добавим биллинг, личный кабинет и возможность оплаты банковскими картами и другими видами онлайн оплаты.

Для тех кто использует данные в научных или некоммерческих целях - всегда можно договориться о скидке или использовании в обмен на цитирование.

Все наши некоммерческие проекты при этом сохраняются. В тех случаях когда мы можем собрать данные и сделать API за чей-то еще счет - мы всегда и с удовольствием сделаем это в формате некоммерческого проекта. Такие проекты как Госзатраты - Http://clearspending.ru и Открытая полиция - http://openpolice.ru и многие другие сохранят всю ту открытость которая была в них заложена.

В то же время бизнес клиентов все больше в последние годы, у них другие требования, тут мы не можем действовать по принципу "as is". И коммерческий проект - это возможность поддерживать нашу некоммерческую деятельность тоже>

Если у Вас будут какие-либо предложения, пожелания, готовность выступить клиентом, продавцом данных или партнером - пишите мне или на [email protected]

#apicrafter #api
Вышел Budget Transparency Toolkit [1], документ-руководство по обеспечению прозрачности бюджета выпущенный Организацией экономического сотрудничества и развития.

В документе отражены такие важные направления бюджетной открытости как:
- международные стандарты открытости
- понятное представление бюджетной и фискальной информации
- вовлечение парламента
- независимое наблюдение
- открытость и вовлечение граждан
- пропаганда честности вместе с частным сектором

Главная польза от документа - это систематизация международных стандартов и рекомендаций.

Его можно скачать по ссылке [2]
Ссылки:
[1] http://www.oecd.org/gov/budgeting/budget-transparency-toolkit.htm
[2] http://www.oecd.org/gov/budgeting/budget-transparency-toolkit.pdf

#budgets #opendata #data #fiscaltransparency
Минутка рекламы на канале

Если Вы еще не решили куда поступать в этом году и где становиться магистром, то без зазрения совести рекомендую магистерскую программу "Журналистику данных" https://www.hse.ru/ma/datajourn/

Кроме возможности заняться интересной ветвью журналистики - это еще и возможность совместить знания медиа рынки с навыками программирования. Учиться делать спецпроекты и еще многое другое.

Все связано с открытыми данными, конечно же.

Инфокультура является индустриальным партнером программы и мы берем на практику и стажировку студентов.

#opendata #datajournalism
В качестве очередного примера того что и зачем крупные корпорации выкладывают как открытые данные.
Google опубликовали два набора данных Open Images [1] и Youtube-8M [2] в виде огромных баз для обучения алгоритмов распознавания изображений и видео соответственно.

Все под свободными лицензиями, Creative Commons, публикуется в целях формирования сообщества людей работающих над развитием алгоритмов машинного обучения.

Другой пример. Нефтяные компании начали публиковать свои отчеты о выплатах правительствам других стран. Делают они это на своих сайтах и в системах раскрытия государственных структур. Например, отчет Nexen Petroleum U.K. Limited [3] внутри ZIP файлов находятся CSV файлы с их отчетами.

О том как раскрывают данные нефтяные компании можно прочитать в Extract-a-fact [4]

Ссылки:
[1] https://github.com/openimages/dataset
[2] https://research.google.com/youtube8m/index.html
[3] https://extractives.companieshouse.gov.uk/company/01051137
[4] http://www.extractafact.org/

#opendata #corpopendata