Ivan Begtin

Всевозможным заседаниям рабочих групп, советов и комиссий чаще всего не хватает живых репортажей выходящие за пределы сухих протоколов. Если Вам интересно что происходит на совете по открытым данным - почитайте публикации Оли Пархимович о последнем его заседании https://habrahabr.ru/company/infoculture/blog/330864/

#opendata #opengov

habrahabr.ru

Совет по открытым данным: раскрытие транспортных данных

Источник фото: сайт Открытого Правительства 24 мая прошло очередное заседание совета по открытым данным, повесткой которого стало раскрытие транспортных...

1.4K views15:28

Ivan Begtin

Для всех кто интересуется текущем статусом проекта по цифровой архивации - я написал подробный пост на Medium
https://medium.com/p/digital-archive-8fbcd893e4e4

Национальный цифровой архив (archive.infoculture.ru) — это проект АНО “Информационная культура” по сохранению веб-сайтов.
В проекте архивируется самые разные сайты и другие цифровые ресурсы объединенные одной ключевой мыслью — они могут исчезнуть в скорое время.
Рапортую о текущем статусе:
всего собрано данных на 5.4 терабайта из которых:
- 39 гигабайт архивы госсайтов собранные до 2013 года в формате httrack
- 2 100 гигабайт архивы собранные до марта 2017 вручную с помощью wget в форматах WARC
- 3 200 гигабайт архивы собранные с марта 2017 автоматизировано с помощью технологий wpull + grab-site.
- 3,7 гигабайта коллекция вики-архива — дампы проектов на mediawiki
- остальное — архивы открытых данных

в общей сложности это 1822 сайта подавляющее число которых относится к государственным сайтам, конкретнее к сайтам федеральных органов власти и их территориальных управлений
все собранное доступно публично через хаб открытых данных hubofdata.ru в специальной группе “Архивы сайтов”.

Также на хабе созданы группы позволяющие просматривать архивы по темам:
- Группа “Агентство ипотечного жилого строительства” — 20 сайтов
- Группа “Арбитражный суд” — 64 сайта
- Группа “Олимпиада Сочи” — 18 сайтов
- и так далее, несколько десятков групп можно найти на сайте

Архивация значительно автоматизирована. Для запуска архивации формируется список сайтов и далее скармливается роботу который последовательно или параллельно выкачивает каждый из них. Функции оператора только в том чтобы отслеживать что краулер не попал в “crawler trap” с бесконечным числом страниц для выгрузки.

И обязательно хочу напомнить о том зачем все это делается и чем национальный цифровой архив отличается от Archive.org к примеру.
1. Национальный цифровой архив России охватывает только российские и близкие к России по теме сегменты Интернета. Цель в создании максимально полного среза наиболее ключевых, ценных и наиболее находящихся под угрозой ресурсов.

2. Архивация проводится одним из следующих способов:
- “полным слепком” сайта при котором сохраняется все его содержимое — все веб-страницы, изображения и файлы
- “полным слепком” FTP сервера если архивируется FTP сервер
- специальными инструментами архивации материалов социальных сетей таких как twarc для твиттера
- написанием специальных программ “парсеров/скрейперов” с помощью которых сохраняются страницы и файлы скрытые от обычных краулеров поисковыми формами.
- из материалов собранных внешними контрибьюторами, теми кто готов передать в архив какие-либо полезные архивные материалы на хранение.

3. У цифрового архива на сегодняшний день есть ряд ограничений:
- Нет непрерывной архивации веб-сайтов. Для этого требуется дополнительная инфраструктура и настройки специального движка Heritrix с помощью которого запускать краулеры на регулярной основе
- Доступ к архивным материалам идет в виде слепков целиком. То есть если Вам надо поднять какой-то конкретный документ, например, из архива сайта ФСКН, то Вам надо будет скачать сайт в формате WARC полностью и уже локально у себя запускать утилиты которые извлекали бы файл из этого архива.

Если у Вас есть идеи и предложения по архивации — пишите мне на [email protected]
Национальный цифровой архив создан АНО “Инфокультура” существует на наши собственные средства и частные пожертвования российских граждан. Если Вы хотите помочь проекту то можете сделать это в форме пожертвования вот тут — http://archive.infoculture.ru/donate/

Все пожертвования идут на поддержание и развитие инфраструктуры проекта — аренду серверов, оплату трафика и так далее.

#webarchiving #digitalpreservation #opendata

Medium

Национальный цифровой архив. Статус на 18.06.2017 – Ivan Begtin – Medium

Национальный цифровой архив (archive.infoculture.ru) — это проект АНО “Информационная культура” по сохранению веб-сайтов.

1.5K views18:59

Ivan Begtin

Команда проекта Protonmail, сервиса защищенной электронной почты запустила только что новый проект ProtonVPN [1] для обхода блокировок. Проект который не стыдно порекомендовать и который стоит не так уж дорого по нынешним меркам - бесплатно на низкой скорости и $4 за базовый тариф.

Как давний пользователь VPN сервисов я не могу не порадоваться появлению новых и напомнить о том что если Вы не доверяеете вообще никому из тех кто предоставляет такие услуги, то Вы всегда можете развернуть самостоятельно сервер с OpenVPN у одного из хостеров таких как Scaleway, Digital Ocean, OVH. Тех кто предлагает сервера в пределах 2-5 евро. У Scaleway есть готовый образ с OpenVPN [2], у остальных инструкции как его быстро настроить.

Я также напомню про статью в Ведомостях "Плохой ответ на мнимые угрозы" [3] в которой я пишу про VPN и попытки его регулирования.

Тема приватности данных мне всегда была и остается интересна, но она для меня в моей деятельности не основная. Меня она больше беспокоит с точки зрения "дата-этики", "приватности данных". Всем кто интересуется этой темой я могу посоветовать канал проекта Роскомсвобода https://yangx.top/roskomsvoboda откуда я и позаимствовал новость про ProtonVPN и где ребята публикуют актуальную информацию по приватности регулярно.

Ссылки:
[1] https://protonvpn.com/
[2] https://www.scaleway.com/imagehub/
[3] https://www.vedomosti.ru/opinion/articles/2017/06/14/694228-otvet-ugrozi

#privacy #vpn

Roskomsvoboda

Новости, аналитика, мониторинг реестров
Помощь: donate.roskomsvoboda.org
Чат: @roskomsvoboda_discuss

18+

23.12.2022г Минюст включил Роскомсвободу в реестр иноагентов. Мы не согласны с этим и обжалуем это в суде

1.4K views11:26

Ivan Begtin

Поскольку тема приватности все острее, я буду здесь в канале добавлять ее все больше. Разбавляя публикации про данные, государство и цифровую экономику.

Пока же для тех кто ни на шутку озабочен приватностью в сети - вот несколько ключевых ресурсов.
- Руководство EFF по самозащите от слежки - https://ssd.eff.org/ru
- Как быстро включить TLS/SSL на своем сайте - https://certbot.eff.org/
- Большой каталог инструментов обеспечения приватности - https://prism-break.org/ru/
- Детальное руководство по обеспечению безопасности MacOS для настоящих параноиков - https://github.com/drduh/macOS-Security-and-Privacy-Guide
- Еще один большой каталог инструментов https://privacytoolsio.github.io/privacytools.io

Мой личный выбор:
- не менее 2-х VPN сервисов. Я использую свой сервер с OpenVPN и один из популярных VPN сервисов который заменю на ProtonVPN скорее всего
- для безопасных дисков и файловых контейнеров - Veracrypt
- для почты - ProtonMail для безопасной переписки, GMail для бытовой/рабочей.
- двухфакторная авторизация во всех сервисах. Везде где возможно через приложение для одноразовых паролей
- для хранения паролей - KeePass
- для генерации сложных паролей - StrongPasswordGenerator, LastPass и личный рандомайзер
- для сертификатов серверов - Let's encrypt

И так далее. Могу сказать что я сейчас живу вдали от настоящей паранойи и обеспечиваю лишь тот комфортный уровень безопасности в котором можно обеспечить приватность.

#privacy #vpn #security

ssd.eff.org

Главная страница

Мы, сотрудники независимой некоммерческой организации Electronic Frontier Foundation, работаем на протяжении почти тридцати лет в области обеспечения конфиденциальности в сети Интернет. Пособие «Самозащита от слежки» поможет вам и вашим друзьям избежать слежки…

2.1K viewsedited 12:02

Ivan Begtin

Новый государственный портал открытых данных появился в Великобритании, на сей раз это портал данных парламента data.parliament.uk [1]
на котором не только опубликовано много наборов данных, но и множество сервисов для разработчиков [2]

Например, документация для всех API в унифицированном формате [3].
Подробнее об этом проекте в его блоге [4], а также в цифровой статегии парламента Великобритании [5]

Ссылки:
[1] http://www.data.parliament.uk/
[2] http://www.data.parliament.uk/developers/
[3] http://explore.data.parliament.uk/
[4] https://pds.blog.parliament.uk/2017/06/23/a-new-data-service-for-parliament/
[5] https://pds.blog.parliament.uk/strategy-in-action/

#opendata #api #parliament

www.data.parliament.uk

Developing with data.parliament » data.parliament – The Blog

Just another WordPress site

1.4K views06:48

Ivan Begtin

1.3K views15:01

Ivan Begtin

Итак, мы обновили сайт Инфокультуры - https://infoculture.ru
Там много-много всего собрано, в разделе проекты https://infoculture.ru/projects и в других разделах.
Самое главное, конечно, не пропустите кнопки "Подписаться на рассылку" и "Поддержать нас". Первое позволит Вам быть в курсе того что мы делаем, а второе поможет нам делать то что мы делаем.

Я же пока расскажу о том чего там нет.
Нет некоторых проектов которые мы делали давно и сейчас они не сохранились. Наша цель была открыть новый сайт как можно скорее, и лишь далее его наполнять.
Пока там перечислены не все наши мероприятия и хакатоны, наше участие в разработке национального плана по открытым данным много лет назад, нашего доклада об открытых данных, множество репозиториев кода отсюда https://github.com/infoculture и нет нескольких проектов которые прямо сейчас находятся в разработке.

Все будет обязательно. И, конечно, Инфокультура стоит на принципах открытости не только государства, но и сектора НКО. Мы также будем обеспечивать собственную открытость, от раскрытия обязательных документов, до публикации всех материалов под Creative Commons. Во всех некоммерческих проектах мы также обязательно предоставляем открытые данные и API.

Отдельно отмечу что, не имея возможности привлекать зарубежное финансирование, практически полностью мы существуем за счет финансирования проектов поддерживаемых российскими фондами, физ лицами и организациями. Не буду говорить сколько я лично вложил средств в Инфокультуру за последние 5 лет:)
Кроме некоммерческих проектов мы оказываем услуги центра компетенций по открытым данным. Мы помогаем госорганам, корпорациям, НКО, всем кто заинтересован в раскрытии информации и все заработанное нами идет на уставные цели.

Мы действуем не в одиночку и список партнеров у нас на сайте далеко не полон. Если мы забыли включить Вашу организацию в их список - напишите нам и мы быстро исправимся.

Конечно наш сайт не столь насыщен материалами как другие проекты которые мы делали за эти годы. Например, Госзатраты (проект Комитета гражданских инициатив) - http://clearspending.ru или Хаб открытых данных (http://hubofdata.ru) однако он будет не только визитной карточкой, но и полезным ресурсом для всех кто работает с открытыми данными и не только.

#opendata #infoculture #opengov

GitHub

NGO "Informational Culture"

Informational Culture is Russian Open Government NGO dedicated to open data and open contests. - NGO "Informational Culture"

1.5K viewsedited 15:01

Ivan Begtin

Анонсирована новая версия Data Journalism Handbook [1], руководства по журналистике данных написанное Саймоном Роджерсом в 2011 году и через 6 лет обновленное и готовящееся к выпуску сразу на 4-х языках в 2018 году. Согласно официальному анонсу [2] руководство выпускается совместно Европейским центром журналистики [3] и Google News Lab [4].

Автор руководства, Саймон Роджерс, изначально был автором Guardian Datablog, непрерывно обновляемого блога на сайте Guardian где публиковались графики, данные, инфографика и другие примеры работы журналиста данных. Сейчас он является редактором и журналистом данных в Google [6].

Обратите внимание на то что он не толькок datajournalist, но и dataeditor. Роль которая может показаться новой в российских медиареалиях, но вполне понятная в крупных международных медиахолдингах.

Google News Lab практически не представлены в России, хотя они и регулярно делают и публикуют очень интересные интерактивные проекты. Например, Rhythm of Food [7] о том как и в какой сезон ищут еду через поиск Google сделанное при поддежке Google News Lab в студии Truth-and-Beauty [8].

Другой интересный проект при их поддержке Tilegrams [9] визуализация регионов США, Франции и Германии в виде 6-ти угольников (хексагонов) с возможностью довольно тонкой настройки и подборки. Основной смысл в создании размерности регионов при котором они отображаются в пропорциях набора данных, например, населения. Создан этот проект в Pitch Interactive [10].

Ссылки:
[1] http://datajournalismhandbook.org/
[2] https://medium.com/we-are-the-european-journalism-centre/say-hello-to-the-new-data-journalism-handbook-6f8bc8f32c22
[3] http://ejc.net/
[4] https://newslab.withgoogle.com/
[5] https://www.theguardian.com/data
[6] https://medium.com/@smfrogers
[7] http://rhythm-of-food.net/
[8] http://truth-and-beauty.net/
[9] https://pitchinteractiveinc.github.io/tilegrams/
[10] http://pitchinteractive.com/

#opendata #data #datajournalism

Medium

Say hello to the new Data Journalism Handbook

The Data Journalism Handbook, published in 2011, is the guidebook for data journalists learning, perfecting or just starting their craft…

1.4K views05:15

Ivan Begtin

Может ли журналистика остаться коммерческой? Чем отличается журналист от сотрудника некоммерческой органиации? Очень часто ничем, в России многие НКО одновременно являются СМИ и наоборот, многие СМИ являются НКО. Если в России это чаще связано с простотой получения госсубсидий для СМИ, то в мире похожий тренд связан с общим падением доходов СМИ от рекламы.

Journalism Funders Forum [1] организованный Европейским центром журналистики и Фондом Билла и Мелинды Гейтс с начала 2017 года выпустил три отчета и провел три сессии в Лондоне, Париже и Гамбурге посвященные некоммерческому финансированию журналистике.

В каждом из отчетов много примеров фондов финансирующих медиа проекты в этих странах, примеры конкретных проектов и о том как некоммерческое финансирование развивается за эти годы.

Ссылки:
[1] https://journalismfundersforum.com/

#datajournalism #newmedia

Journalism Funders Forum

Journalism Funders Forum - Journalism Funders Forum

The Journalism Funders Forum is an open community of European funders working together to ensure more effective and impactful funding of journalism in Europe

1.3K views07:18

Ivan Begtin

JFF-Germany-Report.pdf

3 MB

1.3K views07:18

Ivan Begtin

jff_london_report.pdf

3.3 MB

1.3K views07:19

Ivan Begtin

Journalism-Funders-Report-Paris.pdf

1.9 MB

1.4K views07:19

Ivan Begtin

Помогите вспомнить наиболее заметные массовые исчезновения контента в Рунете?

Мой текущий список такой:
- региональные сайты МВД в 2013 году уничтожены введением http://www.mvd.ru
- исчезновение сайтов ФМС и ФСКН после присоединения их к МВД
- зачистка Минюстом отчетов НКО до 2015 года на http://unro.minjust.ru
- моментальное закрытие проекта Имхонет http://imhonet.ru
- зачистка архивных данных о бюджетах Москвы на сайте Департамента финансов Москвы http://findep.mos.ru

Менее жесткие (с предупреждением):
- образовательный портал Галактика Интел https://edugalaxy.intel.ru закрывается в конце июля 2017 года
- Сеть учителей Microsoft https://it-n.ru

Нужно больше примеров. Желательно чего-то важного потерянного безвозвратно.
Я хочу обо всем это сделать статью и презентацию.
Конечно с рекламой нашего общественного проекта - Цифровой архив http://archive.infoculture.ru
Может быть даже несколько статей.

Можно написать мне на @ibegtin или в чате @begtinchat

#digitalpreservation

мвд.рф

МВД России

Официальный интернет-сайт МВД России

1.4K views12:00

Ivan Begtin

https://www.youtube.com/watch?v=Cxe2fwNjZ_4 вот тут будет через 15 минут трансляция дискуссии про будущее. Я буду рассказывать про датаэтику #dataethics

YouTube

Цикл «Образ будущего»: Куда ведет эволюция морали

Комитет гражданских инициатив и Общероссийский гражданский форум продолжают цикл дискуссий «Образ будущего». Летняя сессия цикла будет посвящена вопросам мор...

1.5K views15:51

Ivan Begtin

Итак, уже давно пора анонсировать. В этом году мы открываем новый проект, для разнообразия, коммерческий посвященный API и доступу к данным.
Он называется APICrafter и открыт на сайте http://apicrafter.ru

Идея проекта в том что кроме общественных потребителей открытых данных есть немало бизнеса которому нужны открытые и не только, но данные с удобным доступом и с регулярным обновлением.

Мы анонсируем api к данным по госзакупкам, госконтрактам, госфинансам, организациям, банкам и многому другому что мы насобирали за эти годы. А также к тем коммерческим источникам данных к которым получаем доступ сейчас.

Акцент проекта в том что:
- мы не просто предоставляем данные, а также объясняем как с ними работать;
- мы не только продаем интерфейс для доступа к данным, но и сотрудничаем с теми кто планирует сделать коммерческий доступ к своим данным
- мы помогаем делать собственные API и разрабатываем API на заказ
- плюс делаем выгрузки данных по запросу, для тех клиентов кому нужны данные в каком-то специальном формате.
- мы вычищаем и обрабатываем первоисточники в тех случаях когда это необходимо
- мы адаптируем наши API под клиентов у которых в этом возникает потребность.

Сейчас организован доступ к пакету API по госзакупкам и госконтрактам. До конца года мы будем открывать остальные пакеты API к другим данным. В том числе пока не анонсированным.

Оплата возможна по безналу, в ближайшем будущем мы добавим биллинг, личный кабинет и возможность оплаты банковскими картами и другими видами онлайн оплаты.

Для тех кто использует данные в научных или некоммерческих целях - всегда можно договориться о скидке или использовании в обмен на цитирование.

Все наши некоммерческие проекты при этом сохраняются. В тех случаях когда мы можем собрать данные и сделать API за чей-то еще счет - мы всегда и с удовольствием сделаем это в формате некоммерческого проекта. Такие проекты как Госзатраты - Http://clearspending.ru и Открытая полиция - http://openpolice.ru и многие другие сохранят всю ту открытость которая была в них заложена.

В то же время бизнес клиентов все больше в последние годы, у них другие требования, тут мы не можем действовать по принципу "as is". И коммерческий проект - это возможность поддерживать нашу некоммерческую деятельность тоже>

Если у Вас будут какие-либо предложения, пожелания, готовность выступить клиентом, продавцом данных или партнером - пишите мне или на [email protected]

#apicrafter #api

ГосЗатраты

ГосЗатраты - Общественный мониторинг госзакупок в Рф

Автоматизированный мониторинг и аналитика по заключенным госконтрактам – инструменты для общественного анализа, выявления злоупотреблений, борьбы с коррупцией и неэффективным расходованием государственных средств.

1.6K views10:36

Ivan Begtin

1.5K views10:37

Ivan Begtin

Вышел Budget Transparency Toolkit [1], документ-руководство по обеспечению прозрачности бюджета выпущенный Организацией экономического сотрудничества и развития.

В документе отражены такие важные направления бюджетной открытости как:
- международные стандарты открытости
- понятное представление бюджетной и фискальной информации
- вовлечение парламента
- независимое наблюдение
- открытость и вовлечение граждан
- пропаганда честности вместе с частным сектором

Главная польза от документа - это систематизация международных стандартов и рекомендаций.

Его можно скачать по ссылке [2]
Ссылки:
[1] http://www.oecd.org/gov/budgeting/budget-transparency-toolkit.htm
[2] http://www.oecd.org/gov/budgeting/budget-transparency-toolkit.pdf

#budgets #opendata #data #fiscaltransparency

www.oecd.org

Budget Transparency Toolkit

Toolkit providing a gateway to the various global budget and fiscal transparency institutions, official instruments, standards, and guidance materials.

1.5K viewsIvan Begtin, 05:35

Ivan Begtin

1.6K viewsIvan Begtin, 05:35

Ivan Begtin

budget-transparency-toolkit.pdf

2 MB

1.6K viewsIvan Begtin, 05:35

Ivan Begtin

Минутка рекламы на канале

Если Вы еще не решили куда поступать в этом году и где становиться магистром, то без зазрения совести рекомендую магистерскую программу "Журналистику данных" https://www.hse.ru/ma/datajourn/

Кроме возможности заняться интересной ветвью журналистики - это еще и возможность совместить знания медиа рынки с навыками программирования. Учиться делать спецпроекты и еще многое другое.

Все связано с открытыми данными, конечно же.

Инфокультура является индустриальным партнером программы и мы берем на практику и стажировку студентов.

#opendata #datajournalism

www.hse.ru

Магистерская программа «Журналистика данных»

Слушатели овладеют знаниями, которые позволят осуществлять эффективный поиск, фильтрацию, анализ и обработку больших массивов данных для оформления материала в виде увлекательного медиатекста или…

1.7K viewsIvan Begtin, 11:46

Ivan Begtin

В качестве очередного примера того что и зачем крупные корпорации выкладывают как открытые данные.
Google опубликовали два набора данных Open Images [1] и Youtube-8M [2] в виде огромных баз для обучения алгоритмов распознавания изображений и видео соответственно.

Все под свободными лицензиями, Creative Commons, публикуется в целях формирования сообщества людей работающих над развитием алгоритмов машинного обучения.

Другой пример. Нефтяные компании начали публиковать свои отчеты о выплатах правительствам других стран. Делают они это на своих сайтах и в системах раскрытия государственных структур. Например, отчет Nexen Petroleum U.K. Limited [3] внутри ZIP файлов находятся CSV файлы с их отчетами.

О том как раскрывают данные нефтяные компании можно прочитать в Extract-a-fact [4]

Ссылки:
[1] https://github.com/openimages/dataset
[2] https://research.google.com/youtube8m/index.html
[3] https://extractives.companieshouse.gov.uk/company/01051137
[4] http://www.extractafact.org/

#opendata #corpopendata

GitHub

GitHub - openimages/dataset: The Open Images dataset

The Open Images dataset. Contribute to openimages/dataset development by creating an account on GitHub.

1.9K viewsIvan Begtin, 06:02

About

Blog

Apps

Platform