Ivan Begtin
8.1K subscribers
2.01K photos
3 videos
102 files
4.74K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
Итак, мы обновили сайт Инфокультуры - https://infoculture.ru
Там много-много всего собрано, в разделе проекты https://infoculture.ru/projects и в других разделах.
Самое главное, конечно, не пропустите кнопки "Подписаться на рассылку" и "Поддержать нас". Первое позволит Вам быть в курсе того что мы делаем, а второе поможет нам делать то что мы делаем.

Я же пока расскажу о том чего там нет.
Нет некоторых проектов которые мы делали давно и сейчас они не сохранились. Наша цель была открыть новый сайт как можно скорее, и лишь далее его наполнять.
Пока там перечислены не все наши мероприятия и хакатоны, наше участие в разработке национального плана по открытым данным много лет назад, нашего доклада об открытых данных, множество репозиториев кода отсюда https://github.com/infoculture и нет нескольких проектов которые прямо сейчас находятся в разработке.

Все будет обязательно. И, конечно, Инфокультура стоит на принципах открытости не только государства, но и сектора НКО. Мы также будем обеспечивать собственную открытость, от раскрытия обязательных документов, до публикации всех материалов под Creative Commons. Во всех некоммерческих проектах мы также обязательно предоставляем открытые данные и API.

Отдельно отмечу что, не имея возможности привлекать зарубежное финансирование, практически полностью мы существуем за счет финансирования проектов поддерживаемых российскими фондами, физ лицами и организациями. Не буду говорить сколько я лично вложил средств в Инфокультуру за последние 5 лет:)
Кроме некоммерческих проектов мы оказываем услуги центра компетенций по открытым данным. Мы помогаем госорганам, корпорациям, НКО, всем кто заинтересован в раскрытии информации и все заработанное нами идет на уставные цели.

Мы действуем не в одиночку и список партнеров у нас на сайте далеко не полон. Если мы забыли включить Вашу организацию в их список - напишите нам и мы быстро исправимся.

Конечно наш сайт не столь насыщен материалами как другие проекты которые мы делали за эти годы. Например, Госзатраты (проект Комитета гражданских инициатив) - http://clearspending.ru или Хаб открытых данных (http://hubofdata.ru) однако он будет не только визитной карточкой, но и полезным ресурсом для всех кто работает с открытыми данными и не только.

#opendata #infoculture #opengov
Анонсирована новая версия Data Journalism Handbook [1], руководства по журналистике данных написанное Саймоном Роджерсом в 2011 году и через 6 лет обновленное и готовящееся к выпуску сразу на 4-х языках в 2018 году. Согласно официальному анонсу [2] руководство выпускается совместно Европейским центром журналистики [3] и Google News Lab [4].

Автор руководства, Саймон Роджерс, изначально был автором Guardian Datablog, непрерывно обновляемого блога на сайте Guardian где публиковались графики, данные, инфографика и другие примеры работы журналиста данных. Сейчас он является редактором и журналистом данных в Google [6].

Обратите внимание на то что он не толькок datajournalist, но и dataeditor. Роль которая может показаться новой в российских медиареалиях, но вполне понятная в крупных международных медиахолдингах.

Google News Lab практически не представлены в России, хотя они и регулярно делают и публикуют очень интересные интерактивные проекты. Например, Rhythm of Food [7] о том как и в какой сезон ищут еду через поиск Google сделанное при поддежке Google News Lab в студии Truth-and-Beauty [8].

Другой интересный проект при их поддержке Tilegrams [9] визуализация регионов США, Франции и Германии в виде 6-ти угольников (хексагонов) с возможностью довольно тонкой настройки и подборки. Основной смысл в создании размерности регионов при котором они отображаются в пропорциях набора данных, например, населения. Создан этот проект в Pitch Interactive [10].

Ссылки:
[1] http://datajournalismhandbook.org/
[2] https://medium.com/we-are-the-european-journalism-centre/say-hello-to-the-new-data-journalism-handbook-6f8bc8f32c22
[3] http://ejc.net/
[4] https://newslab.withgoogle.com/
[5] https://www.theguardian.com/data
[6] https://medium.com/@smfrogers
[7] http://rhythm-of-food.net/
[8] http://truth-and-beauty.net/
[9] https://pitchinteractiveinc.github.io/tilegrams/
[10] http://pitchinteractive.com/

#opendata #data #datajournalism
Может ли журналистика остаться коммерческой? Чем отличается журналист от сотрудника некоммерческой органиации? Очень часто ничем, в России многие НКО одновременно являются СМИ и наоборот, многие СМИ являются НКО. Если в России это чаще связано с простотой получения госсубсидий для СМИ, то в мире похожий тренд связан с общим падением доходов СМИ от рекламы.

Journalism Funders Forum [1] организованный Европейским центром журналистики и Фондом Билла и Мелинды Гейтс с начала 2017 года выпустил три отчета и провел три сессии в Лондоне, Париже и Гамбурге посвященные некоммерческому финансированию журналистике.

В каждом из отчетов много примеров фондов финансирующих медиа проекты в этих странах, примеры конкретных проектов и о том как некоммерческое финансирование развивается за эти годы.

Ссылки:
[1] https://journalismfundersforum.com/

#datajournalism #newmedia
Помогите вспомнить наиболее заметные массовые исчезновения контента в Рунете?

Мой текущий список такой:
- региональные сайты МВД в 2013 году уничтожены введением http://www.mvd.ru
- исчезновение сайтов ФМС и ФСКН после присоединения их к МВД
- зачистка Минюстом отчетов НКО до 2015 года на http://unro.minjust.ru
- моментальное закрытие проекта Имхонет http://imhonet.ru
- зачистка архивных данных о бюджетах Москвы на сайте Департамента финансов Москвы http://findep.mos.ru

Менее жесткие (с предупреждением):
- образовательный портал Галактика Интел https://edugalaxy.intel.ru закрывается в конце июля 2017 года
- Сеть учителей Microsoft https://it-n.ru

Нужно больше примеров. Желательно чего-то важного потерянного безвозвратно.
Я хочу обо всем это сделать статью и презентацию.
Конечно с рекламой нашего общественного проекта - Цифровой архив http://archive.infoculture.ru
Может быть даже несколько статей.

Можно написать мне на @ibegtin или в чате @begtinchat

#digitalpreservation
Итак, уже давно пора анонсировать. В этом году мы открываем новый проект, для разнообразия, коммерческий посвященный API и доступу к данным.
Он называется APICrafter и открыт на сайте http://apicrafter.ru

Идея проекта в том что кроме общественных потребителей открытых данных есть немало бизнеса которому нужны открытые и не только, но данные с удобным доступом и с регулярным обновлением.

Мы анонсируем api к данным по госзакупкам, госконтрактам, госфинансам, организациям, банкам и многому другому что мы насобирали за эти годы. А также к тем коммерческим источникам данных к которым получаем доступ сейчас.

Акцент проекта в том что:
- мы не просто предоставляем данные, а также объясняем как с ними работать;
- мы не только продаем интерфейс для доступа к данным, но и сотрудничаем с теми кто планирует сделать коммерческий доступ к своим данным
- мы помогаем делать собственные API и разрабатываем API на заказ
- плюс делаем выгрузки данных по запросу, для тех клиентов кому нужны данные в каком-то специальном формате.
- мы вычищаем и обрабатываем первоисточники в тех случаях когда это необходимо
- мы адаптируем наши API под клиентов у которых в этом возникает потребность.

Сейчас организован доступ к пакету API по госзакупкам и госконтрактам. До конца года мы будем открывать остальные пакеты API к другим данным. В том числе пока не анонсированным.

Оплата возможна по безналу, в ближайшем будущем мы добавим биллинг, личный кабинет и возможность оплаты банковскими картами и другими видами онлайн оплаты.

Для тех кто использует данные в научных или некоммерческих целях - всегда можно договориться о скидке или использовании в обмен на цитирование.

Все наши некоммерческие проекты при этом сохраняются. В тех случаях когда мы можем собрать данные и сделать API за чей-то еще счет - мы всегда и с удовольствием сделаем это в формате некоммерческого проекта. Такие проекты как Госзатраты - Http://clearspending.ru и Открытая полиция - http://openpolice.ru и многие другие сохранят всю ту открытость которая была в них заложена.

В то же время бизнес клиентов все больше в последние годы, у них другие требования, тут мы не можем действовать по принципу "as is". И коммерческий проект - это возможность поддерживать нашу некоммерческую деятельность тоже>

Если у Вас будут какие-либо предложения, пожелания, готовность выступить клиентом, продавцом данных или партнером - пишите мне или на [email protected]

#apicrafter #api
Вышел Budget Transparency Toolkit [1], документ-руководство по обеспечению прозрачности бюджета выпущенный Организацией экономического сотрудничества и развития.

В документе отражены такие важные направления бюджетной открытости как:
- международные стандарты открытости
- понятное представление бюджетной и фискальной информации
- вовлечение парламента
- независимое наблюдение
- открытость и вовлечение граждан
- пропаганда честности вместе с частным сектором

Главная польза от документа - это систематизация международных стандартов и рекомендаций.

Его можно скачать по ссылке [2]
Ссылки:
[1] http://www.oecd.org/gov/budgeting/budget-transparency-toolkit.htm
[2] http://www.oecd.org/gov/budgeting/budget-transparency-toolkit.pdf

#budgets #opendata #data #fiscaltransparency
Минутка рекламы на канале

Если Вы еще не решили куда поступать в этом году и где становиться магистром, то без зазрения совести рекомендую магистерскую программу "Журналистику данных" https://www.hse.ru/ma/datajourn/

Кроме возможности заняться интересной ветвью журналистики - это еще и возможность совместить знания медиа рынки с навыками программирования. Учиться делать спецпроекты и еще многое другое.

Все связано с открытыми данными, конечно же.

Инфокультура является индустриальным партнером программы и мы берем на практику и стажировку студентов.

#opendata #datajournalism
В качестве очередного примера того что и зачем крупные корпорации выкладывают как открытые данные.
Google опубликовали два набора данных Open Images [1] и Youtube-8M [2] в виде огромных баз для обучения алгоритмов распознавания изображений и видео соответственно.

Все под свободными лицензиями, Creative Commons, публикуется в целях формирования сообщества людей работающих над развитием алгоритмов машинного обучения.

Другой пример. Нефтяные компании начали публиковать свои отчеты о выплатах правительствам других стран. Делают они это на своих сайтах и в системах раскрытия государственных структур. Например, отчет Nexen Petroleum U.K. Limited [3] внутри ZIP файлов находятся CSV файлы с их отчетами.

О том как раскрывают данные нефтяные компании можно прочитать в Extract-a-fact [4]

Ссылки:
[1] https://github.com/openimages/dataset
[2] https://research.google.com/youtube8m/index.html
[3] https://extractives.companieshouse.gov.uk/company/01051137
[4] http://www.extractafact.org/

#opendata #corpopendata
Приватность в нашем дата-обществе становится все более актуальной темой. Возможно даже более актуальной чем моя любимая тема про открытые данные. Общественные проекты возникают по всему миру один за другим. Мы пока мало задумываемся о корпоративной слежке за нами поскольку на фоне безумия творимого российскими законодателями корпорации выглядят разумными и понимающими.
Тем не менее золотая пора проектов ориентированных на приватность в Рунете уже не за горами. Я сосредоточусь на зарубежных примерах того что будет актуально и в России.
Me and my shadow https://myshadow.org
коллекция статей, приложений, расследований посвященных использованию перс данных. Относительно простой проект с большим числом рассмотренных инструментов
 — 
Trackography https://trackography.org/
география из наиболее популярных ресурсов по странам и по тем кто следит через них за пользователями. В России его аналог можно сделать взяв, например, топ 500 наиболее посещаемых ресурсов Рунета и показав как устроена слежка в их контексте. Важное — показывать слежку с юрисдикцией, с анализом условий использования, data retention и другим юридическим условиям использования
 — 
PrivacyTools https://privacytoolsio.github.io
Отличный каталог инструментов обеспечения приватности для всех платформ и сервисов.
 — 
Have I beed pwned ? https://haveibeenpwned.com/
Важнейший ресурс для тех кто хочет отслеживать не был ли скомпрометирован ее/его пароль при хакерских взломах. 3,8 миллиарда записей о взломанных аккаунтах, API и сервис уведомления
 — 
Awesome self-hosted list https://github.com/Kickball/awesome-selfhosted
Большой список ПО с открытым кодом способное заменить многочисленные онлайн сервисы такие как системы управления почтой, файлами, проектами и тому подобное. Главная идея в том что Вы не теряете контроль за данными возникающими в процессе Вашей работы.

List of two factor auth websites https://twofactorauth.org/ Каталог сервисов поддерживающих двухфакторную авторизацию. Я делал аналог такого сервиса по России, около полугода назад, но тогда возникли проблемы с хостингом на котором он разворачивался. Проект актуален и сейчас.

Наиболее крупные заметки я, также, дублирую в блоге на Medium тут - https://medium.com/@ibegtin/privacy-tools-f32aae644d88 и

#privacy
Среди всех интернет изданий которые я читаю - у меня есть любимое, это Roem.ru и их канал https://yangx.top/roemru могу порекомендовать всем кто хочет быть не просто в курсе новостей Рунета, но и узнать новости изнутри крупнейших холдингов.

У Роем особая форма подачи материалов с максимальным вовлечением участников событий и очень часто в комментарии приходят представители интернет-бизнеса и люди знающие что реально за этой новостью стоит. Формат, в каком-то смысле уникальный, и часто делает сами комментарии даже интереснее события, что для Интернет-изданий до сих пор редкость.

Так что я лично рекомендую Roem и сам его читаю с завидной регулярностью. Оно одно из немногих СМИ которое я открываю каждый день и читаю без фильтров именно по той причине что его контент для меня полностью релевантен.

Вообще идеальное сочетание было бы для меня - это двух СМИ. Роем как формата и GovInsider (https://govinsider.asia/) по содержанию). Комментарии от инсайдеров дают хорошее понимание реальной ситуации, а тема госинноваций как в GovInsider дает картину происходящего в трансформации госуправления.
Alphabet (ранее известный как Google) выпустили в открытый доступ проект Facets [1] по визуализации наборов данных и их характеристик. Примеры работы Facets можно посмотреть на наборе данных Quick Draw [2]. Сам проект сделан на базе библиотеки Polymer [3] и TypeScript [4], а также интегрируется в Jupyter Notebook [5], крайне популярный среди специалистов в работе с данными.

Можно обратить внимание что визуализация в Facets, в основном, ориентирована на визуализацию наборов данных для задач исследований и обучения на данных. Этот инструмент напрямую связан с инициативой PAIR [6] того же Alphabet в котором описан не только этот, но и многие другие инструменты помогающие создавать продукты с элементами искусственного интеллекта.

Ссылки:
[1] https://pair-code.github.io/facets/
[2] https://pair-code.github.io/facets/quickdraw.html
[3] https://www.polymer-project.org/
[4] https://www.typescriptlang.org/
[5] http://jupyter.org/
[6] https://ai.google/pair

#google #alphabet #visualization
Когда-то от Инфокультуры мы регулярно проводили вебинары, в прошлом году довольно быстро перескочили в формат лекций перед хакатонами, а в этом уже многое было и еще немало будет во всех форматах.

Завтра, в 19:00, пройдет первый вебинар по теме открытых финансовых (государственных) данных где я буду говорить про следующие темы:
- где взять финансовые, в первую очередь, бюджетные данные
- как устроены системы в которых они собираются и накапливаются
- как находить финансовые данные про бюджетные учреждения и муниципалитеты
- какие общественные проекты и стартапы их используют
- примеры аналитических, общественных и коммерческих проектов про финансовые, в первую очередь, бюджетные данные.

Про примеры буду говорить особенно.

Во время вебинара будет время на вопросы и ответы, но если Вы мне их зададите тут в комментариях или пришлете на [email protected] то будет больше шансов что я на них отвечу подробно и подготовленно.

Подробнее по этой ссылке [1]
А записаться можно вот тут - [2]



Ссылки:
[1] https://www.facebook.com/events/1905428503029698/
[2] https://my.webinar.ru/event/987062/?t=23483

#opendata #clearspending #openbudgets
Sunlight Foundation выпустили полугодовой отчет [1] о прозрачности администрации Дональда Трампа где, по сути, обвиняют администрацию в высокой секретности по сравнению с предыдущими администрациями в Белом доме.
Из положительного можно отметить только то что Дональд Трамп не закрыл проект 18F [2] по инсорсингу (создание внутри госорганов ИТ проектов) последних веб-сайтов и федеральных ИТ проектов в США.

В остальном - одни минусы. Меньше открытых данных, меньше общей открытости, агрессия в сторону прессы и многое другое. Sunlight Foundation не единственные из НКО кто находится в оппозиции новой администрации. ProPublica наблюдает за его деятельностью [3], а многие из активистов работавших с администрацией Барака Обамы, теперь уходят из госпроектов.

Например, Noah Kunin, член команды 18F, покидает с критикой текущей администрации "Why I’m leaving 18F" [4].

Возвращаясь к отчету, действительно, трудно не признать что при Дональде Трампе США перестали делать акцент на открытости как на безусловной ценности, много акцентов переведено на технологии, но при этом далеко не все технологические компании готовы активно сотрудничать с администрацией.

Ссылки:"
[1] https://sunlightfoundation.com/2017/07/20/trump-administration-open-government-record/
[2] https://18f.gsa.gov/
[3] https://www.propublica.org/trump-administration/
[4] https://medium.com/@noahkunin/why-im-leaving-18f-48970131d547

#opendata #opengov