Ivan Begtin
8.1K subscribers
2.02K photos
3 videos
102 files
4.75K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
The City Centres Database - это база [1] по 10 000 городов собранная в Евросоюзе в рамках The Global Human Settlement [2]. Это большой проект с данными, исследованиями и визуализацией данных о городах. Создатели мониторят не только очевидные данные о убыли/прибыли населения, но и то становятся ли города светлее или темнее, есть ли в них парковые зоны, озеленяются ли они или наоборот темнеют.

На сайте проекта публикуются открытые данные, которые можно использовать в своих проектах.

Обратите внимание на темнеющие города Украины, Пакистана, Нигерии и Западной Европы и яркие точки городов Латинской америки и Азии.

Ссылки:
[1] http://ghsl.jrc.ec.europa.eu/ccdb2016Overview.php
[2] http://ghsl.jrc.ec.europa.eu/index.php

#opendata #opengov #cities
Если каких-то данных нет, то это не значит что они не могут появиться благодаря нашим усилиям. Живой пример таких данных - это данные создаваемые волонтёрами через краудсорсинг. Проект с открытым кодом PyBossa [1] с момента своего появления в 2011 году вырос и обзавёлся полноценной компанией которая его внедряет и постоянно действующей онлайн площадкой Croudcrafting [2].

Краудсорсинг хорошо работает когда есть много несложных задач и текст или изображения которые можно выдать массовой аудитории для ответов на простые вопросы.

Примеры:
- Gender and Tech Magazines [3] - исследование частоты упоминания женщин в технических журналах. Надо смотреть на картинки сканов журналов и отвечать на простые вопросы.
- Вики любят памятники [4] - проект российских википедистов, почему-то совершенно непопулярный
- Science photography [5] - поиск изображений и фотографий на страницах исторических журналов Scientific American

Конечно, далеко не все проекты по краудсорсингу успешны. Всё зависит от способности привлечь внимание волонтёров со стороны организаторов и того насколько точно сформулированы задачи, как подобран первичный материал и тд.

В этом и состоит бизнес Scifabric [6] , создателей Croudcrafting и Pybossa. Они консультируют и сопровождают проекты обеспечивая им постоянную поддержку.

В России к подобному data краудсорсингу можно отнести проект OpenCorpora [7] создающему открытый корпус русского языка усилиями волонтёров. Это проект с открытым кодом [8] и устойчивым сообществом существующий с 2009 года с впечатляющими результатами. В отличие от национального корпуса русского языка [9], в нём публикуются открытые данные со всем содержанием корпуса.

Эти примеры - это иллюстрация общего принципа работы с данными заключающегося в том что часто чтобы получить нужны данные - их нужно создать, своими руками и руками волонтёров. Чем бы Вы не занимались - исследованиями в молекулярной биологии, лингвистике или гендерными исследованиями, во всех случаях Вы можете создавать краудсорсинговые проекты которые, совмещённые с анализом данных, и позволяют получать очень интересные исследования и продукты как результат.

Ссылки:
[1] https://pybossa.com/
[2] https://crowdcrafting.org/
[3] https://crowdcrafting.org/project/genderandtechmagazines/
[4] https://crowdcrafting.org/project/WLMRussia/
[5] https://crowdcrafting.org/project/sciencephotography/
[6] https://scifabric.com/
[7] http://opencorpora.org/
[8] https://github.com/OpenCorpora
[9] http://ruscorpora.ru/

#opendata #crowdsourcing
Из речи Генерального прокурора на коллегии по итогам 2017 года https://genproc.gov.ru/upload/150218.pdf . #digitalgov
Открытые данные публикуют далеко не только государственные органы, свои порталы создают крупные некоммерческие организации и собирают туда данные со своих проектов. Пример такого портала это data.mysociety.org [1] от MySociety которые собирают там собственные данные, данные проекта EveryPolitician и результаты исследований.

Их портал сделан на очень маленьком и простом движке jKAN [3] являющегося генератором статического сайта на базе Jekyll. Главное достоинство - это простота и удобство внедрения тем кто работает с github'ом как основным инструментом. И, конечно же, скорость, потому что сайт получается статический. Главный минус имеет ту же природу статического сайта - сайт легко вести одной организации, но если их больше одной то уже есть сложности.

Ссылки:
[1] http://data.mysociety.org/
[2] http://mysociety.org
[3] https://jkan.io/

#opendata #opengov #dataportals
Можно ли зарабатывать на сервисе написания хороших текстов? Я имею в виду не мелкий пассивный заработок и не содержание толп SMM'щиков и копирайтеров, а технологичный бизнес на данных и текстах.

Стартап Textio [1] занимается тем что предоставляет инструмент для работодателей для улучшения описания вакансий. Они отслеживают корпоративные штампы, стиль языка, слишком короткие предложения и многое другое что помогает сделать тексты более эффективными.

В отличие от других областей применения таких сервисов, тут есть очень прямая корреляция между качеством объявления и откликами кандидатов, поэтому и сервис легко измерить по качеству. Сервис приностит экономию на рекрутерах и хорошо интегрируется с сервисами размещения объявлений о работе.

Всё это основано на большом объёме данных [2] которые создатели продукта собирают из публичных источников и анализируют на основе проходящих через них текстов.

За 3 года существования основатели подняли инвестиций на 29.5 миллиона USD [3].

Ссылки:
[1] https://textio.com
[2] https://textio.com/data/
[3] https://www.crunchbase.com/organization/textio

#data #lang #startup
ФАС России проводит опрос [1] по тому использует ли кто-либо их открытые данные. Скажу честно, проводят они его сами, ни со мной, ни с другими коллегами они не советовались и, вроде как, их к нему никто не принуждал. Так что это и хорошо что они ведут работу над тем чтобы говорить с аудиторией - пусть и путём опроса.

Прошу найти немного времени и пройти опрос, хотя бы и по тому чтобы у них не пропадала мотивация раскрывать данные. К вопросу о том что могут раскрывать органы власти, например, декларации о доходах руководителей практически ни одно ведомство не публикует в машиночитаемых форматах и хорошо ещё если не делают это в форматах сканов или картинок.


Ссылки:
[1] http://fas.gov.ru/surveys/29

#opendata #fasrf
Роскомнадзор публикует много открытых данных у себя на сайте http://rkn.gov.ru/opendata. Некоторые файлы ну такие, большие, на пару сотен мегабайт или гигабайты.

Но отдаёт их сайт их со скоростью 45KB/sec. Пару гигабайт так качать займёт 10 часов. А уж про архивацию их сайта, слов нет, одно сдавленное мычание и рука-лицо.

Органам власти на заметку. Если надо что-то публиковать, но оооочень не хочется. Например, декларации руководителей, или что-то полезное - рубите трафик к ним до 1KB/Sec !

Все формальные требования будут соблюдены. Кроме самых дотошных - никто не подкопается. Если что, говорите что это Ваша защита от DDoS.

#opendata #opengov
Forwarded from Городские данные (Andrey Karmatsky)
3 – 4 марта в Иннополисе состоится геоинформационный хакатон «Гадание на картах». Организаторы приглашают к участию всех желающих, кому небезраличны ГИС-технологии и их применение в различных областях, в том числе и в решении городских проблем.

Среди заявленных тем — геомаркетинг, городская аналитика, навигация, ГИС в черезвычайных ситуациях, обработка данных дистанционного зондирования (аэро и космоснимки).

Процитирую из анонса тему про Urban Analytics
Сделай городскую среду лучше и интересней.
— создай инструмент взаимодействия города, бизнеса и жителей на одной площадке;
— контролируй состояние городской инфраструктуры по данным дистанционного зондирования;
— используй идеи по 3D-моделированию городской инфраструктуры для решения задач бизнеса;
— моделируй в пространстве и времени устойчивое развитие нового жилого района;
— оценивай качество районов проживания жителей с учетом функционального назначения объектов окружения и мнений жителей.

Заявки от команд принимаюся на сайте организаторов до 2 марта: https://hack.gismart.ru/
Тем временем в ИТМО
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Сегодня в Университете ИТМО прошла лекция Г.О. Грефа. Красочная презентация была посвящена цифровизации, значительному увеличению объема данных, экосистеме Сбербанка, ядром которой является создание технологической платформы и многому другому (я думаю, что лекция записывалась и будет выложена в открытый доступ). Завершалось выступление забавным роликом о будущем искусственного интеллекта, подготовленным для инвесторов Сбербанка https://www.youtube.com/watch?v=NkULcuwevnc&feature=share.

После этого была "секция вопросов". Содержание вопросов от слушателей: blockchain, финансирование образовательных программ, наличие у Сбербанка research-центра и рассказ студентки о программе ИТМО "Научная коммуникация".

Итак, мы прослушали 45-минутное выступление о том, что теперь работа Сбербанка основана на данных, на новых технологиях, в мире количество данных только растет и в ближайшее время ситуация не изменится. Что же мы видим на практике? В конце ноября 2016 года Сбербанком был запущен портал Открытых данных http://www.sberbank.com/ru/analytics/opendata, вызвавший на тот момент большой интерес разработчиков.

Прошло чуть больше года, на нем до сих пор размещен ОДИН набор данных, плохо структурированный и содержащий 11 показателей с детализацией до региона. Лицензии нет, описания структуры данных нет, да и самих данных, фактически, тоже нет. Об этом год назад подробно писал Иван Бегтин https://habrahabr.ru/company/infoculture/blog/316186/, и с тех пор ничего не изменилось.

Был бы интересен ответ Сбербанк, планируется ли какое-то развитие данного портала или он так и останется рекламой платных исследований? Как видно из содержания вопросов, задать этот вопрос на выступлении шансов не было )).
В США обновился портал PlainLanguage.gov [1] посвящённый простоте языка в официальных текстах о чём подробнее в блоге 18F [2]. Сам сайт работает на новом государственном CMS движке Federalist [3] обеспечивающим хостинг неограниченного числа сайтов заказчика за $25 тысяч долларов в год (примерно 1.5 миллиона рублей).

Сама тема понятности языка в США существует очень давно, а в 2010 году появился закон "The Plain Writing Act of 2010" [4] благодаря которому массово стали переписываться тексты под простое описание и началось обучение госслужащих простоте языка.

Английский язык не единственный подвергающийся официальному упрощению. Испаноязычные страны имеют много официальных гайдов для своих официальных текстов. Они быстро находятся поисковами по словам "lenguaje claro" и "lenguaje ciudadano",

В России и на русском языке официальные рекомендации и гайды по упрощению языка отсутствут. Много лет назад появился наш маленький проект PlainRussian.ru [5] по измерению простоты текстов, но пока в России не появится сильного устойчивого сообщества практиков, то и он будет не востребован.

Ссылки:
[1] http://plainlanguage.gov
[2] https://18f.gsa.gov/2018/02/22/new-home-for-the-federal-plain-language-community/
[3] https://federalist.18f.gov/
[4] https://www.gpo.gov/fdsys/pkg/PLAW-111publ274/pdf/PLAW-111publ274.pdf
[5] http://plainrussian.ru

##plainlang
Forwarded from Городские данные (Andrey Karmatsky)
NACTO (National Association of City Transportation Officials) и Open Transport Partnership стартовали прекрасный проект — Shared Streets, платформу, в которую все муниципалитеты, департаменты транспорта, транспортные агентства или частные компании-перевозчики могли бы загружать даные и анализировать ситуацию в городе. Основная фишка в том, что можно пересекать различные данные от разных источников на одной карте (с точностью до участка дороги) и видеть инсайты о том, что происходит с транспортом в городе.

http://sharedstreets.io/

Подробнее о проекте на CityLab:
https://www.citylab.com/transportation/2018/02/a-powerful-map-promises-to-help-cities-keep-streets-free/553739/
Завтра вечером я выступаю на экономфакультете МГУ с лекцией про открытые данные. Не знаю пускают ли туда кого-то кроме студентов экономфака, но на всякий случай ссылка https://www.econ.msu.ru/students/Article.20180219181322_2745/
🔔 Программа Open Data Day в Москве, секция «Дата-журналистика».

3 марта
*Руслан Газиханов, Инфометр, доклад «Российские источники открытых данных и их качество»
*Екатерина Староверова, Кино Mail.ru «Считаем и рисуем: как журналисту не облажаться с данными»
*Алексей Кнорре, социолог, «Исследование наркопреступности в России: как академический продукт превратить в медийный?»
*Александра Поливанова, Сергей Бондаренко «Происхождение баз данных на основе исторических архивов»
*Александра Поливанова, Михаил Сергиенко, проект «Topos.memo»

4 марта
*Александр Богачев, РБК (мастер-класс), «Создание мультиграфиков (small multiples) в Excel»
*Игорь Лошиц, Яндекс.Исследования: «Исследования Яндекса: как жизнь отражается в данных»
*Андрей Дорожный, Сергей Устинов, «Дата-журналистика в России: опыт Mediagun»
*Алексей Новичков, ТАСС (мастер-класс), «Оперативная инфографика в Figma»
*Роман Анин, «Новая Газета», «Как работать с открытыми базами данных»

Регистрация 👉 : http://msk.opendataday.ru/
Небольшого анонса пост
—-
Мне хотелось сделать сюрприз, но то что я хочу сделать трудно сделать сюрпризом. Так что пишу в этом канале.

Есть общедоступная статистика по социальному профилю преступности в том числе в гендерном и возрастном разрезе. Я ищу специалиста(-ов) по инфографике кто бы на основе этих данных сделал бы красивый, броский, яркий плакат с конкретными цифрами.

Данные есть с сайта crimestat.ru в удобном виде. Сделать надо оперативно, поэтому мини конкурс мы скорее всего не успеем, день открытых данных съедает всё возможное время.
А заказать качественную работу да.

Пишите мне на [email protected] или тут на @ibegtin или в чат @begtinchat

#opendata #opengov
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
3-4 марта пройдет традиционное, ежегодное, главное событие года в мире открытых данных - День открытых данных!

Мы собрали очень разносторонний набор докладов по направлению "государственные данные". В процессе подготовки направления меня удивила отзывчивость госорганов, их готовность выступать с презентациями, центром которых является работа с данными, внутренние рабочие процессы, реальные кейсы.

Откроет направление выступление Максима Панина и Тимура Алейникова из Минкультуры России, которые на примере своих данных и информационных систем расскажут, "Как министерству производить данные, а не дам".

Иван Бегтин из АНО "Инфокультура" поделится опытом нахождения "скрытых данных" - всего того, что опубликовано на гос. сайтах, но не афишируется (API, сканы документов, файлы).

Дмитрий Дубинин из Минкомсвязи России поделится "предложениями по формированию подходов к методическому и организационному обеспечению деятельности в области открытых данных".

Представитель от МИД России расскажет об открытых данных Министерства иностранных дел и планах по открытости.

Ирина Анисимова из Роструда поделится опытом создания порталов, данные которых используются десятками проектов, а Андрей Заводчиков из АЦ "Форум" (Проектный центр Открытого правительства) расскажет об анонимизации данных перед публикацией, с последующим обсуждением взаимодействия граждан с госорганами.

Завершится первый день междисциплинарным круглым столом "Новые технологии в правоохранительной сфере".

Если первый день состоит из докладов госорганов, то второй полностью посвящен докладам некоммерческих проектов и организаций.

Мы с Ксения Орлова расскажем о данных по госфинансам - количестве, качестве, гос. контрактах и публикации бюджетов региональными финансовыми органами.

О международном опыте раскрытия данных внешнеполитических ведомств расскажет Олег Шакиров из ЦСР.

Созданию машиночитаемых открытых данных посвящены сразу три доклада: Андрей Жвирблис из Декларатор расскажет о преобразовании деклараций в машиночитаемый вид и о том, почему "отсутствие стандарта раскрытия дискредитировало идею прозрачности"; Марина Смыслова из НПО "Криста" поделится опытом интеграции данных о региональных и муниципальных бюджетах, часть из которых мы уже в этом году сможем скачивать с портала электронного бюджета budget.gov.ru; Денис Савельев из Института проблем правоприменения выступит с презентацией об "открытом корпусе текстов российского законодательства" - машиночитаемые данные о 400 тысчах НПА.

Завершат направление гос. данные выступления Руслана Газиханова из Инфометра о рейтинге и качестве публикации данных ФОИВов в 2017 году и мастер-класс "Открытые и почти открытые данные об инфраструктуре Интернета" от Александра Исавнина из РосКомСвободы.

Регистрация на мероприятие пока еще открыта, но скоро закроется http://msk.opendataday.ru