Ivan Begtin
8.01K subscribers
1.94K photos
3 videos
101 files
4.64K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
В Nature интересная статья о доступности данных коммерческих компаний для исследователей [1], в данном случае в телекоммуникациях и спутниковых данных.

Если изложить её кратко, то суть в том что технологические компании предоставляют доступ к огромным массивам баз данных для научных коллективов исследующих вопросы бедности, нехватки воды и других глобальных проблем.

Впрочем подробнее в самой статье

Ссылки:
[1] https://www.nature.com/articles/d41586-018-05268-w

#opendata #bigdata
Bloomberg пишет что Microsoft может приобрести Github, крупнейший проект репозиториев исходного кода, за 5 миллиардов USD [1], однако пока не подтверждает это какими-либо ссылками на официальные источники. А в Techcrunch пишут что компания пока никак не комментирует эти слухи [2].

О переговорах между компаниями писали ещё несколько дней назад в Business Insider [3], однако Bloomberg теперь пишет всё в гораздо более уверенных тонах.

5 миллиардов USD - это значительно меньше чем, например, 26 миллиардов USD за которые Microsoft купили LinkedIn. А покупка Github'а даст Microsoft существенное преимущество при интеграции Github и облака Azure, например.

Конечно, многое в дальнейшем зависит от того насколько агрессивно они будут внедрять интеграцию с собственными продуктами. Github стал стандартом де-факто для всех проектов открывающих исходный код, но и у него есть множество альтернатив.

Ссылки:
[1] https://www.bloomberg.com/news/articles/2018-06-03/microsoft-is-said-to-have-agreed-to-acquire-coding-site-github
[2] https://techcrunch.com/2018/06/03/microsoft-is-reportedly-acquiring-github/
[3] http://www.businessinsider.fr/us/2-billion-startup-github-could-be-for-sale-microsoft-2018-5

#opensource #github #microsoft
В Люксембурге администрация авиационной навигации опубликовала результаты 3D сканирования (LIDAR) территории аэропорта [1] которое проводилось в формате eTOD (Electronic Terrain and Obstacle Data) [2] по требованиям ICAO (International Civil Aviation Organization).

Подобное сканирование проводят во всех странах где есть хоть один аэропорт, но только в Люксембурге опубликовали результаты онлайн в полном объёме.

Другие данные собираемые ICAO также можно увидеть на их GIS портале [3]

Ссылки:
[1] https://data.public.lu/en/organizations/administration-de-la-navigation-aerienne/#datasets
[2] https://www.skybrary.aero/index.php/Electronic_Terrain_and_Obstacle_Data_(eTOD)
[3] https://gis.icao.int/gallery/index.html

#opendata #avia
К вопросу о медиастартапах. Шведский Newsworthy http://www.newsworthy.se мониторят кучу статистических данных Евросоюза и генерят новостные лиды.

Тоже дата журналистика с элементами робожурналистики, с той лишь разницей что они не текст финальный создают, а значительно облегчают поисковые возможности.

Кстати создать такой сервис в России можно, даже не супер сложно на самом деле, но покупателей на него будет 5-10 изданий, в основном федерального значения и рынок совсем скромный. Так что у нас в можно запускать это скорее как некий in-house проект.

Другой интересный проект - это нидерландский LocalFocus https://www.localfocus.nl/en/ по созданию интерактивной инфографики с данными. Они так и пишут что превращают данные в истории.

#opendata #ddj #datajournalism
Культура конкуренции - это когда Gitlab [1], один из конкурентов Github'а, поздравляет их и Microsoft [2] с тем что Microsoft покупает Github и делает это без издёвки, а очень даже корректно и легкой рекламой своей платформы.

Большая волна поднимает все корабли и в противес Microsoft другие техногиганты могут обратить внимание на Bitbucket и Gitlab как основных конкурентов Github'а за эти годы.

Кроме того несмотря на большую работу Microsoft по открытию своих платформ и интеграции других платформ в собственные решения (Linux Subsystem для W10) и многое другое, до сих пор есть разработчики у которых они вызывают настороженное отношение.

Впрочем это будет понятно после переназначения CEO Github'а которое планировалось на август этого года.

А пока Gitlab демонстируют явную готовность к этой большой игре.

Ссылки:
[1] https://gitlab.com
[2] https://about.gitlab.com/2018/06/03/microsoft-acquires-github/

#opensource
Forwarded from Рюмочная ИПП
Маша Медведева (PhD из России) вместе с коллегами в Университете Гронингена в Нидерландах смогли с помощью алгоритма машинного обучения предсказывать решения ЕСПЧ с точностью 75%, и каждую неделю по четвергам она выдает прогноз на неделю. Обучение основано на персоналиях судей и прошлых пресс-релизах. Программа называется Юрий (http://amp.gs/kMN1).

Сайт не очень информативен — по всей видимости, проект только начал работу, но в репозитории Медведевой (http://amp.gs/kMNz) есть архив с данными и код, который позволяет всё реплицировать. Из него, в частности, видно, что исследователи использовали метод опорных векторов (SVM) — один из наиболее распространённых алгоритмов классификации, по крайней мере до прихода глубоких нейронных сетей.
Microsoft официально купили Github за 7.5 миллиарда USD [1] с оплатой акциями, в их пресс релизе упоминается 28 миллионов разработчиков итого получается по 267 USD за одного разработчика, не так уж много если подумать.

А тем временем с начала анонса начался массовый импорт проектов в GitLab [2], о чём активно обсуждают на YCombinator [3] и Reddit [4]

При том что я лично не разделяю таких острых опасений в адрес Microsoft, думаю что скорее они будут налаживать мостики и отношение с FOSS сообществом, тем не менее, да, много вопросов может быть у авторов большого числа проектов.

Ссылки:
[1] https://news.microsoft.com/2018/06/04/microsoft-to-acquire-github-for-7-5-billion/
[2] https://www.bleepingcomputer.com/news/technology/gitlab-sees-huge-traffic-spike-after-news-of-microsoft-buying-github/
[3] https://news.ycombinator.com/item?id=17223116
[4] https://www.reddit.com/r/Ubuntu/comments/8odwlb/gitlab_sees_huge_spike_in_project_imports_seems/

#opensource #microsoft #github
В The Economist свежая статья Data detectives [1] о том как сбор данных, распознавание лиц, биометрические данные и огромные базы данных меняют работу полиции по всему миру. Подробная статья, с большим числом примеров, написанная живым языком и с объяснением того как всё теперь устроено (или будет устроено очень скоро) в мире расследований.

Сама статья про расследования в реальном мире, о том что в России называется оперативно-розыскными действиями, но и с примерами того как, например, EM системы (Electronic Monitoring) активно заменяют малые сроки заключения, а в полицейские камеры, те которые они носят на груди или на спине, встраивают алгоритмы распознавания лиц.
И многое другое.

Если говорить про Россию то менее всего стоит рассчитывать на то что это обойдёт нас стороной. Пока ещё нет профессиональных программ подготовки дата-следователей и дознавателей, пока ещё системы электронного мониторинга забюрократизированы и громоздки, но внутри правоохранительной системы есть те кто прекрасно понимают возможности которые даёт им работа с большими данными.

Ссылки:
[1] https://www.economist.com/technology-quarterly/2018-05-02/justice

#bigdata #police #digitaltransformation
Дайджест ссылок о которых не хватает времени рассказать подробнее:
1. The Atlas https://www.the-atlas.com/ - каталог проектов по улучшению городской среды, не только технологических проектов, но и инфраструктурным и организационным. Там же можно найти параметры проекта, результаты и вендора. По сути - это каталог решений для городских проблем и каталог поиска поставщика для таких решений, но с акцентом на лучшие практики и жизненные ситуации. Идея весьма здравая, охватывает только США

2. Мало кто знает, в Новой Зеландии лидирующее ведомство в работе с данными это их статистическое агентство Stats NZ. Именно там находится ключевой чиновник Government Chief Data Steward (Главный государственный управляющий данными) который отвечает за работу с данными в органах власти https://www.stats.govt.nz/about-us/data-leadership/ Заранее отвечая на вопрос - нет, для России такая схема не годится.

3. Напомню что один из крупнейших каталогов порталов данных и отдельных больших датасетов есть в Awesome Public Datasets https://github.com/awesomedata/awesome-public-datasets

4. Один из наиболее проработанных проектов дата-журналистики, The Atlas of Redistricting https://projects.fivethirtyeight.com/redistricting-maps/ о том как переопределяются границы избирательных округов в США.

5. The Stanford Open Policing project https://openpolicing.stanford.edu/ научный проект Университета Стенфорда по сбору базы по причинам по которым полиция останавливает пешеходов и автомобили. База по более чем половине штатов США, с описанием уровня детализации для каждого штата. А также публикации на основе собранных данных. Это делается в рамках Computational Journalism Lab http://cjlab.stanford.edu/

6. Music Map от Pudding Cool https://pudding.cool/2018/01/music-map/ (за декабрь 2017 года) и https://pudding.cool/2018/06/music-map/ (за май 2018 года) - это пример того как на данных просмотров видео на Youtube можно измерить предпочтения по 3000 городов. Ссылки на видео не всегда ведут к изначальным роликам, похоже их авторы иногда меняют после публикации, но довольно легко эти ролики снова находятся на Youtube и действительно цифры по просмотру сходятся.

#opendata #data #datavis
Трансперенси Инт. Россия опубликовали API проекта Декларатор [1] о чём подробно пишет Теплица Социальных Технологий [2], а само API можно найти в разделе "Открытые данные" [3]

Ребята в трансперенси проделали большую работу по открытости деклараций и не так давно проводили хакатон по использованию этих данных. Доступность данных по стандарту popolo [4] значительно упрощает работу за счёт возможности использования существующих инструментов.


Ссылки:
[1] https://declarator.org/
[2] https://te-st.ru/2018/05/29/project-declarator-opened-the-api/
[3] https://declarator.org/opendata/
[4] http://www.popoloproject.com/

#opendata
А я тем временем расскажу вам то о чём публично почти не рассказывал. Проект аналогичный декларатору я делал ещё в далёком 2010 году. Тогда, при президенте Медведеве был Институт современного развития (ИНСОР) и в рамках ИНСОРа я разрабатывал около 6 проектов которые можно отнести к гражданским проектам и проектам общественного контроля.

Это был, например, прототип портала data.gov.ru (в итоге использовался не он), самая первая версия проекта Госзатраты [1], тогда он назывался Росгосзатраты и был на данных гораздо меньшего объекта и только по контрактам федеральной власти.

Проект должен был быть показан Медведеву в рамках Тверского экономического форума, но, возникла накладка и Медведев вместо форума свернул и поехал на Селигер.

А одним из проектов который так и не стал публичным был проект "Публичные доходы". Мы собрали сотни файлов деклараций чиновников за 2009 и 2010 годы и автоматически их обработали и имели базу более чем в 50 тысяч деклараций, порядок был примерно как у трансперенси сейчас. Только коллеги в трансперенси многое делали и делают руками, а мы принципиально делали только парсерами для файлов с декларациями.

В начале 2011 года была встреча Д. Медведева со всякими общественниками и там в том числе был я и я говорил ровно про эти проекты и о том что они уже готовы и чтобы придать им государственный статус не нужно было бюджетных расходов, проекты уже готовы, а поддержание их требует минимальных трат.

На что многоуважаемый Дмитрий Анатольевич мне тогда витьевато ответил что это очень хорошо что общественники создают такие проекты, и что не надо государству этим заниматься.

После перехода ДМ в председатели Правительства, проекты ИНСОРа быстро зачахли и практически все они исчезли. Только Госзатраты мы фактически реконструировали с нуля поскольку ещё и появился новый госпортал zakupki.gov.ru и все форматы данных сменились и их стало на порядок больше. Тогда же мы и начали делать его от КГИ.

Тогда до появления Открытого правительства оставалось чуть более одного года. Но с его появлением лучше не стало, ни один из существовавших ранее проектов по открытости который создавался государством или рядом с ним не пережил его появления.

Ссылки:
[1] https://clearspending.ru

#opendata #spending
Facebook публикуют рейтинг стран [1] по уровню использования IPv6 [2] посетителями их сайта. Для тех кто не знает - IPv6 это давняя, но до сих пор не до конца внедрённая технология адресация в Интернете пришедшая на смену IPv4. Цель её внедрения в том что адресное пространство IPv4 заканчивается и это усугубляется ещё и массовым внедрением интернета-вещей которое приводит к исчерпанию доступных IP адресов.

До сих пор немногие российские провайдеры и компании его используют и предоставляют услугу адресации по IPv6 своим клиентам.

В каком-то смысле этот рейтинг стран - это тоже показатель деятельности российского Минсвязи за эти годы поскольку именно задачей регулятора является предупреждение будущих проблем у игроков отрасли, а они обязательно настанут.

Данные можно скачать в CSV или JSON прямо на сайте

За наводку спасибо Михаилу Климареву из канала Zatelecom [3]

Ссылки:
[1] https://www.facebook.com/ipv6/?tab=ipv6_country
[2] https://ru.wikipedia.org/wiki/IPv6
[3] https://yangx.top/zatelecom

#opendata #telecom
Тем временем с момента покупки Microsoft'ом Github'а в конкурирующую платформу для хостинга кода Gitlab было перенесено 50 тысяч проектов [1] из которых 13 тысяч было перенесено в течение часа после анонса новости о покупке в понедельник.

С одной стороны это капля в море 8 миллионов проектов размещённых на Github, с другой стороны OSS сообщество помнит высказывание Стива Балмера о том что "Linux это рак".

Ответная позиция, например, Фонда свободного программного обеспечения в том что "Программы Microsoft вредоносны" [2] и "Microsoft: враг рода человеческого?" [3]. В обсуждениях разработчики приводят немало примеров поведения Microsoft далёким от работы с сообществом OSS [4]

С другой стороны в последние годы Microsoft стали основным контрибьютором в код Linux и Linux Foundation официально приветствует решение Microsoft о покупки Github [5].

Пока же Gitlab анонсировали бесплатность их Gold и Ultimate тарифов для проектов с открытым кодом и с для образовательных учреждений [6].

Gitlab гораздо лучше остальных конкурентов сумели поймать волну и хештег #movingtogitlab в Twitter'е набирает обороты [7]


Ссылки:
[1] https://motherboard.vice.com/en_us/article/ywen8x/13000-projects-ditched-github-for-gitlab-monday-morning
[2] https://www.gnu.org/proprietary/malware-microsoft.ru.html
[3] https://www.gnu.org/philosophy/microsoft.ru.html
[4] https://news.ycombinator.com/item?id=17227286
[5] https://www.linuxfoundation.org/blog/microsoft-buys-github-the-linux-foundations-reaction/
[6] https://itsfoss.com/gitlab-free-open-source/
[7] https://twitter.com/hashtag/movingtogitlab

#opensource
Какие data-стартапы бывают и успешно развиваются.

Стартапов основанных на данных по всему миру возникает довольно много. Некоторые из них основаны на открытых данных данных, другие на создании удобных интерфейсах работы с данными компаний и частных лиц, третьи на алгоритмах помогающих придавать любым данным новое качество.

Накопив какое-то количество описаний data-стартапов я их разместил их описание заметкой в блоге. Подробнее тут https://begtin.tech/data-startups/

#opendata #data #startups
Правильная работа с негативом - это общаться с аудиторией и объяснять, объяснять и ещё раз объяснять. Nat Friedman, будущий CEO Github'а подробно ответил на вопросы разработчиков на Reddit'е в жанре AMA (Ask Me Anything) [1]. За год это самая популярная тема на Reddit по числу комментариев, их там более 1400+ и второй по популярности по просмотрам.

Я бы сказал что это хороший кейс для российских стартаперов и глав компаний, но в России такая практика большая редкость.

Ссылки:
[1] https://www.reddit.com/r/AMA/comments/8pc8mf/im_nat_friedman_future_ceo_of_github_ama/

#github