Ivan Begtin
8.1K subscribers
2.01K photos
3 videos
102 files
4.74K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
В блоге Keen.io обзор архитектур анализа данных в Twitter, Facebook, Airbnb, Netflix и Pinterest [1]. Практически все они работают на технологиях Apache Kafka, Apache Spark, Apache Storm, Elastic Search и Hadoop.

Там же много ссылок на публикации архитектуры данных этими компаниями. Например, "Behind the Pins: Building Analytics" [2] и "Data Infrastructure at Airbnb" [3]

Миллиардные транзакции ежедневно происходящие в этих системах поражают. Если и говорить про большие данные, не в маркетинговом, а в осмысленном понимании, то они происходят именно там.

И здесь можно обратить внимание на несколько важных явлений:
- все решения на базе открытого кода. У всех крупнейших компаний, или на базе открытого кода, или собственные разработки;
- повсеместная стандартизация компонентов;
- акцент на горизонтальном масштабировании.

Ссылки:
[1] https://blog.keen.io/architecture-of-giants-data-stacks-at-facebook-netflix-airbnb-and-pinterest-9b7cd881af54
[2] https://medium.com/@Pinterest_Engineering/behind-the-pins-building-analytics-f7b508cdacab?s=hi-from-keen-io
[3] https://medium.com/airbnb-engineering/data-infrastructure-at-airbnb-8adfb34f169c

#bigdata #data
Помните я писал про архивацию и то что нехватает мощностей для проекта по архивации госсайтов?
Мы наконец-то сделали страницу сайт всей инициативы и то куда можно собирать средства - http://archive.infoculture.ru

Это Национальный цифровой архив России (НЦАР) большая инициатива состоящая из многих проектов в будущем, а пока из двух:

1-й - это "Консервированное государство", архивация всех официальных сайтов, социальных аккаунтов, сайтов спецпроектов и тд созданных на госсредства и от государственных органов и учреждений.
2-й - это пока разрозненные специализированные коллекции из сайтов, баз данных, других цифровых артефактов по темам не обязательно относящимся к государству. Например, это сайты банков или закрываемых онлайн проектов.

Сайт пока еще в состоянии доработки, мы его только-только сделали, но можно уже его показывать.
Значительная часть собранного уже опубликована и общедоступна. Они есть по ссылкам на сайте и доступны для выгрузки тут - http://cdn2.sdlabs.ru/preservation/webcollect/
Но там не все, там нет последних 3 терабайт официальных сайтов которые пока некуда выкладывать

Однако это очень большие объемы и мы постепенно и постоянно упираемся в потолки объемов данных, даже не для хранения, но для раздачи.
Одно из решений - это аренда 2-х Storage Box по 10 терабайт на серверах хостера Hetzner. Он обойдется примерно в 72 тысяч рублей в год.

Архивация государственных сайтов - это особый проект. На него мы врядли сможем привлечь грантовое или государственное финансирование, к нему же сложнее получить поддержку от крупных российских интернет-компаний, поэтому мы попробуем устроить краудфандинг.
Для этого достаточно 72 людям сбрасываться по 1 тысяче рублей в год.

Скажу сразу это небольшая сумма, однако мы в Инфокультуре ведем очень много проектов таких как Открытая полиция, Госзатраты, Хаб открытых данных, Понятный русский язык, День открытых данных, хакатоны, конкурсы, мероприятия и еще многое и в итоге силы и средства распеределены по всем ним.

Краудфандинг для меня лично - это столько сбор средств, сколько то что проект по консервации общедоступной государственной информации - это нужно и востребовано.

Если получится собрать больше денег, то все они будут направлены на:
- холодное резевирование данных чтобы было минимум по 2-3 копии любых данных
- оплату работы программистов для создания утилит для архивации данных из социальных аккаунтов ОК, VK, Facebook и др
- создание удобного интерфейса для поиска по архивам
Пока я пишу это только в формате Facebook'а и других площадок на которых я публикуюсь. Чуть позже мы запустим и официальную кампанию по сбору средств на Planeta.ru

Сделать пожертвование можно через Яндекс.Деньги или переводом на банковский счет, реквизиты и форма по ссылке http://archive.infoculture.ru/donate/
Если у Вас есть или будут идеи того что и как архивировать, готовность помочь и так далее - пишите мне на [email protected]

#digitalpreservation
На днях прошла новость о том что проект Имхонет, состоящий из рекомендаций фильмов, книг и многого другогоб закрылся [1]. Закрылся он внезапно, без предупреждения, без возможности скачать хотя бы собственные опубликованные там материалы, теперь там просто заглушка вместо главной страницы [2].

Это довольно удручающая новость показывающая еще и уровень информационной культуры у создателей проектов основанных на материалах пользователей. В любой момент создали могут решить проект закрыть и невозможно получить собственные материалы.

Для сравнения, корпорация "Microsoft" 31 марта этого года объявила [3] о закрытии проекта хостинга открытого кода Codeplex и переносе собственных проектов на Github.
При этом они пообещали что:
• все материалы останутся на сайте в режиме для чтения с октября 2017;
• полностью сайт будет закрыт в декабре 2017;
• для переноса данных написано подробное руководство.

Итого, они предупредили за чуть менее чем 9 месяцев и достаточно время сохранить собственный код и не только. Например, команда Archiveteam уже успела отследить этот факт и отслеживает статус проекта [4]

Или, например, сервис закладов Ffound.com объявил о закрытии с 8 мая [5 ], хотя бы за 2 недели. Сейчас его также копируют участники ArchiveTeam.

Самые неприятные истории, конечно, похожи на историю с Имхонет. Например, после того как Яндекс продал хостинг Narod.ru компании uCOZ [6 ] этот хостинг сильно испортился и теперь на какой сайт на narod.ru не зайти, я вижу всегда длительную блокирующую просмотр материалов автоматическую видеорекламу.

Это вполне может быть признаком того что uCOZ нацелились на быструю монетизацию и судьба сайтов на бесплатном хостинге - это вопрос открытый.

Ссылки:
[1] https://roem.ru/29-04-2017/248903/imhonet-zakrylsya/
[2] http://imhonet.ru/
[3] https://blogs.msdn.microsoft.com/bharry/2017/03/31/shutting-down-CodePlex/
[4] http://www.archiveteam.org/index.php?title=CodePlex
[5] http://ffffound.com/
[6] https://yandex.ru/blog/company/57916

#digitalpreservation #archiving
Всем привет! Случилось страшное, архивируя все на свете я не успел заархивировать чат @begtinchat в котором обсуждаются новости на моем канале @begtin. Пара неверных движений в мобильном приложении и вместо добавления админа в чат, меня угораздило его удалить. Если Вам есть что обсудить по тем новостям о которых я пишу - открытые данные, открытое государство, приватность, данные вообще и государство в принципе - прошу, присоединяйтесь. Я же продолжу восстанавливать чат из архивов, надеюсь удалось сохранить хотя бы что-то. Все что удастся сохранить - будет доступно.
Проект SubsidyStories [1] по сбору и визуализации субсидий получаемых европейскими предприятиями. Много скрейперов для данных в XLS, XLSX, PDF и других форматах о чем рассказывают создатели проекта в блоге Open Knowledge International [2]

Простой и симпатичный проект с открытым кодом [3] вышедший из экосистемы OpenSpending.

Ссылки:
[1] http://subsidystories.eu/
[2] https://okfn.de/blog/2017/04/Making-EU-Data-Open/
[3] https://github.com/os-data/eu-structural-funds/

#opendata #openfinances
Национальный архив Великобритании в марте опубликовали Цифровую стратегию [1] в виде подробного документа описывающего развитие цифровых технологий с 2017 по 2019 годы [2]

Основные тезисы этой стратегии:
1. Записи переходят из физической формы в виртуальную
2. Цифровое сохранение сложная задача
3. Высокие ожидания
4. Изменения непрерывны
5. Цифровые навыки на вес золота

Если пересказать стратегию коротко то она звучит так.
- Мы учимся работать в цифровом мире.
- Мигрируем в облака и даем доступ исследователям для анализа данных.
- Открываем все что только возможно
- Создаем API для наших проектов

Там еще много всего и, конечно, у архивов есть давняя беда дефицита цифровых навыков и то что те кто реально собирает данные обо всем с архивами не делятся - ни спецслужбы, ни дата корпорации не сдают туда "награбленное и накопленное".

Поэтому до сих пор инструменты сбора данных несовершенны, для социальных сетей, для веб-сайтов и для многого другого.

Ссылки:
[1] https://www.nationalarchives.gov.uk/about/our-role/plans-policies-performance-and-projects/our-plans/digital-strategy/
[2] https://www.nationalarchives.gov.uk/documents/the-national-archives-digital-strategy-2017-19.pdf

#digitalpreservation
Instacart, онлайн сервис заказа и доставки еды на дом опубликовал датасет из 3 миллионов заказов за 2017 год . Подробнее в блоге Jeremy Stanley [1]

В наборе данных информация о времени заказа, его идентификатор и купленный продукт плюс дополнительная информация. Структуру данных можно посмотреть тут [2], а сами данные выгрузить тут [3].

В очередной раз привожу это как пример того что открытые данные публикует не только государство. Для исследовательских целей их предоставляют многие крупные интернет компании заинтересованные в том чтобы наиболее талантливые разработчики использовали их данные.

Ссылки:
[1] https://tech.instacart.com/3-million-instacart-orders-open-sourced-d40d29ead6f2
[2] https://gist.github.com/jeremystan/c3b39d947d9b88b3ccff3147dbcf6c6b
[3] https://tech.instacart.com/3-million-instacart-orders-open-sourced-d40d29ead6f2

#opendata #instacart
Свежая статья "The world’s most valuable resource is no longer oil, but data в The Economist о данных которые превратились в "новую нефть" [1] поднимает все более актуальную тему о том что деятельность транснациональных корпораций данных (data corporations) дает возможность им отслеживать другие компании и влиять на конкурентный рынок.

Статья поднимает важнейший вопрос соответствия государственных систем существующему мироустройству информационной эры или, как сейчас говорят, "цифровой экономики".

Ссылки:
[1] http://www.economist.com/news/leaders/21721656-data-economy-demands-new-approach-antitrust-rules-worlds-most-valuable-resource

#data #dataeconomy
Кто-то отдыхает в праздники, а я публикую заметку о том как проходит архивация сайтов на примере Общественной палаты - https://medium.com/@ibegtin/oprf-archival-209d9b09af3

#digitatalpresevation #opengovernment #archiving
Главный недостаток канала в Телеграм в том что можно промахнуться ведя с кем-то переписку. Всем подписчикам извинения и хороших праздников!
Относительно недавняя новость - оказывается администрация Трампа старательно игнорирует петиции публикуемые на портале петиций Белого дома [1]. Об этом пишут Sunlight Foundation у себя в твиттере [2] и подробнее в статье в Miami Herald "Transparency doesn’t seem to be among the Trump administration’s priorities" [3].

Администрация Барака Обамы обязалась отвечать в течении 30 дней на петиции собирающие более 100 тысяч подписчиков, а на сегодняшний день накопилось 9 петиций перешедших этот рубеж, но не отвеченных администрацией Трампа за 100 дней его правления.

Судьба проектов петиций давно оказывается незавидной. Попытки строить прямую демократию оказываются недолгими, вот и российский РОИ [4] давно уже не функционален.

Ссылки:
[1] https://petitions.whitehouse.gov/
[2] https://twitter.com/SunFoundation/status/857627423659233280
[3] http://www.miamiherald.com/news/politics-government/article146851974.html
[4] https://www.roi.ru/

#opendata #opengov #trump #petitions
Стала доступна бета версия портала USASpending [1] посвященного раскрытию информации о госрасходах в США. Не просто система публикации информации о контрактах, а полноценная система визуализации и предоставления открытых данных. Много лет я и команда Инфокультуры поддерживает похожий проект в России под названием Госзатраты - это проект Комитета гражданских инициатив [2] .

Мало кто знает его предысторию. Еще до того как этот проект стал проектом КГИ, он был создан на гораздо меньшем по объему данных проекте под названием Росгосзатраты созданным мной в Институте современного развития. Тогда у проекта был шанс стать официальным государственным порталом и "получить прописку" в виде портала spending.gov.ru, а теперь до смены текущего правительства на это и не стоит рассчитывать.

Госзатраты - это проект который я начинал проектировать 10 лет назад, сделал первый прототип 6 лет назад и за эти годы уже трижды переделывал его и вначале сам и вместе с командой по мере роста проекта.

Сейчас я могу сказать что для запуска любого подобного большого проекта нужна, в первую очередь, воля, а не деньги и даже не большая команда разработчиков. Нужно очень много желания его реализовать.

Не все также знают что проект USASPending изначально произошел от проекта FedSpending [3] созданного американской НКО "Project of government oversight" в 2006 году.

Именно глядя на него днем, тогда, в конце 2006 года и начале 2007 года я просыпался много месяцев с мыслью о том почему ничего подобного в России нет? Те кто знали госзакупки лучше чем я тогда отвечали мне - "Потому что они никому не нужен".

Сейчас, по истечении многих лет, я рад что нам удается сохранять наш проект и что в мире развиваются подобные проекты. Кроме USASpending их еще около десятка посвящено именно анализу контрактов и открытым данным о госрасходах.

Ссылки:
[1] https://beta.usaspending.gov/
[2] http://clearspending.ru
[3] http://fedspending.org/

#opendata #opengov #spending #clearspending
Более 200 терабайт государственных сайтов и данных США заархивировано в Интернет-архиве [1] в рамках проекта “End of Term Presidential Harvest 2016” [2].

Из этого проекта более 100 терабайт — это веб-архивы сайтов органов власти и около 100 терабайт — это данные с государственных FTP серверов.
Все ссылки на ресурсы были собраны 393 волонтерами и сохранены [3] в специальном инструменте Nomination Tool для последующего автоматического сохранения.
Сейчас Университет Техаса ведет следующий проект “Government Web & Data Archive” по постоянной архивации вебсайтов и данных правительства США [4].
Напомню что в России в рамках Национального цифрового архива мы ведем проект по архивации всех официальных сайтов. Подробнее о национальном архиве можно прочитать здесь http://archive.infoculture.ru, а также поддержать проект пожертвованиями или посильной помощью - http://archive.infoculture.ru/donate.

Ссылки:
[1] https://blog.archive.org/2017/05/09/over-200-terabytes-of-the-government-web-archived/
[2] http://digital2.library.unt.edu/nomination/eth2016/about/
[3] http://digital2.library.unt.edu/nomination/eth2016/reports/urls/
[4] http://digital2.library.unt.edu/nomination/GWDA/

#opendata #opengov #digitatalpresevation #webarchiving

P.S. Также эта заметка на Medium - https://medium.com/@ibegtin/government-archive-b43a0cde7f97
В качестве исключения я написал заметку про WannaCry, идущую сейчас эпидемию заражения компьютеров программой вымогателей - https://medium.com/@ibegtin/wannacry-e5626de68557
Apple купили компанию Lattice Data [1] специализирующуюся на "неструктурированных темных данных" (unstructured dark data). О компании очень мало известно, только то что они привлекли 20 миллионов долларов США инвестиций от GV, Madrona и InQTel

Компания была создана командой Christopher Ré, Michael Cafarella, Raphael Hoffmann и Feng Niu ранее создавшими DeepDrive [2] "a system to extract value from dark data".

Если "темные данные" - это развитие Deep Dive, выявление отношений и сущностей из неструктуированных текстов, то уже становится интересно какие же новые продукты готовил Apple. Бьюсь об заклад что это будет как-либо связано еще и с распознаванием речи.

Ссылки:
[1] https://techcrunch.com/2017/05/13/apple-acquires-ai-company-lattice-data-a-specialist-in-unstructured-dark-data/
[2] http://deepdive.stanford.edu/

#darkdata #deepdrive #apple
В Ведомостях вышла статья Алексея Кнорре и моим соучастием https://www.vedomosti.ru/opinion/articles/2017/05/18/690333-nesoznatelnaya-informatizatsiya о несознательной информатизации госорганов. На самом деле картина, как всегда, гораздо более комплексная, но основные принципы неизменны - сейчас государственные информационные системы создаются не для людей
Я давно не публиковал ссылок на то что я читаю в основном и что является источником того о чем я регулярно пишу.

Подборка рекомендаций того откуда лично я черпаю новости и более серьезные знания:
- https://architecht.io/ - журнал о ПО, сервисах и тд. на базе Medium.
- https://govinsider.asia/ - Government Insider, много интересного о цифровых преобразованиях в Азии
- http://www.opengovasia.com/ Open Gov Asia. Множество публикаций о цифровых правительствах в Азии. Скучнее чем GovInsider, но полезен
- http://opengovdaily.com - агрегатор новостей об открытых данных и открытости государства (дизклеймер - я его сделал на базе paper.li).
- https://dataelixir.com - лучшая рассылка о данных из мне известных
- http://thegovlab.org/blog/ - GovLab блог и их дайджест http://thegovlab.org/govlab-digest/ все вокруг государства и цифровых технологий
- https://datafloq.com/ - новости и рассылки и информация о компаниях по работе с данными

#data #opendata
Тем временем в США мода на микрогранты в ИТ и близких сферах.

Недавно Nadia Eghbal, сотрудник Github, анонсировала что раздает по $5000 без каких либо условий тем чье мотивационное письмо ей понравится - https://medium.com/@nayafia/how-to-give-away-5-000-on-the-internet-66cae906ab7e

С оглядкой на нее же такую же инициативу запустил Yurii Rashkovskii - https://medium.com/@yrashk/5-000-for-your-dream-project-c820494eadb4

А группа спонсоров организовали AI Grants - гранты на проекты по искусственному интеллекту - https://aigrant.org/

UPD1: Вот тут больше примеров подобных грантов https://github.com/nayafia/microgrants

Главные особенности:
1. Гранты маленькие, в рублях около 270 тысяч.
2. Часто их раздают физ лица
3. Никаких ограничений по местонахождению получателя
4. Нет последующего контроля, отслеживания и так далее.

No strings attached.

Я давно хочу раздавать гранты на проекты по открытому коду/открытым данным, так же без каких-либо ограничений и условий. Главное чтобы проект/дополнение к какому-то проекту и тд. был в общей экосистеме и обеспечивал открытые данные, был с открытым кодом и свободными лицензиями.

Кстати в России нет ни то что микрогрантов в этой области, нет даже институциональных фондов. Ни одного.

#opendata #opensource #grants #microgrants
Полезная и подробная история о том как один из крупнейших сервисов вопросов и ответов StackOverflow переходил на HTTPS по умолчанию для всех проектов - https://nickcraver.com/blog/2017/05/22/https-on-stack-overflow/

У перехода на HTTPS оказалось много нюансов о которых Nick Craver очень подробно пишет и для очень большого проекта - это не просто создать сертификаты, но и большая работа по обновлению кода и инфраструктуры.


#ssl #tls #https #privacy