Ivan Begtin – Telegram

Ivan Begtin

8.1K subscribers

2.01K photos

3 videos

102 files

4.74K links

I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]

About

Blog

Apps

Platform

8.1K subscribers

345725803_The_state_of_weather_data.pdf

1.3K views15:00

В блоге Keen.io обзор архитектур анализа данных в Twitter, Facebook, Airbnb, Netflix и Pinterest [1]. Практически все они работают на технологиях Apache Kafka, Apache Spark, Apache Storm, Elastic Search и Hadoop.

Там же много ссылок на публикации архитектуры данных этими компаниями. Например, "Behind the Pins: Building Analytics" [2] и "Data Infrastructure at Airbnb" [3]

Миллиардные транзакции ежедневно происходящие в этих системах поражают. Если и говорить про большие данные, не в маркетинговом, а в осмысленном понимании, то они происходят именно там.

И здесь можно обратить внимание на несколько важных явлений:
- все решения на базе открытого кода. У всех крупнейших компаний, или на базе открытого кода, или собственные разработки;
- повсеместная стандартизация компонентов;
- акцент на горизонтальном масштабировании.

Ссылки:
[1] https://blog.keen.io/architecture-of-giants-data-stacks-at-facebook-netflix-airbnb-and-pinterest-9b7cd881af54
[2] https://medium.com/@Pinterest_Engineering/behind-the-pins-building-analytics-f7b508cdacab?s=hi-from-keen-io
[3] https://medium.com/airbnb-engineering/data-infrastructure-at-airbnb-8adfb34f169c

#bigdata #data

Architecture of Giants: Data Stacks at Facebook, Netflix, Airbnb, and Pinterest

A collection of event data infrastructure diagrams from the world’s fastest-scaling internet companies.

1.5K views04:19

Помните я писал про архивацию и то что нехватает мощностей для проекта по архивации госсайтов?
Мы наконец-то сделали страницу сайт всей инициативы и то куда можно собирать средства - http://archive.infoculture.ru

Это Национальный цифровой архив России (НЦАР) большая инициатива состоящая из многих проектов в будущем, а пока из двух:

1-й - это "Консервированное государство", архивация всех официальных сайтов, социальных аккаунтов, сайтов спецпроектов и тд созданных на госсредства и от государственных органов и учреждений.
2-й - это пока разрозненные специализированные коллекции из сайтов, баз данных, других цифровых артефактов по темам не обязательно относящимся к государству. Например, это сайты банков или закрываемых онлайн проектов.

Сайт пока еще в состоянии доработки, мы его только-только сделали, но можно уже его показывать.
Значительная часть собранного уже опубликована и общедоступна. Они есть по ссылкам на сайте и доступны для выгрузки тут - http://cdn2.sdlabs.ru/preservation/webcollect/
Но там не все, там нет последних 3 терабайт официальных сайтов которые пока некуда выкладывать

Однако это очень большие объемы и мы постепенно и постоянно упираемся в потолки объемов данных, даже не для хранения, но для раздачи.
Одно из решений - это аренда 2-х Storage Box по 10 терабайт на серверах хостера Hetzner. Он обойдется примерно в 72 тысяч рублей в год.

Архивация государственных сайтов - это особый проект. На него мы врядли сможем привлечь грантовое или государственное финансирование, к нему же сложнее получить поддержку от крупных российских интернет-компаний, поэтому мы попробуем устроить краудфандинг.
Для этого достаточно 72 людям сбрасываться по 1 тысяче рублей в год.

Скажу сразу это небольшая сумма, однако мы в Инфокультуре ведем очень много проектов таких как Открытая полиция, Госзатраты, Хаб открытых данных, Понятный русский язык, День открытых данных, хакатоны, конкурсы, мероприятия и еще многое и в итоге силы и средства распеределены по всем ним.

Краудфандинг для меня лично - это столько сбор средств, сколько то что проект по консервации общедоступной государственной информации - это нужно и востребовано.

Если получится собрать больше денег, то все они будут направлены на:
- холодное резевирование данных чтобы было минимум по 2-3 копии любых данных
- оплату работы программистов для создания утилит для архивации данных из социальных аккаунтов ОК, VK, Facebook и др
- создание удобного интерфейса для поиска по архивам
Пока я пишу это только в формате Facebook'а и других площадок на которых я публикуюсь. Чуть позже мы запустим и официальную кампанию по сбору средств на Planeta.ru

Сделать пожертвование можно через Яндекс.Деньги или переводом на банковский счет, реквизиты и форма по ссылке http://archive.infoculture.ru/donate/
Если у Вас есть или будут идеи того что и как архивировать, готовность помочь и так далее - пишите мне на [email protected]

#digitalpreservation

1.6K views05:54

На днях прошла новость о том что проект Имхонет, состоящий из рекомендаций фильмов, книг и многого другогоб закрылся [1]. Закрылся он внезапно, без предупреждения, без возможности скачать хотя бы собственные опубликованные там материалы, теперь там просто заглушка вместо главной страницы [2].

Это довольно удручающая новость показывающая еще и уровень информационной культуры у создателей проектов основанных на материалах пользователей. В любой момент создали могут решить проект закрыть и невозможно получить собственные материалы.

Для сравнения, корпорация "Microsoft" 31 марта этого года объявила [3] о закрытии проекта хостинга открытого кода Codeplex и переносе собственных проектов на Github.
При этом они пообещали что:
• все материалы останутся на сайте в режиме для чтения с октября 2017;
• полностью сайт будет закрыт в декабре 2017;
• для переноса данных написано подробное руководство.

Итого, они предупредили за чуть менее чем 9 месяцев и достаточно время сохранить собственный код и не только. Например, команда Archiveteam уже успела отследить этот факт и отслеживает статус проекта [4]

Или, например, сервис закладов Ffound.com объявил о закрытии с 8 мая [5 ], хотя бы за 2 недели. Сейчас его также копируют участники ArchiveTeam.

Самые неприятные истории, конечно, похожи на историю с Имхонет. Например, после того как Яндекс продал хостинг Narod.ru компании uCOZ [6 ] этот хостинг сильно испортился и теперь на какой сайт на narod.ru не зайти, я вижу всегда длительную блокирующую просмотр материалов автоматическую видеорекламу.

Это вполне может быть признаком того что uCOZ нацелились на быструю монетизацию и судьба сайтов на бесплатном хостинге - это вопрос открытый.

Ссылки:
[1] https://roem.ru/29-04-2017/248903/imhonet-zakrylsya/
[2] http://imhonet.ru/
[3] https://blogs.msdn.microsoft.com/bharry/2017/03/31/shutting-down-CodePlex/
[4] http://www.archiveteam.org/index.php?title=CodePlex
[5] http://ffffound.com/
[6] https://yandex.ru/blog/company/57916

#digitalpreservation #archiving

«Имхонет» закрылся

Вдохнуть новую жизнь в проект не смогли даже выходцы из IVI и Mail.ru

1.6K views20:45

Всем привет! Случилось страшное, архивируя все на свете я не успел заархивировать чат @begtinchat в котором обсуждаются новости на моем канале @begtin. Пара неверных движений в мобильном приложении и вместо добавления админа в чат, меня угораздило его удалить. Если Вам есть что обсудить по тем новостям о которых я пишу - открытые данные, открытое государство, приватность, данные вообще и государство в принципе - прошу, присоединяйтесь. Я же продолжу восстанавливать чат из архивов, надеюсь удалось сохранить хотя бы что-то. Все что удастся сохранить - будет доступно.

1.4K views15:19

Проект SubsidyStories [1] по сбору и визуализации субсидий получаемых европейскими предприятиями. Много скрейперов для данных в XLS, XLSX, PDF и других форматах о чем рассказывают создатели проекта в блоге Open Knowledge International [2]

Простой и симпатичный проект с открытым кодом [3] вышедший из экосистемы OpenSpending.

Ссылки:
[1] http://subsidystories.eu/
[2] https://okfn.de/blog/2017/04/Making-EU-Data-Open/
[3] https://github.com/os-data/eu-structural-funds/

#opendata #openfinances

1.9K views05:42

Национальный архив Великобритании в марте опубликовали Цифровую стратегию [1] в виде подробного документа описывающего развитие цифровых технологий с 2017 по 2019 годы [2]

Основные тезисы этой стратегии:
1. Записи переходят из физической формы в виртуальную
2. Цифровое сохранение сложная задача
3. Высокие ожидания
4. Изменения непрерывны
5. Цифровые навыки на вес золота

Если пересказать стратегию коротко то она звучит так.
- Мы учимся работать в цифровом мире.
- Мигрируем в облака и даем доступ исследователям для анализа данных.
- Открываем все что только возможно
- Создаем API для наших проектов

Там еще много всего и, конечно, у архивов есть давняя беда дефицита цифровых навыков и то что те кто реально собирает данные обо всем с архивами не делятся - ни спецслужбы, ни дата корпорации не сдают туда "награбленное и накопленное".

Поэтому до сих пор инструменты сбора данных несовершенны, для социальных сетей, для веб-сайтов и для многого другого.

Ссылки:
[1] https://www.nationalarchives.gov.uk/about/our-role/plans-policies-performance-and-projects/our-plans/digital-strategy/
[2] https://www.nationalarchives.gov.uk/documents/the-national-archives-digital-strategy-2017-19.pdf

#digitalpreservation

Archives Inspire the world

Our digital strategy - Archives Inspire the world

Archives are the homes for our collective memory They enable us to understand the past and make sense of the present, while offering guidance for the futur

1.5K viewsedited 11:00

Instacart, онлайн сервис заказа и доставки еды на дом опубликовал датасет из 3 миллионов заказов за 2017 год . Подробнее в блоге Jeremy Stanley [1]

В наборе данных информация о времени заказа, его идентификатор и купленный продукт плюс дополнительная информация. Структуру данных можно посмотреть тут [2], а сами данные выгрузить тут [3].

В очередной раз привожу это как пример того что открытые данные публикует не только государство. Для исследовательских целей их предоставляют многие крупные интернет компании заинтересованные в том чтобы наиболее талантливые разработчики использовали их данные.

Ссылки:
[1] https://tech.instacart.com/3-million-instacart-orders-open-sourced-d40d29ead6f2
[2] https://gist.github.com/jeremystan/c3b39d947d9b88b3ccff3147dbcf6c6b
[3] https://tech.instacart.com/3-million-instacart-orders-open-sourced-d40d29ead6f2

#opendata #instacart

3 Million Instacart Orders, Open Sourced

Curious about the food Americans eat? Look no further.

2.4K views06:21

Свежая статья "The world’s most valuable resource is no longer oil, but data в The Economist о данных которые превратились в "новую нефть" [1] поднимает все более актуальную тему о том что деятельность транснациональных корпораций данных (data corporations) дает возможность им отслеживать другие компании и влиять на конкурентный рынок.

Статья поднимает важнейший вопрос соответствия государственных систем существующему мироустройству информационной эры или, как сейчас говорят, "цифровой экономики".

Ссылки:
[1] http://www.economist.com/news/leaders/21721656-data-economy-demands-new-approach-antitrust-rules-worlds-most-valuable-resource

#data #dataeconomy

The world’s most valuable resource is no longer oil, but data

The data economy demands a new approach to antitrust rules

1.4K views12:49

Кто-то отдыхает в праздники, а я публикую заметку о том как проходит архивация сайтов на примере Общественной палаты - https://medium.com/@ibegtin/oprf-archival-209d9b09af3

#digitatalpresevation #opengovernment #archiving

Архивация сайтов Общественной палаты – Ivan Begtin – Medium

Вот прямо сейчас я запустил архивацию коллекции всех их ресурсов.

1.4K views07:48

Главный недостаток канала в Телеграм в том что можно промахнуться ведя с кем-то переписку. Всем подписчикам извинения и хороших праздников!

1.4K viewsedited 10:08

Относительно недавняя новость - оказывается администрация Трампа старательно игнорирует петиции публикуемые на портале петиций Белого дома [1]. Об этом пишут Sunlight Foundation у себя в твиттере [2] и подробнее в статье в Miami Herald "Transparency doesn’t seem to be among the Trump administration’s priorities" [3].

Администрация Барака Обамы обязалась отвечать в течении 30 дней на петиции собирающие более 100 тысяч подписчиков, а на сегодняшний день накопилось 9 петиций перешедших этот рубеж, но не отвеченных администрацией Трампа за 100 дней его правления.

Судьба проектов петиций давно оказывается незавидной. Попытки строить прямую демократию оказываются недолгими, вот и российский РОИ [4] давно уже не функционален.

Ссылки:
[1] https://petitions.whitehouse.gov/
[2] https://twitter.com/SunFoundation/status/857627423659233280
[3] http://www.miamiherald.com/news/politics-government/article146851974.html
[4] https://www.roi.ru/

#opendata #opengov #trump #petitions

1.3K views18:02

Стала доступна бета версия портала USASpending [1] посвященного раскрытию информации о госрасходах в США. Не просто система публикации информации о контрактах, а полноценная система визуализации и предоставления открытых данных. Много лет я и команда Инфокультуры поддерживает похожий проект в России под названием Госзатраты - это проект Комитета гражданских инициатив [2] .

Мало кто знает его предысторию. Еще до того как этот проект стал проектом КГИ, он был создан на гораздо меньшем по объему данных проекте под названием Росгосзатраты созданным мной в Институте современного развития. Тогда у проекта был шанс стать официальным государственным порталом и "получить прописку" в виде портала spending.gov.ru, а теперь до смены текущего правительства на это и не стоит рассчитывать.

Госзатраты - это проект который я начинал проектировать 10 лет назад, сделал первый прототип 6 лет назад и за эти годы уже трижды переделывал его и вначале сам и вместе с командой по мере роста проекта.

Сейчас я могу сказать что для запуска любого подобного большого проекта нужна, в первую очередь, воля, а не деньги и даже не большая команда разработчиков. Нужно очень много желания его реализовать.

Не все также знают что проект USASPending изначально произошел от проекта FedSpending [3] созданного американской НКО "Project of government oversight" в 2006 году.

Именно глядя на него днем, тогда, в конце 2006 года и начале 2007 года я просыпался много месяцев с мыслью о том почему ничего подобного в России нет? Те кто знали госзакупки лучше чем я тогда отвечали мне - "Потому что они никому не нужен".

Сейчас, по истечении многих лет, я рад что нам удается сохранять наш проект и что в мире развиваются подобные проекты. Кроме USASpending их еще около десятка посвящено именно анализу контрактов и открытым данным о госрасходах.

Ссылки:
[1] https://beta.usaspending.gov/
[2] http://clearspending.ru
[3] http://fedspending.org/

#opendata #opengov #spending #clearspending

ГосЗатраты

ГосЗатраты - Общественный мониторинг госзакупок в Рф

Автоматизированный мониторинг и аналитика по заключенным госконтрактам – инструменты для общественного анализа, выявления злоупотреблений, борьбы с коррупцией и неэффективным расходованием государственных средств.

1.4K views18:22

Более 200 терабайт государственных сайтов и данных США заархивировано в Интернет-архиве [1] в рамках проекта “End of Term Presidential Harvest 2016” [2].

Из этого проекта более 100 терабайт — это веб-архивы сайтов органов власти и около 100 терабайт — это данные с государственных FTP серверов.
Все ссылки на ресурсы были собраны 393 волонтерами и сохранены [3] в специальном инструменте Nomination Tool для последующего автоматического сохранения.
Сейчас Университет Техаса ведет следующий проект “Government Web & Data Archive” по постоянной архивации вебсайтов и данных правительства США [4].
Напомню что в России в рамках Национального цифрового архива мы ведем проект по архивации всех официальных сайтов. Подробнее о национальном архиве можно прочитать здесь http://archive.infoculture.ru, а также поддержать проект пожертвованиями или посильной помощью - http://archive.infoculture.ru/donate.

Ссылки:
[1] https://blog.archive.org/2017/05/09/over-200-terabytes-of-the-government-web-archived/
[2] http://digital2.library.unt.edu/nomination/eth2016/about/
[3] http://digital2.library.unt.edu/nomination/eth2016/reports/urls/
[4] http://digital2.library.unt.edu/nomination/GWDA/

#opendata #opengov #digitatalpresevation #webarchiving

P.S. Также эта заметка на Medium - https://medium.com/@ibegtin/government-archive-b43a0cde7f97

1.6K views06:08

В качестве исключения я написал заметку про WannaCry, идущую сейчас эпидемию заражения компьютеров программой вымогателей - https://medium.com/@ibegtin/wannacry-e5626de68557

WannaCry и его последствия

Тема безопасности в сети не является приоритетной для моего блога, но мимо этого случая я пройти не смог.

1.4K views06:43

Apple купили компанию Lattice Data [1] специализирующуюся на "неструктурированных темных данных" (unstructured dark data). О компании очень мало известно, только то что они привлекли 20 миллионов долларов США инвестиций от GV, Madrona и InQTel

Компания была создана командой Christopher Ré, Michael Cafarella, Raphael Hoffmann и Feng Niu ранее создавшими DeepDrive [2] "a system to extract value from dark data".

Если "темные данные" - это развитие Deep Dive, выявление отношений и сущностей из неструктуированных текстов, то уже становится интересно какие же новые продукты готовил Apple. Бьюсь об заклад что это будет как-либо связано еще и с распознаванием речи.

Ссылки:
[1] https://techcrunch.com/2017/05/13/apple-acquires-ai-company-lattice-data-a-specialist-in-unstructured-dark-data/
[2] http://deepdive.stanford.edu/

#darkdata #deepdrive #apple

Apple acquires AI company Lattice Data, a specialist in unstructured ‘dark data’, for $200M

As large tech companies gear up to make a stronger push into machine learning and artificial intelligence, Apple has acquired a company to fill out its own capabilities in the area. Specifically, Apple has picked up Lattice Data, a company that applies an…

1.5K views08:24

Весь вчерашний день я провел в Минске на Internet Governance Forum впечатления о коротом написал у себя в блоге https://medium.com/@ibegtin/igf-8e2130b78dc0

#opendata #opengov #digitaltransformation

Впечатления от IGF 2017

В этом году я впервые посетил конференцию Internet Governance Forum (IGF) в Минске и внимательно слушал о чем говорят там об электронном п…

1.4K views17:37

В Ведомостях вышла статья Алексея Кнорре и моим соучастием https://www.vedomosti.ru/opinion/articles/2017/05/18/690333-nesoznatelnaya-informatizatsiya о несознательной информатизации госорганов. На самом деле картина, как всегда, гораздо более комплексная, но основные принципы неизменны - сейчас государственные информационные системы создаются не для людей

www.vedomosti.ru

Несознательная информатизация

IT-эксперт Иван Бегтин и социолог Алексей Кнорре о разработке государственных информационных систем

1.4K views16:16

Я давно не публиковал ссылок на то что я читаю в основном и что является источником того о чем я регулярно пишу.

Подборка рекомендаций того откуда лично я черпаю новости и более серьезные знания:
- https://architecht.io/ - журнал о ПО, сервисах и тд. на базе Medium.
- https://govinsider.asia/ - Government Insider, много интересного о цифровых преобразованиях в Азии
- http://www.opengovasia.com/ Open Gov Asia. Множество публикаций о цифровых правительствах в Азии. Скучнее чем GovInsider, но полезен
- http://opengovdaily.com - агрегатор новостей об открытых данных и открытости государства (дизклеймер - я его сделал на базе paper.li).
- https://dataelixir.com - лучшая рассылка о данных из мне известных
- http://thegovlab.org/blog/ - GovLab блог и их дайджест http://thegovlab.org/govlab-digest/ все вокруг государства и цифровых технологий
- https://datafloq.com/ - новости и рассылки и информация о компаниях по работе с данными

#data #opendata

The business of cloud computing, artificial intelligence and next-gen enterprise IT.

1.3K views09:36

Тем временем в США мода на микрогранты в ИТ и близких сферах.

Недавно Nadia Eghbal, сотрудник Github, анонсировала что раздает по $5000 без каких либо условий тем чье мотивационное письмо ей понравится - https://medium.com/@nayafia/how-to-give-away-5-000-on-the-internet-66cae906ab7e

С оглядкой на нее же такую же инициативу запустил Yurii Rashkovskii - https://medium.com/@yrashk/5-000-for-your-dream-project-c820494eadb4

А группа спонсоров организовали AI Grants - гранты на проекты по искусственному интеллекту - https://aigrant.org/

UPD1: Вот тут больше примеров подобных грантов https://github.com/nayafia/microgrants

Главные особенности:
1. Гранты маленькие, в рублях около 270 тысяч.
2. Часто их раздают физ лица
3. Никаких ограничений по местонахождению получателя
4. Нет последующего контроля, отслеживания и так далее.

No strings attached.

Я давно хочу раздавать гранты на проекты по открытому коду/открытым данным, так же без каких-либо ограничений и условий. Главное чтобы проект/дополнение к какому-то проекту и тд. был в общей экосистеме и обеспечивал открытые данные, был с открытым кодом и свободными лицензиями.

Кстати в России нет ни то что микрогрантов в этой области, нет даже институциональных фондов. Ни одного.

#opendata #opensource #grants #microgrants

How to give away $5,000 on the Internet

Earlier this month, I announced that I was giving away $5,000, no strings attached.

1.3K views06:27

Полезная и подробная история о том как один из крупнейших сервисов вопросов и ответов StackOverflow переходил на HTTPS по умолчанию для всех проектов - https://nickcraver.com/blog/2017/05/22/https-on-stack-overflow/

У перехода на HTTPS оказалось много нюансов о которых Nick Craver очень подробно пишет и для очень большого проекта - это не просто создать сертификаты, но и большая работа по обновлению кода и инфраструктуры.

#ssl #tls #https #privacy

Nick Craver - HTTPS on Stack Overflow: The End of a Long Road

Today, we deployed HTTPS by default on Stack Overflow. All traffic is now redirected to https:// and Google links will change over the next few weeks. The ac...

1.4K views08:45