Ivan Begtin

В Евросоюзе сейчас идёт большая кампания в защиту Интернета от статьи 13 в защиту копирайта [1]. 20 июня профильный комитет Европарламент проголосовал 15 против 10 за принятие этой статьи и если сегодня 5 июля Европарламент проголосует за, то практически все онлайн платформы работающие с европейскими потребителями будут обязаны фильтровать контент загружаемый пользователями на предмет нарушения владельцев прав на интеллектуальную собственность.

У свободы много граней и свободный обмен знаниями - одна из важнейших. На мой взгляд запреты копирайта даже хуже политической цензуры. Но в современном мире у нас мало возможностей в выборе между разными видами свободы, наш выбор сводится к разным формам несвободы.

Ссылки:
[1] https://saveyourinternet.eu/

#saveyourinternet

#SaveYourInternet

Home

You can still stop #Article13 (aka #Article17)! #Copyright #CensorshipMachine

8.9K viewsIvan Begtin, 04:04

Ivan Begtin

Многие знают о Europeana [1], крупнейшем онлайн музее/архиве/выставке Евросоюза основанном на партнёрстве и оцифровке материалов более чем 3,500 музеев, галерей, библиотек и архивов Европы, но мало кто знает о Канадиане [2] и схожего масштаба проект Trove [3] в Австралии, как поисковая машина и краудсорсинговый проект по оцифровке и разметке исторических материалов.

Но это государственные инициативы, а немало проектов по сохранению цифрового наследия существует и без государства. Как некоммерческие и коммерческие частные проекты.

Например:
- Software Heritage [4] спонсируемая Microsoft, Intel, Google и многими другими компаниями инициатива по долгосрочному сохранению открытого исходного кода. Они выкачивают его из github'а, gitlab'а и других источников и хранят все версии и все релизы.
- Old Version [5] большой краудсорсинговый проект архива старого ПО
- Common Crawl [6] огромный репозиторий веб-страниц собранных веб-краулерами и с возможностью ретроспективы.
- Archive Team [7] - команда волонтёров архивирующая погибающие (гигантские) сайты совместной работой над выгрузкой всего контента который может исчезнуть

И многие другие проекты. Чем больше данных и знаний создает человечество, тем больше нужно усилий по их сохранению.

Ссылки:
[1] http://europeana.eu/
[2] http://www.canadiana.ca/
[3] https://trove.nla.gov.au
[4] https://www.softwareheritage.org
[5] http://www.oldversion.com/
[6] http://commoncrawl.org/
[7] https://www.archiveteam.org/

#open #digitalpreservation

www.europeana.eu

Discover Europe’s digital cultural heritage

Search, save and share art, books, films and music from thousands of cultural institutions

984 viewsIvan Begtin, 05:25

Ivan Begtin

Forwarded from Эшер II A+

https://mobile.twitter.com/espectalll/status/1014814409162620928 Европарламент отклонил директиву об авторском праве в интернете. Бог есть

Twitter

Francisco Gómez

Good news, the directive proposal on Internet copyright has been rejected! Thank you everyone!

13 viewsIvan Begtin, 11:54

Ivan Begtin

Дайджест новостей об открытых данных и открытости государства вцелом:
- What if people were paid for their data? статья в The Economist [1] о неравенстве в использовании данных и о том смогли бы существовать нынешние дата-корпорации если бы платили пользователям за использование их данных.

- Hope for Democracy, вышла онлайн книга "Надежда на демократию" о 30 годах применения партисипаторного, в России, инициативного бюджетирования. Книга бесплатна, написана на английском языке интернациональной командов авторов и, самое неожиданное, _This publication is supported by the Ministry of Finance of the Russian Federation within the joint project with the World Bank “Strengthening participatory budgeting in the Russian Federation”._
Будем надеяться что и на русском языке она тоже будет.

- UN Biodiversity Lab, ещё один проект и каталог данных от ООН, на сей раз по биоразнообразию [3]. У ООН уже очень многие подразделения работают с большими и открытыми данными.

- ARCGis продвигает идею Geohub'ов, порталов открытых данных с акцентом на геоданные, на примере города Брамптона, Канада [4]

Ссылки:
[1] https://www.economist.com/the-world-if/2018/07/07/what-if-people-were-paid-for-their-data
[2] https://www.oficina.org.pt/hopefordemocracy.html
[3] https://otr-online.ru/programmy/segodnya-v-rossii/ivan-begtin-32511.html
[4] http://geohub.brampton.ca/

#opendata #opengov

The Economist

What if people were paid for their data?

Advocates of “data as labour” think users should be paid for using online services

1.1K viewsIvan Begtin, 09:05

Ivan Begtin

В РБК вышла моя колонка "Поиск виновного: почему стала возможной утечка данных из Google Docs" https://www.rbc.ru/opinions/technology_and_media/09/07/2018/5b3f505e9a794748ac73914f

Даже не знаю что добавить, я там как мог максимально детально старался описать.

#privacy

РБК

Поиск виновного: почему стала возможной утечка данных из Google Docs

Когда в 1990-е годы создавались известные нам поисковики, считалось, что если кто-то что-то опубликовал в Сети, значит, он заинтересован в привлечении внимания. Современный интернет устроен сложнее

1.2K viewsIvan Begtin, 09:21

Ivan Begtin

Свежее исследование Google о гендерных различиях (и дискриминации) в кинематорграфе на основе анализа 100 фильмов за 2014-2016 годы [1] и тут я не могу не напомнить об исследовании Five Thirty Eight [2] о том что Bechdel Test измеряющий гендерное неравенство - это не единственный тест на равенство мужчин и женщин в кинематографе. В исследовании они предлагают около десятка тестов охватывающих и роль женщин как протагонистов, состав поддерживающей команды, состав команды съемок и многое другое.

Кстати два фильма проходящих минимум гендерных тестов - это Доктор Стрендж и Дедпул. Поэтому эти тесты - не тесты качества, это тесты гендерного равенства.

Ещё один отличный проект по визуализации гендерного неравенства в кино была визуализация Hollywood's gender divide and it's effect on films [3] от The Pudding.

Журналисткам (и журналистам) на заметку - никто такого анализа российских фильмов никогда не проводил. Хотя бы по Bechdel test, не говоря уже о большем числе сложных тестов из статьи в Five Thirty Five.

Ссылки:
[1] https://www.google.com/about/main/gender-equality-films/
[2] https://projects.fivethirtyeight.com/next-bechdel/
[3] https://pudding.cool/2017/03/bechdel/

#opendata

about.google

Using technology to address gender bias in film - Google

Hollywood’s missing women: how Google is helping uncover gender bias in film with machine learning →

991 viewsIvan Begtin, 10:33

Ivan Begtin

Немного быстрой рефлексии по Университету НТИ 20.35 и интенсиву по Chief Data Officers на Острове Русский

1. Ожидаемо подтвердилось что всем нужна цельная госполитика по работе с данными и есть пока легкое замешательство, мало кто знает в какую сторону и кто в итоге будет её определять.

2. Организаторы выступили в роли "патерналистичного государства" дав датчики всем участникам и отслеживая их активность. При этом рефлексия самих участников по поводу этого была не так уж сильна. Во всяком случае многие команды прорабатывая кейсы с персональными образовательными траекториями, поддержкой талантливых детей или же персонификацией социальной помощи не рефлексировали это на себя в текущей ситуации.

3. Самое востребованное оказалось консультирование по кейсам команд. Я свои презентации и выступления адаптировал на ходу, доделывая под аудиторию в процессе. Все же практически вопросы были о том как и что можно сделать в России и особенно о том как и где находятся те или иные данные.

4. Фактически все участники так или иначе работают с открытыми данными. СМЭВ не предоставляет инструментов доступа к данным, а иной инфраструктуры для этого за все эти годы не создавалась и в итоге многие региональные госслужащие и чиновники работают как и бизнес с открытыми данными из федеральных информационных систем.

5. Сложный вопрос по работе с персональными данными. Многие сложные кейсы по разработке алгоритмов и системам поддержки принятия решения требуют обезличивания данных и тем они сложнее с точки зрения существующего российского регулирования. Особенно в части передачи персональных данных между федеральными и региональными системами.

6. Скажу честно, преподавание для уже состоявшихся людей в возрасте 30-45 непростая задача. Где-то я могу подсказать участникам, а каждый из участников во многих предметных областях разбирался гораздо больше чем я. Поэтому это было всегда очень познавательное общение.

Программа продлится до 21 июля, я на это время буду в Москве и помогать участникам дистанционно.

На всякий случай продублирую информацию о том где и как меня найти:
- мой канал в телеграм: https://yangx.top/begtin
- личный блог https://begtin.tech
- второй блог https://medium.com/@ibegtin
- мои презентации https://www.slideshare.net/ivbeg/
- сайт Инфокультуры http://infoculture.ru

- коммерческий проект в рамках которого мы инвентаризируем публичные (и не очень) базы данных и даём API для доступа к данным - http://apicrafter.ru

Проекты к которым имею отношение я и Инфокультура:
- Госзатраты https://clearspending.ru
- Открытая полиция http://openpolice.ru
- Хаб открытых данных https://hubofdata.ru
и многие другие на сайте Инфокультуры

#opendata #opengov #cdo #data

Ivan Begtin

I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]

1.2K viewsIvan Begtin, 06:57

Ivan Begtin

Тем временем Счетная палата, насколько я знаю, первым из центральных и конституционных органов власти организует свою работу через публичную разработку стратегии. Первое её обсуждение прошло 14 июля [1].

Ссылки:
[1] http://audit.gov.ru/press_center/news/33788

#opengov

audit.gov.ru

Счетная палата обсуждает стратегию

Официальный сайт Счетной палаты Российской Федерации

768 viewsIvan Begtin, 12:23

Ivan Begtin

Главный продукт производства государства - это законы и все остальные документы которые в России именуют НПА (Нормативно правовые акты).

Проект Crowd.Law [1] от The GovLab посвящён инициативам по сонаписанию законов гражданами и законодателями.

Сейчас открылся каталог проектов по Crowd Law в котором собрано более 100 примеров внедрения такого подхода [2]

Там необоснованно мало российских проектов, представлены только crowd.mos.ru и Активный гражданин. Да и те не про законотворчество, а про идеи и опросы. В России проектов больше, во всяком случае было больше ещё недавно.

В то же время много проектов в США, Мексике и Испании.

Каталог будет полезен всем кто изучает трансформацию законотворчества в мире и вовлечение граждан в решение государственных вопросов.

Ссылки:
[1] https://crowd.law/
[2] https://catalog.crowd.law/

#opengov

CrowdLaw-Online Public Participation in Lawmaking

Using public engagement to improve the quality, effectiveness and legitimacy of the lawmaking process. This is a draft version 1.0 of the report (dated October 12, 2017 ) and will be updated in November.

875 viewsIvan Begtin, 13:02

Ivan Begtin

Не только в России учат цифровой трансформации и работе с данными. В Австралии Learning Design Standards публикуются Australian Public Service Comission на специальном разделе их сайта [1] и охватывают такие направления новых квалификаций как
- Digital foundations
- User research
- Content design
- Agile delivery management
- Cloud service management
- Cyber security
- Digital performance analysis
- Product management
- Service design
- Digital service management
- Interaction design
- Technology lead

Работа с данными находится в квалификации digital foundations и неплохо описана.

Все они практически свежайшие, опубликованы 9 июля этого года и охватывают практически все ключевые навыки.

Внимательное чтение этих стандартов позволяет понять что же мы упускаем в обучении в России.

Ссылки:
[1] https://www.apsc.gov.au/learning-standards

#data #cdo

1.0K viewsIvan Begtin, 15:51

Ivan Begtin

Свежая статья в The Guardian [1] впечатляет подъёмом темы приватности и повторной идентификации завязанной на привычную открытость в англосфере и ведущих демократических странах.

Статья посвящена тому как специалисты идентифицируют конкретных граждан на обезличенных данных - без ФИО, паспортных данных и номеров соцстрахования.

Вот лишь один пассаж который я также привожу в пример:
—
_In later work, Sweeney showed that 87% of the population of the United States could be uniquely identified by their date of birth, gender and five-digit zip codes._

или на русском
_В последующей работе, Sweeney показал что 87% населения США могут быть уникально идентифицированы их датой рождения, полом и пятизначным почтовым индексом._

Я слышал подобное про Германию где такое исследование повторяли и очень подозреваю что и в России такое вполне возможно.

Вся эта практика называется data re-identification [2], теме о которой написаны уже сотни научных статей [3].

В России анонимизированные данные аналогичного типа не публикуются, органы власти гораздо более "параноидальны" в своих опасениях, как минимум опыт того как такая ре-идентификация происходит в других странах должен наводить на мысль об аккуратности публикации анонимизированных данных.

Ссылки:
[1] https://www.theguardian.com/world/2018/jul/13/anonymous-browsing-data-medical-records-identity-privacy
[2] https://en.wikipedia.org/wiki/Data_Re-Identification
[3] https://arxiv.org/search/?query=re-identification&searchtype=all&source=header

#data #privacy #opendata

the Guardian

'Data is a fingerprint': why you aren't as anonymous as you think online

So-called ‘anonymous’ data can be easily used to identify everything from our medical records to purchase histories

877 viewsIvan Begtin, 16:01

Ivan Begtin

Для тех кто задумывается о приватности в социальных сетях новый-старый инструмент поиска профилей через распознавание образов и фотографий. EagleEye [1] использует Google Image Reverse Search и ImageRider [2] чтобы по профилю человека в фэйсбуке находить другие его профили в Instagram, Youtube, Facebook, Twitter

Это не единственный сервис помогающий собирать информацию об аккаунтах пользователей в соц сетях. Скрипт namechk [3], например, помогает проверить более 100 социальных сетей на предмет наличия там аккаунта, другие сервисы, публичные и не очень помогают находить людей по другим косвенным признакам.

Но подход EagleEye, конечно, даёт больше возможностей.

Ссылки:
[1] https://github.com/ThoughtfulDev/EagleEye
[2] https://www.imageraider.com/
[3] https://github.com/HA71/Namechk

#privacy

GitHub

GitHub - ThoughtfulDev/EagleEye: Stalk your Friends. Find their Instagram, FB and Twitter Profiles using Image Recognition and…

Stalk your Friends. Find their Instagram, FB and Twitter Profiles using Image Recognition and Reverse Image Search. - ThoughtfulDev/EagleEye

985 viewsIvan Begtin, 17:37

Ivan Begtin

написал большой текст у себя в блоге о мировых практиках цифровой трансформации отсутствующих в России https://begtin.tech/digitalgov-world-practice/

и продублирую текст здесь
---
В России многое что делается государством в части изменения его присутствия в цифровой среде, но есть и многое что не делается и не делается давно.

Отчасти это последствия длительного отсутствия госполитики, отчасти - это отсутствие фокуса у российских законодателей и регуляторов. Что происходит в мире из того что могло бы происходить и у нас?

1. Открытый исходный код. Тема даже более актуальная чем открытые данные, обычно востребованность данных и сообщества разработчиков приходят. В сообществе Government на Github собраны сотни органов власти и госучреждений по всему миру раскрывающих исходный код. В специальном проекте Open source government на data.world в июле 2017 года я публиковал статистику по 11611 репозиториям опубликованных госструктурами на github'е. В России открытие исходного кода госпроектов не является предметом госполитики, также и как использование инструментов с открытым исходным кодом. Вместо этого мы оперируем понятием "импортозамещение" с российскими производителями, которое не покрывает и 1/10 всех задач для которых необходимы программные продукты.

2. Электронная архивация. Все вопросы связанные с долгосрочным сохранением знаний, документов, баз данных и всего что имеет цифровую форму выпадает из российской повестки реформы госуправления, цифровой экономики и тд. До сих пор нет какой-либо госполитики в России по долгосрочному сохранению цифровых артефактов, объектов и тд. имеющих только цифровую форму или цифровую форму как первичную. Нет не только цифровых архивов сайтов, нет даже репозиториев для долгосрочного хранения научных данных, результатов интеллектуальной собственности созданной в пользу государства и многое другое. Такие требования по digital preservation есть во всех развитых странах, цифровое сохранение является предметом активной работы архивистов, активистов и с огромным рынком. В России требования по электронной архивации должны были бы охватывать как минимум всё что касается обязательного хранения документов органов власти и тех ситуаций когда архивация требуется от бизнеса (например, архивация при ликвидации юридических лиц).

3. Общие стандарты, правила и шаблоны. Один из важных трендов в государственном ИТ в мире - это установление дизайн стандартов, стандартов обучения, руководств по разработке и так далее. Design Guidelines и общие требования к визуальному представлению сайтов органов власти есть в США, Великобритании, Канаде, Италии и во многих других странах.

4. Реформа закупок ИТ и ИТ услуг. Во всех странах где идёт трансформация государственного управления через цифровую повестку идёт реформа закупок ИТ услуг и сервисов. Помимо того что значительная часть работы происходит in-house и под это корректируют требования к госслужбе, там где это необходимо, но и появляются другие инструменты закупки ИТ услуг и продуктов. Это, и найм фрилансеров, и приобретение продуктов через онлайн маркетплейсы, и электронная покупка электронных продуктов, и и многое другое. Сейчас в России ограничения 44-ФЗ и НПА по регулированию государственной гражданской службы приводят к тому что государство создает разного рода НКО рядом с собой чтобы выводить работы из под этих обязательных требований.

Ivan Begtin blog

Цифровая трансформация государств в мире. Практики которых нет в России

В России многое что делается государством в части изменения его присутствия в цифровой среде, но есть и многое что не делается и не делается давно.
Что происходит в мире из того что могло бы происходить и у нас?

769 viewsIvan Begtin, 05:03

Ivan Begtin

5. Кросс-обмен практиками, кодом и продуктами. Наличие принципов работы с открытым кодом, общих стандартов и иных результатов работы приводит к очень плотному обмену и даже совместной разработке многих продуктов. Так движок для порталов открытых данных CKAN используется десятками стран, разработчики из которых, государственные разработчики тоже, вносят исправления на github'е. Аналогично и проекты созданные внутри органов власти используют другие. Так проект Pulse по мониторингу внедрения безопасного веба в США с использованием HTTPS используется и обновляется ещё и в Канаде, Австралии, Германии и многих других странах. В виду специфики проекта - он мониторит государственные сайты на предмет использования у них протокола HTTPS по умолчанию и соблюдений требований безопасности, не все внедрения Pulse публичны, часто это делают внутренние подразделения органов отвечающих за цифровую инфраструктуру. Взаимообмен проектами и практиками происходит через конференции, хакатоны, форматы анти-конференций, форумы и так далее, так и через виртуальные, часто самоорганизующиеся команды.

6. Изменение подходов к компетенциям. Помимо обязательного цифрового обучения, например, стандартов обучения и профилей как это делают в Австралии в части Learning Design Standards, это ещё и переход от формальных требований, к качественным. На многие позиции команды 18F в США пришли люди из open source среды и из некоммерческого сектора с длительным опытом создания проектов в режиме открытой разработки. Их привлечение - это не вопрос числа лет их выслуги на госслужбе, наличию допусков, наличию профильного образования и даже образования вообще. Это вопрос их опыта, компетенций и готовности к работе. Так ищут Senior product и Head of engineering manager в Digital Canada. Этот пример лишь один из многих.

Все перечисленное выше - это не исчерпывающий перечень. Отдельно заслуживают внимания внедрения современных практик управления проектами, разработки ПО и онлайн сервисов. Взаимодействие и диалог с пользователями, принципиальное изменение подходов к работе с пользователями через непрерывную обратную связь.

Первоисточники:

- Digital Canada http://digital.canada.ca
- DigitalGov (USA) http://digitalgov.gov
- Digital Transformation Team (Italia) https://teamdigitale.governo.it/
- Digital Transformation Agency (Australia) https://www.dta.gov.au/
- Etalab (France) https://www.etalab.gouv.fr/
- Government Digital Service blog (UK) https://gds.blog.gov.uk/
- 18F digital service delivery (USA) http://18f.gsa.gov/
- Github Government http://government.github.com/

#opengov #digitalgov #cdo #digital

digital.canada.ca

Products - Canadian Digital Service

Canadian Digital Service, Digital products for the Government of Canada, Send automated email and text notifications, Create accessible online forms, Reusable components and web standards, Built by government for government

874 viewsIvan Begtin, 05:03

Ivan Begtin

Немного о кардинальной реформе закупок в части ИТ которой управляет US Digital Service, просто для иллюстрации с тем как это сейчас происходит в России.

1. Все закупки происходят в формате RFQ и публикуются на сайте 18F [1]
2. Полное описание закупаемого в специальном репозитории на Github. Пример [2]
3. Все вопросы и ответы через issues репозитария на github. Все вопросы и ответы публичны, по ним удобный поиск [3]
4. В принципе госзаказ на федеральном уровне в США регулируется через TechFAR [4]
5. Особенность всего этого - это "гибкие" agile контракты, задачи могут меняться в процессе также как и оплата. О чём подробно описано на сайте 18F по ИТ закупкам [5].
6. И, наконец, самое главное в ИТ закупках - это ответ на вопрос: "А кто же это будет поддерживать после внедрения или покупки?" И это работа с post-award team (посзакупочной командой) у заказчика или его партнёра которым и выступают 18F [6]

Все это не единственные способы опрозрачить закупки, но смысл не только в опрозрачивании, но и в максимальном результате.

Сейчас в мире работа digital service teams устроена так что команды США и Великобритании, в основном, ходят по всем возможным граблям, а остальные команды внимательно изучают их опыт.

Ссылки:
[1] https://agile-bpa.18f.gov/orders/
[2] https://github.com/18F/bpa-DOS-TalentMAP
[3] https://github.com/18F/bpa-DOS-TalentMAP/issues
[4] https://techfarhub.cio.gov/handbook/
[5] https://agile-bpa.18f.gov/
[6] https://agile-bpa.18f.gov/working-with-us/our-project-team/

#opengov #digitalgov #opensource #openprocurement

agile-bpa.18f.gov

Task orders on the BPA - Agile Blanket Purchase Agreement

1.0K viewsIvan Begtin, 11:37

Ivan Begtin

ДИТ Москвы тут затеял с помощью анализа данных выявлять тех кто сдаёт квартиры всерую в Москве [1]

Этой их "благой цели" мешает только то что граждане в целом не дураки. ДИТ будет парсить крупные агрегаторы, а граждане перебираться в соц сети и доски объявлений помельче.

Вся история с серой сдачей квартир в Москве решается не через данные, как бы я данные не любил.

Она решается через:
1. Создание сети доносителей и из числа соседей и недовольных наймодателей через передачу им до половины штрафа с владельца за незаконную сдачу.

2. Введение ответственности за посредничество, введение лицензий для риэлторов и запрет на эту деятельность без лицензии с жуткими запретительными штрафами. Разместил объявление и не хозяин? Получи 200 тысяч штрафа.
https://agile-bpa.18f.gov/working-with-us/our-project-team/
3. Массированная общественная кампания по защите прав нанимателей. Городская система регистрации договоров найма, единый реестр договоров найма и тд. Типовые договора найма, госуслуга и тд.

Не, ДИТ это просто милые котята, я могу гораздо более "людоедское" регулирование придумать. Надо только раскопать свои записки на эту тему 5 летней давности.

Обращайтесь, если что.

Ссылки:
[1] https://www.rbc.ru/business/20/07/2018/5b508bb59a7947b1f3f535f3

#data #nodata

agile-bpa.18f.gov

How our post-award teams work - Agile Blanket Purchase Agreement

927 viewsIvan Begtin, 15:23

Ivan Begtin

Я, наконец-то, доделал то о чём думал лет 10 - выложил в открытый код алгоритм по извлечению новостей из веб-страниц. Он упакован в библиотеку newsworker [1] для Python и её также можно установить через PyPi "pip install newsworker" и увидеть там в общем числе пакетов [2]

В репозитории на Github'е много примеров того как библиотека используется, кроме того у неё есть дополнительные методы позволяющие находить RSS ленты на сайтах. Документация только на английском, но там довольно всё очевидно.

Библиотека применима для всех сайтов из которых надо извлекать новости, но которые не отдают RSS. Писать парсер под каждый очень трудоёмко, поэтому ещё 2008 году я сделал этот инструмент для подписки на новости которые надо было отслеживать.

Эта библиотека лежит в основе моего бота в Telegram'е @FeedRetranslatorBot [3] который создаёт поток новостей из RSS лент и веб-страниц в выбранный телеграм канал.

С помощью этой библиотеки бот собирает новости с таких сайтов как:
- Московский финансовый форум http://www.mff.minfin.ru/news/
- ГАС Управление http://gasu.gov.ru/news
- Издательство Московской патриархии https://www.rop.ru/novosti
- GovInsider https://govinsider.asia/
- ЦСР https://www.csr.ru/
- Пресс-центр Счетной Палаты http://audit.gov.ru/press_center/
- Портал аудиторской деятельности http://rar.gov.ru/news/allnews

и многие другие. Я могу сказать что на 2018 год до сих пор не более чем у половины сайтов есть RSS/ATOM ленты. Некоторые платформы вроде Яндекс.Дзен не делают экспорт в RSS осознанно, стараясь удержать пользователей.

Сейчас нет коммерческого или некоммерческого проекта кроме этого бота где я мог бы этот алгоритм применять. Кроме того в моём понимании он несколько устарел и я его воспринимаю как маленький кусочек по автоматическому преобразованию сайтов в базы данных/API. Задача которой я, увы, уже совершенно не могу себя посвятить. Работа данными у меня уже много лет более актуальна, чем работа над новостной агрегацией.

Ссылки:
[1] https://github.com/ivbeg/newsworker
[2] https://pypi.org/project/newsworker/
[3] https://yangx.top/@FeedRetranslatorBot

#news #opensource #scrapers

1.0K viewsIvan Begtin, edited 08:28

Ivan Begtin

Forwarded from Проекты нормативов в области связи

Создал отдельный канал с новостями Минцифры и Роскомнадзора. Это будет канал именно с их событиями, а не с нормативной работой. Как всегда спасибо @begtin и его прекрасному боту.
https://yangx.top/ru_comnews

Новости Минцифры и Роскомнадзора

Новости с сайтов Минцифры и Роскомнадзора

Данные собираются ботом @FeedRetranslatorBot

Лента проектов нормативов: @ru_comreg
Блокировочки: @usher2
Контакт: @schors

27 viewsIvan Begtin, 08:30

Ivan Begtin

Google, Facebook, Twitter и Microsoft совместно анонсировали Data Transfer Project [1], проект по стандартизации обмена данными между платформами. Это включает данные в виде контактов, фотографий, файлов на дисках и многое другое. Подробнее в white paper [2] с примерами и описанием реализации и акцентом на то что и другие сервисы могут подтягиваться поддерживая стандарт.

Кроме того весь проект сделан открытым, с открытым кодом выложенным онлайн [3].

Обратите внимание что:
- это совместная инициатива 4-х крупнейших облачных сервисов и соцсетей для физ. лиц, Фактически совместно они задают правила игры на этом рынке и не столько опасаются перетеканием пользователей между их платформами сколько заинтересованы во влиянии на другие сервисы
- для меньших сервисов, вроде того же Яндекса или Mail.ru это может быть вопрос или использования стандарта или самоизоляция от него. Неизвестно что будет хуже для их бизнеса.
- кстати, ни один из российских крупнейших сервисов сейчас не даёт возможности выгрузить все Ваши действия в нём при удалении аккаунта.

Ссылки:
[1] https://datatransferproject.dev
[2] https://datatransferproject.dev/dtp-overview.pdf
[3] https://github.com/google/data-transfer-project/blob/master/Documentation/Developer.md

#data #datatransfer

1.3K viewsIvan Begtin, 12:36

Ivan Begtin

Ведомости пишут что: "PwC включил Москву в топ-5 мегаполисов по организации медпомощи" [1]
и публикуют картинки из этого рейтинга [2]. Тем временем я напомню простую истину - no data, no truth.

Нет данных, нет правды.

В исследовании PwC [3] есть красивые графики, картинки и фото из фотобанков, но нет данных на которых оно было основано. Его невозможно проверить и поэтому ему очень сложно поверить.

Ссылки:
[1] https://www.vedomosti.ru/economics/articles/2018/07/18/775777-pwc-moskvu-top-5
[2] https://cdn.vdmsti.ru/image/2018/5i/1erkq9/fullscreen-1tsj.png
[3] https://www.pwc.ru/ru/publications/health-research/issledovanie-effectivnosti-zdravoohraneniya-v-gorodah-mira.pdf

#opendata #transparency

Ведомости

PwC включил Москву в топ-5 мегаполисов по организации медпомощи

Но по продолжительности жизни столица России отстает от многих городов

896 viewsIvan Begtin, 13:33

Ivan Begtin

"Есть данные, есть правда" (c)

Я немного расскажу вам о том как устроено с открытым исходным кодом в мире государства и общественных проектов и о том с сколь тесно это переплетено.

Правительство США ведёт открытую разработку 4776 репозиториев на Github'е. Эта работа проводится 140 федеральными органами власти и в ней участвует 820 разработчиков - это совокупность уникальных членов команд создавших эти 4776 репозиториев.

В Великобритании 53 органа власти опубликовали 5169 репозиториев над которыми работает 183 разработчика.

В Канаде 42 органа власти, 713 репозиториев и 181 разработчик.

При этом надо отметить что не все эти разработчики дают одинаковый команд. Ключевая команда везде включает около 10-15% от команды и это именно те разработчики кто наиболее активно работает над проектами.

Параллельно с теми проектами которые в режиме открытой разработки ведут органы власти и их подрядчики, существует большое явление Civil Hackers. Это разного рода неформальные группы и НКО, такие как Open Knowledge International, движения Code for All, Code for America и просто разрозненная плеяда проектов и НКОшек или некоммерческих проектов коммерческих команд.

Эти проекты выражаются в 10074 репозиториях созданных 273 НКО и неформальными группами и в этой работе участвует 1968 разработчиков по всему миру.

Этот код созданный Civic hackers активно используется самими органами власти. Подавляющее число порталов открытых данных создано на базе движка CKAN с доработками внутри органов власти. А движок был разработан в Open Knowledge International.

Большое число проектов по работе с обращениями граждан, мониторингу сайтов, работе со справочниками, обработке данных и многое другое создавалось этими неформальными группами.

Многие разработчики из этих НКО переходили на госслужбу или же работали как внешние фрилансеры и команды.

Часть этих команд самоорганизовывались сами, вроде Rewiring State в Великобритании, часть существовали в как технологические НКО такие как Sunlight Labs и OKFN, некоторые поддерживались в рамках Google Summer of Code и другими крупными технологическими гигантами, а многие работали в рамках государственной поддержки, грантов и конкурсов.

Вначале шло формирование экосистемы и на неё вырастал принципиально иной подход к разработке госпроектов.

США, Канада и Великобритания не единственные страны в которых есть подобная политика открытой разработки кода.

Такая госполитика есть во всех странах Большой семерки (G7), в большинстве стран ОЭСР, G20 и Евросоюза. Причём это только по итогам анализа Github, а есть организаций создающие свои открытые репозитории на базе Gitlab'а.

Всё что меня лично останавливает от рейтинга стран по открытости кода в государственном управлении - это то что Россия там будет на последнем месте.

И, конечно, все данные откуда эти цифры взяты из обновлённых данных проекта Open source government [1] на data.world.

Там есть и подсчитанные агрегированные данные и первичные данные в архиве для самостоятельного изучения data scientist'ами.

Ссылки:
[1] https://data.world/ibegtin/open-source-government-project

#opensource #opendata #opengov

1.9K viewsIvan Begtin, 17:38

About

Blog

Apps

Platform