Инфокультура
884 subscribers
244 photos
4 videos
4 files
812 links
Новости Информационной культуры. https://infoculture.ru
加入频道
7 июля в 15:00 проект «Госзатраты» @clearspending проводит экспертную сессию «Подходы к общественному контролю государственных и муниципальных закупок».

Аналитики и команда проекта представят на семинаре:
— концепцию модуля «Контроль» (направленного на повышение прозрачности системы госзакупок в России путем формирования, обнародования и развития базы закупок/контрактов, потенциально содержащих признаки недолжных приемов и практик);
— методику выявления контрактов для контроля (источники и объекты рисков, категории рисков).

Подробнее о мероприятии по ссылке: https://infoculture.timepad.ru/event/1687385/
Мероприятие экспертное — при регистрации необходимо указать, какую организацию вы представляете.
Приглашаем на вебинар «Открытые госфинансы 101: Поиск, анализ и качество данных», который пройдет 8 июля в рамках Летней школы по финансовым технологиям Томского Политеха.

Руководитель проекта «Госзатраты» @clearspending и проекта СПРФ «Госрасходы» Ольга Пархимович расскажет, что такое открытые данные, где публикуются финансовые данные, какие особенности данных нужно учитывать при их анализе (и структура, и качество).

Начало вебинара в 11:15 по московскому времени.

Участие бесплатное, подробности и регистрация: https://itr-tpu.timepad.ru/event/1629832/
Какие технологии сбора и анализа больших данных помогут сделать жизнь в городе комфортнее и безопаснее? В чем основные сложности работы с большими данными в городском проектировании? Нужны ли городу дата-консорциумы и какие шаги следует предпринять для их создания? Как эффективно обрабатывать данные и применять результаты исследований в планировании города, при этом соблюдая анонимность людей?

Эти вопросы обсуждались на дискуссии «Адаптивный город. Как мегаполисам оставаться восприимчивыми к переменам?» Московского урбанистического форума, которую модерировал директор Инфокультуры Иван Бегтин.

Смотрите запись трансляции ➡️ https://youtu.be/ely2h2pRWZE?t=440
«Борьба с отдельными сервисами — история потенциально бесконечная. Регулятор заблокирует самые популярные сервисы, и тут же популярными станут другие, или люди научатся создавать их самостоятельно».

Насколько успешной может оказаться борьба Роскомнадзора с VPN, рассказал «Росбалту» директор АНО «Инфокультура» Иван Бегтин.
Forwarded from Ivan Begtin (Ivan Begtin)
Сегодня в пресс-центре МИЦ Известия прошла пресс-конференция Минэкономразвития "
Открытые данные в России. Новые вызовы и задачи" [1]. Минэкономразвития представляло там свои оценки зрелости в публикации данных ФОИВами и региональными властями. Я же говорил о том что за всеми публикациями данных органами власти не решены системные проблемы недоступности данных о качестве жизни, отсутствия муниципальных, гиперлокальных данных, то что многие инициативы по открытости сворачиваются.

И, самое главное, после закрытия совета по открытым данным при правительственной комиссии нет ни одной площадки для диалога пользователей данных и тех кто обязан их публиковать.

Это проблема и для бизнеса, и для журналистов, и для исследователей и для всех остальных пользователей данных.

Поэтому что делать? Для начала, восстанавливать инструменты и механизмы диалога на уровне Правительства РФ.

Ссылки:
[1] http://pc.iz.ru/tpost/exsic0c5m1-otkritie-dannie-v-rossii-novie-vizovi-i

#opendata #opengov
Forwarded from Ivan Begtin (Ivan Begtin)
Статистика по заболеваемости COVID-19 — одна из самых злободневных тем в России. Граждане не доверяют государственным органам, активисты и СМИ проводят расследования, где утверждается, что число переболевших уже перевалило за 29 миллионов. Не буду сейчас утверждать, правдивы ли официальные данные или надо верить альтернативным оценкам. Однако факт в том, что за последние десятилетия наше государство, в особенности социальный блок правительства, не сделало ничего, чтобы этого доверия стало больше. Данные о качестве жизни скрываются столь же тщательно, как, например, статистика преступлений...

В Forbes вышла моя колонка " Нездоровая закрытость: почему государство не спешит делиться данными с гражданами" [1]

Ссылки:
[1] https://www.forbes.ru/obshchestvo/435565-nezdorovaya-zakrytost-pochemu-gosudarstvo-ne-speshit-delitsya-dannymi-s

#opendata #covid19 #data
Forwarded from Ivan Begtin (Ivan Begtin)
Вчера вечером на общественном телевидении (ОТР) я комментировал прошедшие недавно учения по отключению Рунета от Интернета о которых писал ранее РБК [1].

Передачу ОТР и мой комментарий можно посмотреть на сайте их сайте [2] в записи передачи, начиная с 3:26:14.

Честно говоря я хотел об этом написать раньше, но и сейчас не поздно повторить тезисы озвученные в передаче:
1. Отключить рунет от Интернета, конечно, возможно, вопрос лишь цены которая будет непомерной для экономики.
2. С иностранными инвестициями и развитием несырьевой экономики в России можно будет распрощаться.
3. Говорить о том что надо тестировать отключение на случай если нас отключат, это примерно как тестировать самоубийство на случай если могут пристрелить.

В передачу там ещё дозвонился зритель с резонным вопросом что вообще надо всё отключить и вообще ядерная война скоро и она уже должна была ещё ранее произойти.

У меня вот тоже есть вопросы, в самом деле, если отключение Рунета тестируют, то что это давно не было учений ядерных бомбардировок, почему это давно нет учений на случай биологической войны? Граждане, вон, уже забыли где бомбоубежища и авианалётами их пугает Миноброны понарошку на большие военные праздники.

В самом деле, почему нет федерального органа ответственного за создание паники у населения, нет национального проекта нагнетания страха, даже федеральные проекты по запугиванию не попали в 42 приоритетные задачи правительства.

Я в недоумении.

Ссылки:
[1] https://www.rbc.ru/technology_and_media/21/07/2021/60f8134c9a79476f5de1d739
[2] https://otr-online.ru/programmy/segodnya-v-rossii/dolzhno-li-gosudarstvo-kontrolirovat-internet-kak-ozhivit-ekonomiku-kuril-pravo-na-dorogu-tokio-2020-tri-zolota-za-odin-chas-52282.html

#runet
Data sourcing или поиск данных - типовая задача, возникающая в каждом проекте, который полностью основан на данных или использует их. Поиск данных зачастую может отнимать времени больше, чем их последующая обработка, и это и куда более рутинная работа, чем их анализ.

• Какие вопросы возникают при поиске данных?
• Какие проекты существуют в сфере поставки данных?
• Что такое DataCrafter и зачем создавать каталог на основе данных, которые и так доступны?

Обо всем этом в новом выпуске своей рассылки пишет Иван Бегтин https://begtin.substack.com/p/datacrafter

Чтобы не пропустить следующие выпуски, где будет больше о том, с какими техническими сложностями приходится сталкиваться при работе с разными источниками данных, подпишитесь на рассылку: https://begtin.substack.com/archive
Дата-стрим «Как выгорает Россия»
📆 Четверг, 5 августа, в 20:00 (мск)

Где искать данные о лесных пожарах в России и как их исследовать, расскажут дата-журналистка «Новой Газеты» Катя Бонч-Осмоловская и дата-журналист Андрей Дорожный.

За один час они создадут прототип дата-материала: придумают тему, получат данные, найдут инсайт и сделают визуализацию. А также они расскажут об инструментах и приемах, которые используют практикующие дата-журналисты.

➡️ Регистрация: http://dorozhnij.com/firestream
На протяжении трех лет наша коллега, руководитель проекта «Госзатраты» Ольга Пархимович была членом Общественного совета при Федеральном казначействе. Недавно был выбран новый состав совета.

В блоге Инфокультуры на Хабре Ольга подвела итоги трехлетней работы в составе совета. Она поделилась впечатлениями и рассказала о том, как ей удавалось поднимать на заседаниях совета вопросы качества и доступности открытых данных и данных государственных информационных систем Казначейства России, отстаивать интересы пользователей открытых финансовых данных.

👉🏻 Читайте подробности: https://habr.com/ru/company/infoculture/blog/571924/

Много полезной информации о том, как публикуются финансовые данные в России и как в них разобраться обычным гражданам, вы можете найти в телеграм-канале Ольги «Ах, этот Минфин» @ahminfin
17 августа в 13:00 приглашаем на вебинар, посвященный основам веб-архивации.

На вебинаре Иван Бегтин, директор АНО «Инфокультура» и руководитель проекта Национальный цифровой архив, расскажет о практических основах веб-архивации:
🔹Как организовать веб-архив
🔹Как устроены современные веб-архивы
🔹Какие международные и российские проекты существуют в этой сфере
🔹Каковы основные веб-стратегии, стандарты и инструменты архивации
🔹С какими проблемами сталкиваются создатели веб-архивов
🔹Как сохранять социальные сети

Мероприятие пройдет в Zoom. Для участия необходимо зарегистрироваться: https://infoculture.timepad.ru/event/1733872/
Если вы только погружаетесь в тему открытых данных, рекомендуем презентацию «Открытые данные в государственном управлении», подготовленную Ольгой Пархимович, руководителем проекта «Госзатраты» и проекта СПРФ «Госрасходы».

🔹 Что такое открытые данные? Определение и принципы
🔹 Какими НПА регулируется публикация открытых данных?
🔹 Примеры проектов, основанных на открытых данных
🔹 Какие открытые данные могут использоваться региональными и муниципальными госорганами?
В презентации вы также найдете обзор источников, где публикуются ключевые наборы открытых данных.

👉 Презентация доступна по ссылке:
https://www.dropbox.com/s/dlv3tgom4753p3v/OD%20gov%2020210622.pdf
Большинство современных интернет-платформ строятся на принципе «дата-экстрактивизма», то есть их основная бизнес-модель — накопление, аналитика и перепродажа данных своих пользователей. Из-за усиления позиций крупнейших IT-гигантов все чаще можно слышать об опасности централизации. Cреди главных недостатков централизованных систем называют неустойчивость к блокировкам и уязвимость для слежки.

Существует два основных типа альтернатив централизованным архитектурам: децентрализованные (федеративные) и распределенные (distributed, или peer to peer).

Что такое децентрализованные веб-сервисы, как они устроены и чем могут быть полезны интернет-пользователям в борьбе за цифровые права и право на приватность — читайте в блоге 7х7 Горизонтальная Россия.
Forwarded from Ivan Begtin (Ivan Begtin)
Честно говоря меня поражает как в 2021 году компании которые вроде бы умеют в открытый код, всё ещё не умеют/не понимают открытые данные. Хорошая новость в том что в исследовании "Как называется это место?
Населённые пункты на карте России" [1] в коей то веки команда исследователей Яндекса опубликовали данные [2]. Для некоммерческого использования, конечно, но и понятно. Но совершенно удивительно что в Яндексе нет людей знающих что такое свободные лицензии, Creative Commons или ODBl. Такое ощущение что данные публиковались специально именно таким образом чтобы их нельзя было легально загрузить в Википедию или OpenStreetMap.

Впрочем Яндекс это лишь один из примеров дата-корпораций живущих по модели data-in, no data-out (DINDO). Подобных DINDO корпораций довольно много, тот же Facebook до того как запустили инициативу Data for Good вполне были DINDO, в общем много таких. Что, впрочем, не оправдывает нынешних строителей суверенных экосистем во всепоглощающем пожирании данных и почти полном отсутствии политики их раскрытия для общественного блага.

Ссылки:
[1] https://yandex.ru/company/researches/2021/oikonyms
[2] https://yastatic.net/s3/milab/2021/toponyms/data/RussianOikonymsDataset.zip

#opendata #yandex #datasets
Уже завтра, 17 августа, в 13:00 (мск) пройдет вебинар по организации веб-архивов.

Иван Бегтин расскажет о том, кем, как и зачем создаются веб-архивы, какие существуют стандарты и инструменты архивации.

➡️ Регистрация https://infoculture.timepad.ru/event/1733872/
Мы опубликовали запись вебинара «Как организовать веб-архив и архив социальных сетей. Стандарты, инструменты и продукты» на нашем ютуб-канале.

Иван Бегтин, директор АНО «Инфокультура», рассказал:
🔹 Что такое цифровая архивация и какие международные и российские проекты существуют в этой сфере
🔹 Как организовать веб-архив
🔹 Как устроены современные веб-архивы
🔹Каковы основные веб-стратегии, стандарты и инструменты архивации
🔹Как сохранять социальные сети

🔜 Мы обязательно продолжим вебинары по этой тематике. Следите за нашими анонсами!
Forwarded from Ivan Begtin (Ivan Begtin)
Росводресурсы открыли прототип системы "Водные данные" [1] о чем публикация на сайте Минприроды РФ [2].

Сам ресурс содержит сведения о:
- Водохозяйственных участках
- Водных объектах
- Водопользовании
- ГМВО (Государственном мониторинге водных объектов)

Кроме того доступны API для получения данных по формам ГВР [3], а данные в форме открытых данных доступны как CSV файлы и с цифровой подписью.

Если кратко резюмировать, то по форме представления данных всё выглядит довольно прилично.

А если немного углубиться в детали, то есть на что обратить внимание:
1. Нет такого понятия как ЭЦП в российском законодательстве уже давно, есть электронная подпись (ЭП) и она точно реализуется иначе и должна быть проверяема, например, через сервис на портале госуслуг. Сейчас эта проверка не проходит.
2. Хотя на сайте есть паспорта набора данных там нет ничего про метаданные. То есть паспорта сделаны не по метод рекомендациям опубликованным на data.gov.ru которые, хотя и весьма и весьма неидеальны, но даже их не соблюдают.
3. В том числе отсутствуют метаднные по структуре полей наборов данных. Иначе говоря данные есть, документации к ним нет.
4. Документация к API есть, но почему-то, не в формате Swagger, а просто HTML описанием без примеров.
5. Наборы данных опубликованы все через ajax, как следствие ни у одного набора данных нет отдельной веб страницы, они не будут находиться поисковыми системами.

Это было про форму публикации данных, а теперь про их качество и полноту:
- не все наборы данных опубликованы, по некоторым открываются пустые файлы. Например, набор данных " Данные о состоянии гидротехнических сооружений, находящихся в собственности" в разделе ГВМО пустой (обратите внимание что я не могу дать ссылку на сам набор потому что сайт так сделан)
- данные смешаны и в одном поле публикуется то что должно быть разделено на несколько полей для удобного поиска. Например, в данных по форме ГВР 2-6 есть поле owner_person, которое совсем не про владельца физ. лица, а про сведения о любом владельце и содержат наименование организации или физ. лица, адрес местонахождения и ИНН. Все вместе, хотя в большинстве реестров эти данные разделяют на 3 поля минимум, а максимум ещё и декомпозируют адрес и добавляют ему коды ОКАТО или ОКТМО.
- в опубликованных данных есть неполное заполнение данных. Всё в тех же данных по форме ГВР 2-6 есть 46 867 записей из которых код ИНН отсутствует у 4259, около 9% записей. Что означает что для сопоставления объекта водопользования с юр лицом придется выяснять ИНН юр. лица.
- даже в тех случаях когда ИНН указан, проверка показывает что в 507 случаях код указан с ошибкой, по некоторым кодам, очевидно сразу что они вводились как неверные. Например: часто встречается указание кода 7600000000 в отношении водопользователей Ярэнерго и других юр лиц. Что это означает? Что в системе(-ах) Росводресурсов нет форматно-логического контроля и данные вводятся с ошибками. И это только по самым очевидным случаям поддающимся автоматическому анализу, а многое можно понять уже создавать правила проверки под конкреный источник данных.

В качестве резюме, хорошо что эти данные публикуются, но много над чем есть работать.

Ссылки:
[1] https://gis.favr.ru/web/guest/opendata
[2] https://www.mnr.gov.ru/press/news/rosvodresursy_otkryli_vodnye_dannye/
[3] https://gis.favr.ru/external-api

#dataquality #opendata #waterdata #voda
18-19 сентября 2021 года «Роскомсвобода» проведет хакатон DemHack 3. Инфокультура — партнер мероприятия.

Главные темы нового хакатона — приватность, доступ к информации и legal tech.

Команды могут выбрать задачу в одном из направлений:
🔺 защита приватности, анонимности и персональных данных;
🔺 открытость, прозрачность и доступ к информации;
🔺 цифровые технологии в юриспруденции и автоматизация правовых вопросов.

В этом году хакатон пройдет в смешанном формате — можно участвовать как очно, так и онлайн.

Присоединяйтесь! Заявки принимаются до 10 сентября 2021 года.

👉 Подробности и регистрация https://demhack.ru/
Мы объявляем масштабный марафон по картографированию наших городов в формате открытых данных с помощью OpenStreetMap!

В течение сентября каждый из вас может оставить след на карте и помочь сотням исследователей и активистов собрать данные о стране, внеся на карту данные по своему или любому другому городу.

Вместе с нашими партнерами мы подготовили для вас простые инструкции и десятки призов. Регистрируйтесь и помогите нам узнать нашу страну!

https://osm-competition.tilda.ws/

Почему OSM?
Это единственный источник данных для свободного использования, который могут бесплатно использовать все. Коммерческие карты Яндекса, Гугл или 2гис не дают такой возможности. Их нельзя скачать или обработать в свободном режиме.

Что надо фиксировать?
Мы выбрали самые важные факторы влияющие на ДТП, качество городских пространств и общественного транспорта. Всего 9 пунктов (но вы можете зафиксировать и что-то еще). Это простые но важные объекты, анализ которых позволит убрать вредные решения и сделать улицы комфортнее.

Что если я никогда этого не делал?
Это как раз ваш случай! Мы специально подготовили конкурс именно для вас - отдельная категория для тех, кто только начинает, простые инструкции и поддержка в чате и всего OSM сообщества. Будет не прям совсем просто, но вы точно справитесь.


Какой город лучше всего улучшать?
Мы стремимся чтобы каждый крупный город был покрыт на 90-100% Но это редкость. Сейчас большинство городов требуют актуализации. Лучше всего начать со знакомых вам мест и затем попробовать помочь соседям. Мы будем периодически публиковать статистику по каждому городу, чтобы вы могли следить за прогрессом.

Почему это важно?
В России огромная проблема с открытыми данными и если вы читаете этот канал, это для вас не новость. При этом управлять и делать города лучше уже не возможно без знаний о том, сколько у вас остановок, светофоров и где это все находится. Много решений, которые нас так бесят случаются именно потому, что кому-то там в администрации или ГИБДД просто "виднее". Более того именно открытые карты OSM используют государственные органы и независимые компании для проектирования улиц и транспортных схем. Обновив OSM мы улучшим и качество проектов генпланов, транспортные схемы и других важнейших для города документов. А так же вот таких исследований по ДТП.

P.S. Огромное спасибо всему сообществу мапперов OSM за ту работу, которая уже сделана, это колоссальный труд. Спасибо за консультации и помощь с подготовкой Никите Глушкову, Артему Светлову, Илье Звереву, Роману, Александру и другим. Спасибо нашим партерам и спонсорам: ОТС лаб, NextGIS и Городским проектам.
Forwarded from Ivan Begtin (Ivan Begtin)
Для тех кто интересуется веб архивацией и не только, подборка сервисов и ПО которые помогают в работе:
- Интернет-архив https://web.archive.org - помимо того что огромный архив наиболее популярных веб-страниц и веб-сайтов, также можно через него сохранять данные о сайтах отправляю туда конкретные страницы которых там нет
- Archive.Today https://archive.ph сохраняет веб страницы делая их полные слепки и скриншоты которые потом можно сохранить локально
- Time Travel http://yangx.toptravel.mementoweb.org сервис позволяющий находить слепки страницы веб-сайта в десятках веб архивов. Часть проекта Memento по стандартизации доступа к веб-архивам
- WARCreate https://chrome.google.com/webstore/detail/warcreate/kenncghfghgolcbmckhiljgaabnpcaaa?hl=en&gl=US расширение для Google Chrome по сохранению веб страницы в формате WARC
- ArchiveBox https://archivebox.io инструмент для создания личной коллекции архивов из закладок в браузере. Зрелый продукт с открытым кодом с многочисленными возможностями по сохранению веб-страниц
- Perma.cc https://perma.cc сервис сохранения веб страниц для использования в научных статьях. Бесплатные аккаунты для научных учреждений и платные для юридических фирм.
- Stillio https://www.stillio.com сервис регулярных, ежесуточных, скриншотов выбранных веб страниц. Платный, с частотой от ежемесячной до каждых 5 минут.

Все это полезно когда Вам надо сохранить, например, какую-либо веб-страницу и пока ещё не требуется её нотариальное заверение, но уже нужна 3-я подтверждающая сторона.

А также, для тех кто программирует Awesome Web Archiving https://github.com/iipc/awesome-web-archiving большая коллекция, в основном примеров кода, библиотек и инструментов по разным аспектам создания и работы с веб архивами.

#webarchives #tools #digitalpreservation
Инфокультура выступает партнером международного конкурса АСИ World AI&Data Challenge.

🧑‍💻 Вы можете предложить свое решение одной из задач конкурса до 19 сентября.

🔹 Призовой фонд во II этапе конкурса – 5 500 000 рублей, а 1 место – 1 000 000 рублей
🔹 Лучшие разработанные решения будут внедряться в регионах и тиражироваться по всему миру
🔹 Финалисты получат доступ к онлайн-курсам от ведущих школ мира от Университета 20.35

Среди задач конкурса:
🔸 Разработка системы удаленного контроля за пациентом с сердечно-сосудистым заболеванием
🔸 Прогноз баланса трудовых ресурсов на основе открытых данных
🔸 Выявление загрязнений рек
🔸 Создание модели прогноза поисково-спасательных работ в природной среде и др.

👉 Подробности на сайте конкурса: https://clcr.me/WAIDC_infoculture