Журналистика данных
4.86K subscribers
1K photos
32 videos
16 files
1.29K links
Инструменты современных медиа, массивы информации, наблюдения и тренды
加入频道
Forwarded from Ivan Begtin (Ivan Begtin)
Git для данных - это давняя мечта многих разработчиков и дата-инженеров. Как организовать хранение и передачу данных так чтобы было похоже на систему контроля версий и учитывало объёмы и изменения в наборах данных.

Несколько проектов существуют для решения этой задачи, например такие:
- Dolt [1] [2] - умеет многое, объединять данные, сравнивать, делать таблицы сравнения, разрешать конфликты и тд. плюс многое из возможностей git'а
- Daff [3] позволяет работать с таблицами CSV и также сравнивать их, объединять и тд. Интегрирован с git
- DVC [4] система контроля версиями для проектов по машинному обучению. Довольно популярна и умеет многое связанное с проектами именно по ML


Ссылки:
[1] https://github.com/liquidata-inc/dolt
[2] https://www.dolthub.com/
[3] https://github.com/paulfitz/daff
[4] https://dvc.org/

#opendata #data #git #datatools
Forwarded from Ivan Begtin (Ivan Begtin)
В прошлом году я немного намекал что Информационная культура будет помогать проектам с открытым кодом и про открытые данные и вот свершилось.

Мы запускаем 1-й раунд микрогрантовой программы для проектов с открытым кодом по темам: открытые данные, роботизированная (цифровая журналистика), цифровая архивация и цифровые права и приватность подробнее в анонсе [1] и на странице микрогрантового конкурса [2].

Заявки собираются с 24 января по 24 февраля, итоги подводятся на День открытых данных 2020 6 марта.

Общий фонд этого раунда 300 тысяч, максимальная заявка до 100 тысяч, вопросы пишите на [email protected] мы сам конкурс будем проводить максимально открыто и по заданным вопросам будем публиковать ответы на вопросы на странице конкурса и в ФБ Инфокультуры

Жюри: Иван Бегтин), Василий Буров, Мария Шклярук, Михаил Петров

Что я лично хочу от себя добавить:
1. Первый конкурс экспериментальный, мы по его итогам поймём какие направления будем фокусированно поддерживать грантами, на что подаются и тд.
2. Конкурс технический! Помните это направляя Вашу заявку. У него обязательно должен быть открытый код.
3. Если Вы уже ведёте проект с открытым кодом и хотите сделать что-либо полезное, то можно подать заявки и на нетехническую работу. Например, написать документацию к продукту или выступить на дне открытых данных и Вам нужно покрыть транспортные расходы. Но выступить всё равно надо будет про открытый код и по одной из заявленных тем.
4. Сейчас мы проводим этот конкурс от Инфокультуры, в будущем и стратегически ищем партнеров разделяющих наши ценности с которыми мы готовы совместно собирать призовой фонд.
5. Открытый код означает и свободные лицензии, не забывайте об этом, пожалуйста.
6. Все приведённые примеры проектов это то чем мы уже занимаемся. Мы не делаем заказ и не проводим тендер, Ваша заявка должна содержать Ваш проект.

Будут вопросы пишите не стесняясь и распространение приветствуется!

Ссылки:
[1] https://www.infoculture.ru/2020/01/24/contest-microgrants-infoculture-2020/
[2] https://www.infoculture.ru/microgrants/

#opendata #opensource #grants
Forwarded from Ivan Begtin (Ivan Begtin)
Новость полезная для всех кто работает с международными данными и сравнением по странам. Всемирный банк изменил классификацию стран по доходам на душу населения, немного повысив критерии отнесения стран к группам.
Так ранее для стран с низким доходом населения (low income) сумма была в USD 1,026 в год, то теперь 1,036. Изменения небольшие, но они есть, полный список их есть в блоге Всемирного банка [1] и там же изменения в классификации стран по доходам в связи с этой корректировкой методологии и экономическим развитием.

Поднялись на категорию выше: Бенин, Индонезия, Маврикий, Науру, Непал, Румыния, Танзания.
Например, Румыния поднялась из upper-middle income до high income (то есть теперь выше России по классификации).

Опустились на одну категорию: Алжир, Шри Ланка, Судан.

В России сведения о ВРП за 2019 год до сих пор недоступны. Соответствующий показатель в системе ЕМИСС [1] охватывает только 1996-2018 годы, соответственно и измерить изменения в классификации регионов тоже затруднительно, хотя и было бы безусловно интересно

Ссылки:
[1] https://blogs.worldbank.org/opendata/new-world-bank-country-classifications-income-level-2020-2021
[2] https://fedstat.ru/indicator/42928

#opendata #data
Forwarded from Ivan Begtin (Ivan Begtin)
Правительство Великобритании опубликовало Национальную стратегию по работе с данными [1].
О стратегиях работы с данными я, обычно, делаю более подробные обзоры у себя в блоге begtin.tech, в ближайшие дни подготовлю обзор и этой стратегии.

Ссылки:
[1] https://www.gov.uk/government/publications/uk-national-data-strategy

#datastrategy #opendata
Forwarded from Ivan Begtin (Ivan Begtin)
Для тех кто интересуется как исследуют госзакупки в других странах, европейский проект TheyBuyForYou.eu [1] финансируется в рамках исследовательской программы Horizon 2020 и нацелен на построение Knowledge Graph (графа знаний) на данных о закупках в Евросоюзе с использованием онтологий OCDS и euBusinessGraph.

В том числе исследователи проекта занимаются поиском типовых шаблонов и аномалий [2], правда, если честно и на мой взгляд, то они это делают довольно наивно. Для глубокого анализа и выявления разного рода "аномалий" не обойтись без работы с данными которые относятся к персональным, выявления конфликтов интересов, аффиляции участвующих поставщиков и многое другое.

Ссылки:
[1] https://theybuyforyou.eu/
[2] https://theybuyforyou.eu/detecting-patterns-and-anomalies-in-spending-data/

#opendata #procurement #eu
Forwarded from Инфокультура
В каталог каталогов данных Datacatalogs.ru добавлено 18 каталогов данных в форме геопорталов, в большинстве случаев это геопорталы органов власти на базе ArcGIS, но не только.

Особенность геопорталов в том что часто разработчики не предусматривают отдельных разделов выгрузки данных, но данные доступны через документированное или недокументированное API. Часто геопорталы создаются региональными органами власти, например, в форме единых геопорталов региона или города. Существуют геопорталы коммерческих компаний и научных организаций.

Ссылки на добавленные геопорталы։
- https://lgtgis.aari.ru/arcgis/rest/
- https://geoportal.gcras.ru/arcgis/rest/services
- http://gis.gov-murman.ru/
- https://meteo-dv.ru/
- https://gisnao.ru/
- https://gis.rkomi.ru/
- https://agoracle.asutk.ru/arcgis/rest/services
- https://gis.toris.gov.spb.ru/
- https://karta.yanao.ru
- http://map.govvrn.ru
- https://gis.sgm.ru/server/rest/services
- https://maps29.ru/
- https://www.tver.ru/ArcGIS/rest/services
- https://map.novo-sibirsk.ru
- http://geo.govrb.ru
- https://map.samadm.ru
- https://geoportal.egov66.ru
- https://maps.crru.ru/smaps/cmViewer.php

Каталог каталогов данных создан как проект по обнаружению данных, data discovery, с целью упрощения поиска данных по нужным темам и территориям. На сегодняшний день в него включено 280 порталов открытых данных, систем научных репозиториев, геопорталов, реестров открытых данных и порталов открытости бюджетной системы всех регионов России, а также порталы данных о России или связанные с Россией в мире.

Дополнительная цель проекта в архивации порталов данных на случай их возможного исчезновения в будущем.

Мы продолжаем работать над наполнением и визуальным представлением данных в каталоге. В ближайшее время запланирована модернизация веб-интерфейса и публикация самого каталога в форме набора данных и/или API.

Если Вы знаете какие-либо порталы данных, геопорталы и другие каталоги данных не учтённые в datacatalogs.ru - присылайте нам через форму на сайте.

#opendata #datacatalogs #datasets #datadiscovery