Ivan Begtin
9.15K subscribers
2.05K photos
3 videos
102 files
4.78K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
Что такое наборы данных ? (2/2)

А от ответа на вопросы "что есть набор данных?" очень часто зависит реальная оценка их числа. К примеру, в Mendeley Data пишут что содержат 2,35 миллиона наборов данных из GBIF [1], но в GBIF реально лишь 91 тысяча наборов данных [2] так откуда остальные 2,24 миллиона ? На самом деле в Mendeley Data индексируют не только датасеты, но и "occurencies" (случаи, встречаемость) видов животных их там 2,66 миллионов и миллионы наборов данных имеют одно название Occurance Dowload.

Другой пример в виде Кэмбриджской базы молекул [4] по которой каждую молекулу в Mendeley показывают как датасет, хотя это, по факту, лишь отдельный записи единой базы данных. И такого там много, очень много. Это и фрагментация данных и подмена понятия набора данных другими. У OpenAIRE, европейского поисковика/графа по научным результатам, есть похожий поиск, но он выдаёт всего 2 миллиона наборов данных [5], потому что в какой-то момент его создатели разделили наборы данных сами по себе и остальные типы Research Data и, к примеру, там есть поиск по клиническим исследованиям, но сами исследования считаются отдельными типом Research Data. Как и изображения, звуки или 3D модели которые выделены как отдельные подтипы.

Поэтому Mendeley Data хотя и важный научный ресурс, но "подвирающий" про реальные объёмы данных которые
в нём охвачены.

А ответ на вопрос что такое набор данных всё ещё не так однозначен.

Ссылки:
[1] https://data.mendeley.com/research-data/?type=DATASET&source=gbif.gbif
[2] https://www.gbif.org/dataset/search
[3] https://www.gbif.org/occurrence/search
[4] https://data.mendeley.com/research-data/?type=DATASET&source=ccdc.csd
[5] https://explore.openaire.eu/search/find?type=%22datasets%22&resultbestaccessright=%22Open%2520Access%22&instancetypename=%22Dataset%22

#data #datasearch #datafragmentation #thoughts
Forwarded from Open Data Armenia
18 января в 12:00 (по Еревану, GMT+4) мы проведем первый вебинар, приуроченный к конкурсу «Open Data Armenia Contest».

Присоединяйтесь к вебинару, посвященному обзору открытых данных Армении. Это событие поможет участникам конкурса понять специфику открытых данных и преимущества их использования, а также узнать о многообразии доступных источников данных.

Вебинар будет состоять из двух частей:
Часть1. Введение в открытые данные и лицензии: определение, значение, виды и их влияние на распространение знаний. Спикер Иван Бегтин, руководитель проекта Open Data Armenia, эксперт в области open data и data discovery. Читается на русском языке.
Часть 2. Источники данных об Армении: обзор ключевых платформ и ресурсов с открытыми данными. Портал data.opendata.am. Спикер Валерия Бабаян, аналитик открытых данных, специалист в области data discovery. Читается на армянском языке.

Для участия необходимо зарегистрироваться: ссылка. Всем зарегистрированным участникам придет ссылка для подключения в Zoom.
Симпатичный свежий инструмент с открытым кодом по визуализации данных Trelliscope [1]. Написан на R, распространяется под лицензией MIT, команда, также, ведёт разработку пакета на Python [2].

Даёт возможность создавать недорогие интерактивные дашборды в короткие сроки, поверх стандартных датафреймов. Причём в примерах есть создание дашборда поверх больших наборов данных вроде поездок такси Нью Йорка (64GB, 1.6 миллиарда строк) [3].

Для очень многих задач когда данные большие или когда надо сделать визуализацию частью продукта, а лишних ресурсов нет, может оказаться очень полезным подспорьем.

И, кстати, будь такая штука удобным образом внедрена в один из сервисов/продуктов тетрадок вроде Jupyter Notebook, то совсем цены бы ей не было.

Ссылки:
[1] https://trelliscope.org/
[2] https://github.com/trelliscope/
[3] https://trelliscope.org/trelliscope/articles/bigdata.html

#opensource #dataviz #data #datatools
В рубрике как это работает у них [1] Open Context, проект про архивацию и создание наборов археологических наборов данных, как структурированных табличных файлов, так и совокупности изображений, видеозаписей, 3D моделей, записок исследователей археологов и так далее. В проекте эта совокупность данных называется Data publication, а сам он построен на привязке к контексту территории, исторической эпохи и так далее.

В общей сложности так опубликовано 136 наборов данных и тысячи медиа файлов, изображений и остального. Ближе всего они к датасетам для машинного обучения, поскольку являются смешением первичных и структурированных данных.

Большим достоинством Open Context является единая схема/модель описания публикаций, открытое API и публикация под свободными лицензиями.

Проект ведёт НКО The Alexandria Archive Institute [2], они же публикуют регулярно материалы по цифровой грамотности для археологов [3] и многое другое по Digital Humanities и Digital Preservation в контексте сохранения мирового наследия.

Ссылки:
[1] https://opencontext.org
[2] https://alexandriaarchive.org
[3] https://alexandriaarchive.org/data-literacy-program/

#opendata #datasets #datacatalogs #digitalhumanities #digitalpreservation #archeology
В рубрике интересных наборов данных Scans.io Stanford Internet Research Data Repository [1] коллекция больших наборов данных по инфраструктуре Интернета полученные путём сканирования всех доступных подсетей. Наборы данных там существуют, как созданные в Стенфордском университете, так и коммерческих компаний таких как Rapid7 и Censys.

Часть общедоступны, можно скачать сразу. Для доступа к данным от Rapid7 теперь уже какое-то время требуется написать им обоснование и рассказ о том для какого исследования Вам это нужно [2], а Censys уже давно большой коммерческий проект и к небольшой части своих данных они дают доступ через облако Google [3].

Применение у этих данных может быть не только в задачах инфобеза/кибербеза, но и в целях разного рода инструмента исследования инфрастурктуры. Или, например, data discovery. Многие из порталов данных мне удавалось найти через анализ базу DNS записей.

Ссылки:
[1] https://scans.io
[2] https://opendata.rapid7.com
[3] https://support.censys.io/hc/en-us/articles/360038761891-Research-Access-to-Censys-Data

#opendata #datasets #networksecurity #researchdata
В рубрике как это работает у них большое изменение в статистике последних лет - это превращение статистических порталов в порталы данных. Если в классических стат порталах акцент был на визуализации и экспорте данных в XML/CSV/XLSX, то сейчас почти все новые порталы сразу называют порталами данных, включают API, как правило, REST API или более специфичное для статистики API на базе SDMX, а также добавляют возможность получения индикатора целиком и получение статистической базы целиком.

В качестве примера, порталы на базе open-source движка .Stat Suite [1].

- https://data.ilo.org - портал данных международной организации труда. Более тысячи индикаторов, JSON API, экспорт в CSV
- https://stats.pacificdata.org - Pacific Data Hub Explorer (индикаторы по странам Тихого океана)
- https://dataexplorer.unescap.org - портал индикаторов целей устойчивого развития по азиатским странам Тихого океана
- https://statdb.nso.gov.mt - портал индикаторов Мальты

и многие другие, в мире около десятка национальных и международных порталов сделанных только на этом движке.

При этом надо сказать что большая часть статистических индикаторов в мире публикуются, всё ещё, очень консервативно. Кроме .Stat Suite из массовых продуктов есть только PxWeb [2] для публикации индикаторов, а в большинстве остальных случаев статслужбы публикуют данные, или на собственноручно разработанных продуктах, или в виде Excel файлов, а иногда и PDF файлов. Тем не менее ситуация постепенно меняется и, как минимум, данные которые и ранее собирались в рамках статистических наблюдений становятся более доступными.

Ссылки:
[1] https://siscc.org
[2] https://www.scb.se/en/services/statistical-programs-for-px-files/px-web/

#opendata #statistics #datacatalogs
Forwarded from Open Data Armenia
Номинация "Culture Apps" нашего конкурса [1] в мире относится к теме Цифровых гуманитарных наук, на английском языке Digital Humanities. В последние годы появляется всё большее число проектов в это области и для тех кто хочет поискать вдохновения для себя стоит взглянуть на проекты участников победителей международной премии Digital Humanitarian Awards [2] где есть множество интерактивных и визуальных проектов по представлению культуры и истории.

Вот некоторые из них, победители прошлых лет.

TravellersMap ( https://travellersmap.gr)

Проект наложением на карты современной Греции и Турции видеолекций о исторических местах и событиях связанных с древнегреческой культурой, со ссылками на Wiki и базы знаний по истории Греции

Archivo de Literatura Digital en América Latina (https://www.cartografiadigital.cl)

Интерактивная инфографика цифровой литературы Южной Америки

Battle of Hong Kong 1941
(https://digital.lib.hkbu.edu.hk/1941hkbattle/en/map.php)

Интерактивная карта визуализации битвы за Гонконг в 1941 году, с таймлайном события.

А также существует множество других технологических интересных гуманитарных проектов о которых мы будем рассказывать здесь в телеграм канале и на наших семинарах.

Подумайте о том какие события в истории Армении и армянского народа могли бы быть представлены наглядно. Как собрать данные и нужно ли их много? Иногда достаточно сесть с книгой в руках и выписать даты и события, пройтись по открытым источникам и найти фотографии, использовать удобные low-code инструменты и собрать на их основе интересный проект.

Если у Вас есть вопросы, идеи, мысли и желание продвинуться в этом, задавайте вопросы в нашем чате @opendataamchat.

И напоминаю заявки на конкурс мы принимаем до 18 февраля включительно.

Ссылки:
[1] https://contest.opendata.am
[2] http://dhawards.org

#digitalheritage #opendata #contest #history #dataviz #culture #armenia
В рубрике закрытых данных в России.

1. Закрытие статистики Росавиации

С февраля 2022 года не публикуется ведомственная статистика Росавиации которая включает:
- Основные производственные показатели гражданской авиации [1]
- Перевозки пассажиров [2]
- Перевозки грузов и почты [3]

2. Закрытие статистики органов прокуратуры

Генпрокуратура не только не обновляет портал Crimestat.ru [4] с января 2023 года, но и с февраля 2023 года не размещает Статистические данные об основных показателях деятельности органов прокуратуры [5]. Ведомственная статистика осталась на сайтах региональных органов прокуратуры, например, Москвы [6]

Ссылки:
[1] https://favt.gov.ru/dejatelnost-vozdushnye-perevozki-osnovnye-proizvodstvennye-pokazateli-ga/
[2] https://favt.gov.ru/dejatelnost-vozdushnye-perevozki-perevozki-passazhirov/
[3] https://favt.gov.ru/dejatelnost-vozdushnye-perevozki-perevozki-gruzov-i-pochty/
[4] https://crimestat.ru
[5] https://epp.genproc.gov.ru/web/gprf/activity/statistics/office/result
[6] https://epp.genproc.gov.ru/web/proc_77/activity/statistics/result

#closeddata #russia #opendata #statistics #transport #crime