Ivan Begtin
8.1K subscribers
2K photos
3 videos
102 files
4.72K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
加入频道
September 13, 2022
Незаслуженно упущенная мной публикация июля этого года What is the value of data? A review of empirical methods [1] от исследователей из Bennett Institute for Public Policy Университета Кэмбриджа. Они разбирают методы оценки стоимости/ценности данных, в первую очередь, с точки зрения экономических оценок их использования и ссылаются на их же работу 2020 года Value of Data report [2], а также на оценки ОЭСР и других.

С научной точки зрения и с точки зрения лоббирования раскрытия данных и принятия политик представления данных (data sharing) в странах где прислушиваются к доводам исследователей - это полезный текст.

Ссылки:
[1] https://www.bennettinstitute.cam.ac.uk/publications/value-of-data/
[2] https://www.bennettinstitute.cam.ac.uk/wp-content/uploads/2020/12/Value_of_data_summary_report_26_Feb.pdf

#opendata #research #policies
October 13, 2022
9. Одна из наиболее внятных и разумных инициатив - конкурсы Код-ЦТ и Код-ИИ организуемые Фондом содействия инноваций - это реальные попытки хоть что-то изменить и попытаться опереться на те ИТ компании и ИТ команды которые готовы и умеют развивать продукты с открытым кодом. ФСИ даёт гранты даже большие чем германский Prototype Fund, но это капля в море по сравнением с субсидиями академическим институтам и университетам на научную деятельность результат которой не виден, не известен и закрыт.
10. Аналогично с инициативами связанными с Национальным репозиторием кода, Гостехом и ещё много чем. Для понимания, в основе Гостех в Сингапуре или в Эстонии открытый код. Все лучшие примеры цифровизации госухи в мире на которые сотрудники РосГосТеха могут ссылаться тоже будут открытыми, а вот их платформа даже намеков на открытость не имеет
11. В случае с национальным репозиторием кода, то что он заменит ФАП не означает что код там будет открыт. Скорее он будет открыт для технического аудита, но даже не факт что разработка будет вестись в нём, а не использоваться только для публикации кода в момент сдачи контрактной отчетности. Это уже прогресс, но медленный.
12. Но, я повторюсь, что всё начинается с открытости результатов научных исследований. Почему он не публикуется? Спросите Минобрнауки, но там даже отвечать некому;)

Тут надо бы добавить что всё это было справедливо в мирные времена, а сейчас многие из тех кто понимает что и как можно было бы исправить и изменить, не будут работать с российскими госорганами ни на каких условиях, даже если госполитика цифровизации была бы иной.

Ссылки:
[1] https://data.world/ibegtin/open-source-government-project
[2] https://government.github.com/

#government #opensource #it #opendata #openaccess #research
November 5, 2022
Вышел доклад/исследование State of Frontend [1] по технологиям фронтэнд разработки основанный на опросе 3703 разработчиков и с комментариями нескольких экспертов. Хотя я лично и далёк от темы фронтэнда, но тут большой любопытный текст с интересными результатами.

Вот подборка фактов:
- большинство прошедших опрос работают дистанционно: 59.7%, ещё 35.3% в гибридном формате
- в безусловных лидерах фреймворки Angular (51%) и React (25%), наиболее перспективные Svelte и Next.js
- самые популярные дизайн системы Material UI, Tailwind UI и Bootstrap
- Typescript используют 84% разработчиков и большинство (43%) считают что он заменит Javascript однажды
- большинство используют сервера AWS (Amazon) или свои собственные
- подавляющее большинство используют Visual Studio Code: 74.4%

И там ещё много всего, что-то кажется очевидным, что-то совсем нет. Например, про VS Code или про Typescript.

Ссылки:
[1] https://tsh.io/state-of-frontend/

#reports #research #frontend #javascript #development
November 8, 2022
This media is not supported in your browser
VIEW IN TELEGRAM
April 20, 2023
June 21, 2023
К вопросу о каталогах научных данных, я писал про многие инициативы, а про одну всё не упоминал. В научной среде существуют продукты которые называются CRIS (Current Research Information System) которые также называют RIMS (Research Information Management System) [1].

В отличие от систем публикации статей или каталогов научных данных эти системы создаются для учёта всей научной деятельности научной организации/отрасли (научной дисциплины) или страны. Например, в CRIS вносятся данные по исследовательским центрам, исследователям, научным публикациям, данным, лабораториям, оборудованиям и так далее.

Такие системы могут быть как внутренними, так и открытыми. В последние годы эти системы почти все являются открытыми, или по большей части открытыми, но есть они далеко не у всех исследовательских центров и университетов, но их становится всё больше. Большая их часть создаётся на базе примерно десятка коммерческих продуктов и некоторого числа продуктов с открытым кодом.

Для университетов у которых есть такие системы, публикация данных является частью таких систем.

Реестр таких систем ведёт НКО euroCRIS [2] существующая при поддержке Евросоюза, этот реестр называется DRIS [3], там 1387 репозиториев по всему миру, большая часть из которых находятся в Индии и Норвегии, но, в принципе, рассеяны по всему миру.

Данные из систем CRIS собираются в глобальные агрегаторы такие как OpenAIRE, для чего разработан стандарт CERIF [4] для описания метаданных и для их предоставления через REST API, а у OpenAIRE есть ещё и подробное руководство для работы CRIS систем [5].

Большая часть CRIS систем - это университетские системы, но есть и крупные национальные CRIS системы в: Австралии, Испании, Финляндии и многих других странах. В реестре DRIS упомянуто 24 такие системы национального уровня, о каждой из них можно рассказывать долго и по отдельности.

Так вот CRIS системы можно также рассматривать как каталоги открытых научных данных, с оговоркой что данные там не приоритет, а скорее сопутствующий результат, а основное - это функции предоставления информации о всех результатах и инструментах исследований.

И, напоследок, можно посмотреть как это устроено на примерах националных CRIS систем, в Бразилии BrCRIS [6], в Словакии [7], в Латвии [8], в Норвегии [9].

Ссылки:
[1] https://en.wikipedia.org/wiki/Current_research_information_system
[2] https://eurocris.org/
[3] https://dspacecris.eurocris.org/cris/explore/dris
[4] https://eurocris.org/services/main-features-cerif
[5] https://guidelines.openaire.eu/en/latest/cris/index.html
[6] https://brcris.ibict.br
[7] https://www.skcris.sk/portal/
[8] https://sciencelatvia.lv
[9] https://www.cristin.no/

#openaccess #openresearch #opendata #research
July 18, 2023
July 30, 2023
September 8, 2023
September 8, 2023
October 26, 2023
November 2, 2023
November 15, 2023
November 19, 2023
В рубрике интересных наборов данных WikiTables [1] набор данных из 1.6 миллионов таблиц извлечённых из английской Википедии и сопровождающий его набор состоящих из записей в этих таблицах слинкованными с объектами в DBPedia. Помимо того что это само по себе интересная и важная задача при создании связанного графа знаний, это ещё и огромная база для обучения разного рода алгоритмом.

Данные связаны со статьёй TabEL: Entity Linking in WebTables [2] ещё 2015 года и ещё много где использовались и используются они и по сей день.

Лично я эти данные использую для проверки и обучения утилиты metacrafter для идентификации семантических типов данных, но им не ограничиваясь.

Ссылки:
[1] http://websail-fe.cs.northwestern.edu/TabEL/index.html
[2] https://www.semanticscholar.org/paper/TabEL%3A-Entity-Linking-in-Web-Tables-Bhagavatula-Noraset/8ffcad9346c4978a211566fde6807d6fb4bfa5ed?p2df

#readings #data #datasets #research #understandingdata #datadiscovery
December 6, 2023
January 3, 2024
Не все данные называются наборами данных или базами данных или даже просто данными. Например, научные работы состоящие из данных или включающие данные могут называть datasets и, чаще всего, именно так и называют в репозиториях научных данных или в институциональных репозиториях научных и университетских исследовательских центров.

Однако, современные научные журналы - это, тоже, далеко не только тексты статей, там есть довольно много разных технологизированных тенденций и одна из них это публикация статей с данными. Такие статьи называют не datasets, а data paper, data report, data article и data note. Они включают сам текст статьи и уведомление о доступности данных включающее ссылки на первичные данные или данные полученные в результате работы.

Например, издательство Frontiers размещает data reports в своих онлайн изданиях [1]. Пока немного, всего 597 статей из 512 тысяч, это меньше чем 0.1%, но, тем не менее. Постепенно их число растёт.

В GBIF есть описание о том что такое data paper и примеры изданий их публикующих [2], подсказка , много таких изданий. Например, data paper есть в изданиях издательства Pensoft [3] и ещё немало специализированных журналов для данных вернее для статей с данными.

Есть подборки таких журналов [4] и их несложно найти при желании.

Подобные работы иногда сопровождаются приложенными дата файлами, а чаще ссылками на публикации данных в научных репозиториях. Таких как Dryad, Zenodo, Mendeley и ещё много других.

Для меня лично незакрытым вопросом остаётся воспринимать ли data papers как предмет индексирования поисковой системы по данным. С одной стороны большая часть данных из них доступны в каталогах данных, с другой стороны большая часть - это не все и многие данные в каталоги данных не попадают.

Ссылки:
[1] https://www.frontiersin.org/articles?publication-date=01%2F01%2F2007-06%2F04%2F2024&type=123
[2] https://www.gbif.org/data-papers
[3] https://mycokeys.pensoft.net/browse_journal_articles.php?form_name=filter_articles&sortby=0&journal_id=11&search_in_=0&section_type%5B%5D=134
[4] https://zenodo.org/records/7082126

#openaccess #thoughts #research #data #datasets
April 7, 2024
Прекрасное чтение Watching the Watchdogs: Tracking SEC Inquiries using Geolocation Data [1] в виде научной статьи, но я перескажу простыми словами.

Если вкратце, то группа исследователей:
1) Нашли поставщика данных у которого они закупили данные по всем телефонам с которыми ходили люди в офисе комиссии по ценным бумагам в США (SEC) по своим офисам
2) Идентифицировали сотрудников из общего числа устройств,
3) Сопоставили множество геоданных, вплоть до шейпфайлов штабквартир публичных компаний
4) Определили когда сотрудники SEC приходили в эти офисы
5) Разобрали как SEC проверяет публичные компании и когда эта информация публична
6) Сопоставили проверки с изменениями стоимости ценных бумаг

И вуаля, так и хочется сказать, почему эти гении люди обо всём этом написали научную статью, вместо того чтобы существенно обогатится на полученных данных!

Многое бы бизнес во многих странах отдал бы за отслеживание того куда ходят налоговики, силовики, представители горных национальных республик и ещё много чего.

А статью рекомендую, жаль лишь что они источник данных не указывают.

Ссылки:
[1] https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4941708

#dataanalysis #research #privacy #geodata
September 22, 2024
February 21