Я несколько лет назад регулярно выступал с презентациями на тему Как и где искать данные? в основном рассказывая про внутрироссийские источники данных и мои лекции были, в основном, о том как находить данные для гражданского или государственного проекта. Я тогда делал акцент на анализе государственных информационных систем, ресурсов и основной логике появления данных от полномочий органов власти.
При этом, как оказалось, в мире довольно мало открытых методик по инвентаризации данных. Вернее практически их нет и то что есть сосредоточено в двух областях: научные данные и дата-журналистика.
Что характерно, у большей части крупных зарубежных университетов есть руководства по поиску исследовательских данных. Они легко гуглятся по "finding and re-using research data", я не так давно стал собирать наиболее интересные/полезные и вот несколько примеров:
- Руководство от University of Bath https://library.bath.ac.uk/research-data/finding-data/home
- Руководство от LIBER Europe https://www.youtube.com/watch?v=6PRlf8KiFpA
- Курс в Университете Осло https://www.ub.uio.no/english/courses-events/courses/other/research-data/time-and-place/rdm-uio-spring2023-7.html
А ещё есть модуль Finding hidden data on the Web в курсе на портале данных Евросоюза https://data.europa.eu/elearning/en/module12/#/id/co-01 Поиск скрытых данных в публичных источниках вообще моя любимая тема, столько интересного находится таким образом.
Некоторые рекомендации по поиску данных есть для дата-журналистов, но они находятся внутри общих руководств по дата-журналистике и часто совмещены с гайдами для журналистов расследователей по верификации источников, поиску данных в соцсетях и OSINT.
Отдельная тема - это поиск и систематизация корпоративных данных. Там почти все методики и гайды не про поиск, а про каталогизацию, поскольку задача поиска лишь один из способов использования корпоративных каталогов данных.
В итоге у всего этого отсутствует теоретическая база, data discovery как дисциплина научная, в первую очередь, мало представлена, а жаль слишком многое приходится додумывать самостоятельно.
#thoughts #datadiscovery #data
При этом, как оказалось, в мире довольно мало открытых методик по инвентаризации данных. Вернее практически их нет и то что есть сосредоточено в двух областях: научные данные и дата-журналистика.
Что характерно, у большей части крупных зарубежных университетов есть руководства по поиску исследовательских данных. Они легко гуглятся по "finding and re-using research data", я не так давно стал собирать наиболее интересные/полезные и вот несколько примеров:
- Руководство от University of Bath https://library.bath.ac.uk/research-data/finding-data/home
- Руководство от LIBER Europe https://www.youtube.com/watch?v=6PRlf8KiFpA
- Курс в Университете Осло https://www.ub.uio.no/english/courses-events/courses/other/research-data/time-and-place/rdm-uio-spring2023-7.html
А ещё есть модуль Finding hidden data on the Web в курсе на портале данных Евросоюза https://data.europa.eu/elearning/en/module12/#/id/co-01 Поиск скрытых данных в публичных источниках вообще моя любимая тема, столько интересного находится таким образом.
Некоторые рекомендации по поиску данных есть для дата-журналистов, но они находятся внутри общих руководств по дата-журналистике и часто совмещены с гайдами для журналистов расследователей по верификации источников, поиску данных в соцсетях и OSINT.
Отдельная тема - это поиск и систематизация корпоративных данных. Там почти все методики и гайды не про поиск, а про каталогизацию, поскольку задача поиска лишь один из способов использования корпоративных каталогов данных.
В итоге у всего этого отсутствует теоретическая база, data discovery как дисциплина научная, в первую очередь, мало представлена, а жаль слишком многое приходится додумывать самостоятельно.
#thoughts #datadiscovery #data
library.bath.ac.uk
Library: Finding and reusing research datasets: Finding Data Home
Guide on finding secondary data for reserach and identifying suitable data archives for research dataset deposits.
Среди порталов с открытыми данными, иногда, выявляются уникальные находки. Например, мало кто знает что во Вьетнаме много порталов открытых данных - страны, провинций, и городов, и университетов. Я об этом отдельно как-нибудь напишу. А из них можно особенно выделить портал открытых данных города Da Nang [1].
Кроме всего прочего они предоставляют данные через SMS.
Я совершенно серьёзно, Можно отправить SMS с текстом на специальный номер и получить в ответ документ или запись из баз данных. Это, конечно, ближе к API чем к выгрузке наборов данных, но зато своя живая экзотика.
Скриншот прилагаю, текст на нём переведён гуглопереводчиком, так что неточности могут быть, но смысл не меняется.
Ссылки:
[1] https://opendata.danang.gov.vn
#opendata #vietnam #dataportals #danangcity
Кроме всего прочего они предоставляют данные через SMS.
Я совершенно серьёзно, Можно отправить SMS с текстом на специальный номер и получить в ответ документ или запись из баз данных. Это, конечно, ближе к API чем к выгрузке наборов данных, но зато своя живая экзотика.
Скриншот прилагаю, текст на нём переведён гуглопереводчиком, так что неточности могут быть, но смысл не меняется.
Ссылки:
[1] https://opendata.danang.gov.vn
#opendata #vietnam #dataportals #danangcity
В рубрике интересных наборов данных данные сканирования лидаром Шуховской башни в Москве [1] на сайте Openheritage3D для 3D моделирования объектов культурного значения.
Размер набора данных 1.2Gb, лицензия CC-BY-NC. Опубликовано в 2021 году Институтом истории естествознания и техники им. С.И. Вавилова РАН.
Ссылки:
[1] https://openheritage3d.org/project.php?id=0skp-z245
#opendata #datasets #digitalheritage
Размер набора данных 1.2Gb, лицензия CC-BY-NC. Опубликовано в 2021 году Институтом истории естествознания и техники им. С.И. Вавилова РАН.
Ссылки:
[1] https://openheritage3d.org/project.php?id=0skp-z245
#opendata #datasets #digitalheritage
В рубрике полезного чтения про данные, технологии и не только:
- Generating income from open source [1] автор перечисляет успешные бизнес модели на открытом коде, вроде ничего нового, но и систематизация вполне неплохая. Полезное чтение для всех кто об этом думает.
- Data Documentation 101: Why? How? For Whom? [2] зачем, как и для кого описывать данные и связанную с ними инфраструктуру. Мысли более чем разумные, а я добавлю что автоматизация - это то без чего не выжить в мире документации. Жду не дождусь когда сделают ИИ который за тебя задокументирует код, API, данные и оставит пояснения где ещё надо вручную поправить потому что непонятно.
- The Data Journey Manifesto [3] 22 принципа из мира дата-аналитики. Все как бальзам на душу: не тестируй качество данных вручную, не доверяй поставщикам своим, знай как должно быть и как не должно быть, находи проблемы быстро. Хорошие тезисы, стоит на разные языки их перевести
- DashQL -- Complete Analysis Workflows with SQL [4] научная статья про DashQL язык интегрированный с SQL для построения цельных аналитических конвейеров данных. Статья любопытная, но хочется сразу ненаучного, а так чтобы примеры можно было посмотреть и эксперименты поделать
- Survey reveals AI’s impact on the developer experience [5] исследование от Github о том как разработчикам нравятся ИИ инструменты. Тут есть, конечно, некоторая циничность. Это примерно как если бы Google делал исследование о том как люди любят пользоваться поиском или Microsoft о том как люди любят писать тексты. Тем не менее любопытное там есть, области применения ИИ инструментов и ожидания от них.
- StackOverflow 2023 developer survey [6] результаты опроса разработчиков от StackOverflow, в случае данных два главных навыка остаются критично важными - это Python и SQL. Они же лидируют в общем зачёте, уступая только HTML/CSS и Javascript. Обратите внимание что у профессиональных разработчиков SQL важнее и чаще нужен чем Python, а у начинающих наоборот, Python с большим отрывом. Учите SQL если кратко;)
Ссылки:
[1] https://vadimdemedes.com/posts/generating-income-from-open-source
[2] https://towardsdatascience.com/data-documentation-101-why-how-for-whom-927311354a92
[3] https://datajourneymanifesto.org
[4] https://arxiv.org/abs/2306.03714
[5] https://github.blog/2023-06-13-survey-reveals-ais-impact-on-the-developer-experience/
[6] https://survey.stackoverflow.co/2023/
#readings #python #data
- Generating income from open source [1] автор перечисляет успешные бизнес модели на открытом коде, вроде ничего нового, но и систематизация вполне неплохая. Полезное чтение для всех кто об этом думает.
- Data Documentation 101: Why? How? For Whom? [2] зачем, как и для кого описывать данные и связанную с ними инфраструктуру. Мысли более чем разумные, а я добавлю что автоматизация - это то без чего не выжить в мире документации. Жду не дождусь когда сделают ИИ который за тебя задокументирует код, API, данные и оставит пояснения где ещё надо вручную поправить потому что непонятно.
- The Data Journey Manifesto [3] 22 принципа из мира дата-аналитики. Все как бальзам на душу: не тестируй качество данных вручную, не доверяй поставщикам своим, знай как должно быть и как не должно быть, находи проблемы быстро. Хорошие тезисы, стоит на разные языки их перевести
- DashQL -- Complete Analysis Workflows with SQL [4] научная статья про DashQL язык интегрированный с SQL для построения цельных аналитических конвейеров данных. Статья любопытная, но хочется сразу ненаучного, а так чтобы примеры можно было посмотреть и эксперименты поделать
- Survey reveals AI’s impact on the developer experience [5] исследование от Github о том как разработчикам нравятся ИИ инструменты. Тут есть, конечно, некоторая циничность. Это примерно как если бы Google делал исследование о том как люди любят пользоваться поиском или Microsoft о том как люди любят писать тексты. Тем не менее любопытное там есть, области применения ИИ инструментов и ожидания от них.
- StackOverflow 2023 developer survey [6] результаты опроса разработчиков от StackOverflow, в случае данных два главных навыка остаются критично важными - это Python и SQL. Они же лидируют в общем зачёте, уступая только HTML/CSS и Javascript. Обратите внимание что у профессиональных разработчиков SQL важнее и чаще нужен чем Python, а у начинающих наоборот, Python с большим отрывом. Учите SQL если кратко;)
Ссылки:
[1] https://vadimdemedes.com/posts/generating-income-from-open-source
[2] https://towardsdatascience.com/data-documentation-101-why-how-for-whom-927311354a92
[3] https://datajourneymanifesto.org
[4] https://arxiv.org/abs/2306.03714
[5] https://github.blog/2023-06-13-survey-reveals-ais-impact-on-the-developer-experience/
[6] https://survey.stackoverflow.co/2023/
#readings #python #data
Vadimdemedes
Generating income from open source
Ink has been getting some good traction lately and it's already being used by some well-known companies for a while. Like most other open so…
В рубрике как это устроено у них, в Гонконге 9 каталогов открытых данных. Основной из них - это государственный портал data.gov.hk [1] с более чем 5200 наборами данных, а также 3 геопортала:
- Hong Kong Geodata store https://geodata.gov.hk
- Hong Kong Common spatial data infrastructure geodata catalog https://portal.csdi.gov.hk/geoportal
- Hong Kong Geotechnical Engineering office geodata for public use https://www.geomap.cedd.gov.hk/GEOOpenData/eng/Default.aspx
Геоданные также предоставляются властями города.
Параллельно с открытыми государственными данными, в Гонконге есть как минимум 4 каталогов данных университетов и исследовательских центров:
- CUHK Research Data Repository https://researchdata.cuhk.edu.hk/
- DataSpace@HKUST https://dataspace.ust.hk/
- Research at Hong Kong Baptist University https://scholars.hkbu.edu.hk/en/datasets/
- Lingnan Scholars https://scholars.ln.edu.hk/en/datasets/
Два из которых являются частью экосистемы Dataverse, два других основаны на Elsevier Pure (там данные лишь один из видов результатов научной деятельности)
В Гонконге же находится команда проекта GigaDb http://gigadb.org которые создали портал с 47ТБ научных данных связанных с публикациями по биомедицине, в основном это геномные данные.
Кроме того существует Hong Kong Open Data Index https://opendata.isoc.hk проект Internet Society Hong Kong со сравнением доступности данных города по ключевым наборам данных, во многом с оглядкой на Global Data Barometer.
В последние пару лет очень заметно влияние материкового Китая где Университет Фуданя регулярно ведёт свой индекс открытости и публикует доклады о состоянии открытых данных в провинциях Китая.
#opendata #hongkong #china
- Hong Kong Geodata store https://geodata.gov.hk
- Hong Kong Common spatial data infrastructure geodata catalog https://portal.csdi.gov.hk/geoportal
- Hong Kong Geotechnical Engineering office geodata for public use https://www.geomap.cedd.gov.hk/GEOOpenData/eng/Default.aspx
Геоданные также предоставляются властями города.
Параллельно с открытыми государственными данными, в Гонконге есть как минимум 4 каталогов данных университетов и исследовательских центров:
- CUHK Research Data Repository https://researchdata.cuhk.edu.hk/
- DataSpace@HKUST https://dataspace.ust.hk/
- Research at Hong Kong Baptist University https://scholars.hkbu.edu.hk/en/datasets/
- Lingnan Scholars https://scholars.ln.edu.hk/en/datasets/
Два из которых являются частью экосистемы Dataverse, два других основаны на Elsevier Pure (там данные лишь один из видов результатов научной деятельности)
В Гонконге же находится команда проекта GigaDb http://gigadb.org которые создали портал с 47ТБ научных данных связанных с публикациями по биомедицине, в основном это геномные данные.
Кроме того существует Hong Kong Open Data Index https://opendata.isoc.hk проект Internet Society Hong Kong со сравнением доступности данных города по ключевым наборам данных, во многом с оглядкой на Global Data Barometer.
В последние пару лет очень заметно влияние материкового Китая где Университет Фуданя регулярно ведёт свой индекс открытости и публикует доклады о состоянии открытых данных в провинциях Китая.
#opendata #hongkong #china
dataspace.hkust.edu.hk
DataSpace@HKUST
The Dataverse Project is an open source software application to share, cite and archive data. Dataverse provides a robust infrastructure for data stewards to host and archive data, while offering researchers an easy way to share and get credit for their data.
Я всё долго искал какие есть альтернативы поиску Google по наборам данных, и так чтобы не на коленках сделанные. И нашёл findata.cn [1] поисковик созданный Computer Network Information Center, Chinese Academy of Sciences, той же структуры что сделала китайский открытый национальный репозиторий научных данных SciDb [2]
Findata.cn также про открытые научные данные, но кроме SciDb агрегирует ещё и Zenodo, DRYAD, GBIF, USGS, IEEEDataPort и множество других.
При этом сам Findata.cn довольно упрощённо позволяет искать с фасетами только по году и источнику.
Всё больше поисковиков агрегаторов по открытым данным, и большая их часть создаются для научной инфраструктуры.
Ссылки:
[1] https://findata.cn
[2] https://www.scidb.cn/en
#opendata #data #datasearch #china #openscience #openaccess
Findata.cn также про открытые научные данные, но кроме SciDb агрегирует ещё и Zenodo, DRYAD, GBIF, USGS, IEEEDataPort и множество других.
При этом сам Findata.cn довольно упрощённо позволяет искать с фасетами только по году и источнику.
Всё больше поисковиков агрегаторов по открытым данным, и большая их часть создаются для научной инфраструктуры.
Ссылки:
[1] https://findata.cn
[2] https://www.scidb.cn/en
#opendata #data #datasearch #china #openscience #openaccess
Хорошо что Казначейство России начало публиковать хотя бы данные по доходам фед. бюджета, но та часть что относится к расходам это даже не смешно. Можно сказать что этих данных практически нет. И их отсутствие это гораздо более плохой сигнал о состоянии экономики России чем любые цифры которые были бы доступны
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Казначейство России возобновило публикацию отчетов об исполнении федерального бюджета. Но данных о расходах в отчетах нет
В конце мая Казначейство России возобновило публикацию отчетов об исполнении федерального бюджета на своем официальном сайте, добавив файлы и за 2022 год. В отчетах содержатся:
- детализированные данные по доходам (но без разбивки по администраторам);
- детализированные данные по источникам финансирования дефицита бюджета;
- вкладка «Расходы» осталась, но строк в ней всего две: «Расходы бюджета - всего» и «Результат исполнения бюджета (дефицит / профицит)». Фактически данных о расходах нет.
Если сравним с последним опубликованным полным отчетом (от марта 2022 года), то увидим, что из отчетов пропали:
- разбивка доходов по администраторам;
- детализированные данные о расходах (в т.ч. по администраторам);
- вкладка с детализацией расходов по ФКР.
Напомню, что публикация отчетов об исполнении бюджета на сайте Казначейства России была прекращена в начале прошлого года (последним был опубликован отчет на 1 марта), но до октября данные публиковались на портале ЕПБС в другом формате (с этим тоже были проблемы, т.к. о качестве данные ЕПБС всем известно, а первоисточника для проверки данных не было). Но с октября данные перестали публиковаться и на портале ЕПБС (с последующим удалением данных с апреля по октябрь).
Конечно, публикация данных о доходах и источниках финансирования дефицита бюджета - это уже что-то (и хорошо, что хотя бы в таком виде прошлогодние данные добавили), но хочется большего.
#открытость #казначействороссии #открытыеданные #госфинансы #бюджет #федеральныйбюджет
В конце мая Казначейство России возобновило публикацию отчетов об исполнении федерального бюджета на своем официальном сайте, добавив файлы и за 2022 год. В отчетах содержатся:
- детализированные данные по доходам (но без разбивки по администраторам);
- детализированные данные по источникам финансирования дефицита бюджета;
- вкладка «Расходы» осталась, но строк в ней всего две: «Расходы бюджета - всего» и «Результат исполнения бюджета (дефицит / профицит)». Фактически данных о расходах нет.
Если сравним с последним опубликованным полным отчетом (от марта 2022 года), то увидим, что из отчетов пропали:
- разбивка доходов по администраторам;
- детализированные данные о расходах (в т.ч. по администраторам);
- вкладка с детализацией расходов по ФКР.
Напомню, что публикация отчетов об исполнении бюджета на сайте Казначейства России была прекращена в начале прошлого года (последним был опубликован отчет на 1 марта), но до октября данные публиковались на портале ЕПБС в другом формате (с этим тоже были проблемы, т.к. о качестве данные ЕПБС всем известно, а первоисточника для проверки данных не было). Но с октября данные перестали публиковаться и на портале ЕПБС (с последующим удалением данных с апреля по октябрь).
Конечно, публикация данных о доходах и источниках финансирования дефицита бюджета - это уже что-то (и хорошо, что хотя бы в таком виде прошлогодние данные добавили), но хочется большего.
#открытость #казначействороссии #открытыеданные #госфинансы #бюджет #федеральныйбюджет
В рубрике необычных источников данных, пакеты для Anaconda [1], среды для анализа данных в виде интегрированных тетрадок, дистрибутива Python с пакетами для data science и data analysis, и экосистемой разного рода расширений. У продукта есть реестр пакетов в котором, в основном, пакеты с открытым кодом, но многие пакеты, также, содержат наборы данных [2], особенно много данных в расширениях bioconda, для биоинформатики. Искать их можно по разного рода ключевым словам вроде "data" и "dataset", результат приходит вперемешку с пакетами для обработки данных и наборов данных
Поиск по пакетам общий, типизации пакетов по типу содержания нет, так что нельзя сказать что искать пакеты с данными очень удобно. С другой стороны для тех кто хочет данные из коробки и в единой среде это может быть полезно.
Ссылки:
[1] https://www.anaconda.com
[2] https://anaconda.org/search?q=dataset
#opendata #anaconda #dataanalysis
Поиск по пакетам общий, типизации пакетов по типу содержания нет, так что нельзя сказать что искать пакеты с данными очень удобно. С другой стороны для тех кто хочет данные из коробки и в единой среде это может быть полезно.
Ссылки:
[1] https://www.anaconda.com
[2] https://anaconda.org/search?q=dataset
#opendata #anaconda #dataanalysis
Forwarded from Open Data Armenia (Kseniia Orlova)
[EN] Awesome list: a toolkit for text analyzis Armenian language
- Eastern Armenian National Corpus Electronic Library provides a full view of works by classical authors (these books are in the public domain because their authors died more than 70 years ago). The corpus contains 4547379 words from 104 books by 12 authors.
- Named entity recognition. pioNer — trained data for Armenian NER using Wikipedia. This corpus provides the gold standard for automatically generated annotated datasets using GloVe models for Armenian. Along with the datasets, 50-, 100-, 200-, and 300-dimensional GloVe word embeddings trained on a collection of Armenian texts from Wikipedia, news, blogs, and encyclopedias have been released.
- The Polyglot library for Python supports language detection, named entity extraction (using Wikipedia data), morphological analysis, transliteration, and sentiment analysis for Armenian.
- Kevin Bougé Stopword Lists Page includes th Armenian language.
- Ranks NL Stopword Lists Page includes the Armenian language.
If you know of new usefull tools and guides, please share that knowledge with us!
Image author Aparna Melaput
#opendata #armenia #language #tools #digitalhumanities
- Eastern Armenian National Corpus Electronic Library provides a full view of works by classical authors (these books are in the public domain because their authors died more than 70 years ago). The corpus contains 4547379 words from 104 books by 12 authors.
- Named entity recognition. pioNer — trained data for Armenian NER using Wikipedia. This corpus provides the gold standard for automatically generated annotated datasets using GloVe models for Armenian. Along with the datasets, 50-, 100-, 200-, and 300-dimensional GloVe word embeddings trained on a collection of Armenian texts from Wikipedia, news, blogs, and encyclopedias have been released.
- The Polyglot library for Python supports language detection, named entity extraction (using Wikipedia data), morphological analysis, transliteration, and sentiment analysis for Armenian.
- Kevin Bougé Stopword Lists Page includes th Armenian language.
- Ranks NL Stopword Lists Page includes the Armenian language.
If you know of new usefull tools and guides, please share that knowledge with us!
Image author Aparna Melaput
#opendata #armenia #language #tools #digitalhumanities
В рубрике продуктов по каталогизации и обмену данными малоизвестный продукт Geoblacklight [1] опубликованный с открытым кодом и предназначенный для публикации открытых геоданных. Продукт написан полностью на Ruby on Rails и в его основе проект Blacklight [2] популярный для публикации цифровых объектов культурного наследия.
На Geoblacklight работает не менее 12 каталогов данных [3] среди них можно выделить такие как:
- Big Ten Academic Alliance Geoportal [4]
- University of California Berkeley – GeoData Portal [5]
- DRYAD [6]
На каждом из таких порталов содержится до десятков тысяч наборов геоданных, часто охватывающих весь мир.
Ссылки:
[1] https://geoblacklight.org
[2] https://projectblacklight.org
[3] https://geoblacklight.org/showcase/
[4] https://geo.btaa.org
[5] https://geodata.lib.berkeley.edu
[6] https://datadryad.org/search
#opendata #geodata #datasets #dataportals #opensource
На Geoblacklight работает не менее 12 каталогов данных [3] среди них можно выделить такие как:
- Big Ten Academic Alliance Geoportal [4]
- University of California Berkeley – GeoData Portal [5]
- DRYAD [6]
На каждом из таких порталов содержится до десятков тысяч наборов геоданных, часто охватывающих весь мир.
Ссылки:
[1] https://geoblacklight.org
[2] https://projectblacklight.org
[3] https://geoblacklight.org/showcase/
[4] https://geo.btaa.org
[5] https://geodata.lib.berkeley.edu
[6] https://datadryad.org/search
#opendata #geodata #datasets #dataportals #opensource
Могу лишь подтвердить что ошибки в административных данных это норма. Тем печальнее что ни журналисты, ни ФНС не делают факт чекинг, и входной контроль за данными в ФНС России, похоже, оставляет желать лучшего.
Forwarded from Рюмочная ИПП
💀 «Выбросы» в бухгалтерской отчетности
Как же журналисты могли ошибиться на почти 1000 трлн руб.? Ответ прост — из-за «выбросов» в данных бухгалтерской отчетности. Если вы отсортируете организации в 2022 г. по выручке, на одном из первых мест будет не Лукойл (выручка 2.9 трлн руб.) или Магнит (2 трлн руб.), а ООО «ЮССА» (ИНН
Откуда это знаем мы? Вместе со студентами программы ПАНДАН (http://pandan.eusp.org) мы тоже собрали все данные бухгалтерской отчетности от ФНС и обработали их. Вот что получается, если просуммировать ключевые показатели компаний по годам некритично:
Наши данные до 2021 года гораздо лучше согласуются с данными валового выпуска Росстата в СНС. В 2022 г. мы тоже наблюдаем колоссальный всплеск выручки, но уже не 1268 трлн руб., как РБК (помним, что за 214 трлн ответственна одна ООО «ЮССА»). Почему же у нас различие с РБК в 2022 г.?
🍃 Бухотчетность — живой организм
ФНС предоставляет данные через API, то есть вы можете скачать бухотчетность компании, сделав запрос к их серверу. При этом в ходе выгрузки и работы с данными миллионов файлов мы наблюдали, как служба задним числом меняет отчетность отдельных компаний, видимо, исправляя там ошибки. Мы скачали данные за 2022 г. после РБК, поэтому в наших данных было меньше ошибок, но вот до ООО «ЮССА» еще не добрались.
🤓 О роли экспертного знания
Когда журналисты РБК обратились к экономистам с просьбой прокомментировать квадриллион выручки, эксперты назвали среди причин «скачкообразный рост издержек бизнеса», инфляцию, отрицательные курсовые разницы, изменение поставщиков, рост неучтенной выручки. При этом ни один из экономистов не предложил простое объяснение — ошибка в исходных данных.
На ПАНДАНе мы учим критически относиться к исходных данным, особенно административным, перед любым анализом. Это означает в том числе перепроверку из внешних источников (триангуляцию). Если бы журналисты РБК соотнесли результаты с СНС, материал со столь явной ошибкой не увидел бы свет.
Как же журналисты могли ошибиться на почти 1000 трлн руб.? Ответ прост — из-за «выбросов» в данных бухгалтерской отчетности. Если вы отсортируете организации в 2022 г. по выручке, на одном из первых мест будет не Лукойл (выручка 2.9 трлн руб.) или Магнит (2 трлн руб.), а ООО «ЮССА» (ИНН
8601056605
) с выручкой в 214 трлн руб. Это очевидная ошибка бухгалтера маленькой компании, которая подала отчетность, перепутав разряды и написав, скажем, вместо 2.1 млн руб. 214 трлн руб. Журналисты суммировали все подобные выбросы, некритично подойдя к данным, и получили столь искаженный результат.Откуда это знаем мы? Вместе со студентами программы ПАНДАН (http://pandan.eusp.org) мы тоже собрали все данные бухгалтерской отчетности от ФНС и обработали их. Вот что получается, если просуммировать ключевые показатели компаний по годам некритично:
Год Выручка Материалы Труд КапиталПрим: триллионы рублей, расчеты ИПП ЕУ СПб. До 2019 использованы данные Росстата, с 2019 данные ГИР БО ФНС. Выручка — строка 2110 ОКУД, Материалы — строка 4121 ОКУД, Труд — строка 4122 ОКУД, Капитал — основные средства (строка 1150 ОКУД). Только средние и крупные компании, а так же с ин. участием подают сведения о материалах и труде. Благодарим студента ПАНДАНа Алексея Суханова за сбор данных.
2012 138 72 7 51
2013 170 90 8 58
2014 181 98 9 57
2015 205 102 10 69
2016 224 107 11 74
2017 249 122 12 72
2018 221 128 14 76
2019 208 95 10 66
2020 199 96 10 66
2021 249 122 12 73
2022 478 128 14 79
Наши данные до 2021 года гораздо лучше согласуются с данными валового выпуска Росстата в СНС. В 2022 г. мы тоже наблюдаем колоссальный всплеск выручки, но уже не 1268 трлн руб., как РБК (помним, что за 214 трлн ответственна одна ООО «ЮССА»). Почему же у нас различие с РБК в 2022 г.?
🍃 Бухотчетность — живой организм
ФНС предоставляет данные через API, то есть вы можете скачать бухотчетность компании, сделав запрос к их серверу. При этом в ходе выгрузки и работы с данными миллионов файлов мы наблюдали, как служба задним числом меняет отчетность отдельных компаний, видимо, исправляя там ошибки. Мы скачали данные за 2022 г. после РБК, поэтому в наших данных было меньше ошибок, но вот до ООО «ЮССА» еще не добрались.
🤓 О роли экспертного знания
Когда журналисты РБК обратились к экономистам с просьбой прокомментировать квадриллион выручки, эксперты назвали среди причин «скачкообразный рост издержек бизнеса», инфляцию, отрицательные курсовые разницы, изменение поставщиков, рост неучтенной выручки. При этом ни один из экономистов не предложил простое объяснение — ошибка в исходных данных.
На ПАНДАНе мы учим критически относиться к исходных данным, особенно административным, перед любым анализом. Это означает в том числе перепроверку из внешних источников (триангуляцию). Если бы журналисты РБК соотнесли результаты с СНС, материал со столь явной ошибкой не увидел бы свет.
pandan.eusp.org
ПАНДАН
Совместная программа ПАНДАН — прикладной анализ данных — Европейского университета в Санкт-Петербурге и Яндекса
Я перестал лениться и быстренько, за пару часов извлек из реестра каталогов данных информацию по каталогам для публикации данных и сварганил на Github Awesome Opendata Software список из всех вариантов того как сделать свой каталог открытых данных или данных вообще и на базе какого ПО это делают.
ПО каталогов данных разделено по категориям: порталы открытых данных, геокаталоги и репозитории научных данных. А также разделено на продукты с открытым кодом и коммерческие продукты и сервисы.
В списке совсем нет ничего про корпоративные, не открытые данные и не публичные данные. Их и не планируется, они по другому устроены, их надо рассматривать как отдельную категорию ПО. В списке пока нет ПО для публикации микроданных и статистических индикаторов, будут позже. И пока нет других инструментов и стандартов работы с, в первую очередь, открытыми данными, например, Data Packages, DCAT, DCAT AP и так далее.
#opendata #awesomelists #opensource
ПО каталогов данных разделено по категориям: порталы открытых данных, геокаталоги и репозитории научных данных. А также разделено на продукты с открытым кодом и коммерческие продукты и сервисы.
В списке совсем нет ничего про корпоративные, не открытые данные и не публичные данные. Их и не планируется, они по другому устроены, их надо рассматривать как отдельную категорию ПО. В списке пока нет ПО для публикации микроданных и статистических индикаторов, будут позже. И пока нет других инструментов и стандартов работы с, в первую очередь, открытыми данными, например, Data Packages, DCAT, DCAT AP и так далее.
#opendata #awesomelists #opensource
GitHub
GitHub - commondataio/awesome-opendata-software: Awesome list of the software tools related to opendata: data catalogs, ingestion…
Awesome list of the software tools related to opendata: data catalogs, ingestion tools, data prep tools and so on - commondataio/awesome-opendata-software
В рубрике интересных источников данных Wolfram Data Repository [1] каталог из 1041 набора данных от команды Wolfram Research.
Из плюсов есть примеры использования данных прямо в платформе Wolfram и на языке Wolfram Language который является частью Wolfram Alpha.
Из минусов всё то же самое, за пределами их платформы использовать неудобно или невозможно.
Лично мне продукты Wolfram Research с годами нравятся всё меньше из-за их замкнутости на собственную экосистему и невозможностью интегрировать их с более продвинутыми узкотематическими инструментами, но у платформы всё ещё немало пользователей в академической среде и поклонников, так что от репозитория данных польза всё же есть.
P.S. Хотя для меня он скорее пример того как не надо делать каталоги данных.
Ссылки:
[1] https://datarepository.wolframcloud.com
#opendata #openscience #research #wolfram
Из плюсов есть примеры использования данных прямо в платформе Wolfram и на языке Wolfram Language который является частью Wolfram Alpha.
Из минусов всё то же самое, за пределами их платформы использовать неудобно или невозможно.
Лично мне продукты Wolfram Research с годами нравятся всё меньше из-за их замкнутости на собственную экосистему и невозможностью интегрировать их с более продвинутыми узкотематическими инструментами, но у платформы всё ещё немало пользователей в академической среде и поклонников, так что от репозитория данных польза всё же есть.
P.S. Хотя для меня он скорее пример того как не надо делать каталоги данных.
Ссылки:
[1] https://datarepository.wolframcloud.com
#opendata #openscience #research #wolfram
Я, кстати, не могу не поделиться что за время работы над каталогом данных в рамках Open Data Armenia [1] наша команда подготовила уже 28 хорошо описанных задач для тех кто готов помогать создавать открытые данные в Армении. Задачи самые разные, какие-то требуют хорошего знания Армянского языка, но для очень многих достаточно знания английского или русского. Например, в задаче по сбору исторических мест из древности [3] задача в том чтобы проанализировать базу проекта Pleiades [4] и извлечь оттуда данные связанные с историей Армении. Они там точно есть и точно не только те что на нынешней территории страны.
Другие данные по Армении и армянской культуре есть в российских источниках и архивах и в архивах многих стран мира.
Вообще хотелось бы довести число наборов данных в стране хотя бы до 1000, но не хочется набивать портал бессмысленными данными, наоборот, лучше меньше, но с понятным и полезным применением.
Ссылки:
[1] https://data.opendata.am
[2] https://github.com/opendataam/opendatam-tasks/issues
[3] https://github.com/opendataam/opendatam-tasks/issues/30
[4] https://pleiades.stoa.org/
#opendata #armenia #digitalhumanities
Другие данные по Армении и армянской культуре есть в российских источниках и архивах и в архивах многих стран мира.
Вообще хотелось бы довести число наборов данных в стране хотя бы до 1000, но не хочется набивать портал бессмысленными данными, наоборот, лучше меньше, но с понятным и полезным применением.
Ссылки:
[1] https://data.opendata.am
[2] https://github.com/opendataam/opendatam-tasks/issues
[3] https://github.com/opendataam/opendatam-tasks/issues/30
[4] https://pleiades.stoa.org/
#opendata #armenia #digitalhumanities
Forwarded from Если быть точным
Мы хотим делать еще больше исследований. Давайте с нами? Вакансии в «Если быть точным»
В ближайшее время наш проект ждет очередной перезапуск. Число задач и объемы работы вырастут, а это значит, что нам в команду нужны самые разные специалисты – от дизайнеров до разработчиков. Все для того, чтобы изучать и собирать данные про социальные проблемы в России.
Мы будем рады любым предложениям, но в первую очередь напишите нам, если вы:
- дата-журналист/научный комуникатор и любите «социалку»;
- смм-редактор, которому интересны исследования;
- редактор/факт-чекер, который умеет переписывать сложные тексты;
- готовы работать парт-тайм или на гонорарной основе.
Работа удаленная, условия оплаты обсуждаем отдельно с каждым кандидатом. Присылайте CV и мотивационное письмо на почту, в теме письма укажите желаемую роль («автор/редактор/смм-редактор» или «другое», если просто хотите помочь нам): [email protected]
В ближайшее время наш проект ждет очередной перезапуск. Число задач и объемы работы вырастут, а это значит, что нам в команду нужны самые разные специалисты – от дизайнеров до разработчиков. Все для того, чтобы изучать и собирать данные про социальные проблемы в России.
Мы будем рады любым предложениям, но в первую очередь напишите нам, если вы:
- дата-журналист/научный комуникатор и любите «социалку»;
- смм-редактор, которому интересны исследования;
- редактор/факт-чекер, который умеет переписывать сложные тексты;
- готовы работать парт-тайм или на гонорарной основе.
Работа удаленная, условия оплаты обсуждаем отдельно с каждым кандидатом. Присылайте CV и мотивационное письмо на почту, в теме письма укажите желаемую роль («автор/редактор/смм-редактор» или «другое», если просто хотите помочь нам): [email protected]
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
22 июня Архивы Санкт-Петербурга снова откроются на сутки.
22 июня можно будет бесплатно осуществлять поиск по информационным ресурсам архивов (обычно это стоит 77 руб. в сутки) и просматривать цифровые образы с водяными знаками и в низком качестве (spbarchives.ru).
Скачивание цифровых образов без водяных знаков и в хорошем качестве по-прежнему стоит 20 р. за цифровой образ (страницу). Если вам нужные неоцифрованные материалы, то стоимость оцифровки будет составлять ~ 300 руб. за страницу (при себестоимости в 3 руб.).
Но еще больше удивляет (особенно людей, не погруженных в архивную деятельность) - взимание платы за использование собственной техники в читальном зале. Вы можете заказать требуемый источник в читальный зал и сфотографировать его на свою технику, но вам придется оплатить постранично.
По информации Архивного комитета Санкт-Петербурга, в соответствии с законодательством «во всех государственных и муниципальных архивах России взимается постраничная плата за использование своей техники». Это не может не удивлять.
Но даже при необходимости взимания платы, размер оплаты, насколько я поняла, устанавливается архивом или Архивным комитетом, и прейскуранты архивов вызывают большие вопросы.
К сожалению, это не все вопросы и проблемы, которые возникают при попытке собрать «Цифровую библиотеку госфинансов». Есть еще проблема в наличии у Архивных комитетов KPI по пополнению бюджета («не оберешь» граждан - не получишь премию), да и вопрос интеллектуальных прав на купленные цифровые образы и условий их использования тоже вызывает вопросы.
#цифровойархив #архивныйкомитет #открытыеданные #госфинансы
22 июня можно будет бесплатно осуществлять поиск по информационным ресурсам архивов (обычно это стоит 77 руб. в сутки) и просматривать цифровые образы с водяными знаками и в низком качестве (spbarchives.ru).
Скачивание цифровых образов без водяных знаков и в хорошем качестве по-прежнему стоит 20 р. за цифровой образ (страницу). Если вам нужные неоцифрованные материалы, то стоимость оцифровки будет составлять ~ 300 руб. за страницу (при себестоимости в 3 руб.).
Но еще больше удивляет (особенно людей, не погруженных в архивную деятельность) - взимание платы за использование собственной техники в читальном зале. Вы можете заказать требуемый источник в читальный зал и сфотографировать его на свою технику, но вам придется оплатить постранично.
По информации Архивного комитета Санкт-Петербурга, в соответствии с законодательством «во всех государственных и муниципальных архивах России взимается постраничная плата за использование своей техники». Это не может не удивлять.
Но даже при необходимости взимания платы, размер оплаты, насколько я поняла, устанавливается архивом или Архивным комитетом, и прейскуранты архивов вызывают большие вопросы.
К сожалению, это не все вопросы и проблемы, которые возникают при попытке собрать «Цифровую библиотеку госфинансов». Есть еще проблема в наличии у Архивных комитетов KPI по пополнению бюджета («не оберешь» граждан - не получишь премию), да и вопрос интеллектуальных прав на купленные цифровые образы и условий их использования тоже вызывает вопросы.
#цифровойархив #архивныйкомитет #открытыеданные #госфинансы
Forwarded from Open Data Armenia (Valeria Babayan)
[EN] And here are some new inspiring 3D models, this time of Geghard monastery alongside Ani. They are published at the Open Heritage website. Open Heritage 3D is a project dedicated to making primary 3D cultural heritage data open and accessible as well as to ease sharing these data for publishers.
CyArc which led the documentation of both sites is one of the most authoritative in the field of digital culture preservation. Interestingly, Geghard Monastery was immortalized by the high schoolers of the TUMO Center for Creative Technologies during the two-week workshop ran by CyArk.
Feel free to share if you know any other interesting data sources aimed at preserving cultural heritage.
#opendata #armenia #history #architecture
CyArc which led the documentation of both sites is one of the most authoritative in the field of digital culture preservation. Interestingly, Geghard Monastery was immortalized by the high schoolers of the TUMO Center for Creative Technologies during the two-week workshop ran by CyArk.
Feel free to share if you know any other interesting data sources aimed at preserving cultural heritage.
#opendata #armenia #history #architecture
Один из активно обсуждаемых вопросов в современной дата-инженерии о том как можно применить ИИ для решения задач работы с данными, как можно улучшить имеющиеся продукты, что может быть нового и тд. Я в последние месяцы много каких дискуссий послушал на эту тему и, честно говоря, не то чтобы пока впечатлился. Большая часть направлений мысли в том как делать ИИ продукты на данных, а не на том как ИИ помогает в работе с данными. Оно и понятно, большая часть стартапов с ИИ в последнее время думают про продукты для массового потребителя, а ИИ для дата-инженерии - это не массовое, а корпоративное потребление скорее.
Тем не менее тема эта интересная и, на мой взгляд, будет развиваться, хотя и не все идеи кажутся реалистичными. Я собрал пока следующие идеи:
- запросы к базам данных на естественном языке
- запросы на автоматическое построение визуализации на естественном языке
- автоматизация написания SQL запросов или запросов на других языках (text2sql)
- автоматическое проектирование баз данных из ТЗ написанного на естественном языке (вместе с извлечение бизнес логики и тд.)
- автоматическое обнаружение неработающих дашбордов, отсутствующих данных, сбоев в конвейерах данных (Monte Carlo data)
* обогащение данных и метаданных
* генерация идей для аналитики на основе данных
* поиск аномалий, автоматизированный контроль качества данных
Но пока ни одна из этих идей не несёт того критически значимого преимущества после которого можно было бы сказать что какой-то продукт стал резко лучше или новый продукт обходит предыдущие.
#dataengineering #ai #ideas #thoughts
Тем не менее тема эта интересная и, на мой взгляд, будет развиваться, хотя и не все идеи кажутся реалистичными. Я собрал пока следующие идеи:
- запросы к базам данных на естественном языке
- запросы на автоматическое построение визуализации на естественном языке
- автоматизация написания SQL запросов или запросов на других языках (text2sql)
- автоматическое проектирование баз данных из ТЗ написанного на естественном языке (вместе с извлечение бизнес логики и тд.)
- автоматическое обнаружение неработающих дашбордов, отсутствующих данных, сбоев в конвейерах данных (Monte Carlo data)
* обогащение данных и метаданных
* генерация идей для аналитики на основе данных
* поиск аномалий, автоматизированный контроль качества данных
Но пока ни одна из этих идей не несёт того критически значимого преимущества после которого можно было бы сказать что какой-то продукт стал резко лучше или новый продукт обходит предыдущие.
#dataengineering #ai #ideas #thoughts