Ivan Begtin
8.09K subscribers
1.99K photos
3 videos
102 files
4.7K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
Forwarded from Рюмочная ИПП
💀 «Выбросы» в бухгалтерской отчетности

Как же журналисты могли ошибиться на почти 1000 трлн руб.? Ответ прост — из-за «выбросов» в данных бухгалтерской отчетности. Если вы отсортируете организации в 2022 г. по выручке, на одном из первых мест будет не Лукойл (выручка 2.9 трлн руб.) или Магнит (2 трлн руб.), а ООО «ЮССА» (ИНН 8601056605) с выручкой в 214 трлн руб. Это очевидная ошибка бухгалтера маленькой компании, которая подала отчетность, перепутав разряды и написав, скажем, вместо 2.1 млн руб. 214 трлн руб. Журналисты суммировали все подобные выбросы, некритично подойдя к данным, и получили столь искаженный результат.

Откуда это знаем мы? Вместе со студентами программы ПАНДАН (http://pandan.eusp.org) мы тоже собрали все данные бухгалтерской отчетности от ФНС и обработали их. Вот что получается, если просуммировать ключевые показатели компаний по годам некритично:

 Год Выручка Материалы Труд Капитал
2012 138 72 7 51
2013 170 90 8 58
2014 181 98 9 57
2015 205 102 10 69
2016 224 107 11 74
2017 249 122 12 72
2018 221 128 14 76
2019 208 95 10 66
2020 199 96 10 66
2021 249 122 12 73
2022 478 128 14 79
Прим: триллионы рублей, расчеты ИПП ЕУ СПб. До 2019 использованы данные Росстата, с 2019 данные ГИР БО ФНС. Выручка — строка 2110 ОКУД, Материалы — строка 4121 ОКУД, Труд — строка 4122 ОКУД, Капитал — основные средства (строка 1150 ОКУД). Только средние и крупные компании, а так же с ин. участием подают сведения о материалах и труде. Благодарим студента ПАНДАНа Алексея Суханова за сбор данных.

Наши данные до 2021 года гораздо лучше согласуются с данными валового выпуска Росстата в СНС. В 2022 г. мы тоже наблюдаем колоссальный всплеск выручки, но уже не 1268 трлн руб., как РБК (помним, что за 214 трлн ответственна одна ООО «ЮССА»). Почему же у нас различие с РБК в 2022 г.?

🍃 Бухотчетность — живой организм
ФНС предоставляет данные через API, то есть вы можете скачать бухотчетность компании, сделав запрос к их серверу. При этом в ходе выгрузки и работы с данными миллионов файлов мы наблюдали, как служба задним числом меняет отчетность отдельных компаний, видимо, исправляя там ошибки. Мы скачали данные за 2022 г. после РБК, поэтому в наших данных было меньше ошибок, но вот до ООО «ЮССА» еще не добрались.

🤓 О роли экспертного знания

Когда журналисты РБК обратились к экономистам с просьбой прокомментировать квадриллион выручки, эксперты назвали среди причин «скачкообразный рост издержек бизнеса», инфляцию, отрицательные курсовые разницы, изменение поставщиков, рост неучтенной выручки. При этом ни один из экономистов не предложил простое объяснение — ошибка в исходных данных.

На ПАНДАНе мы учим критически относиться к исходных данным, особенно административным, перед любым анализом. Это означает в том числе перепроверку из внешних источников (триангуляцию). Если бы журналисты РБК соотнесли результаты с СНС, материал со столь явной ошибкой не увидел бы свет.
Я перестал лениться и быстренько, за пару часов извлек из реестра каталогов данных информацию по каталогам для публикации данных и сварганил на Github Awesome Opendata Software список из всех вариантов того как сделать свой каталог открытых данных или данных вообще и на базе какого ПО это делают.

ПО каталогов данных разделено по категориям: порталы открытых данных, геокаталоги и репозитории научных данных. А также разделено на продукты с открытым кодом и коммерческие продукты и сервисы.

В списке совсем нет ничего про корпоративные, не открытые данные и не публичные данные. Их и не планируется, они по другому устроены, их надо рассматривать как отдельную категорию ПО. В списке пока нет ПО для публикации микроданных и статистических индикаторов, будут позже. И пока нет других инструментов и стандартов работы с, в первую очередь, открытыми данными, например, Data Packages, DCAT, DCAT AP и так далее.


#opendata #awesomelists #opensource
В рубрике интересных источников данных Wolfram Data Repository [1] каталог из 1041 набора данных от команды Wolfram Research.

Из плюсов есть примеры использования данных прямо в платформе Wolfram и на языке Wolfram Language который является частью Wolfram Alpha.

Из минусов всё то же самое, за пределами их платформы использовать неудобно или невозможно.

Лично мне продукты Wolfram Research с годами нравятся всё меньше из-за их замкнутости на собственную экосистему и невозможностью интегрировать их с более продвинутыми узкотематическими инструментами, но у платформы всё ещё немало пользователей в академической среде и поклонников, так что от репозитория данных польза всё же есть.

P.S. Хотя для меня он скорее пример того как не надо делать каталоги данных.

Ссылки:
[1] https://datarepository.wolframcloud.com

#opendata #openscience #research #wolfram
Я, кстати, не могу не поделиться что за время работы над каталогом данных в рамках Open Data Armenia [1] наша команда подготовила уже 28 хорошо описанных задач для тех кто готов помогать создавать открытые данные в Армении. Задачи самые разные, какие-то требуют хорошего знания Армянского языка, но для очень многих достаточно знания английского или русского. Например, в задаче по сбору исторических мест из древности [3] задача в том чтобы проанализировать базу проекта Pleiades [4] и извлечь оттуда данные связанные с историей Армении. Они там точно есть и точно не только те что на нынешней территории страны.

Другие данные по Армении и армянской культуре есть в российских источниках и архивах и в архивах многих стран мира.

Вообще хотелось бы довести число наборов данных в стране хотя бы до 1000, но не хочется набивать портал бессмысленными данными, наоборот, лучше меньше, но с понятным и полезным применением.

Ссылки:
[1] https://data.opendata.am
[2] https://github.com/opendataam/opendatam-tasks/issues
[3] https://github.com/opendataam/opendatam-tasks/issues/30
[4] https://pleiades.stoa.org/

#opendata #armenia #digitalhumanities
Мы хотим делать еще больше исследований. Давайте с нами? Вакансии в «Если быть точным»

В ближайшее время наш проект ждет очередной перезапуск. Число задач и объемы работы вырастут, а это значит, что нам в команду нужны самые разные специалисты – от дизайнеров до разработчиков. Все для того, чтобы изучать и собирать данные про социальные проблемы в России.

Мы будем рады любым предложениям, но в первую очередь напишите нам, если вы:

- дата-журналист/научный комуникатор и любите «социалку»;
- смм-редактор, которому интересны исследования;
- редактор/факт-чекер, который умеет переписывать сложные тексты;
- готовы работать парт-тайм или на гонорарной основе.

Работа удаленная, условия оплаты обсуждаем отдельно с каждым кандидатом. Присылайте CV и мотивационное письмо на почту, в теме письма укажите желаемую роль («автор/редактор/смм-редактор» или «другое», если просто хотите помочь нам): [email protected]
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
22 июня Архивы Санкт-Петербурга снова откроются на сутки.

22 июня можно будет бесплатно осуществлять поиск по информационным ресурсам архивов (обычно это стоит 77 руб. в сутки) и просматривать цифровые образы с водяными знаками и в низком качестве (spbarchives.ru).

Скачивание цифровых образов без водяных знаков и в хорошем качестве по-прежнему стоит 20 р. за цифровой образ (страницу). Если вам нужные неоцифрованные материалы, то стоимость оцифровки будет составлять ~ 300 руб. за страницу (при себестоимости в 3 руб.).

Но еще больше удивляет (особенно людей, не погруженных в архивную деятельность) - взимание платы за использование собственной техники в читальном зале. Вы можете заказать требуемый источник в читальный зал и сфотографировать его на свою технику, но вам придется оплатить постранично.

По информации Архивного комитета Санкт-Петербурга, в соответствии с законодательством «во всех государственных и муниципальных архивах России взимается постраничная плата за использование своей техники». Это не может не удивлять.

Но даже при необходимости взимания платы, размер оплаты, насколько я поняла, устанавливается архивом или Архивным комитетом, и прейскуранты архивов вызывают большие вопросы.

К сожалению, это не все вопросы и проблемы, которые возникают при попытке собрать «Цифровую библиотеку госфинансов». Есть еще проблема в наличии у Архивных комитетов KPI по пополнению бюджета («не оберешь» граждан - не получишь премию), да и вопрос интеллектуальных прав на купленные цифровые образы и условий их использования тоже вызывает вопросы.

#цифровойархив #архивныйкомитет #открытыеданные #госфинансы
Forwarded from Open Data Armenia (Valeria Babayan)
[EN] And here are some new inspiring 3D models, this time of Geghard monastery alongside Ani. They are published at the Open Heritage website. Open Heritage 3D is a project dedicated to making primary 3D cultural heritage data open and accessible as well as to ease sharing these data for publishers.

CyArc which led the documentation of both sites is one of the most authoritative in the field of digital culture preservation. Interestingly, Geghard Monastery was immortalized by the high schoolers of the TUMO Center for Creative Technologies during the two-week workshop ran by CyArk.

Feel free to share if you know any other interesting data sources aimed at preserving cultural heritage.

#opendata #armenia #history #architecture
Один из активно обсуждаемых вопросов в современной дата-инженерии о том как можно применить ИИ для решения задач работы с данными, как можно улучшить имеющиеся продукты, что может быть нового и тд. Я в последние месяцы много каких дискуссий послушал на эту тему и, честно говоря, не то чтобы пока впечатлился. Большая часть направлений мысли в том как делать ИИ продукты на данных, а не на том как ИИ помогает в работе с данными. Оно и понятно, большая часть стартапов с ИИ в последнее время думают про продукты для массового потребителя, а ИИ для дата-инженерии - это не массовое, а корпоративное потребление скорее.

Тем не менее тема эта интересная и, на мой взгляд, будет развиваться, хотя и не все идеи кажутся реалистичными. Я собрал пока следующие идеи:
- запросы к базам данных на естественном языке
- запросы на автоматическое построение визуализации на естественном языке
- автоматизация написания SQL запросов или запросов на других языках (text2sql)
- автоматическое проектирование баз данных из ТЗ написанного на естественном языке (вместе с извлечение бизнес логики и тд.)
- автоматическое обнаружение неработающих дашбордов, отсутствующих данных, сбоев в конвейерах данных (Monte Carlo data)
* обогащение данных и метаданных
* генерация идей для аналитики на основе данных
* поиск аномалий, автоматизированный контроль качества данных

Но пока ни одна из этих идей не несёт того критически значимого преимущества после которого можно было бы сказать что какой-то продукт стал резко лучше или новый продукт обходит предыдущие.

#dataengineering #ai #ideas #thoughts
Forwarded from Эшер II A+
⚡️⚡️⚡️ Депутат Горелкин только что разместил поправки к закону 149-ФЗ от 27 июля 2006 года «о запрете информации». Вводится новая статья 12.3 (с верхним индексом 3, я не знаю как их называть) про регулирование рекомендательных технологий:
https://yangx.top/gdrf_new_feed/109

☝️ Что внутри? Ну а что Антон написать мог? За всё хорошее против всего плохого. Вкратце:

• Пользователь на территории России. Ну, привет ковровое применение.
• Алгоритм должен быть хорошим и ламповым.
• Должна быть форма связи.
• Алгоритм и применяемые данные должны быть опубликованы и прозрачны.
• Ну и конечно, если нет, то блокировка Роскомнадзором.
• Он забыл внести изменения в группу статей 15, блокировать будут прямо по этой статье.
• Вступает в силу с 1-го октября

🔥🔥🔥 ВНЕЗАПНО. У документа есть увесистое Финансово-экономическое обоснование с таблицами и цифрами. WoW!!!

🤷‍♂️ Документ не помечен комитетом и вообще никак в паспорте, поэтому он «пролетел» мимо всех фильтров. Я его «поймал глазами»
Какая прекрасная история в коротком изложении, процитирую дословно Newsru.co.il

Полицейские, бойцы полицейского спецназа и пограничники провели спецоперацию в квартале Джуариш в Рамле в рамках борьбы с преступностью в арабском секторе. В ходе этой операции были демонтированы десятки камер наблюдения, установленных на улицах города криминальными элементами. [1]

Жаль лишь что информации категорически мало, а тут интересны подробности и важен сам по себе факт что организованная преступность на месте не следит: ставит камеры, использует OSINT, а там глядишь и нейросети начнут применять и специальные ИИ инструменты. В самом деле если есть edutech, fintech, govtech, то обязательно будет и crimetech.

Ссылки:
[1] https://txt.newsru.co.il/israel/25jun2023/ramla_police_004.html

#privacy #security #crime #israel
Я долго думал как изложить свою реакцию на "мятеж Пригожина" , после которого все смазанные концовки в кинолентах отходят на второй план и понял что после состояния крайнего censored недоумения у меня остаётся только взгляд со стороны цифровой архивации. Стремительность с которой Роскомнадзор заблокировал связанные с Пригожиным медиа-ресурсы возвращает нас к вопросу о том надо ли архивировать подобные цифровые артефакты вроде РИА ФАН и других потому что они могут в любой момент исчезнуть? Правда, смех вокруг всей этой ситуации в том что Роскомнадзор их заблокировал, а сайты то эти работали за CDN'ом BiZone (IP адрес: 185.163.159.22 у riafan.ru, nevnov.ru и др.), а BiZone - это российская инфобезная компания в подчинении Сбербанка. Так что с этими блокировками вопрос довольно удивительный.

Другой вопрос в этой реакции на "мятеж" со стороны властей в том что реакция быстрая и в том какие цифровые ресурсы надо было архивировать заранее. Всех политиков, формальных или неформальных? Информационные ресурсы всех частных армий ? Усилить архивацию сайтов органов власти?

#digitalpreservation #webarchives #security
Из любопытных инвестиций в мире дата-инженерии, Acryl Data подняли раунд на $21m [1] на свой продукт дата-каталога DataHub и среди анонсированных возможностей обещают разное генеративное ИИ.

Правда обещания пока очень смутные:
- подсказывать релевантные наборы данных
- умно курировать метаданные
- генерировать инсайты без значительных усилий

Звучит очень обще и неопределённо, если честно, но деньги на эти и другие возможности им дали и сам продукт стоит внимания.

Ссылки:
[1] https://www.acryldata.io/blog/a-control-plane-for-data-and-a-new-era-for-acryl

#opensource #datacatalogs
В рубрике интересных открытых данных каталог ресурсов с общедоступными API по стандарту OAI-PHM [1]. Это 6099 репозиториев с публикациями, как правило университетов и академических институтов. OAI-PHM версии 2.0 - это довольно давний стандарт [2] для работы с любыми цифровыми репозиториями контента. Его поддерживают, как ПО для публикации научных статей, так и сервисы и ПО для публикации исследовательских данных.

Наиболее популярные продукты с поддержкой OAI-PHM - это DSpace и EPrints, активно используемые для публикации научных статей в открытом доступе. OAI-PHM поддерживает портал Zenodo [3] и многие другие. Фактически этот интерфейс есть по умолчанию у многих продуктов используемых для публикации цифровых материалов, но не все знают что он есть

Ссылки:
[1] https://www.openarchives.org/Register/BrowseSites
[2] http://www.openarchives.org/OAI/openarchivesprotocol.html
[3] https://developers.zenodo.org

#opendata #datasets #openapi #oai-phm
This media is not supported in your browser
VIEW IN TELEGRAM
Я регулярно рассказываю о том над чем я лично работаю над глобальным поисковиком по данным Common Data Index и могу уже показать демо поиска по датасетам. Пока без дизайна, без карточек датасетов, без ещё многого.

Зато очень быстро, с более чем 3.3 миллионами наборов данных. Причём добавление большего числа наборов данных не проблема.

Общий объём метаданных в поиске 7.5Gb, а сам поисковый индекс занимает 65Gb.

Много работы уходит на стандартизацию данных из разных источников, но это интересная гибридно аналитическая и инженерная работа.

Пока по плану ближе к концу августа будет публичный сервис поиска.

#opendata #datacatalogs #datasearch
Любопытный исследовательский проект ORKG [1] дословно The Open Research Knowledge Graph (ORKG) aims to describe research papers in a structured manner. With the ORKG, papers are easier to find and compare.

А в переводе на русский язык посвящённый структуризации научных публикаций. Обратите внимание, не упрощённое понятное понимание, а именно структуризация. Фактически - это перевод научной статьи в данные/граф знаний с привязкой к Wikidata. Делает его команда TIB – Leibniz Information Centre for Science and Technology которые под руководством Сорена Ауэра, команда которого когда-то создавала DbPedia. Фактически проект создаёт структурированную базу научных статей, задача эта очень непростая, но реалистичная и наукоёмкая.

Да, у них открытое API, точки подключения к SPARQL и много чего открытого.

Ссылки:
[1] https://orkg.org

#opendata #openapi #openscience #knowledge #science
Mosaic [1] симпатичный опенсорсный фреймворк визуализации данных. Визуализации можно настраивать через JS, JSON или YAML, что даёт удобное разнообразие того как с этим работать. А то что это фреймворк даёт возможность удобно встраивать в свои продукты. Выглядит как минимум неплохо, стоит попробовать на реальных данных.

Кроме всего прочего обещают прозрачную интеграцию с DuckDB и поддержку больших датасетов, до миллиардов записей.

Ссылки:
[1] https://uwdata.github.io/mosaic/

#dataviz #opensource #datatools
Для тех кто ненавидит любит придумывать пароли совершенно смешная игра https://neal.fun/password-game/

Для полноты счастья ещё бы автор добавил написание пароля на время. Я остановился на 11м правиле;)

P.S. Хорошо что в реальной жизни я использую несколько паролей от 25 до 35 символов, а не вот это вот всё:)

#security #privacy #fun
Я тут задумался о KPI которые должны/могут быть у поисковика по данным, если рассматривать его как глобальный, причём эти критерии могут существенно как пересекаться так и давать разные направления усилий.

Например, критерий разнообразности. То что данные данные должны быть разных типов: госданные, открытые геоданные, научные данные, микроданные, данные для ML, точки подключения API и тд. Максимально широкий охват данных по типам. Требует поиска каталогов с разными типами данных и их индексации

Или критерий географической полноты, так чтобы поиск позволял найти данные по условно любой страны из условно любой страны, даже маленьких тихоокеанских государств. Здесь надо обыскать порталы всех стран на предмет каталогов данных и уметь извлекать страновую принадлежность у датасетов из общемировых каталогов.

Или критерий масштаба, когда чем больше данных тем лучше. Тогда надо не гоняться за наибольшим числом порталов данных, где может быть даже по 3-5 датасетов, а целенаправленно индексировать вначале крупнейшие. Чем больше каталог тем приоритетнее он должен быть.

Или критерий количественный, когда важно не то сколько наборов данных, а то сколько источников данных. Обогнать все имеющиеся каталоги порталов данных и быть наиболее полным из них, с поиском не только по датасетам, но и просто по метаданным каталога каталогов.

Или критерий полноты возможностей, когда важно то сколько фасетов можно задать в поиске, так чтобы не только по типу каталога или лицензии, но и по стране, территории, научным дисциплинам, темам, макрорегионам, форматам, и так далее.

Или критерий глубины, когда поиск идёт не только по ключевым полям, но и создаются индексы поиска по организациям публикующим данные, по полям данных. Здесь же находится интеграция с другими источниками, например, базами научного цитирования.

Или критерий скорости, так чтобы средний поисковый запрос шёл не более 100 миллисекунд или меньшее или чуть большее время.

И таких критериев ещё немало. Эти, пожалуй, главные. Чем больше делаешь фокус на один, тем меньше времени и возможности уделить остальным. Но какие-то акценты на развитии необходимы, ключевое тут в том кто пользователи и что им нужно.

Я регулярно буду рассказывать про проект Common Data Index, реестр каталогов данных и открытый поисковик по всем доступным открытым данным в мире.

#opendata #datasets #commondataindex