В рубрике как это устроено у них каталог данных океанографических кампаний Франции [1] публикуемых Ifremer, исследовательским центром Франции по изучению океанов.
Всего более 355 тысяч наборов данных из которых общедоступны чуть менее 21 тысячи и остальные доступны по запросу. Самые ранние датасеты датируются 1909 годом.
Из плюсов;
- большой объём опубликованных наборов данных
- наличие API, хотя и недокументированного
- возможность поиска данных в выбранной географической территории
- свободные лицензии CC-BY на все открытые данные
- данные не только французских кампаний, но и иных финансируемых Францией или полученных от организаций партнеров
Из минусов:
- у датасетов нет DOI, нет постоянных ссылок
- выгрузка даже открытых данных идёт через "корзину", когда ты выбираешь датасеты, оставляешь контактные данные и лишь потом можешь скачать их
Ссылки:
[1] https://donnees-campagnes.flotteoceanographique.fr
#opendata #datasets #data #oceans #france
Всего более 355 тысяч наборов данных из которых общедоступны чуть менее 21 тысячи и остальные доступны по запросу. Самые ранние датасеты датируются 1909 годом.
Из плюсов;
- большой объём опубликованных наборов данных
- наличие API, хотя и недокументированного
- возможность поиска данных в выбранной географической территории
- свободные лицензии CC-BY на все открытые данные
- данные не только французских кампаний, но и иных финансируемых Францией или полученных от организаций партнеров
Из минусов:
- у датасетов нет DOI, нет постоянных ссылок
- выгрузка даже открытых данных идёт через "корзину", когда ты выбираешь датасеты, оставляешь контактные данные и лишь потом можешь скачать их
Ссылки:
[1] https://donnees-campagnes.flotteoceanographique.fr
#opendata #datasets #data #oceans #france
✍4❤2
242 миллиарда токенов, 384 миллиона страниц, 983 тысячи книг на 254 языках в новом наборе данных для машинного обучения Institutional Books 1.0 [1] опубликованном Библиотекой Гарварда на HuggingFace.
Датасет находится в раннем доступе и требует согласится на его использование только в некоммерческих целях.
К нему, также, доступен технический отчет с подробностями [2]. Большая часть книг в этом наборе данных относятся к 19 и 20 векам, 43% всех токенов относятся к английскому языку, также много относящихся к немецкому 17.3%, французскому 14%, итальянскому 4%, латыни 3.19%, испанскому 2.24%, русскому 2.05%.
Ссылки:
[1] https://huggingface.co/datasets/institutional/institutional-books-1.0
[2] https://arxiv.org/abs/2506.08300
#opendata #datasets #data #ai
Датасет находится в раннем доступе и требует согласится на его использование только в некоммерческих целях.
К нему, также, доступен технический отчет с подробностями [2]. Большая часть книг в этом наборе данных относятся к 19 и 20 векам, 43% всех токенов относятся к английскому языку, также много относящихся к немецкому 17.3%, французскому 14%, итальянскому 4%, латыни 3.19%, испанскому 2.24%, русскому 2.05%.
Ссылки:
[1] https://huggingface.co/datasets/institutional/institutional-books-1.0
[2] https://arxiv.org/abs/2506.08300
#opendata #datasets #data #ai
🔥15
Выводят ли боты с искусственным интеллектом культурное наследие из строя? [1] свежий доклад Макла Вайнберга из GLASB e-Lab посвящённый тому что ИИ боты нарушают работу открытых культурных ресурсов.
И это куда серьёзнее чем ранее существовавшие проблемы открытого доступа, теперь ИИ боты напрямую злоупотребляют открытостью и от них отбиваются с помощью многочисленных CDN и иных сервисов блокирующих любое индексирование сайтов и проверяющих доступ к материалам на "человечность" запрашивающего.
Почитать стоит о том что теперь поддержание открытых коллекций стоит существенно дороже и о разных мерах применяемых к ботам, самые радикальные из этих мер - это блокировка по географии, когда блокируются некоторые страны. Например, я знаю довольно много онлайн ресурсов которые более не открываются с IP адресов относимых к России и к Китаю именно по этой причине.
При всех полезных сторонах ИИ, есть реальная угроза того что многие общедоступные культурные ресурсы будут уходить в режим доступа только после авторизации и их доступность будет существенно снижаться.
#opendata #culturalheritage #readings
И это куда серьёзнее чем ранее существовавшие проблемы открытого доступа, теперь ИИ боты напрямую злоупотребляют открытостью и от них отбиваются с помощью многочисленных CDN и иных сервисов блокирующих любое индексирование сайтов и проверяющих доступ к материалам на "человечность" запрашивающего.
Почитать стоит о том что теперь поддержание открытых коллекций стоит существенно дороже и о разных мерах применяемых к ботам, самые радикальные из этих мер - это блокировка по географии, когда блокируются некоторые страны. Например, я знаю довольно много онлайн ресурсов которые более не открываются с IP адресов относимых к России и к Китаю именно по этой причине.
При всех полезных сторонах ИИ, есть реальная угроза того что многие общедоступные культурные ресурсы будут уходить в режим доступа только после авторизации и их доступность будет существенно снижаться.
#opendata #culturalheritage #readings
✍8😱8
Ещё один доступный источник общедоступных данных монитогринга погоды/климата. Инсталляция WIS 2.0 в Кыргызстане [1]. WIS 2.0 это открытый сервис агргегирующий данные из метеостанций страны и отдающий по стандартизированным протоколам OGC. Этот продукт с открытым кодом распространяет Всемирная метеорологическая организация и он развернут уже более чем в 35 странах мира.
Внутри WIS 2.0 используется Pygeoapi, доступно API для получения метаданных и данных наблюдения.
Конкретно вы Кыргызстане данные собираются с 36 метеостанций.
На постсоветском пространстве аналогичные сервисы есть в Казахстане [2] и Российской Федерации [3]
Ссылки:
[1] http://wis2box.meteo.kg/
[2] https://wis2box.kazhydromet.kz/
[3] http://wis2box.mecom.ru
#opendata #openapi #api #geodata #datasets #kyrgyzstan
Внутри WIS 2.0 используется Pygeoapi, доступно API для получения метаданных и данных наблюдения.
Конкретно вы Кыргызстане данные собираются с 36 метеостанций.
На постсоветском пространстве аналогичные сервисы есть в Казахстане [2] и Российской Федерации [3]
Ссылки:
[1] http://wis2box.meteo.kg/
[2] https://wis2box.kazhydromet.kz/
[3] http://wis2box.mecom.ru
#opendata #openapi #api #geodata #datasets #kyrgyzstan
👍5
26-29 июня пройдет V международная летняя школа молодых ученых по исторической информатике [1] где я 29-го числа дистанционно выступлю с докладом Особенности открытого доступа и открытых данных в гуманитарных науках
Я долго думал какую тему туда предложить и буду говорить с акцентом на открытость, а не на ИИ, или на данных вне открытого контура. Вернее про ИИ тоже буду, но в контексте возможностей и рисков закрытия общедоступных культурных ресурсов.
Ссылки:
[1] https://aik.timepad.ru/event/3375051/
#opendata #openaccess
Я долго думал какую тему туда предложить и буду говорить с акцентом на открытость, а не на ИИ, или на данных вне открытого контура. Вернее про ИИ тоже буду, но в контексте возможностей и рисков закрытия общедоступных культурных ресурсов.
Ссылки:
[1] https://aik.timepad.ru/event/3375051/
#opendata #openaccess
aik.timepad.ru
V международная летняя школа молодых ученых по исторической информатике / События на TimePad.ru
Ассоциация исследователей в области исторической информатики (АИК) и Исторический факультет МГУ имени М.В. Ломоносова 26 – 29 июня 2025 г. проводят международную летнюю школу молодых ученых по исторической информатике — «Историческая информатика – 2025».
👍11⚡5❤🔥3
В рубрике как это устроено у них каталоги данных по биоразнообразию на базе типового каталога ALA (Atlas of Livinga Australia) разработанного в Австралии и далее используемое сообществами и органами власти по всему миру [1]. Например, в Австрии [2], Австралии [3], Хорватии [4] и ещё более чем в 10 странах.
На этих порталах публикуются как структурированные данных о биоразнообразии, информация о растениях и животных, так и наборы данных на которых эта база основана.
При этом это полноценный каталог данных, с указанием лицензий, метаданных, с данными в разных форматах и почти всегда с выдачей кода DOI через GBIF или Pangaea.
Это пример отраслевых/тематических/дисциплинарных научных репозиториев данных помогающим в работе исследователям-биологам.
Ссылки:
[1] https://living-atlases.gbif.org
[2] https://collectory.biodiversityatlas.at/datasets
[3] https://collections.ala.org.au/datasets
[4] https://collections-bioatlas.bioportal.hr/datasets?lang=hr
#opendata #datasets #biodiversity
На этих порталах публикуются как структурированные данных о биоразнообразии, информация о растениях и животных, так и наборы данных на которых эта база основана.
При этом это полноценный каталог данных, с указанием лицензий, метаданных, с данными в разных форматах и почти всегда с выдачей кода DOI через GBIF или Pangaea.
Это пример отраслевых/тематических/дисциплинарных научных репозиториев данных помогающим в работе исследователям-биологам.
Ссылки:
[1] https://living-atlases.gbif.org
[2] https://collectory.biodiversityatlas.at/datasets
[3] https://collections.ala.org.au/datasets
[4] https://collections-bioatlas.bioportal.hr/datasets?lang=hr
#opendata #datasets #biodiversity
⚡5👍2
Я ранее писал про российскую базу статистики ЕМИСС и то в каком она состоянии и то что её Росстат и Минцифры закрывают в конце 2025 года. Мы все материалы из ЕМИСС начали архивировать, первичные заархивировали, а когда будут готовы обработанные, то рано или поздно они станут общедоступными.
И вот по поводу ЕМИСС у меня смешанные чувства. С одной стороны это большая база плохих данных, с другой стороны это чуть ли не единственный работавший продукт Росстата/Минцифры с более менее стандартизированным экспортом данных и метаданными.
А для иллюстрации текущего состояния ЕМИСС я приведу Вам некоторые цифры
- заявленное число показателей в ЕМИСС - 8773 (включая архивные), реальное число показателей которые удалось скачать - 6905
- из 6905 показателей лишь 807 имеют значения за 2025 год (около 11.7%) из них 277 показателей имеют значения ТОЛЬКО за 2025 год (около 4%)
- с данными последний раз обновлявшимися за 2024 год всего 1898 показателей (около 27.5% показателей)
- с данными последний раз обновлявшимися за 2023 год всего 1316 показателей (около 19% показателей)
Итого: 41,8% показателей не обновлялись с 2022 года
Ведомства у которых у которых данные не обновлялись это:
- Россельхознадзор (последнее обновление в 2014 г.)
- Роскомнадзор (последнее обновление в 2019 г.
- Росгвардия (последнее обновление в 2021 г.)
При желании это можно проверить на сайте ЕМИСС, пример, показатель Россельхознадзора, там же находятся все остальные.
Подробная раскладка по ведомствам на скриншоте, приведенные там годы - это год последней актуализации временного ряда, а число - это число временных рядов в последний раз обновлённых в этом году. В последней колонке "Доля устаревших" приведена доля временных рядов не обновлявшихся с 2021 года.
Всё это без анализа содержания самих временных рядов, методологии, полноты, без анализа широты их охвата (регионы/города), наличия непустых значений (а там тоже не всё хорошо).
Выводы можно сделать самостоятельно. Но про ЕМИСС можно хотя бы провести такой анализ, а вот про Цифровую аналитическую платформу даже его сделать невозможно.
#opendata #data #statistics #russia
И вот по поводу ЕМИСС у меня смешанные чувства. С одной стороны это большая база плохих данных, с другой стороны это чуть ли не единственный работавший продукт Росстата/Минцифры с более менее стандартизированным экспортом данных и метаданными.
А для иллюстрации текущего состояния ЕМИСС я приведу Вам некоторые цифры
- заявленное число показателей в ЕМИСС - 8773 (включая архивные), реальное число показателей которые удалось скачать - 6905
- из 6905 показателей лишь 807 имеют значения за 2025 год (около 11.7%) из них 277 показателей имеют значения ТОЛЬКО за 2025 год (около 4%)
- с данными последний раз обновлявшимися за 2024 год всего 1898 показателей (около 27.5% показателей)
- с данными последний раз обновлявшимися за 2023 год всего 1316 показателей (около 19% показателей)
Итого: 41,8% показателей не обновлялись с 2022 года
Ведомства у которых у которых данные не обновлялись это:
- Россельхознадзор (последнее обновление в 2014 г.)
- Роскомнадзор (последнее обновление в 2019 г.
- Росгвардия (последнее обновление в 2021 г.)
При желании это можно проверить на сайте ЕМИСС, пример, показатель Россельхознадзора, там же находятся все остальные.
Подробная раскладка по ведомствам на скриншоте, приведенные там годы - это год последней актуализации временного ряда, а число - это число временных рядов в последний раз обновлённых в этом году. В последней колонке "Доля устаревших" приведена доля временных рядов не обновлявшихся с 2021 года.
Всё это без анализа содержания самих временных рядов, методологии, полноты, без анализа широты их охвата (регионы/города), наличия непустых значений (а там тоже не всё хорошо).
Выводы можно сделать самостоятельно. Но про ЕМИСС можно хотя бы провести такой анализ, а вот про Цифровую аналитическую платформу даже его сделать невозможно.
#opendata #data #statistics #russia
✍9👍4👏1😐1
В рубрике открытых российских данных
Цифровой гербарий Московского университета [1] включает более 1 миллиона объектов, фотографий и записей о растениях по всему миру. Копия этой коллекции есть в репозитории GBIF [2] и она доступна в форме открытых данных в форматах аннотированного архива GBIF, EML и CSV файлов.
Он охватывает все постсоветсткие страны и многие страны мира и является одним из крупнейших российских ресурсов открытой науки.
Материалы гербария доступны под лицензией CC-BY
Ссылки:
[1] https://plant.depo.msu.ru/open/public/en
[2] https://www.gbif.org/dataset/902c8fe7-8f38-45b0-854e-c324fed36303
#opendata #russia #msu #herbarium #plants
Цифровой гербарий Московского университета [1] включает более 1 миллиона объектов, фотографий и записей о растениях по всему миру. Копия этой коллекции есть в репозитории GBIF [2] и она доступна в форме открытых данных в форматах аннотированного архива GBIF, EML и CSV файлов.
Он охватывает все постсоветсткие страны и многие страны мира и является одним из крупнейших российских ресурсов открытой науки.
Материалы гербария доступны под лицензией CC-BY
Ссылки:
[1] https://plant.depo.msu.ru/open/public/en
[2] https://www.gbif.org/dataset/902c8fe7-8f38-45b0-854e-c324fed36303
#opendata #russia #msu #herbarium #plants
🔥11⚡4✍4
Любопытная книжка Library Catalogues as Data: Research, Practice and Usage
[1] о том что работа библиотекаря сейчас и работа с библиотеками - это работа с данными. В книге публикации из сектора GLAM (Galleries, Libraries, Archives and Museums) о метаданных, данных и их применении и использовании, в том числе для обучения ИИ. Лично я не уверен что готов отдать за неё 60 или 120 евро (мягкая или твердая обложка), но кто знает, выглядит любопытно.
Ссылки:
[1] https://www.facetpublishing.co.uk/page/detail/library-catalogues-as-data/
#openaccess #glam #libraries #opendata #data
[1] о том что работа библиотекаря сейчас и работа с библиотеками - это работа с данными. В книге публикации из сектора GLAM (Galleries, Libraries, Archives and Museums) о метаданных, данных и их применении и использовании, в том числе для обучения ИИ. Лично я не уверен что готов отдать за неё 60 или 120 евро (мягкая или твердая обложка), но кто знает, выглядит любопытно.
Ссылки:
[1] https://www.facetpublishing.co.uk/page/detail/library-catalogues-as-data/
#openaccess #glam #libraries #opendata #data
👍8⚡4
Вышел отчёт ОЭСР Government at Glance 2025 [1] с обзором состояния и трендов государств членов и кандидатов в ОЭСР по таким темам как бюджетные расходы (дефицит), цифровизация, открытость и многое другое.
Для тех кто следит за публикациями ОЭСР будет не так интересно, поскольку в отчетах приводятся данные прошлых лет, 2022-2024 в данном случае, например, цифры по открытости данных из индекса OURIndex за 2023 год и так далее.
Но отчет будет интересен тем что предпочитает читать слова, а не таблицы.
Там же доступны отчеты по отдельным странам.
Из постсоветских стран в ОЭСР представлены только Латвия, Литва и Эстония.
Лично я эти отчеты читаю по диагонали потому что там только общие оценки и графики, а не разбор конкретных кейсов, такие материалы в других документах, но любопытное встречается.
Например, то что в РФ называют проактивными госуслугами, в терминологии ОЭСР звучит как life events approach to service design and delivery и далеко не во всех развитых странах он существует.
Ссылки:
[1] https://www.oecd.org/en/publications/government-at-a-glance-2025_0efd0bcd-en.html
#opengovernment #opendata #readings #oecd #reports
Для тех кто следит за публикациями ОЭСР будет не так интересно, поскольку в отчетах приводятся данные прошлых лет, 2022-2024 в данном случае, например, цифры по открытости данных из индекса OURIndex за 2023 год и так далее.
Но отчет будет интересен тем что предпочитает читать слова, а не таблицы.
Там же доступны отчеты по отдельным странам.
Из постсоветских стран в ОЭСР представлены только Латвия, Литва и Эстония.
Лично я эти отчеты читаю по диагонали потому что там только общие оценки и графики, а не разбор конкретных кейсов, такие материалы в других документах, но любопытное встречается.
Например, то что в РФ называют проактивными госуслугами, в терминологии ОЭСР звучит как life events approach to service design and delivery и далеко не во всех развитых странах он существует.
Ссылки:
[1] https://www.oecd.org/en/publications/government-at-a-glance-2025_0efd0bcd-en.html
#opengovernment #opendata #readings #oecd #reports
✍4👍2