Похоже что Большая российская энциклопедия на грани закрытия, не могу сказать что мне она когда-либо вызывала симпатию, но, похоже, сотрудников даже не предупреждали что финансирования больше нет. В комментариях к посту очень много критики в адрес руководства.
Похоже что сайт bigenc.ru придётся архивировать.
С одной стороны такова судьба всех классических энциклопедий ибо создавать контент очень дорого.
А с другой стороны, а зачем вообще на неё тратили средства?
Впрочем вангую что судьба всех остальных российских википедиезаменителей будет аналогична.
Любые энциклопедические проекты должны быть открытыми, с открытыми данными, открытым кодом, API, краудсорсингом и _без любой идеологии_.
Людей жалко, конечно.
#wikipedia #bigenc #closeddata #russia
Похоже что сайт bigenc.ru придётся архивировать.
С одной стороны такова судьба всех классических энциклопедий ибо создавать контент очень дорого.
А с другой стороны, а зачем вообще на неё тратили средства?
Впрочем вангую что судьба всех остальных российских википедиезаменителей будет аналогична.
Любые энциклопедические проекты должны быть открытыми, с открытыми данными, открытым кодом, API, краудсорсингом и _без любой идеологии_.
Людей жалко, конечно.
#wikipedia #bigenc #closeddata #russia
Forwarded from Национальный цифровой архив
Велика вероятность закрытия сайта Большой российской энциклопедии (bigenc.ru) 17 июня. Руководство проекта написало об этом сегодня. Наша команда постарается сделать архивную копию на этих выходных. Если у Вас есть копии контента и Вы готовы их передать, мы обязательно добавим их в архив и сделаем материалы общедоступными.
P.S. В который раз приходится сталкиваться с ситуацией необходимости экстренной архивации государственных проектов. Очень печалит что о происходящем ранее не было известно.
#deathwatch #webarchive #bigenc
P.S. В который раз приходится сталкиваться с ситуацией необходимости экстренной архивации государственных проектов. Очень печалит что о происходящем ранее не было известно.
#deathwatch #webarchive #bigenc
Telegram
Большая российская энциклопедия
Обращение редакций портала «Большая российская энциклопедия» к авторам, экспертам и читателям
Уважаемые авторы, рецензенты и читатели портала «Большая российская энциклопедия». Дорогие друзья и коллеги!
Два года назад нашими общими усилиями в сети Интернет…
Уважаемые авторы, рецензенты и читатели портала «Большая российская энциклопедия». Дорогие друзья и коллеги!
Два года назад нашими общими усилиями в сети Интернет…
В продолжение про БРЭ и почему печальный конец проекта был только вопросом времени. Я бы начал с того что вопрос о том почему необходимо поддерживать классические энциклопедические проекты в мире давно не стоит на повестке. В большинстве стран где создавались национальные энциклопедии этот процесс остановился ещё лет 15 назад, если не больше и Вики проекты, в первую очередь Википедия, даже не столько заменили энциклопедии в создании знания, сколько коммодизировали его доступность пусть даже и ценой меньшей достоверности, компенсируемой широтой и актуальностью.
У этого есть много причин, я бы выделил такие главные из них как:
1. Вовлечение широкого числа мотивированных участников в создание общего знания.
2. Понимание у участников того, что всё ими созданное принадлежит человечеству, не закрыто копирайтом и не является собственностью конкретного юр. лица
3. Открытая Вики экосистема: свободные лицензии, открытый код, открытые данные, открытые API и тд.
4. Гибкость, адаптируемость под новые способы работы с данными, авторедактирование, исправление и многое другое.
Для всех кто создавал знания с помощью Mediawiki или Semantic Mediawiki это может показать очевидным. Но не для создателей БРЭ в текущей их онлайн реинкарнации.
К тому как БРЭ создавалось у меня много вопросов, начиная с фундаментальной непрозрачности проекта (поди найди их годовые отчёты, их нет ) и продолжая выбранным форматом создания, но ключевое следующее:
- все материалы в БРЭ закрыты копирайтом. При том что это 100% госфинансирование, при том что в самой энциклопедии используется бесконечное число материалов взятых из первоисточников в CC-BY-NC/CC-BY.
- БРЭ никогда не была открытой средой. Там не было не только свободных лицензий, но и API, экспорта датасетов, открытого кода и вообще ничего
- всё это время чуть ли не единственная мотивация авторов писать туда была оплата за статьи. Денег нет - моментально нет нового контента.
Поэтому даже если БРЭ, по какой-либо, неведомой причине, власти РФ решат спасать то всё что необходимо сделать:
1. Опубликовать все материалы БРЭ под свободной лицензией допускающей свободное использование в любом Вики проекте, конкретно под лицензией CC-BY и в виде открытых данных.
2. Перевести в открытый код весь исходный код используемый в БРЭ.
Если не решат спасать, то сделать надо то же самое.
#government #content #encyclopedy #wiki #data
У этого есть много причин, я бы выделил такие главные из них как:
1. Вовлечение широкого числа мотивированных участников в создание общего знания.
2. Понимание у участников того, что всё ими созданное принадлежит человечеству, не закрыто копирайтом и не является собственностью конкретного юр. лица
3. Открытая Вики экосистема: свободные лицензии, открытый код, открытые данные, открытые API и тд.
4. Гибкость, адаптируемость под новые способы работы с данными, авторедактирование, исправление и многое другое.
Для всех кто создавал знания с помощью Mediawiki или Semantic Mediawiki это может показать очевидным. Но не для создателей БРЭ в текущей их онлайн реинкарнации.
К тому как БРЭ создавалось у меня много вопросов, начиная с фундаментальной непрозрачности проекта (поди найди их годовые отчёты, их нет ) и продолжая выбранным форматом создания, но ключевое следующее:
- все материалы в БРЭ закрыты копирайтом. При том что это 100% госфинансирование, при том что в самой энциклопедии используется бесконечное число материалов взятых из первоисточников в CC-BY-NC/CC-BY.
- БРЭ никогда не была открытой средой. Там не было не только свободных лицензий, но и API, экспорта датасетов, открытого кода и вообще ничего
- всё это время чуть ли не единственная мотивация авторов писать туда была оплата за статьи. Денег нет - моментально нет нового контента.
Поэтому даже если БРЭ, по какой-либо, неведомой причине, власти РФ решат спасать то всё что необходимо сделать:
1. Опубликовать все материалы БРЭ под свободной лицензией допускающей свободное использование в любом Вики проекте, конкретно под лицензией CC-BY и в виде открытых данных.
2. Перевести в открытый код весь исходный код используемый в БРЭ.
Если не решат спасать, то сделать надо то же самое.
#government #content #encyclopedy #wiki #data
Свежий инструмент Amphi для визуальных ETL процессов, с low-code проектированием труб данных (data pipelines) через интерфейс в Jupyter lab
Из плюсов:
- low code
- не cloud-first
- базовый набор для обработки структурированных и неструктурированных данных
- всё можно делать в UI прямо в Jupyter Lab
- открытый код
Из минусов:
- low-code (для кого-то минус)
- не cloud-first (для кого-то минус)
- мало разнообразия в источниках получения данных
- лицензия Elastic, недоопенсорс
Мне чем-то напомнило Apache Nifi, но только отчасти.
Интеграция в Jupyter Lab - хорошо,но пока что и в целом надо приглядется. Продукт явно сделан пока скорее для инвесторов чем для пользователей, но без пользователей и инвестиций не будет.
В целом из разработки дата инструментов мне нравятся не только продукты, но и команды Clickhouse и Duckdb.
Хочется дождаться ETL сделанное по аналогии с Duckdb. Удобным ядром и большим числом хорошо написанных расширений. Какое-то время назад мне казалось что Meltano на эту роль подходит, но с тех пор как они отдали свои публичные ресурсы довольно хреновым маркетологам читать их стало тяжело. Развитие продукта сложно оценивать.
#etl #opensource #datatools
Из плюсов:
- low code
- не cloud-first
- базовый набор для обработки структурированных и неструктурированных данных
- всё можно делать в UI прямо в Jupyter Lab
- открытый код
Из минусов:
- low-code (для кого-то минус)
- не cloud-first (для кого-то минус)
- мало разнообразия в источниках получения данных
- лицензия Elastic, недоопенсорс
Мне чем-то напомнило Apache Nifi, но только отчасти.
Интеграция в Jupyter Lab - хорошо,но пока что и в целом надо приглядется. Продукт явно сделан пока скорее для инвесторов чем для пользователей, но без пользователей и инвестиций не будет.
В целом из разработки дата инструментов мне нравятся не только продукты, но и команды Clickhouse и Duckdb.
Хочется дождаться ETL сделанное по аналогии с Duckdb. Удобным ядром и большим числом хорошо написанных расширений. Какое-то время назад мне казалось что Meltano на эту роль подходит, но с тех пор как они отдали свои публичные ресурсы довольно хреновым маркетологам читать их стало тяжело. Развитие продукта сложно оценивать.
#etl #opensource #datatools
Новый портал с открытыми данными по госконтрактам открылся в Гватемале. Данные и API публикуются по стандарту Open Contracting Data Standard и доступны для всех желающих
#opendata #datasets #opencontracting
#opendata #datasets #opencontracting
В Ведомостях (которые уже совсем не торт) за пэйволом [1] статья о том что Минэкономразвития РФ такие зайки большие молодцы и выпустили циркуляр о том что всем госорганам можно открывать данные для компаний создающие ИИ.
Как человек погруженный в тематику открытых данных очень много лет могу сказать что правильно читать эту новость так:
1. Минэкономразвития продолбало портал data.gov.ru
2. Минэкономразвития не смогло создать новую версию data.gov.ru на Гостехе
3. Министерства продалбывают системное централизованное раскрытие данных и единые стандарты.
4. Методические рекомендации отвратно написаны и давно уже писать их просто некому.
Ссылки:
[1] https://www.vedomosti.ru/technology/articles/2024/06/17/1044118-kompanii-poluchat-otkritie-dannie-vedomstv-dlya-obucheniya-ii
#opendata #russia #closeddata
Как человек погруженный в тематику открытых данных очень много лет могу сказать что правильно читать эту новость так:
1. Минэкономразвития продолбало портал data.gov.ru
2. Минэкономразвития не смогло создать новую версию data.gov.ru на Гостехе
3. Министерства продалбывают системное централизованное раскрытие данных и единые стандарты.
4. Методические рекомендации отвратно написаны и давно уже писать их просто некому.
Ссылки:
[1] https://www.vedomosti.ru/technology/articles/2024/06/17/1044118-kompanii-poluchat-otkritie-dannie-vedomstv-dlya-obucheniya-ii
#opendata #russia #closeddata
Ведомости
Компании получат открытые данные ведомств для обучения ИИ
Общедоступная информация будет размещаться на сайтах госорганов в специальном разделе
Отвлекаясь от темы данных, немного о самоорганизации. Много лет, больше 15 у меня жизнь была организована по принципу zero inbox это когда каждое письмо во входящих было задачей, а далее день начинался с разбора почты. Правило нарушилось после ковида и, с перерывами на небольшие попытки чистить почту, к июню накопилось 1200+ писем.
Сегодня, наконец-то, удалось всё привести в порядок. Ура! Осталось 4 письма, все из которых являются именно задачами.
И, в который раз, я никак не могу упустить вниманием тот факт что до сих пор нигде не видел удобных автоматизированных email assistant'ов. Там даже ИИ необязательно для его эффективности. Но подход должен быть совершенно нестандартным.
1. Все письма которые информационные/рассылки легко идентифицируются их можно и нужно автоматически складывать в отдельную группу и создавать по ним ежесуточный/еженедельный дайджест.
2. Письмам можно автоматически присваивать теги и давать возможность отфильтровывать и группировать по этим тегам.
3. Куча дополнительных метаданных можно автоматически извлекать из писем и присваивать тегами или группировать. Например,
- письма от адресатов которые ранее Вам не писали
- письма от коллег
- наименования компаний из которых пишут отправители
- письма от контрагентов (по списку компаний/доменов)
4. Для гиков должен быть SQL интерфейс для фильтрации почты. Об этом я как-то уже писал
В современном мире быстрых сообщений часто почта выглядит как архаизм/анахронизм/неизбежное зло, но в корпоративном мире она никуда не исчезла и не исчезнет ещё скоро.
#selforg #email #thoughts #ideas
Сегодня, наконец-то, удалось всё привести в порядок. Ура! Осталось 4 письма, все из которых являются именно задачами.
И, в который раз, я никак не могу упустить вниманием тот факт что до сих пор нигде не видел удобных автоматизированных email assistant'ов. Там даже ИИ необязательно для его эффективности. Но подход должен быть совершенно нестандартным.
1. Все письма которые информационные/рассылки легко идентифицируются их можно и нужно автоматически складывать в отдельную группу и создавать по ним ежесуточный/еженедельный дайджест.
2. Письмам можно автоматически присваивать теги и давать возможность отфильтровывать и группировать по этим тегам.
3. Куча дополнительных метаданных можно автоматически извлекать из писем и присваивать тегами или группировать. Например,
- письма от адресатов которые ранее Вам не писали
- письма от коллег
- наименования компаний из которых пишут отправители
- письма от контрагентов (по списку компаний/доменов)
4. Для гиков должен быть SQL интерфейс для фильтрации почты. Об этом я как-то уже писал
В современном мире быстрых сообщений часто почта выглядит как архаизм/анахронизм/неизбежное зло, но в корпоративном мире она никуда не исчезла и не исчезнет ещё скоро.
#selforg #email #thoughts #ideas
В рубрике интересных наборов данных совсем не набор данных, а база UNROCA сведений о торговле обычными вооружениями из отчётов стран покупателей и продавцов оружия. Ведется под эгидой ООН в рамках United Nations Register of Conventional Arms, он и есть UNROCA в сокращении.
Несмотря на то что не все страны такие отчёты публикуют и многие публикуются с задержкой в несколько лет, там можно узнать немало интересного о том какие страны и кому в предверии каких конфликтов поставляли вооружение. Охватывают крупное и малое вооружение, не охватывают дроны и всё нестандартное. Немашиночитаемые отчёты доступны, также, в PDF на сайте ООН.
Несомненно эти данные можно распарсить и создать базу данных и удобные датасеты, а также придать им гораздо более качественную визуализацию. А также использовать в журналистских материалах. Как минимум можно проследить зависимости внешней политики стран и военных поставок.
Главное при их использовании и расследованиях не выйти на самих себя.🙏
#opendata #datasets #un #arms #armscontrol
Несмотря на то что не все страны такие отчёты публикуют и многие публикуются с задержкой в несколько лет, там можно узнать немало интересного о том какие страны и кому в предверии каких конфликтов поставляли вооружение. Охватывают крупное и малое вооружение, не охватывают дроны и всё нестандартное. Немашиночитаемые отчёты доступны, также, в PDF на сайте ООН.
Несомненно эти данные можно распарсить и создать базу данных и удобные датасеты, а также придать им гораздо более качественную визуализацию. А также использовать в журналистских материалах. Как минимум можно проследить зависимости внешней политики стран и военных поставок.
Главное при их использовании и расследованиях не выйти на самих себя.🙏
#opendata #datasets #un #arms #armscontrol
В рубрике как это устроено у них открытые данные из OS Data Hub [1] портала открытых данных и API распространяемых британским Ordnance Survey. У них есть такой забавный термин как free open data, хотя формально open data всегда свободны по доступу. Термин этот имеет природу из того что рядом и на том же портале Ordnance Survey торгуют платными подписками на премиальное API и премиальные датасеты.
Поскольку они де-факто монополисты на геоданные в Великобритании то решения о том что базовые слои карт должны быть общедоступны принимались в 2018 году геопространственной комиссией Пр-ва.
Ссылки:
[1] https://osdatahub.os.uk
#opendata #datasets #uk #data #geodata
Поскольку они де-факто монополисты на геоданные в Великобритании то решения о том что базовые слои карт должны быть общедоступны принимались в 2018 году геопространственной комиссией Пр-ва.
Ссылки:
[1] https://osdatahub.os.uk
#opendata #datasets #uk #data #geodata
Forwarded from Национальный цифровой архив
Текущий статус сохранения материалов Большой российской энциклопедии (БРЭ):
- сохранены 82 228 статей портала old.bigenc.ru, всего 1.4 GB в сжатом виде в виде коллекции HTML файлов
- сохранены 224 556 статей портала bigenc.ru всего 6.9GB в сжатом виде в виде коллекции HTML файлов
- идёт сохранение сайта в формат веб архивации WARC, всего сохранено 425 тысяч файлов (HTML, изображения и видео).
На текущий момент это 35 GB в сжатом виде, ожидаемый итоговый размер архива составит порядка 100-150 GB.
Несмотря на то что судя по последним новостям БРЭ останется в открытом доступе до сентября, архивация продолжится насколько это возможно.
Поскольку архивация контента не является её воспроизведением, все архивные копии материалов будут общедоступны (также как архивы страниц доступны в Интернет Архиве и в проекте Common Crawl).
#webarchival #digitalpreservation #bigenc
- сохранены 82 228 статей портала old.bigenc.ru, всего 1.4 GB в сжатом виде в виде коллекции HTML файлов
- сохранены 224 556 статей портала bigenc.ru всего 6.9GB в сжатом виде в виде коллекции HTML файлов
- идёт сохранение сайта в формат веб архивации WARC, всего сохранено 425 тысяч файлов (HTML, изображения и видео).
На текущий момент это 35 GB в сжатом виде, ожидаемый итоговый размер архива составит порядка 100-150 GB.
Несмотря на то что судя по последним новостям БРЭ останется в открытом доступе до сентября, архивация продолжится насколько это возможно.
Поскольку архивация контента не является её воспроизведением, все архивные копии материалов будут общедоступны (также как архивы страниц доступны в Интернет Архиве и в проекте Common Crawl).
#webarchival #digitalpreservation #bigenc
Telegram
Большая российская энциклопедия
Уважаемые коллеги, пользователи портала!
Компания, обеспечивающая размещение портала «Большая российская энциклопедия» и работу редакционного комплекса в сети Интернет, продлила срок предоставления хостинга до сентября текущего года с учётом обращения Минцифры…
Компания, обеспечивающая размещение портала «Большая российская энциклопедия» и работу редакционного комплекса в сети Интернет, продлила срок предоставления хостинга до сентября текущего года с учётом обращения Минцифры…
В рубрике интересных каталогов данных портал DataOne [1] с данными о о земле, климате и связанными науками, агрегирующий данные из 63 научных репозиториев по этой теме и созданных на его же технологии, доступных как hosted repositories. Большая часть этих порталов созданы университетами и органами власти в США, всего в них более 956 тысяч наборов данных и уникальная возможность поиска датасетов по их геопривязке.
Одна из особенностей платформы в крайне детализированных метаданных по каждому набору, включая структуры таблиц, информацию о геопривязке, темах, и многом другом.
Поддерживается Университетом Калифорнии, не имеет открытого кода, но довольно большое сообщество и открытое API.
Ссылки:
[1] https://www.dataone.org
#opendata #datasets #data #earthsciences
Одна из особенностей платформы в крайне детализированных метаданных по каждому набору, включая структуры таблиц, информацию о геопривязке, темах, и многом другом.
Поддерживается Университетом Калифорнии, не имеет открытого кода, но довольно большое сообщество и открытое API.
Ссылки:
[1] https://www.dataone.org
#opendata #datasets #data #earthsciences
Вышел стандарт DCAT-AP 3.0 по публикации каталогов открытых данных. Это официальный стандарт Евросоюза по публикации данных и он основан на стандарте DCAT 3.0 от W3C.
Изменений там немало, но и не критично. DCAT давно используется всеми основными разработчиками общедоступных каталогов данных и геоданных.
Его отдельные ревизии есть в ЕС, в США, в отдельных европейских странах и ещё в ряде стран мира.
В Армении, если появится государственный портал открытых данных, он тоже будет с поддержкой DCAT. Если не появится, то мы добавим поддержку в Open Data Armenia
В РФ стандарт DCAT ни в какой версии не применялся. В начале инициатив по открытости Минэк РФ придумал свои "методические рекомендации" с раскрытием метаданных в виде CSV файлов. Чтобы облегчить краулинг данных на портал data.gov.ru. Рекомендации эти применяют до сих пор, хотя они и морально и технически устарели, а data.gov.ru более не существует.
Пока же добавлю что DCAT поддерживается в Dateno при индексации каталогов и, в частности, метаданные из порталов на базе ArcGIS Hub собираются именно в формате DCAT.
#opendata #data #standards
Изменений там немало, но и не критично. DCAT давно используется всеми основными разработчиками общедоступных каталогов данных и геоданных.
Его отдельные ревизии есть в ЕС, в США, в отдельных европейских странах и ещё в ряде стран мира.
В Армении, если появится государственный портал открытых данных, он тоже будет с поддержкой DCAT. Если не появится, то мы добавим поддержку в Open Data Armenia
В РФ стандарт DCAT ни в какой версии не применялся. В начале инициатив по открытости Минэк РФ придумал свои "методические рекомендации" с раскрытием метаданных в виде CSV файлов. Чтобы облегчить краулинг данных на портал data.gov.ru. Рекомендации эти применяют до сих пор, хотя они и морально и технически устарели, а data.gov.ru более не существует.
Пока же добавлю что DCAT поддерживается в Dateno при индексации каталогов и, в частности, метаданные из порталов на базе ArcGIS Hub собираются именно в формате DCAT.
#opendata #data #standards
Подборка ссылок на продукты публикации датасетов для API и аналитики:
С открытым кодом:
- SQLite Studio [1] быстро первращает базы SQLite в веб интерфейс. Можно смотреть структуру таблиц и делать запросы. А также есть демо [2]. По ощущениям очень простой и удобный для этой небольшой задачи.
- Datasette [3] хорошо известный в узких кругах продукт, очень быстро превращающий датасеты в веб интерфейс. Умеет в разные данные, разные API, разные интерфейсы и куча расширений. Когда хочется конструктор и разного
- CSVBase [4] простой до безобразия для превращения CSV файлов в API. Внутри всё Python, одновременно и сервис для публикации данных онлайн для тех кто очень хочет делать это за деньги
- APIReady [5] написанный мной 11 лет назад очень простой движок по превращению CSV файлов в API. Честно говоря с той поры я его даже не развивал, просто как демонстрация самой идеи.
- APICrafter [6] тоже написанная мной утилита по публикации API к базам MongoDB. Развитие APIReady и необходимость поскольку MongoDB по умолчанию не давало и не даёт приемлимое API в их Community Server. Только в облачном сервисе есть уже что-то удобное. Всё на Python, управляется развесистыми YAML конфигами которые строятся автоматически на основе просканированных баз данных [7]
Если Вы знаете другие open source инструменты для публикации датасетов, о них можно рассказать в чатике.
А я через какое-то время напишу про то какие есть бесплатные и коммерческие, не open source, онлайн инструменты делиться датасетами.
Ссылки:
[1] https://github.com/frectonz/sqlite-studio
[2] https://sqlite-studio.frectonz.io/
[3] https://datasette.io/
[4] https://github.com/calpaterson/csvbase
[5] https://github.com/ivbeg/apiready
[6] https://github.com/apicrafter/apicrafter
[7] https://github.com/apicrafter/apicrafter/blob/main/examples/rusregions/apicrafter.yml
#opensource #datatools #data #api
С открытым кодом:
- SQLite Studio [1] быстро первращает базы SQLite в веб интерфейс. Можно смотреть структуру таблиц и делать запросы. А также есть демо [2]. По ощущениям очень простой и удобный для этой небольшой задачи.
- Datasette [3] хорошо известный в узких кругах продукт, очень быстро превращающий датасеты в веб интерфейс. Умеет в разные данные, разные API, разные интерфейсы и куча расширений. Когда хочется конструктор и разного
- CSVBase [4] простой до безобразия для превращения CSV файлов в API. Внутри всё Python, одновременно и сервис для публикации данных онлайн для тех кто очень хочет делать это за деньги
- APIReady [5] написанный мной 11 лет назад очень простой движок по превращению CSV файлов в API. Честно говоря с той поры я его даже не развивал, просто как демонстрация самой идеи.
- APICrafter [6] тоже написанная мной утилита по публикации API к базам MongoDB. Развитие APIReady и необходимость поскольку MongoDB по умолчанию не давало и не даёт приемлимое API в их Community Server. Только в облачном сервисе есть уже что-то удобное. Всё на Python, управляется развесистыми YAML конфигами которые строятся автоматически на основе просканированных баз данных [7]
Если Вы знаете другие open source инструменты для публикации датасетов, о них можно рассказать в чатике.
А я через какое-то время напишу про то какие есть бесплатные и коммерческие, не open source, онлайн инструменты делиться датасетами.
Ссылки:
[1] https://github.com/frectonz/sqlite-studio
[2] https://sqlite-studio.frectonz.io/
[3] https://datasette.io/
[4] https://github.com/calpaterson/csvbase
[5] https://github.com/ivbeg/apiready
[6] https://github.com/apicrafter/apicrafter
[7] https://github.com/apicrafter/apicrafter/blob/main/examples/rusregions/apicrafter.yml
#opensource #datatools #data #api
Telegram
Чат к каналу @begtin
Ivan Begtin's chat about data, open data, open gov, forensics and privacy
Читаю статью The Public Interest Internet [1] за авторством Robin Berjon и нахожу это весьма познавательным чтением, достойным быть как примером для эволюции интернета, так и прототипом сценария научной фантастики.
Если кратко, то автор задаётся вопросом как же так получилось что мы оказались в ситуации когда биг техи, де факто, управляют всеми основными интернет процессами, то что де-факто цифровая дипломатия США основана именно на них и какой момент человечество свернула не туда и как это можно было бы исправить через создание Интернета как общей цифровой инфраструктуры, общественного блага или общественного интереса?
Там же в статье весьма показательный блок про Captured Infrastructure когда крупные частные компании контролируют ключевую инфраструктуру и обогащаются за счёт того что они знают о всех остальных гораздо больше чем кто-то ещё на рынке.
Рассуждения очень интересные, не очень реалистичные, но про подумать. А также попробовать представить себе в формате "А что если?"
- А что если... развитие технологий было бы на порядок медленнее, а международного регулирования на порядок оперативнее?
- А что если... крупнейшие операторы цифровой инфраструктуры были бы не из США?
- А что если... цифровые границы были бы гораздо более похожими на реальные, со всеми требованиями и ограничениями по экспорту/импорту и тд. ?
И ещё многое другое.
Ссылки:
[1] https://berjon.com/public-interest-internet/
#readings #internet #publicgood #digitalinfrastructure
Если кратко, то автор задаётся вопросом как же так получилось что мы оказались в ситуации когда биг техи, де факто, управляют всеми основными интернет процессами, то что де-факто цифровая дипломатия США основана именно на них и какой момент человечество свернула не туда и как это можно было бы исправить через создание Интернета как общей цифровой инфраструктуры, общественного блага или общественного интереса?
Там же в статье весьма показательный блок про Captured Infrastructure когда крупные частные компании контролируют ключевую инфраструктуру и обогащаются за счёт того что они знают о всех остальных гораздо больше чем кто-то ещё на рынке.
Рассуждения очень интересные, не очень реалистичные, но про подумать. А также попробовать представить себе в формате "А что если?"
- А что если... развитие технологий было бы на порядок медленнее, а международного регулирования на порядок оперативнее?
- А что если... крупнейшие операторы цифровой инфраструктуры были бы не из США?
- А что если... цифровые границы были бы гораздо более похожими на реальные, со всеми требованиями и ограничениями по экспорту/импорту и тд. ?
И ещё многое другое.
Ссылки:
[1] https://berjon.com/public-interest-internet/
#readings #internet #publicgood #digitalinfrastructure
Robin Berjon
The Public Interest Internet
What if the internet were public interest technology? Is that too wildly speculative? I think not. I am not talking about a utopian project here — a public interest internet would be a glorious imperfect mess and it would be far from problem-free. But while…
В рубрике как это устроено у них новый каталог открытых данных Словакии data.slovensko.sk заменил предыдущий портал data.gov.sk (более недоступен). Новый портал переписали на CSharp и его код доступен [1]. Из его особенностей - это ориентация на SPARQL, доступность возможности работы со SPARQL эндпоинтом, а также то что краулит из 12 каталогов открытых данных страны и подлерживает каталоги датасетов по стандартам DCAT-AP, SPARQL и CKAN API.
Выглядит любопытно, но эта картина была бы неполной если бы:
1. Разработчики не поломали бы все ссылки на data.gov.sk которые были в европейском data.europe.eu где новый портал даже не зарегистрирован, а старый уже недоступен и ссылки "протухли"
2. Нет общедоступной документации API нового каталога
3. Нет экспорта DCAT AP или CKAN API у нового каталога.
В целом очень неаккуратно. Про SPARQL я скажу так, у него и Semantic Web есть очень много сторонников в европейских проектахза госсчёт, но к современной дата инженерии он имеет смутное отношение. Вообще никакого, если честно. Экспорт данных в Parquet, удобное REST API и, может быть, даже GraphQL эндпоинт куда важнее.
Ссылки:
[1] https://github.com/slovak-egov/nkod-portal
#opendata #slovakia #eu #standards #data #datasets
Выглядит любопытно, но эта картина была бы неполной если бы:
1. Разработчики не поломали бы все ссылки на data.gov.sk которые были в европейском data.europe.eu где новый портал даже не зарегистрирован, а старый уже недоступен и ссылки "протухли"
2. Нет общедоступной документации API нового каталога
3. Нет экспорта DCAT AP или CKAN API у нового каталога.
В целом очень неаккуратно. Про SPARQL я скажу так, у него и Semantic Web есть очень много сторонников в европейских проектах
Ссылки:
[1] https://github.com/slovak-egov/nkod-portal
#opendata #slovakia #eu #standards #data #datasets
В рубрике очень больших датасетов (хотя с чем сравнивать😏) проект The Web Data Commons [1] я о нём писал несколько раз, но всегда можно и повториться. Это проект по сбору и извлечению смысловых данных из поискового индекса Common Crawl. Common Crawl - это бесплатная и открытая альтернатива поисковому индексу Гугла и на его основе делают много чего, датасетов, исследований, продуктов.
В данном случае делают датасеты. Из интересного мне:
- датасеты разметки Schema.org [2]
- датасеты и анализ корпуса таблиц [2]
И там же ещё много датасетов на гигабайты и терабайты данных. Областей применения много, коммерческих и не очень.
Ссылки:
[1] https://webdatacommons.org
[2] https://webdatacommons.org/structureddata/schemaorg/
[3] http://webdatacommons.org/structureddata/schemaorgtables/2023/index.html
#opendata #datasets #web #entityrecognition
В данном случае делают датасеты. Из интересного мне:
- датасеты разметки Schema.org [2]
- датасеты и анализ корпуса таблиц [2]
И там же ещё много датасетов на гигабайты и терабайты данных. Областей применения много, коммерческих и не очень.
Ссылки:
[1] https://webdatacommons.org
[2] https://webdatacommons.org/structureddata/schemaorg/
[3] http://webdatacommons.org/structureddata/schemaorgtables/2023/index.html
#opendata #datasets #web #entityrecognition
Где то полтора года назад я писал про то как устроен поиск по данным у Гугла и про ограничения использования разметки из Schema.org. Для тех кто пропустил ту публикацию, расскажу: Schema.org - это стандарт структурированной разметки веб страниц помогающий поисковикам извлекать из веб страниц структурированные разметку о продуктах, статьях, людях , фильмах, книгах и других понятиях. Включая такое понятие как набор данных (Dataset). Саму разметку делают веб-мастера или они встроены в код веб сайта, а поисковая система находит веб страницы и умело их обрабатывает.
Изначально готовили этот стандарт Google, Microsoft и Yandex. Сейчас главный её потребитель это Гугл. Данные этой разметки индексируют, также, другие краулеры и её извлекают из индекса Common Crawl. Я как раз недавно об этом писал.
И всё бы ничего, если бы не один немаловажный факт который прост и неизбежен. Проблема в том что все врут!
Уж не знаю как разметка помогает при SEO оптимизации, но реально всё устроено так что большая часть датасетов не имеет такой структурированной разметки и в том что большая часть того что так размечено, в реальности датасетами не являются. Это какие-то другие концепты/понятия, к данным не относящиеся.
В таблице выборка сайтов в которых есть разметка Dataset. И вот разве они есть на сайтах вроде kakprosto.ru или cbonds.ru ? Совсем нет. Там статьи и другие материалы. И так не только по российским доменам, но и по многим другим.
Из 1.4 миллионов размеченных Datasets в Common Crawl, реально ситуация такова что около 33% мусор, около 33% коммерческие датасеты и оставшиеся 33% данные которые можно скачать. И ещё надо проверять качество их метаданных.
Конечно, реально датасетов больше чем в индексе Common Crawl и индексация веба даст больший охват. Но даже индексация данных по стандартам API CKAN или DCAT работает быстрее и качество метаданных лучше.
#opendata #dateno #data #datasetsx
Изначально готовили этот стандарт Google, Microsoft и Yandex. Сейчас главный её потребитель это Гугл. Данные этой разметки индексируют, также, другие краулеры и её извлекают из индекса Common Crawl. Я как раз недавно об этом писал.
И всё бы ничего, если бы не один немаловажный факт который прост и неизбежен. Проблема в том что все врут!
Уж не знаю как разметка помогает при SEO оптимизации, но реально всё устроено так что большая часть датасетов не имеет такой структурированной разметки и в том что большая часть того что так размечено, в реальности датасетами не являются. Это какие-то другие концепты/понятия, к данным не относящиеся.
В таблице выборка сайтов в которых есть разметка Dataset. И вот разве они есть на сайтах вроде kakprosto.ru или cbonds.ru ? Совсем нет. Там статьи и другие материалы. И так не только по российским доменам, но и по многим другим.
Из 1.4 миллионов размеченных Datasets в Common Crawl, реально ситуация такова что около 33% мусор, около 33% коммерческие датасеты и оставшиеся 33% данные которые можно скачать. И ещё надо проверять качество их метаданных.
Конечно, реально датасетов больше чем в индексе Common Crawl и индексация веба даст больший охват. Но даже индексация данных по стандартам API CKAN или DCAT работает быстрее и качество метаданных лучше.
#opendata #dateno #data #datasetsx
Полезное чтение про данные технологии и не только:
- AI Doesn’t Kill Jobs? Tell That to Freelancers [1] статья в WSJ о том что рынок фрилансеров резко проседает с 2022 года (появления ChatGPT) и у людей делавших рутинную цифровую работу теперь задача найти себе новый заработок.
- AI Is Already Wreaking Havoc on Global Power Systems [2] лонгрид в Блумберг о том как AI влияет на энергопотребление. Большой интерактивный продукт, приятно смотреть. И тема актуальная
- The Rise of Medium Code[3] в блоге Dagster про восхождение среднего кода (medium code). О том что с разработкой ПО не всё так плохо, просто по другому.
- Governing with Artificial Intelligence [4] свежая статья от ОЭСР про госуправление с помощью ИИ. Как раз актуально, много разговоров на эту тему и больше хайпа чем смысла, а тут сжато и с примерами
- How to optimize the systematic review process using AI tools [5] об использовании ИИ для систематического обзора тематических статей/публикаций. Полезно учёным и исследователям в самых разных областях.
Ссылки:
[1] https://www.wsj.com/tech/ai/ai-replace-freelance-jobs-51807bc7
[2] https://www.bloomberg.com/graphics/2024-ai-data-centers-power-grids/
[3] https://dagster.io/blog/the-rise-of-medium-code
[4] https://www.oecd-ilibrary.org/science-and-technology/governing-with-artificial-intelligence_26324bc2-en
[5] https://acamh.onlinelibrary.wiley.com/doi/full/10.1002/jcv2.12234
#readings #software #ai
- AI Doesn’t Kill Jobs? Tell That to Freelancers [1] статья в WSJ о том что рынок фрилансеров резко проседает с 2022 года (появления ChatGPT) и у людей делавших рутинную цифровую работу теперь задача найти себе новый заработок.
- AI Is Already Wreaking Havoc on Global Power Systems [2] лонгрид в Блумберг о том как AI влияет на энергопотребление. Большой интерактивный продукт, приятно смотреть. И тема актуальная
- The Rise of Medium Code[3] в блоге Dagster про восхождение среднего кода (medium code). О том что с разработкой ПО не всё так плохо, просто по другому.
- Governing with Artificial Intelligence [4] свежая статья от ОЭСР про госуправление с помощью ИИ. Как раз актуально, много разговоров на эту тему и больше хайпа чем смысла, а тут сжато и с примерами
- How to optimize the systematic review process using AI tools [5] об использовании ИИ для систематического обзора тематических статей/публикаций. Полезно учёным и исследователям в самых разных областях.
Ссылки:
[1] https://www.wsj.com/tech/ai/ai-replace-freelance-jobs-51807bc7
[2] https://www.bloomberg.com/graphics/2024-ai-data-centers-power-grids/
[3] https://dagster.io/blog/the-rise-of-medium-code
[4] https://www.oecd-ilibrary.org/science-and-technology/governing-with-artificial-intelligence_26324bc2-en
[5] https://acamh.onlinelibrary.wiley.com/doi/full/10.1002/jcv2.12234
#readings #software #ai
WSJ
AI Doesn’t Kill Jobs? Tell That to Freelancers
There’s now data to back up what freelancers have been saying for months