Я, кстати, не могу не отметить что в реестре порталов с данными Common Data Index уже больше порталов данных стран постсоветского пространства чем в datacatalogs.ru. Например, в реестре 37 порталов с данными в Республике Казахстан [1] из которых, правда, 33 являются геопорталами, по большей части на базе ArcGIS. Данные оттуда вполне можно получить, главные ограничения юридические поскольку в ArcGIS не вносят информацию о лицензиях/правах на данные. Впрочем я уже неоднократно писал [2] что с открытыми данными в Казахстане проблема другого рода, по факту data.egov.kz порталом открытых данных не является и его создатели всячески препятствуют использованию этих данных. Зачем они так делают я недоумеваю, странно что негосударственный портал открытых данных Казахстана ещё никто не создал.
Ссылки:
[1] https://registry.commondata.io/country/KZ
[2] https://yangx.top/begtin/4626
#opendata #data #kazakhstan
Ссылки:
[1] https://registry.commondata.io/country/KZ
[2] https://yangx.top/begtin/4626
#opendata #data #kazakhstan
datacatalogs.ru/
Каталог каталогов открытых данных
Поиск и фильтрация каталогов открытых данных
Практически незаметно прошла новость о том что администрация Байдена вернулась к практике публикации информации о посетителях Белого дома [1]. Эта практика была среди инициатив Барака Обамы, но после того как президентом США стал Дональд Трамп эти данные не публиковали. И вот в мае 2023 года данные вновь публикуются. Больших данных там нет, всего лишь 514 тысяч записей логов о посетителях [2], тем не менее это важная практика для обеспечения прозрачности исполнительной власти в целом и лоббизма в частности.
Ссылки:
[1] https://www.whitehouse.gov/briefing-room/disclosures/2021/05/07/biden-harris-administration-reinstates-visitor-log-policy-will-be-first-administration-to-post-records-from-first-full-year-in-office/
[2] https://www.whitehouse.gov/disclosures/visitor-logs/
#opendata #datasets #data #usa
Ссылки:
[1] https://www.whitehouse.gov/briefing-room/disclosures/2021/05/07/biden-harris-administration-reinstates-visitor-log-policy-will-be-first-administration-to-post-records-from-first-full-year-in-office/
[2] https://www.whitehouse.gov/disclosures/visitor-logs/
#opendata #datasets #data #usa
The White House
Biden-Harris Administration Reinstates Visitor Log Policy, Will Be First Administration to Post Records from First Full Year in Office
Today the Biden-Harris Administration posted visitor logs from January 2021. The Biden-Harris Administration will be the first administration to post visitor logs from its first full year in office. Visitor log disclosures will occur on a monthly basis.…
В рубрике больших наборов данных Open Buildings [1] от Google. Набор данных идентификации зданий в странах Глобального Юга: Африка, Латинская Америка и Юго-Восточная Азия. Набор данных относительно велик, 178GB. Работать с ним можно в облаке Google или скачать себе локально его целиком или отдельные сегменты разделённые по геометрии S2 [2]. Кроме того каждому зданию присваиваются Plus codes [3], уникальные идентификаторы используемые в Google Maps.
Это уже третья версия этого набора данных, в ней появилась Латинская Америка и Карибы.
А я напомню что похожий набор данных публикуется Microsoft и охватывает меньше стран, зато есть и развитые страны США, Австралия, Канада в виде отдельных наборов данных и весь мир в качестве единого набора данных [4].
Было бы интересно увидеть сравнения этих наборов данных.
Ссылки:
[1] https://sites.research.google/open-buildings/
[2] https://s2geometry.io/
[3] https://maps.google.com/pluscodes/
[4] https://github.com/microsoft/GlobalMLBuildingFootprints
#opendata #google #microsoft #earth #datasets #data
Это уже третья версия этого набора данных, в ней появилась Латинская Америка и Карибы.
А я напомню что похожий набор данных публикуется Microsoft и охватывает меньше стран, зато есть и развитые страны США, Австралия, Канада в виде отдельных наборов данных и весь мир в качестве единого набора данных [4].
Было бы интересно увидеть сравнения этих наборов данных.
Ссылки:
[1] https://sites.research.google/open-buildings/
[2] https://s2geometry.io/
[3] https://maps.google.com/pluscodes/
[4] https://github.com/microsoft/GlobalMLBuildingFootprints
#opendata #google #microsoft #earth #datasets #data
S2Geometry
S2 Geometry
The s2geometry.io website
В рубрике как это работает у них, портал открытых данных Таиланда data.go.th [1] малоизвестный за пределами англо-читающей среды поскольку, как и в большинстве азиатских стран, почти все материалы на нём и о нём на тайском языке.
Портал включает 9 732 набора данных, сделан на движке управления открытыми данными с открытым кодом CKAN и был бы в целом не очень примечателен если бы не системный подход. Вся инициатива по открытости в Таиланде чётко систематизирована, задокументирована, описана с процессной точки зрения и внедряется как полноценная государственная информационная система, а не какой-то побочный и ненужный продукт. На специальном сайте [2] описано всё что должны делать органы власти по развертыванию своих каталогов данных и публикации наборов данных, что, также, находится на контроле и мониторится.
Кроме того тайские власти разработали инструкцию по публикации метаданных the Data Description Standards or Metadata for Government Data Sets. [3] и даже разработали и опубликовали ПО нескольких расширений для CKAN ckanext-thai_gdc,
ckanext-gdc_agency и др. [4] для публикации их метаданных правильным образом, для учёта, анализа, отслеживания использования данных и так далее.
Ссылки:
[1] https://data.go.th/en/
[2] https://gdhelppage.nso.go.th
[3] https://www.dga.or.th/wp-content/uploads/2021/03/Final_GD-Catalog-Guideline-v.1.0_16032564-3.pdf
[4] https://gitlab.nectec.or.th/opend/installing-ckan/-/blob/master/README.md
#opendata #datasets #thailand #datacatalogs #ckan
Портал включает 9 732 набора данных, сделан на движке управления открытыми данными с открытым кодом CKAN и был бы в целом не очень примечателен если бы не системный подход. Вся инициатива по открытости в Таиланде чётко систематизирована, задокументирована, описана с процессной точки зрения и внедряется как полноценная государственная информационная система, а не какой-то побочный и ненужный продукт. На специальном сайте [2] описано всё что должны делать органы власти по развертыванию своих каталогов данных и публикации наборов данных, что, также, находится на контроле и мониторится.
Кроме того тайские власти разработали инструкцию по публикации метаданных the Data Description Standards or Metadata for Government Data Sets. [3] и даже разработали и опубликовали ПО нескольких расширений для CKAN ckanext-thai_gdc,
ckanext-gdc_agency и др. [4] для публикации их метаданных правильным образом, для учёта, анализа, отслеживания использования данных и так далее.
Ссылки:
[1] https://data.go.th/en/
[2] https://gdhelppage.nso.go.th
[3] https://www.dga.or.th/wp-content/uploads/2021/03/Final_GD-Catalog-Guideline-v.1.0_16032564-3.pdf
[4] https://gitlab.nectec.or.th/opend/installing-ckan/-/blob/master/README.md
#opendata #datasets #thailand #datacatalogs #ckan
Мне бы хотелось что-то сказать про хоть что-то позитивное в части доступности данных в России, но из речи Путина на конференции по Квантовым вычислениям и из анонса Национального проекта "Экономика данных" [1] у меня весьма удручённое впечатление. В выступлении ничего не прозвучало про открытость государства, доступность данных, регулирование в сторону открытости, зато много что звучало про "суверенность" данных, технологий и тд. Слова открытость и прозрачность в последние годы начисто пропали из речей федеральных политиков, в этом смысле ничего не поменялось, лишь подтвердилось.
Что можно сказать:
1. Явный акцент на экономику данных без открытости - это "игра" в сторону крупных корпораций собирающих данные и договаривающихся с гос-вом по использованию персональных данных граждан и наоборот всё больший сбор информации о гражданах государством через корпорации. Помяните моё слово, так и будет в ближайшие годы.
2. То же самое с квантовыми вычислениями. Это не про малый и средний бизнес, а про российские аналоги Дзайбацу (полу-семейных финансово-промышленных конгломератов).
3. В чём будет "суверенность" работы с данными можно предполагать в раздаче особо крупных субсидий на строительство и развитие ЦОДов и российских систем хранения данных, потому что без них всё это, скажем так, не полетит.
4. Про суверенные протоколы и стандарты я бы много чего сказал, но ограничусь тем что более менее неплохо переводили международные стандарты. Разработка своих стандартов, серьёзно? Кем? Впрочем пока даже непонятно о чём речь.
5. Развитые страны достаточно давно уже стремительно уходят от риторики экономики данных и переходят к риторике защиты прав граждан от злоупотребления их персональными данными и к открытости данных государств и корпораций для общественного блага и решения глобальных проблем. Пожалуй, худшее что было в это речи, то что ничего подобного не упоминалось. Есть много международных инициатив data for good, ai for good и тд.
Итого, это была речь не для граждан и не для малого среднего бизнеса, а для бизнес-крупняка, финансово-промышленных конгломератов, о том что государство делает специальный национальный проект чтобы "дружить" с ними ещё лучше и больше.
Как-то так.
Ссылки:
[1] https://yangx.top/mintsifry/1908
#data #russia #regulation #thoughts
Что можно сказать:
1. Явный акцент на экономику данных без открытости - это "игра" в сторону крупных корпораций собирающих данные и договаривающихся с гос-вом по использованию персональных данных граждан и наоборот всё больший сбор информации о гражданах государством через корпорации. Помяните моё слово, так и будет в ближайшие годы.
2. То же самое с квантовыми вычислениями. Это не про малый и средний бизнес, а про российские аналоги Дзайбацу (полу-семейных финансово-промышленных конгломератов).
3. В чём будет "суверенность" работы с данными можно предполагать в раздаче особо крупных субсидий на строительство и развитие ЦОДов и российских систем хранения данных, потому что без них всё это, скажем так, не полетит.
4. Про суверенные протоколы и стандарты я бы много чего сказал, но ограничусь тем что более менее неплохо переводили международные стандарты. Разработка своих стандартов, серьёзно? Кем? Впрочем пока даже непонятно о чём речь.
5. Развитые страны достаточно давно уже стремительно уходят от риторики экономики данных и переходят к риторике защиты прав граждан от злоупотребления их персональными данными и к открытости данных государств и корпораций для общественного блага и решения глобальных проблем. Пожалуй, худшее что было в это речи, то что ничего подобного не упоминалось. Есть много международных инициатив data for good, ai for good и тд.
Итого, это была речь не для граждан и не для малого среднего бизнеса, а для бизнес-крупняка, финансово-промышленных конгломератов, о том что государство делает специальный национальный проект чтобы "дружить" с ними ещё лучше и больше.
Как-то так.
Ссылки:
[1] https://yangx.top/mintsifry/1908
#data #russia #regulation #thoughts
Telegram
Минцифры России
🌐 В России появится новый нацпроект — «Экономика данных»
Национальный проект «Экономика данных» подготовят в течение года. Он будет рассчитан до 2030 года. Об этом сообщил Президент России Владимир Путин в ходе пленарного заседания форума будущих технологий…
Национальный проект «Экономика данных» подготовят в течение года. Он будет рассчитан до 2030 года. Об этом сообщил Президент России Владимир Путин в ходе пленарного заседания форума будущих технологий…
В продолжение про Национальный проект "Экономика данных" я не могу не напомнить про мой текст 2019 года Национальные проекты или бег по кругу [1] о том что что с точки зрения прозрачности государства и открытости расходов и результатов хуже нацпроектов только последующие за ними "инициативы социально-экономического развития". В 2021 году я обновлял таблицу сравнения разных госинициатив за последние 20 лет и из этой таблицы всё довольно очевидно.
Также в 2019 году я публиковал колонку в РБК Информационный барьер: как нацпроекты сделали бюджет менее прозрачным [2] в котором есть ещё и некоторые "технические нюансы" изменений в бюджетной росписи и отчетности сделавшие процесс ещё менее открытым.
Если кратко, то так:
1. Все отчетные сведения по формированию и исполнению нацпроектов закрыты для граждан в отличие от того что когда-то было для ФЦП, Госпрограмм и тд.
2. Почти вся публичная активность вокруг нац. проектов - PR. Содержания там минимум.
3. До закрытия реестра субсидий хотя бы частично информацию можно было собирать оттуда и из реестра госконтрактов. Сейчас только из реестра госконтрактов, в ограниченном объёме потому что не всё там контракты
4. Это не ошибка, не недосмотр, а целенаправленная политика по снижению прозрачности Правительства РФ в целом.
5. Говорить про эффективность нац проектов бессмысленно, до тех пор пока внутренние системы сбора показателей не будут раскрыты.
Ссылки:
[1] https://begtin.tech/natsional-nye-proekty-ili-beg-po-krugu/
[2] https://www.rbc.ru/opinions/economics/20/09/2019/5d81e9f99a7947a59b1f7cea
#government #spending #russia
Также в 2019 году я публиковал колонку в РБК Информационный барьер: как нацпроекты сделали бюджет менее прозрачным [2] в котором есть ещё и некоторые "технические нюансы" изменений в бюджетной росписи и отчетности сделавшие процесс ещё менее открытым.
Если кратко, то так:
1. Все отчетные сведения по формированию и исполнению нацпроектов закрыты для граждан в отличие от того что когда-то было для ФЦП, Госпрограмм и тд.
2. Почти вся публичная активность вокруг нац. проектов - PR. Содержания там минимум.
3. До закрытия реестра субсидий хотя бы частично информацию можно было собирать оттуда и из реестра госконтрактов. Сейчас только из реестра госконтрактов, в ограниченном объёме потому что не всё там контракты
4. Это не ошибка, не недосмотр, а целенаправленная политика по снижению прозрачности Правительства РФ в целом.
5. Говорить про эффективность нац проектов бессмысленно, до тех пор пока внутренние системы сбора показателей не будут раскрыты.
Ссылки:
[1] https://begtin.tech/natsional-nye-proekty-ili-beg-po-krugu/
[2] https://www.rbc.ru/opinions/economics/20/09/2019/5d81e9f99a7947a59b1f7cea
#government #spending #russia
Я как и почти все регулярно смотрю социальную фантастику вроде Черного зеркала и вижу много интересных тем будущего, но также вижу и дефицит сюжетов связанных с изменением технологий и отношения общества к ним, в попытке продумать альтернативы я сделал следующие наброски сеттингов будущего в которые можно поместить сюжеты.
Аккредитованный программист
Мир в котором произошли несколько масштабных катастроф из-за ошибок программистов. Все цифровые компании подлежат обязательной аккредитации, проверкам и аудиту. Программисты приравнены к врачам, должны проходить обязательное обучение, аналог ординатуры, допуски к работе над проектами по категориям. Программные ошибки могут быть основанием для привлечения к уголовной ответственности. Любое неаккредитованное программирование преследуется.
Авторов больше нет
Мир в котором авторское право запрещено как и любая форма владения интеллектуальной собственностью. Признаётся только имущественное право на физические объекты и запрещено владеть правами на книги, фильмы, программы, тексты статей и тд. Все произведения кроме опасных принадлежат человечеству, а опасные принадлежат государствам. Сюжет может быть построен на нищенствующих писателях и фотографах и на том что корпорации создают сверхзащищённые хранилища результатов разработок и придумывают как делать продукты чтобы никто не смог их воспроизвести.
Учёт виртуальных убийц
Государства всерьёз начинают бороться с насилием в компьютерных играх, вводятся обязательные требования по идентификации игроков для любых игр и обязательном предоставлении информации о том сколько игрок тратит времени на игру, Информацию игрового профиля могут получить правоохранительные органы для профилактики, проверить работодатели при трудоустройстве и в других ситуациях. Сюжет может быть построен на полицейском обходе игроков компьютерных игр и задержании за "виртуальные убийства".
#thoughts
Аккредитованный программист
Мир в котором произошли несколько масштабных катастроф из-за ошибок программистов. Все цифровые компании подлежат обязательной аккредитации, проверкам и аудиту. Программисты приравнены к врачам, должны проходить обязательное обучение, аналог ординатуры, допуски к работе над проектами по категориям. Программные ошибки могут быть основанием для привлечения к уголовной ответственности. Любое неаккредитованное программирование преследуется.
Авторов больше нет
Мир в котором авторское право запрещено как и любая форма владения интеллектуальной собственностью. Признаётся только имущественное право на физические объекты и запрещено владеть правами на книги, фильмы, программы, тексты статей и тд. Все произведения кроме опасных принадлежат человечеству, а опасные принадлежат государствам. Сюжет может быть построен на нищенствующих писателях и фотографах и на том что корпорации создают сверхзащищённые хранилища результатов разработок и придумывают как делать продукты чтобы никто не смог их воспроизвести.
Учёт виртуальных убийц
Государства всерьёз начинают бороться с насилием в компьютерных играх, вводятся обязательные требования по идентификации игроков для любых игр и обязательном предоставлении информации о том сколько игрок тратит времени на игру, Информацию игрового профиля могут получить правоохранительные органы для профилактики, проверить работодатели при трудоустройстве и в других ситуациях. Сюжет может быть построен на полицейском обходе игроков компьютерных игр и задержании за "виртуальные убийства".
#thoughts
Я регулярно пишу про то как устроена публикация научных данных в мире, напомню о том как она сейчас устроена в России.
В отличие от многих развитых и развивающихся стран в России отсутствует национальный репозиторий/каталог научных данных по аналогии с Zenodo (EU), ScienceDb (China) и многими другими. Впрочем аналогичная ситуация со всеми результатами научных исследований, статьями, диссертациями, конференциями и т.д., отсутствует централизованная система поиска по ним.
В то же время если не у всех, то у многих университетов и исследовательских центров есть порталы научной публикации, как правило они построены на базе DSpace, реже других видах ПО, но почти всегда open source. Ещё реже это какие-то собственные разработки или какие-то отдельные платформы.
Относительно недавно я упоминал 4 таких репозитория [1] в котором есть явное указание на наборы данных. Но, конечно, они не единственные. К системе научного раскрытия данных можно отнести систему ЕСИМО [2], но она относится не к институциональным, а скорее к функциональным системам публикации данных. Наборы данных из ЕСИМО плохо индексируются поисковиками, у них отсутствуют уникальные идентификаторы типа handle или DOI, даже просто прямые пермалинки отсутствуют.
В то же время, часть научных наборов данных рассеяны и не систематизированы по каталогам публикаций университетов, всё те же инсталляции DSpace,
Например, есть вот такой набор данных в репозитории СПбГУ [3] или вот такой [4], их можно найти вперемешку со статьями с ключевым словом "Dataset" [5], но в отдельную коллекцию или фильтр они не выделены. При том что внутри системы они достаточно чётко классифицированы по типу "dc:dataset", но фильтр по типу контента в этом репозитории не выставлен поэтому одним кликом их не отфильтровать. Надо выгружать все меданные с портала и искать уже по ним.
А иногда и даже тип контента указан недостаточно. К примеру, публикация в Электронном архиве УГЛТУ [6] включает данные в Excel файле, но тип её "Book" или же публикации данных Тихоокеанского океанологического института им. В.И. Ильичева выделены в специальную коллекцию Research data [7], но сами публикации имеют тип "Article".
Всё это о том что, по факту, скрытый пласт публикуемых научных данных в России далеко не нулевой, но из-за того что нет систематизации их публикации, то и находить их сложно. Фактически, делать это можно более-менее точно лишь по типам публикуемых файлов относящихся к данным.
В мире такой методической работой по публикации научных данных занимаются, или местные академии наук (Китай), или правительства/министерства науки (ЕС, Аргентина, США и др) и организации вроде Research Data Alliance в части систематизации метаданных и разработки стандартов.
И это же, кстати, то что можно отнести к базовой цифровой научной инфраструктуре. Когда, де факто, государства напрямую или через субсидии научным институтам создают инфраструктуру распространения научных знаний, упрощая учёным популяризацию их работ и облегчая доступ к данным сделанных другими.
Ссылки:
[1] https://yangx.top/begtin/4912
[2] http://portal.esimo.ru/portal/
[3] https://dspace.spbu.ru/handle/11701/19623
[4] https://dspace.spbu.ru/handle/11701/17279
[5] https://dspace.spbu.ru/simple-search?query=Dataset+
[6] https://elar.usfeu.ru/handle/123456789/3059?locale=en
[7] https://data.poi.dvo.ru:8443/jspui/handle/123456789/13
#opendata #openresearch #openaccess #russia #datasets
В отличие от многих развитых и развивающихся стран в России отсутствует национальный репозиторий/каталог научных данных по аналогии с Zenodo (EU), ScienceDb (China) и многими другими. Впрочем аналогичная ситуация со всеми результатами научных исследований, статьями, диссертациями, конференциями и т.д., отсутствует централизованная система поиска по ним.
В то же время если не у всех, то у многих университетов и исследовательских центров есть порталы научной публикации, как правило они построены на базе DSpace, реже других видах ПО, но почти всегда open source. Ещё реже это какие-то собственные разработки или какие-то отдельные платформы.
Относительно недавно я упоминал 4 таких репозитория [1] в котором есть явное указание на наборы данных. Но, конечно, они не единственные. К системе научного раскрытия данных можно отнести систему ЕСИМО [2], но она относится не к институциональным, а скорее к функциональным системам публикации данных. Наборы данных из ЕСИМО плохо индексируются поисковиками, у них отсутствуют уникальные идентификаторы типа handle или DOI, даже просто прямые пермалинки отсутствуют.
В то же время, часть научных наборов данных рассеяны и не систематизированы по каталогам публикаций университетов, всё те же инсталляции DSpace,
Например, есть вот такой набор данных в репозитории СПбГУ [3] или вот такой [4], их можно найти вперемешку со статьями с ключевым словом "Dataset" [5], но в отдельную коллекцию или фильтр они не выделены. При том что внутри системы они достаточно чётко классифицированы по типу "dc:dataset", но фильтр по типу контента в этом репозитории не выставлен поэтому одним кликом их не отфильтровать. Надо выгружать все меданные с портала и искать уже по ним.
А иногда и даже тип контента указан недостаточно. К примеру, публикация в Электронном архиве УГЛТУ [6] включает данные в Excel файле, но тип её "Book" или же публикации данных Тихоокеанского океанологического института им. В.И. Ильичева выделены в специальную коллекцию Research data [7], но сами публикации имеют тип "Article".
Всё это о том что, по факту, скрытый пласт публикуемых научных данных в России далеко не нулевой, но из-за того что нет систематизации их публикации, то и находить их сложно. Фактически, делать это можно более-менее точно лишь по типам публикуемых файлов относящихся к данным.
В мире такой методической работой по публикации научных данных занимаются, или местные академии наук (Китай), или правительства/министерства науки (ЕС, Аргентина, США и др) и организации вроде Research Data Alliance в части систематизации метаданных и разработки стандартов.
И это же, кстати, то что можно отнести к базовой цифровой научной инфраструктуре. Когда, де факто, государства напрямую или через субсидии научным институтам создают инфраструктуру распространения научных знаний, упрощая учёным популяризацию их работ и облегчая доступ к данным сделанных другими.
Ссылки:
[1] https://yangx.top/begtin/4912
[2] http://portal.esimo.ru/portal/
[3] https://dspace.spbu.ru/handle/11701/19623
[4] https://dspace.spbu.ru/handle/11701/17279
[5] https://dspace.spbu.ru/simple-search?query=Dataset+
[6] https://elar.usfeu.ru/handle/123456789/3059?locale=en
[7] https://data.poi.dvo.ru:8443/jspui/handle/123456789/13
#opendata #openresearch #openaccess #russia #datasets
В рубрике как это работает у них польская платформа для медицинских исследований PPMR [1] включает множество открытых реестров публикаций, тезисов, исследователей, лабораторий, исследовательских подразделений, патентов, инфраструктуры и, конечно же, исследовательских данных коих там 407 наборов данных. Предоставляют API на базе REST API, GraphQL и OAI-PMH. Работает на базе ПО Omega-PSIR [2] разработанного Варшавским университетом и используемое более чем 40 научными институтами в Польше. Например, тем же Варшавским университетом [3].
Ссылки:
[1] https://ppm.edu.pl
[2] https://www.omegapsir.io/
[3] https://repo.pw.edu.pl
#opendata #datasets #openaccess #openresearch #poland
Ссылки:
[1] https://ppm.edu.pl
[2] https://www.omegapsir.io/
[3] https://repo.pw.edu.pl
#opendata #datasets #openaccess #openresearch #poland
В рубрике интересного чтения про данные и ИИ:
- X.AI [1] свежеаносированный стартап Элона Маска по ИИ. Главным образом пока можно судить по составу команды, состав выглядит впечатляюще, посмотрим какие будут результаты. Об этом многие уже написали, так что я не буду вдаваться в подробности, подождём результаты.
- Голливудские актёры бастуют против применения образов созданных ИИ [2] по моему их применение неизбежно, посмотрим как долго продлится это противостояние.
- LINCE-ZERO [3] свежая языковая модель для испанского языка. Создано стартапом Clibrain, Лицензия Apache 2.0
- OpenMetadata 1.1 [4] новая версия корпоративного каталога данных, из интересного поддержка MongoDB. Надо посмотреть насколько там всё хорошо с этим.
- VulcanSQL [5] фреймворк по превращению SQL запросов в API. Интересная штука, полезная для многих задач
Ссылки:
[1] https://x.ai
[2] https://www.bbc.com/news/entertainment-arts-66196357
[3] https://huggingface.co/clibrain/lince-zero
[4] https://blog.open-metadata.org/openmetadata-1-1-0-release-97c1fb603bcf
[5] https://github.com/Canner/vulcan-sql
#data #datatools #ai #opensource
- X.AI [1] свежеаносированный стартап Элона Маска по ИИ. Главным образом пока можно судить по составу команды, состав выглядит впечатляюще, посмотрим какие будут результаты. Об этом многие уже написали, так что я не буду вдаваться в подробности, подождём результаты.
- Голливудские актёры бастуют против применения образов созданных ИИ [2] по моему их применение неизбежно, посмотрим как долго продлится это противостояние.
- LINCE-ZERO [3] свежая языковая модель для испанского языка. Создано стартапом Clibrain, Лицензия Apache 2.0
- OpenMetadata 1.1 [4] новая версия корпоративного каталога данных, из интересного поддержка MongoDB. Надо посмотреть насколько там всё хорошо с этим.
- VulcanSQL [5] фреймворк по превращению SQL запросов в API. Интересная штука, полезная для многих задач
Ссылки:
[1] https://x.ai
[2] https://www.bbc.com/news/entertainment-arts-66196357
[3] https://huggingface.co/clibrain/lince-zero
[4] https://blog.open-metadata.org/openmetadata-1-1-0-release-97c1fb603bcf
[5] https://github.com/Canner/vulcan-sql
#data #datatools #ai #opensource
x.ai
xAI
xAI is an AI company with the mission of advancing scientific discovery and gaining a deeper understanding of our universe.
К вопросу о каталогах научных данных, я писал про многие инициативы, а про одну всё не упоминал. В научной среде существуют продукты которые называются CRIS (Current Research Information System) которые также называют RIMS (Research Information Management System) [1].
В отличие от систем публикации статей или каталогов научных данных эти системы создаются для учёта всей научной деятельности научной организации/отрасли (научной дисциплины) или страны. Например, в CRIS вносятся данные по исследовательским центрам, исследователям, научным публикациям, данным, лабораториям, оборудованиям и так далее.
Такие системы могут быть как внутренними, так и открытыми. В последние годы эти системы почти все являются открытыми, или по большей части открытыми, но есть они далеко не у всех исследовательских центров и университетов, но их становится всё больше. Большая их часть создаётся на базе примерно десятка коммерческих продуктов и некоторого числа продуктов с открытым кодом.
Для университетов у которых есть такие системы, публикация данных является частью таких систем.
Реестр таких систем ведёт НКО euroCRIS [2] существующая при поддержке Евросоюза, этот реестр называется DRIS [3], там 1387 репозиториев по всему миру, большая часть из которых находятся в Индии и Норвегии, но, в принципе, рассеяны по всему миру.
Данные из систем CRIS собираются в глобальные агрегаторы такие как OpenAIRE, для чего разработан стандарт CERIF [4] для описания метаданных и для их предоставления через REST API, а у OpenAIRE есть ещё и подробное руководство для работы CRIS систем [5].
Большая часть CRIS систем - это университетские системы, но есть и крупные национальные CRIS системы в: Австралии, Испании, Финляндии и многих других странах. В реестре DRIS упомянуто 24 такие системы национального уровня, о каждой из них можно рассказывать долго и по отдельности.
Так вот CRIS системы можно также рассматривать как каталоги открытых научных данных, с оговоркой что данные там не приоритет, а скорее сопутствующий результат, а основное - это функции предоставления информации о всех результатах и инструментах исследований.
И, напоследок, можно посмотреть как это устроено на примерах националных CRIS систем, в Бразилии BrCRIS [6], в Словакии [7], в Латвии [8], в Норвегии [9].
Ссылки:
[1] https://en.wikipedia.org/wiki/Current_research_information_system
[2] https://eurocris.org/
[3] https://dspacecris.eurocris.org/cris/explore/dris
[4] https://eurocris.org/services/main-features-cerif
[5] https://guidelines.openaire.eu/en/latest/cris/index.html
[6] https://brcris.ibict.br
[7] https://www.skcris.sk/portal/
[8] https://sciencelatvia.lv
[9] https://www.cristin.no/
#openaccess #openresearch #opendata #research
В отличие от систем публикации статей или каталогов научных данных эти системы создаются для учёта всей научной деятельности научной организации/отрасли (научной дисциплины) или страны. Например, в CRIS вносятся данные по исследовательским центрам, исследователям, научным публикациям, данным, лабораториям, оборудованиям и так далее.
Такие системы могут быть как внутренними, так и открытыми. В последние годы эти системы почти все являются открытыми, или по большей части открытыми, но есть они далеко не у всех исследовательских центров и университетов, но их становится всё больше. Большая их часть создаётся на базе примерно десятка коммерческих продуктов и некоторого числа продуктов с открытым кодом.
Для университетов у которых есть такие системы, публикация данных является частью таких систем.
Реестр таких систем ведёт НКО euroCRIS [2] существующая при поддержке Евросоюза, этот реестр называется DRIS [3], там 1387 репозиториев по всему миру, большая часть из которых находятся в Индии и Норвегии, но, в принципе, рассеяны по всему миру.
Данные из систем CRIS собираются в глобальные агрегаторы такие как OpenAIRE, для чего разработан стандарт CERIF [4] для описания метаданных и для их предоставления через REST API, а у OpenAIRE есть ещё и подробное руководство для работы CRIS систем [5].
Большая часть CRIS систем - это университетские системы, но есть и крупные национальные CRIS системы в: Австралии, Испании, Финляндии и многих других странах. В реестре DRIS упомянуто 24 такие системы национального уровня, о каждой из них можно рассказывать долго и по отдельности.
Так вот CRIS системы можно также рассматривать как каталоги открытых научных данных, с оговоркой что данные там не приоритет, а скорее сопутствующий результат, а основное - это функции предоставления информации о всех результатах и инструментах исследований.
И, напоследок, можно посмотреть как это устроено на примерах националных CRIS систем, в Бразилии BrCRIS [6], в Словакии [7], в Латвии [8], в Норвегии [9].
Ссылки:
[1] https://en.wikipedia.org/wiki/Current_research_information_system
[2] https://eurocris.org/
[3] https://dspacecris.eurocris.org/cris/explore/dris
[4] https://eurocris.org/services/main-features-cerif
[5] https://guidelines.openaire.eu/en/latest/cris/index.html
[6] https://brcris.ibict.br
[7] https://www.skcris.sk/portal/
[8] https://sciencelatvia.lv
[9] https://www.cristin.no/
#openaccess #openresearch #opendata #research
Wikipedia
Current research information system
A current research information system (CRIS) is a database or other information system to store, manage and exchange contextual metadata for the research activity funded by a research funder or conducted at a research-performing organisation (or aggregation…
Я, кстати, не забыл про обещание вернуться к лонгридам и по результатам голосования [1] ближайшей темой напишу про Data discovery в корпоративном секторе, скорее всего до конца недели.
Однако тема эта большая и сразу всё не напишешь, можно сделать акцент на поиске данных для собственных продуктов, можно на инвентаризации личных данных, а можно, например, про разницу в инвентаризации данных бизнесом и государством и сквозная тема во всём "зачем всё это нужно". поэтому давайте сделаю второй опрос, он будет следующим сообщением,
Ссылки:
[1] https://begtin.substack.com/p/fde
#readings #blogging #data
Однако тема эта большая и сразу всё не напишешь, можно сделать акцент на поиске данных для собственных продуктов, можно на инвентаризации личных данных, а можно, например, про разницу в инвентаризации данных бизнесом и государством и сквозная тема во всём "зачем всё это нужно". поэтому давайте сделаю второй опрос, он будет следующим сообщением,
Ссылки:
[1] https://begtin.substack.com/p/fde
#readings #blogging #data
Substack
Возвращение к лонгридам и выбор тем
Я довольно давно не писал в рассылку, короткие тексты в телеграм канале, лично мне, всегда давались гораздо легче чем регуляные тексты большого/среднего размера. Тем не менее, они тоже необходимы и какое-то количество черновых текстов я заготовил достаточно…
На чём сделать акцент в рассказе про Data discovery в корпоративном секторе? (можно несколько ответов)
Anonymous Poll
51%
Зачем всё это нужно, как обосновывать и делать
38%
Подходы, ограничения, сложности проблемы
31%
Поиск внешних данных для бизнеса.
31%
Отличия между data discovery в бизнесе и государстве. Почему это не одно и то же
47%
Обзор технических инструментов внутренней инвентаризации данных
1%
Что-то другое, напишу в чате к каналу
В рубрике "как это устроено у них" Oskari [1] продукт с открытым кодом по созданию геопорталов на базе существующих геоданных/геокаталогов, например, каталогов созданных в рамках инициативы INSPIRE.
Продукт создан National Land Survey of Finland, государственной организацией в подчинении Министерства сельского и лесного хозяйства Финляндии.
Его можно привести в качестве успешной государственной работы над открытым кодом, поскольку проект был создан за счёт госбюджета Финляндии, выделен в открытый код, а теперь находится на инкубации в OS Geo.
На базе созданы как минимум 21 геопортал [3], в основном в Финляндии, но и в других странах Северной Европы тоже.
Формально в нем не публикуются открытые данные, но активно используются через интеграцию с Geoserver/Geonetwork/Geonode, а также реализовано собственное документированное API с экспортом картографических слоёв.
Хотя мне не встречались измерения экономического эффекта, наверняка его можно несложно подсчитать сравнив разницу внедрения Oskari с закупкой корпоративного сервера ArcGIS, к примеру.
Ссылки:
[1] https://www.oskari.org
[2] https://wiki.osgeo.org/wiki/Oskari_Incubation_Status
[3] https://www.oskari.org/gallery
#opensource #geospatial #geodata #data #finland
Продукт создан National Land Survey of Finland, государственной организацией в подчинении Министерства сельского и лесного хозяйства Финляндии.
Его можно привести в качестве успешной государственной работы над открытым кодом, поскольку проект был создан за счёт госбюджета Финляндии, выделен в открытый код, а теперь находится на инкубации в OS Geo.
На базе созданы как минимум 21 геопортал [3], в основном в Финляндии, но и в других странах Северной Европы тоже.
Формально в нем не публикуются открытые данные, но активно используются через интеграцию с Geoserver/Geonetwork/Geonode, а также реализовано собственное документированное API с экспортом картографических слоёв.
Хотя мне не встречались измерения экономического эффекта, наверняка его можно несложно подсчитать сравнив разницу внедрения Oskari с закупкой корпоративного сервера ArcGIS, к примеру.
Ссылки:
[1] https://www.oskari.org
[2] https://wiki.osgeo.org/wiki/Oskari_Incubation_Status
[3] https://www.oskari.org/gallery
#opensource #geospatial #geodata #data #finland
Ivan Begtin
На чём сделать акцент в рассказе про Data discovery в корпоративном секторе? (можно несколько ответов)
Написал текст в рассылку на тему того зачем создаются корпоративные каталоги данных [1]. Это часть скорее теоретическая чем практическая, в неё мало практических примеров, зато много подробностей о том зачем и в какой ситуации компании, в принципе, задумываются о внедрении каталогов данных. В следующих текстах я уже подробнее разберу случаи когда точно не надо усложнять себе жизнь и заводить каталог данных который бы перестал быть актуальным и расскажу о выборе инструментов, там уже много особенностей технологических и разные инструменты решают разные задачи. А ещё точнее с разным качеством решают одни и те же задачи.
Ссылки:
[1] https://begtin.substack.com/p/corporate-data-discovery-1
#data #datacatalogs #dataengineering #dataanalytics #compliance
Ссылки:
[1] https://begtin.substack.com/p/corporate-data-discovery-1
#data #datacatalogs #dataengineering #dataanalytics #compliance
Ivan’s Begtin Newsletter on digital, open and preserved government
Data discovery в корпоративном секторе. Часть 1. Зачем всё это нужно?
Ничто не делается просто так. Просто нам не всегда известны мотивы. (с) Доктор Хаус
Хотелось бы написать что-то хорошее про доступность геоданных в России, но пока только новость о том что в третьем чтении приняли закон о запрете использования иностранных геоинформационных систем [1]. В основном это, как я понимаю, ESRI ArcGIS, по крайней мере в публичном пространстве есть некоторое количество, около десятка в реестре Common Data Index [2].
Хорошо хоть не запретили бизнесу и университетам. В целом же весь этот поток ограничений, когда любое новое регулирование не разрешает что-то, а запрещает - всё это довольно утомительно. Хотя в реестре российского ПО и много продуктов "российских ГИС", однако в мире, за некоторым исключением, всё иначе.
В большинстве стран где не хотят зависеть от "зарубежного" (по факту проприетарного ПО) используют комбинации open source продуктов. Каталоги данных создают на базе Geonetwork, порталы геоданных на базе Geonode, сервера с геоданными на базе Geoserver и геопорталы на множестве продуктов.
И только в России и в Китае штампуют геоинформационные системы только для внутреннего применения.
P.S. Из большей части "российских ГИС" получить данные сильно сложнее по причине отсутствия стандартных API, вроде ArcGIS REST API, CSW и тд. Так что это тоже в минус открытости
Ссылки:
[1] https://www.tadviser.ru/a/53581
[2] https://registry.commondata.io/country/RU
#geodata #spatialdata #opensource
Хорошо хоть не запретили бизнесу и университетам. В целом же весь этот поток ограничений, когда любое новое регулирование не разрешает что-то, а запрещает - всё это довольно утомительно. Хотя в реестре российского ПО и много продуктов "российских ГИС", однако в мире, за некоторым исключением, всё иначе.
В большинстве стран где не хотят зависеть от "зарубежного" (по факту проприетарного ПО) используют комбинации open source продуктов. Каталоги данных создают на базе Geonetwork, порталы геоданных на базе Geonode, сервера с геоданными на базе Geoserver и геопорталы на множестве продуктов.
И только в России и в Китае штампуют геоинформационные системы только для внутреннего применения.
P.S. Из большей части "российских ГИС" получить данные сильно сложнее по причине отсутствия стандартных API, вроде ArcGIS REST API, CSW и тд. Так что это тоже в минус открытости
Ссылки:
[1] https://www.tadviser.ru/a/53581
[2] https://registry.commondata.io/country/RU
#geodata #spatialdata #opensource
TAdviser.ru
Росреестр утвердил требования к российским геоинформационным технологиям и их разработчикам
Геоинформационные системы (также ГИС — географическая информационная система) — системы, предназначенные для сбора, хранения, анализа и графической визуализации пространственных данных и связанной с ними информации о представленных в ГИС объектах. Другими…