Ivan Begtin
9.29K subscribers
2.07K photos
3 videos
102 files
4.81K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
Грустная новость, Microsoft закрывают Planetary Data Hub [1], это был специальный сервис в рамках проекта Planetary Computer который позволял работать с большими наборами геоданных с помощью научных тетрадок которые были прямо на инфраструктуре этого сервиса. По опыту и отзывам пользовавшихся - очень удобный.

Что ещё немаловажно, так это то что хаб закрывают под предлогом несоответствия его новым политикам безопасности онлайн сервисов принятым в Microsoft недавно [2].

Есть, правда, подозрение что шаг этот, на самом деле, про монетизацию данных поскольку у коммерческих пользователей Azure есть возможность доступа через платные сервисы облака.

Теперь Hub закрывается, если Вы им пользовались то поспешите перенести тетради и данные [3] если Вы их там заводили.

Ссылки:
[1] https://github.com/microsoft/PlanetaryComputer/discussions/347
[2] https://blogs.microsoft.com/blog/2024/05/03/prioritizing-security-above-all-else/
[3] https://planetarycomputer-hub.microsoft.com/

#opendata #datasets #data #geodata #microsoft
К вопросу о каталогах данных, которые я изучаю вот уже много лет, в особенности каталоги общедоступных и открытых данных, чем больше я наблюдаю рынок, экосистему и тд. в том числе относительно больших каталогов данных, тем больше убеждаюсь что весь этот рынок за очень короткое время может перемешать Microsoft или, с меньшей вероятностью, Gitlab, реализовав в Github/Gitlab такое понятие как репозиторий данных.

По сути и так огромное число датасетов публикуют через Git, особенно научные репозитории выкладывают на Github, а на размещённое там уже дают ссылки с какого нибудь Zenodo.

Причём сделать дата репозитории Microsoft может сделать очень дешёвым образом.
1. Добавить атрибут data к репозиториям с данными, чтобы их можно было бы выделить в поиске.
2. Добавить спецификацию в YAML с метаданными датасета/датасетов в этом репозитории. За основу можно взять DCAT.

К счастью или к сожалению, ничего такого они не делают и, как следствие, своего поиска по данным у Microsoft нет. Но если бы сделали то Github было бы проще индексировать с помощью Dateno.

#opendata #datasets #microsoft #github #thoughts
Для тех кто всегда интересовался как глобальные корпорации следят за пользователями, научная статья The New Digital Divide [1] от исследователей из Microsoft о том как они проанализировали данные телеметрии с 40 миллионов компьютеров под управлением Windows в США. Там много разных выводов о том как инфраструктура влияет или не влияет на цифровые навыки и про корреляции между разными показателями.

И это только по данным телеметрии установки ПО и на основе данных по частоте и продолжительности использования настольных приложений.

Ссылки:
[1] https://www.nber.org/papers/w32932

#data #privacy #readings #research #microsoft
Билл Гейтс опубликовал оригинальный код Microsoft 50 летней давности, для Altair BASIC [1].

Подумать только, я вот BASIC во всех формах застал очень мало. Только QBasic в ранних версиях MS DOS и совсем немного Visual Basic в Windows. А так мой самый ранний код - это Паскаль и Ассемблер. И, признаться, в 15-16 лет я писал его чище и аккуратнее, но с куда меньшим пониманием ответов на вопрос "зачем".

Но код на BASIC это, в любом случае, ностальгия.

Ссылки:
[1] https://www.gatesnotes.com/home/home-page-topic/reader/microsoft-original-source-code

#opensource #microsoft #billgates #digitalpreservation