Forwarded from Ivan Begtin (Ivan Begtin)
Git для данных - это давняя мечта многих разработчиков и дата-инженеров. Как организовать хранение и передачу данных так чтобы было похоже на систему контроля версий и учитывало объёмы и изменения в наборах данных.
Несколько проектов существуют для решения этой задачи, например такие:
- Dolt [1] [2] - умеет многое, объединять данные, сравнивать, делать таблицы сравнения, разрешать конфликты и тд. плюс многое из возможностей git'а
- Daff [3] позволяет работать с таблицами CSV и также сравнивать их, объединять и тд. Интегрирован с git
- DVC [4] система контроля версиями для проектов по машинному обучению. Довольно популярна и умеет многое связанное с проектами именно по ML
Ссылки:
[1] https://github.com/liquidata-inc/dolt
[2] https://www.dolthub.com/
[3] https://github.com/paulfitz/daff
[4] https://dvc.org/
#opendata #data #git #datatools
Несколько проектов существуют для решения этой задачи, например такие:
- Dolt [1] [2] - умеет многое, объединять данные, сравнивать, делать таблицы сравнения, разрешать конфликты и тд. плюс многое из возможностей git'а
- Daff [3] позволяет работать с таблицами CSV и также сравнивать их, объединять и тд. Интегрирован с git
- DVC [4] система контроля версиями для проектов по машинному обучению. Довольно популярна и умеет многое связанное с проектами именно по ML
Ссылки:
[1] https://github.com/liquidata-inc/dolt
[2] https://www.dolthub.com/
[3] https://github.com/paulfitz/daff
[4] https://dvc.org/
#opendata #data #git #datatools
GitHub
GitHub - dolthub/dolt: Dolt – Git for Data
Dolt – Git for Data. Contribute to dolthub/dolt development by creating an account on GitHub.
Forwarded from Ivan Begtin (Ivan Begtin)
Максим Акимов назвал сайт Госуслуг вторым по посещаемости госсайтом в мире [1] и что только посещаемость сайта налоговой службы США (IRS) выше в период сдачи деклараций.
Как бы это аккуратнее прокомментировать. В общем-то не сайт IRS наиболее популярный госсайт в США. Там первыми по списку идут:
- ncbi.nlm.nih.gov - 183 миллионов посещений за 30 дней
- tools.usps.com - 145 миллионов посещений за 30 дней
- medlineplus.gov - 51 миллион посещений за 30 дней
и так далее, полный список на специальном сайте [2]
Возможно у IRS есть и всплески в периоды подачи деклараций, но дело в том что у портала Госуслуг нет никакого общедоступного счетчика. Ни внутреннего, ни внешнего, несмотря на наличие подключенной Яндекс Метрики. Если сравнить gosuslugi.ru и irs.gov через Similarweb к примеру [3], то окажется что Госуслуги значительно более посещаемый ресурс, спору нет. Но если мы сравним его с сайтом Минздрава США (nih.gov) поддоменом которого является PubMed (ncbi.nlm.nih.gov), глобальная библиотека публикаций по здравоохранению, то gosuslugi.ru будут не так хороши [4].
Врядли Максим Акимов сам готовил эти цифры, но тем кто готовил ему выступление большой и жирный минус. А портал Госуслуг действительно один из наиболее посещаемых госпорталов в мире, с этим спору нет при любом раскладе. И счётчик его посещаемости давно бы пора, для приличия, открыть.
Ссылки:
[1] https://www.vedomosti.ru/politics/news/2019/11/19/816637-akimov-nazval-gosuslugi-vtorim-po-poseschaemosti-gosresursom
[2] https://analytics.usa.gov/
[3] https://www.similarweb.com/website/gosuslugi.ru?competitors=irs.gov
[4] https://www.similarweb.com/website/gosuslugi.ru?competitors=nih.gov
#data #webstats #government
Как бы это аккуратнее прокомментировать. В общем-то не сайт IRS наиболее популярный госсайт в США. Там первыми по списку идут:
- ncbi.nlm.nih.gov - 183 миллионов посещений за 30 дней
- tools.usps.com - 145 миллионов посещений за 30 дней
- medlineplus.gov - 51 миллион посещений за 30 дней
и так далее, полный список на специальном сайте [2]
Возможно у IRS есть и всплески в периоды подачи деклараций, но дело в том что у портала Госуслуг нет никакого общедоступного счетчика. Ни внутреннего, ни внешнего, несмотря на наличие подключенной Яндекс Метрики. Если сравнить gosuslugi.ru и irs.gov через Similarweb к примеру [3], то окажется что Госуслуги значительно более посещаемый ресурс, спору нет. Но если мы сравним его с сайтом Минздрава США (nih.gov) поддоменом которого является PubMed (ncbi.nlm.nih.gov), глобальная библиотека публикаций по здравоохранению, то gosuslugi.ru будут не так хороши [4].
Врядли Максим Акимов сам готовил эти цифры, но тем кто готовил ему выступление большой и жирный минус. А портал Госуслуг действительно один из наиболее посещаемых госпорталов в мире, с этим спору нет при любом раскладе. И счётчик его посещаемости давно бы пора, для приличия, открыть.
Ссылки:
[1] https://www.vedomosti.ru/politics/news/2019/11/19/816637-akimov-nazval-gosuslugi-vtorim-po-poseschaemosti-gosresursom
[2] https://analytics.usa.gov/
[3] https://www.similarweb.com/website/gosuslugi.ru?competitors=irs.gov
[4] https://www.similarweb.com/website/gosuslugi.ru?competitors=nih.gov
#data #webstats #government
Ведомости
Акимов назвал сайт госуслуг вторым по посещаемости госресурсом в мире
Вице-премьер Максим Акимов назвал сайт госуслуг вторым по посещаемости государственным интернет-ресурсом мира.
Forwarded from Ivan Begtin (Ivan Begtin)
Новость полезная для всех кто работает с международными данными и сравнением по странам. Всемирный банк изменил классификацию стран по доходам на душу населения, немного повысив критерии отнесения стран к группам.
Так ранее для стран с низким доходом населения (low income) сумма была в USD 1,026 в год, то теперь 1,036. Изменения небольшие, но они есть, полный список их есть в блоге Всемирного банка [1] и там же изменения в классификации стран по доходам в связи с этой корректировкой методологии и экономическим развитием.
Поднялись на категорию выше: Бенин, Индонезия, Маврикий, Науру, Непал, Румыния, Танзания.
Например, Румыния поднялась из upper-middle income до high income (то есть теперь выше России по классификации).
Опустились на одну категорию: Алжир, Шри Ланка, Судан.
В России сведения о ВРП за 2019 год до сих пор недоступны. Соответствующий показатель в системе ЕМИСС [1] охватывает только 1996-2018 годы, соответственно и измерить изменения в классификации регионов тоже затруднительно, хотя и было бы безусловно интересно
Ссылки:
[1] https://blogs.worldbank.org/opendata/new-world-bank-country-classifications-income-level-2020-2021
[2] https://fedstat.ru/indicator/42928
#opendata #data
Так ранее для стран с низким доходом населения (low income) сумма была в USD 1,026 в год, то теперь 1,036. Изменения небольшие, но они есть, полный список их есть в блоге Всемирного банка [1] и там же изменения в классификации стран по доходам в связи с этой корректировкой методологии и экономическим развитием.
Поднялись на категорию выше: Бенин, Индонезия, Маврикий, Науру, Непал, Румыния, Танзания.
Например, Румыния поднялась из upper-middle income до high income (то есть теперь выше России по классификации).
Опустились на одну категорию: Алжир, Шри Ланка, Судан.
В России сведения о ВРП за 2019 год до сих пор недоступны. Соответствующий показатель в системе ЕМИСС [1] охватывает только 1996-2018 годы, соответственно и измерить изменения в классификации регионов тоже затруднительно, хотя и было бы безусловно интересно
Ссылки:
[1] https://blogs.worldbank.org/opendata/new-world-bank-country-classifications-income-level-2020-2021
[2] https://fedstat.ru/indicator/42928
#opendata #data
World Bank Blogs
New World Bank country classifications by income level: 2020-2021
The World Bank assigns the world’s economies to four income groups — low, lower-middle, upper-middle, and high-income countries. The classifications are updated each year on July 1 and are based on GNI per capita in current USD...
Forwarded from Weekly Charts
🎨 Art of code
Материалы семинара «Art from code» от Даниэль Наварро, генеративного художника, автора и эксперта в количественной психологии, статистике и науке о данных.
Кстати, у нее есть хорошая книжка Learning Statistics with R, рекомендую тем, кто только начинает изучать R и статистику.
#R #data_art #generative_art
Материалы семинара «Art from code» от Даниэль Наварро, генеративного художника, автора и эксперта в количественной психологии, статистике и науке о данных.
Кстати, у нее есть хорошая книжка Learning Statistics with R, рекомендую тем, кто только начинает изучать R и статистику.
#R #data_art #generative_art