Forwarded from Ivan Begtin (Ivan Begtin)
Подборка регулярного чтения про данные, технологии и не только:
- A Eulogy for Dark Sky, a Data Visualization Masterpiece [1] о визуализации данных в погодном приложении The Dark Sky для iOS и там же про наглядные решения контекстуализации данных. Я бы добавил этот термин в словарь "констектуализация данных" - это когда данные у Вас есть, но Вы подаёте их в том виде в каком они наиболее информативны и наглядны именно в том контексте/приложении/среде в которой их смотрят. А это приложение погоды отличный пример
- The Beginner's Guide to Databases [2] для новичков желающих разобраться в базах данных отличное руководство, оно не покрывает очень много чего, но одновременно даёт все нужные вводные для старта работы
- Meet Alpaca: Stanford University’s Instruction-Following Language Model that Matches GPT-3.5 Performance [3] новый интересный продукт как альтернатива GPT-3.5 под названием Альпака, главные отличия в открытости и меньших требованиях к железу. Открытый код главное преимущество [4]
- Finding Undocumented APIs [5] автор пишет про мою любимую тему, обнаружение недокументированных API. Я несколько выступлений и лекций проводил за эти годы про поиск и нахождение недокументированных API и ещё немало трюков могу рассказать о том как API находить, помимо перехвата запросов браузера к серверу. Так вот два самых очевидных способа часто срабатывающих:
* 1) Поискать API поиском Гугла на сайте явным образом вроде "REST API site:roskachestvo.gov.ru" и результат может удивить
* 2) Выяснить на каком программном продукте работает сайт и проверить не сохранилось ли в нём API идущее по умолчанию, у многих продуктов такое есть. Пример: Архив оцифрованных материалов Национальной электронной детской библиотеки РФ arch.rgdb.ru работает на движке DSpace, а у DSpace по умолчанию API доступно по ссылке /rest, проверяем, ага, вот и оно https://arch.rgdb.ru/rest/
Я могу не то что презентацию, а целый курс прочитать только по этой теме. Тем не менее ту статью рекомендую, часто информацию о API приходится выковыривать из сессий браузера.
- Data wrangling essentials: comparisons in JavaScript, Python, SQL, R, and Excel [6] сравнение функций преобразований данных в Excel, Python, R, SQL и Javascript. Полезно для тех кто вынужден пользоваться 2-3 языками/синтаксисами. Python там, правда, это не совсем Python, а конкретно Pandas, но текст от этого ценности не теряет.
Ссылки:
[1] https://nightingaledvs.com/dark-sky-weather-data-viz/
[2] https://technically.substack.com/p/the-beginners-guide-to-databases
[3] https://pub.towardsai.net/meet-alpaca-stanford-universitys-instruction-following-language-model-that-matches-gpt-3-5-490a38114a7e
[4] https://github.com/tatsu-lab/stanford_alpaca
[5] https://inspectelement.org/apis.html
[6] https://observablehq.com/@observablehq/data-wrangling-translations
#opensource #readings #api #data #guides
- A Eulogy for Dark Sky, a Data Visualization Masterpiece [1] о визуализации данных в погодном приложении The Dark Sky для iOS и там же про наглядные решения контекстуализации данных. Я бы добавил этот термин в словарь "констектуализация данных" - это когда данные у Вас есть, но Вы подаёте их в том виде в каком они наиболее информативны и наглядны именно в том контексте/приложении/среде в которой их смотрят. А это приложение погоды отличный пример
- The Beginner's Guide to Databases [2] для новичков желающих разобраться в базах данных отличное руководство, оно не покрывает очень много чего, но одновременно даёт все нужные вводные для старта работы
- Meet Alpaca: Stanford University’s Instruction-Following Language Model that Matches GPT-3.5 Performance [3] новый интересный продукт как альтернатива GPT-3.5 под названием Альпака, главные отличия в открытости и меньших требованиях к железу. Открытый код главное преимущество [4]
- Finding Undocumented APIs [5] автор пишет про мою любимую тему, обнаружение недокументированных API. Я несколько выступлений и лекций проводил за эти годы про поиск и нахождение недокументированных API и ещё немало трюков могу рассказать о том как API находить, помимо перехвата запросов браузера к серверу. Так вот два самых очевидных способа часто срабатывающих:
* 1) Поискать API поиском Гугла на сайте явным образом вроде "REST API site:roskachestvo.gov.ru" и результат может удивить
* 2) Выяснить на каком программном продукте работает сайт и проверить не сохранилось ли в нём API идущее по умолчанию, у многих продуктов такое есть. Пример: Архив оцифрованных материалов Национальной электронной детской библиотеки РФ arch.rgdb.ru работает на движке DSpace, а у DSpace по умолчанию API доступно по ссылке /rest, проверяем, ага, вот и оно https://arch.rgdb.ru/rest/
Я могу не то что презентацию, а целый курс прочитать только по этой теме. Тем не менее ту статью рекомендую, часто информацию о API приходится выковыривать из сессий браузера.
- Data wrangling essentials: comparisons in JavaScript, Python, SQL, R, and Excel [6] сравнение функций преобразований данных в Excel, Python, R, SQL и Javascript. Полезно для тех кто вынужден пользоваться 2-3 языками/синтаксисами. Python там, правда, это не совсем Python, а конкретно Pandas, но текст от этого ценности не теряет.
Ссылки:
[1] https://nightingaledvs.com/dark-sky-weather-data-viz/
[2] https://technically.substack.com/p/the-beginners-guide-to-databases
[3] https://pub.towardsai.net/meet-alpaca-stanford-universitys-instruction-following-language-model-that-matches-gpt-3-5-490a38114a7e
[4] https://github.com/tatsu-lab/stanford_alpaca
[5] https://inspectelement.org/apis.html
[6] https://observablehq.com/@observablehq/data-wrangling-translations
#opensource #readings #api #data #guides
Nightingale
A Eulogy for Dark Sky, a Data Visualization Masterpiece
A deep look at how the Dark Sky weather app used simple but highly effective charts to report and contextualize the weather.
Forwarded from Ivan Begtin (Ivan Begtin)
Наконец-то можно анонсировать, мы запускаем конкурс по открытым данным Армении в двух номинациях:
- Приложения для культуры
- Визуализация данных
Общий призовой фонд $3000, а заявки можно подавать до 18 февраля 2024 г., с подведением итогов 2 марта 2024 г. на Open Data Day в Ереване.
Для участия главное чтобы Ваш проект был на открытых данных и посвящён Армении, при этом конкурс не только для граждан, но и для тех кто относит себя к диаспорам по всему миру (Россия, Франция, США и другие страны), а также для тех кто просто относится к Армении с любовью и хочет чтобы стране было лучше.
Открытых данных много, можно многие найти на нашем портале data.opendata.am и мы будем регулярно писать про новые данные и где их найти в телеграм канале проекта @opendataam, подписывайтесь если ещё не подписались;)
#opendata #armenia #data #contest
- Приложения для культуры
- Визуализация данных
Общий призовой фонд $3000, а заявки можно подавать до 18 февраля 2024 г., с подведением итогов 2 марта 2024 г. на Open Data Day в Ереване.
Для участия главное чтобы Ваш проект был на открытых данных и посвящён Армении, при этом конкурс не только для граждан, но и для тех кто относит себя к диаспорам по всему миру (Россия, Франция, США и другие страны), а также для тех кто просто относится к Армении с любовью и хочет чтобы стране было лучше.
Открытых данных много, можно многие найти на нашем портале data.opendata.am и мы будем регулярно писать про новые данные и где их найти в телеграм канале проекта @opendataam, подписывайтесь если ещё не подписались;)
#opendata #armenia #data #contest
Forwarded from Ivan Begtin (Ivan Begtin)
ОЭСР (Организация экономического сотрудничества и развития) в которой состоят практически все развитые страны обновила свой сайт oecd.org и, наконец-то, они перевели в открытый доступ все свои материалы, а публикации стали дата-ориентированными. Для тех кто не сталкивался ранее поясню, ОЭСР публиковали довольно много интересных докладов и данных о странах, но большая их часть ими продавалась и данные были неудобны в использовании. Учитывая что они сами промоутировали открытость государств, но оставались вот такими полузакрытыми то и получали немало критики. Наконец-то у них это изменилось, может быть нашли другие источники финансирования, но важно что материалы теперь их открыты. Ну и данные, конечно там много датасетов.
#opendata #datasets #datacatalogs #data #oecd
#opendata #datasets #datacatalogs #data #oecd
Forwarded from Ivan Begtin (Ivan Begtin)
К вопросу о том как и где искать данные, в качестве регулярного напоминания:
Поисковые системы по данным
- Dateno - поисковая система по всем видам наборов данных, геоданных и научных данных, агрегирует их из более чем 5 тысяч каталогов данных, включает 19 миллионов карточек датасетов
- Google Dataset Search - исследовательская поисковая система по датасетам от Google. Охватывает все датасеты в мире опубликованные по стандарту Schema.org Dataset, включает около 50 миллионов карточек датасетов
Поисковые системы по научным данным
- DataCite Commons - поисковик по всем датасетам которым присвоен DOI через сервис DataCite. Более 22 миллионов карточек наборов данных. Используется многими другими поисковыми системами и агрегаторами наборов данных. Содержит только ссылки на оригинальные публикации, но не ссылки на связанные файлы ресурсов.
- OpenAIRE - поисковая система ЕС по результатам научной деятельности включая датасеты. Около 19 миллионов карточек датасетов. Содержит только ссылки на оригинальные публикации, но не ссылки на связанные файлы ресурсов.
- BASE (Bielefeld Academic Search Engine) - поисковая система по научным публикациям от Bielefeld University. Включает 25 миллионов карточек датасетов из которых 22 миллиона агргеггируются из DataCite. Содержит только ссылки на оригинальные публикации, но не ссылки на связанные файлы ресурсов.
- Mendeley Data - поисковик по научным данным от Elsevier, декларирует 26 миллионов карточек датасетов, в реальности многие из низ - это фрагменты единых баз данных или документы в университетских библиотеках. За их исключением реальное число наборов данных ближе к 5 миллионам. Содержит только ссылки на оригинальные публикации, но не ссылки на связанные файлы ресурсов.
Платформы и крупнейшие порталы научных данных
- Figshare - одна из крупнейших онлайн платформ для публикации научных данных. Содержит всего 2 миллиона наборов данных включая сами данные. Более половины этих наборов данных происходят из публикаций в рамках Public Library of Science (PLOS).
- OSF - открытая платформа для публикации научных данных. Точное число датасетов измерить сложно поскольку открытой статистики, или нет, или до неё сложно добраться, но можно исходить из того что это как минимум сотни тысяч наборов данных
- DataOne - каталог и агрегатор данных наук о земле. Более 777 тысяч наборов данных, включая все ресурсы/файлы к ним приложенные
Поисковики по геоданным
- GeoSeer - чуть ли не единственный специализированный поисковик по геоданным. Обещают что охватывают 3.5 миллионов точек подключения к гео API таким как WMS, WFS, WMTS и др.
P.S. Существует также большое число крупных порталов данных и агрегаторов в других областях: машинное обучение, статистика, геоданные. О них в следующий раз
#opendata #data #datasearch #datasets #geodata #openaccess
Поисковые системы по данным
- Dateno - поисковая система по всем видам наборов данных, геоданных и научных данных, агрегирует их из более чем 5 тысяч каталогов данных, включает 19 миллионов карточек датасетов
- Google Dataset Search - исследовательская поисковая система по датасетам от Google. Охватывает все датасеты в мире опубликованные по стандарту Schema.org Dataset, включает около 50 миллионов карточек датасетов
Поисковые системы по научным данным
- DataCite Commons - поисковик по всем датасетам которым присвоен DOI через сервис DataCite. Более 22 миллионов карточек наборов данных. Используется многими другими поисковыми системами и агрегаторами наборов данных. Содержит только ссылки на оригинальные публикации, но не ссылки на связанные файлы ресурсов.
- OpenAIRE - поисковая система ЕС по результатам научной деятельности включая датасеты. Около 19 миллионов карточек датасетов. Содержит только ссылки на оригинальные публикации, но не ссылки на связанные файлы ресурсов.
- BASE (Bielefeld Academic Search Engine) - поисковая система по научным публикациям от Bielefeld University. Включает 25 миллионов карточек датасетов из которых 22 миллиона агргеггируются из DataCite. Содержит только ссылки на оригинальные публикации, но не ссылки на связанные файлы ресурсов.
- Mendeley Data - поисковик по научным данным от Elsevier, декларирует 26 миллионов карточек датасетов, в реальности многие из низ - это фрагменты единых баз данных или документы в университетских библиотеках. За их исключением реальное число наборов данных ближе к 5 миллионам. Содержит только ссылки на оригинальные публикации, но не ссылки на связанные файлы ресурсов.
Платформы и крупнейшие порталы научных данных
- Figshare - одна из крупнейших онлайн платформ для публикации научных данных. Содержит всего 2 миллиона наборов данных включая сами данные. Более половины этих наборов данных происходят из публикаций в рамках Public Library of Science (PLOS).
- OSF - открытая платформа для публикации научных данных. Точное число датасетов измерить сложно поскольку открытой статистики, или нет, или до неё сложно добраться, но можно исходить из того что это как минимум сотни тысяч наборов данных
- DataOne - каталог и агрегатор данных наук о земле. Более 777 тысяч наборов данных, включая все ресурсы/файлы к ним приложенные
Поисковики по геоданным
- GeoSeer - чуть ли не единственный специализированный поисковик по геоданным. Обещают что охватывают 3.5 миллионов точек подключения к гео API таким как WMS, WFS, WMTS и др.
P.S. Существует также большое число крупных порталов данных и агрегаторов в других областях: машинное обучение, статистика, геоданные. О них в следующий раз
#opendata #data #datasearch #datasets #geodata #openaccess