Свежее что почитать про данные
Measuring the value of data and data flows [1] любопытный документ от вышел от имени ОЭСР с подходами к оценке экономики данных, оценке значения данных и потоков данных. В основном основан он на экономике США, но упоминаются там и другие страны. Много цифр, графиков и оценок полезных для содержательных дискуссий.
European Research Data Landscape [2] результаты исследования в виде опроса учёных про инфраструктуру данных Евросоюза. Общая оценка что уровень использования и публикации данных довольно высокий и там же в исследовании есть рейтинг порталов научных данных по соответствию принципам FAIR. Этих порталов очень много! Основное что происходит - это ранее закрытые порталы открываются.
Semantic Media: Mapping Meaning on the Internet [3] свежая книга, платная, $18 про развитие semantic web и онтологий. Для тех кто не сталкивался, semantic web это довольно продвинутые, но сложные в изучении инструменты. Самая успешная практическая их адаптация - это Wikidata
Research in programming Wikidata [4] замечательная подборка курсов по тому как работать с Викидата, созданна командой Андрея Крижановского из Петрозаводского государственного университета. Есть и на русском языке [5]. Для тех кто хочет формировать интересные наборы данных там много практического SPARQL с примерами запросов.
Ссылки:
[1] https://www.oecd-ilibrary.org/science-and-technology/measuring-the-value-of-data-and-data-flows_923230a6-en
[2] https://op.europa.eu/en/publication-detail/-/publication/03b5562d-6a35-11ed-b14f-01aa75ed71a1/language-en
[3] https://www.wiley.com/en-us/Semantic+Media:+Mapping+Meaning+on+the+Internet-p-9781509542598
[4] https://en.wikiversity.org/wiki/Research_in_programming_Wikidata
[5] https://ru.wikiversity.org/wiki/%D0%9F%D1%80%D0%BE%D0%B3%D1%80%D0%B0%D0%BC%D0%BC%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5_%D0%92%D0%B8%D0%BA%D0%B8%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85
#readings #data #opendata #wikidata #ontology #semanticweb
Measuring the value of data and data flows [1] любопытный документ от вышел от имени ОЭСР с подходами к оценке экономики данных, оценке значения данных и потоков данных. В основном основан он на экономике США, но упоминаются там и другие страны. Много цифр, графиков и оценок полезных для содержательных дискуссий.
European Research Data Landscape [2] результаты исследования в виде опроса учёных про инфраструктуру данных Евросоюза. Общая оценка что уровень использования и публикации данных довольно высокий и там же в исследовании есть рейтинг порталов научных данных по соответствию принципам FAIR. Этих порталов очень много! Основное что происходит - это ранее закрытые порталы открываются.
Semantic Media: Mapping Meaning on the Internet [3] свежая книга, платная, $18 про развитие semantic web и онтологий. Для тех кто не сталкивался, semantic web это довольно продвинутые, но сложные в изучении инструменты. Самая успешная практическая их адаптация - это Wikidata
Research in programming Wikidata [4] замечательная подборка курсов по тому как работать с Викидата, созданна командой Андрея Крижановского из Петрозаводского государственного университета. Есть и на русском языке [5]. Для тех кто хочет формировать интересные наборы данных там много практического SPARQL с примерами запросов.
Ссылки:
[1] https://www.oecd-ilibrary.org/science-and-technology/measuring-the-value-of-data-and-data-flows_923230a6-en
[2] https://op.europa.eu/en/publication-detail/-/publication/03b5562d-6a35-11ed-b14f-01aa75ed71a1/language-en
[3] https://www.wiley.com/en-us/Semantic+Media:+Mapping+Meaning+on+the+Internet-p-9781509542598
[4] https://en.wikiversity.org/wiki/Research_in_programming_Wikidata
[5] https://ru.wikiversity.org/wiki/%D0%9F%D1%80%D0%BE%D0%B3%D1%80%D0%B0%D0%BC%D0%BC%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5_%D0%92%D0%B8%D0%BA%D0%B8%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85
#readings #data #opendata #wikidata #ontology #semanticweb
дарю идею совершенно безвозмездно (с)
Сделать аналог RSS читалки для телеграм каналов и, при желании, твиттера и мастодона который был бы исключительно про потребление инфы, а не для коммуникации. Специально для тех кто не пересылает и смешивать чтение и общение не хочет.
Зато сделать туда несколько важных фич։
1. Дайджестирование подписок. Иначе говоря, настраивать сгруппировывание постов от некоторых каналов сразу по n штук. Помогает читать чрезмерно частящие каналы
2. Спам фильтры. В некоторых телеграм каналах реклама уже за... раздражает. Нужны механизмы фильтрации по тегам или по ключевым словам и встроенные спам фильтры. На этом же можно монетизироваться. Спам фильтры можно [и нужно] вести централизованно.
3. Бьютификация контента. Удаление смайликов и тд.
Минус - экосистема телеграма вне контроля, поменяются правила и API и всё на... закончится.
Плюс - рынок точно есть, монетизация не конфликтует пока с монетизацией телеграма.
#ideas
Сделать аналог RSS читалки для телеграм каналов и, при желании, твиттера и мастодона который был бы исключительно про потребление инфы, а не для коммуникации. Специально для тех кто не пересылает и смешивать чтение и общение не хочет.
Зато сделать туда несколько важных фич։
1. Дайджестирование подписок. Иначе говоря, настраивать сгруппировывание постов от некоторых каналов сразу по n штук. Помогает читать чрезмерно частящие каналы
2. Спам фильтры. В некоторых телеграм каналах реклама уже за... раздражает. Нужны механизмы фильтрации по тегам или по ключевым словам и встроенные спам фильтры. На этом же можно монетизироваться. Спам фильтры можно [и нужно] вести централизованно.
3. Бьютификация контента. Удаление смайликов и тд.
Минус - экосистема телеграма вне контроля, поменяются правила и API и всё на... закончится.
Плюс - рынок точно есть, монетизация не конфликтует пока с монетизацией телеграма.
#ideas
К вопросу о том как искать данные, ключевой проект в этой области - это Google Dataset search [1] который до сих пор имеет статус исследовательского и "не вышел из инкубатора". Он всем хорош, например, использует разметку Dataset из Schema.org для идентификации наборов данных на сайтах и позволяет получать нужные данные быстро если владелец их разметил. Но у него есть системная проблема, она заключается в том что для наборов данных не работает ранжирование теми же методами что для других поисковых индексов, они редко ссылаются друг на друга. Так как определить данные по значимости при поиске? По ключевым словам? Поиск быстро "замусоривается"․ Что и произошло с ним в данном случае. Например, когда ищешь стат показатели по множеству запросов вылезают ссылки на коммерческий проект CEIC. Вроде такого [2], выдаётся первым на запрос "European statistics". Разметка на странице там есть, а вот содержания нет. Нет там и лицензий CC-BY, ни многого другого. Это типичная SEO страница для тех кто торгует данными. Это если мы ищем любые данные, не только бесплатные. А если сделаем фильтр на бесплатные и поищем "Russian statistics" то первым вылезет ссылка на набор данных Linkedin users in Russian Federation [3] сервиса NapoleonCat где нет никаких данных, только график картинкой.
Краткий вывод неутешителен, хороших поисковиков по данным сейчас нет. Задачи data discovery требуют больших усилий, с одной стороны, с другой это не рынок услуг, поскольку платить кому-то за целенаправленный поиск мало кто готов. Только рынок продуктов. Интересно когда появятся достойные альтернативы?
Ссылки:
[1] https://datasetsearch.research.google.com
[2] https://www.ceicdata.com/en/european-union/eurostat-trade-statistics-by-sitc-european-union-russia
[3] https://napoleoncat.com/stats/linkedin-users-in-russian_federation/2022/01/
#datadiscovery #datasets #opendata #searchengines #google
Краткий вывод неутешителен, хороших поисковиков по данным сейчас нет. Задачи data discovery требуют больших усилий, с одной стороны, с другой это не рынок услуг, поскольку платить кому-то за целенаправленный поиск мало кто готов. Только рынок продуктов. Интересно когда появятся достойные альтернативы?
Ссылки:
[1] https://datasetsearch.research.google.com
[2] https://www.ceicdata.com/en/european-union/eurostat-trade-statistics-by-sitc-european-union-russia
[3] https://napoleoncat.com/stats/linkedin-users-in-russian_federation/2022/01/
#datadiscovery #datasets #opendata #searchengines #google
Как я обещал публикую результаты опроса по поводу организации Дня открытых данных в Москве в 2023 году. Всего опрошенных 100 человек, из опроса можно узнать что։
- большинство за его проведения
- 11 потенциальных докладчиков, плюс ещё несколько приглашённых, в итоге до 14-15
- большинство интересуют лекции и разборы кейсов
- ждут доклады средней сложности
- большинство специалисты по работе с данными и исследователи
- ключевые темы которые большинству интересны։
— где искать данные
— открытые государственные данные
— open source инструменты на данных
Результаты очень хорошие, видно что многим не хватало дня открытых данных в прошлом году.
Итого։ мы начинаем планировать ОДД, предварительный ориентир 4 марта, пока склоняемся к формату того чтобы сделать онлайн конференцию + митап вживую на следующий день. Докладчиков не так много поэтому пока непонятно нужен ли программный комитет, но если есть кого в него порекомендовать напишите мне в личку. Рекомендовать можно кого-то кроме самого себя.
Напомню что День открытых данных (ODD) - это ежегодные мероприятия происходящие одновременно по всему миру в форматах митапов, конференций, хакатонов и других мероприятий. Последний раз в России он проходил в 2021 году. Ранее на эти мероприятия мы активно приглашали российских чиновников и представителей бизнеса, сейчас мы возвращаемся к изначальному формату проведения сообществом ради сообщества.
И, конечно, если Вы захотите организовать локальный митап/хакатон/другое событие в своём городе в России, то напишите нам на [email protected] или мне в личку о том какая нужна помощь, если она нужна.
#opendataday #opendata #events
- большинство за его проведения
- 11 потенциальных докладчиков, плюс ещё несколько приглашённых, в итоге до 14-15
- большинство интересуют лекции и разборы кейсов
- ждут доклады средней сложности
- большинство специалисты по работе с данными и исследователи
- ключевые темы которые большинству интересны։
— где искать данные
— открытые государственные данные
— open source инструменты на данных
Результаты очень хорошие, видно что многим не хватало дня открытых данных в прошлом году.
Итого։ мы начинаем планировать ОДД, предварительный ориентир 4 марта, пока склоняемся к формату того чтобы сделать онлайн конференцию + митап вживую на следующий день. Докладчиков не так много поэтому пока непонятно нужен ли программный комитет, но если есть кого в него порекомендовать напишите мне в личку. Рекомендовать можно кого-то кроме самого себя.
Напомню что День открытых данных (ODD) - это ежегодные мероприятия происходящие одновременно по всему миру в форматах митапов, конференций, хакатонов и других мероприятий. Последний раз в России он проходил в 2021 году. Ранее на эти мероприятия мы активно приглашали российских чиновников и представителей бизнеса, сейчас мы возвращаемся к изначальному формату проведения сообществом ради сообщества.
И, конечно, если Вы захотите организовать локальный митап/хакатон/другое событие в своём городе в России, то напишите нам на [email protected] или мне в личку о том какая нужна помощь, если она нужна.
#opendataday #opendata #events
К вопросу о том как зарабатывают на открытых данных, открытом коде, экосистеме открытости и почему многие компании используют это в маркетинге своих продуктов успешно.
В качестве предисловия, я регулярно читаю и слышу жалобы российских "импортозамещающих компаний" что вот мол они делают хороший продукт и почему-то никто им не пользуются и "как же обидно почему о них никто не говорит и не пишет". Скажу сдержанно, про хорошие продукты говорят всегда, про очень плохие тоже, с другим контекстом, а на посредственные пусть тратят время и деньги на рекламу. В то же время в мире сейчас, кроме уже устоявшихся бизнес моделей по клонированию продуктов, есть несколько бизнес моделей или ключевых их элементов связанных с открытостью. Я перечислю некоторые.
Открытый код + облачный коммерческий сервис.
Идея проста до безобразия. Если кто-то сделал крутой коммерческий продукт или сервис, успешный и раскрученный, то всегда можно сделать его клон, но конкурировать перпендикулярно, подрывая бизнес того продукта. Создав клон с открытым кодом и его облачной версией с бесплатным аккаунтом и с подпиской за деньги. Таким образом создают сейчас клоны Notion, клоны Airtable, клоны Google таблиц и ещё кучи всяких разных сервисов и продуктов. Причём на такие клоны успешно фандрайзят венчурные деньги, потому что есть подтверждение рынка существованием того платного конкурента(-ов) и раскручивают продукт пользователи которые используют, в том числе, версию с открытым кодом. Это очень популярная бизнес модель в последнее время.
Открытому - бесплатно
Широкая бизнес модель, в разных вариациях, но суть её в том что то что имеет общественную ценность, будь то открытый код, открытые данные, свободно распространяемый контент, а также любые сервисы на их основе отдаются бесплатно. К примеру, сервисы проверки исходного кода. Для открытых git репозиториев бесплатно, для закрытых репозиториев за деньги. Или бизнес модель Github, для открытых репозиториев без ограничений, для закрытых репозиториев и доп сервисов за деньги. По такой же модели существуют сервисы доступа к данным Dolthub и Bit.io и многие другие. Их идея проста, из тех пользователей кто точно не станет их клиентами, но могут распространять о них информацию и создавать вокруг экосистему, создавать большое сообщество.
В качестве предисловия, я регулярно читаю и слышу жалобы российских "импортозамещающих компаний" что вот мол они делают хороший продукт и почему-то никто им не пользуются и "как же обидно почему о них никто не говорит и не пишет". Скажу сдержанно, про хорошие продукты говорят всегда, про очень плохие тоже, с другим контекстом, а на посредственные пусть тратят время и деньги на рекламу. В то же время в мире сейчас, кроме уже устоявшихся бизнес моделей по клонированию продуктов, есть несколько бизнес моделей или ключевых их элементов связанных с открытостью. Я перечислю некоторые.
Открытый код + облачный коммерческий сервис.
Идея проста до безобразия. Если кто-то сделал крутой коммерческий продукт или сервис, успешный и раскрученный, то всегда можно сделать его клон, но конкурировать перпендикулярно, подрывая бизнес того продукта. Создав клон с открытым кодом и его облачной версией с бесплатным аккаунтом и с подпиской за деньги. Таким образом создают сейчас клоны Notion, клоны Airtable, клоны Google таблиц и ещё кучи всяких разных сервисов и продуктов. Причём на такие клоны успешно фандрайзят венчурные деньги, потому что есть подтверждение рынка существованием того платного конкурента(-ов) и раскручивают продукт пользователи которые используют, в том числе, версию с открытым кодом. Это очень популярная бизнес модель в последнее время.
Открытому - бесплатно
Широкая бизнес модель, в разных вариациях, но суть её в том что то что имеет общественную ценность, будь то открытый код, открытые данные, свободно распространяемый контент, а также любые сервисы на их основе отдаются бесплатно. К примеру, сервисы проверки исходного кода. Для открытых git репозиториев бесплатно, для закрытых репозиториев за деньги. Или бизнес модель Github, для открытых репозиториев без ограничений, для закрытых репозиториев и доп сервисов за деньги. По такой же модели существуют сервисы доступа к данным Dolthub и Bit.io и многие другие. Их идея проста, из тех пользователей кто точно не станет их клиентами, но могут распространять о них информацию и создавать вокруг экосистему, создавать большое сообщество.
Существенный бесплатный и открытый сервис
Это с одной стороны сложная, с другой очень понятная модель очень хорошего моделирования разницы между бесплатными аккаунтами в своём сервисе и тем за что берутся деньги. Сложная потому что если дать слишком много возможностей в бесплатном аккаунте, то конверсия в платные может не происходить вовсе, а если не дать вообще, то пользователи не будут приходить чтобы попробовать и распространять. Хороший баланс возникает когда есть возможность выделить те функции которыми пользуются те кто не платят деньги или сделать обременение брендом. Например, сервисы визуализации данных позволяющие визуализировать данные и встраивать в свои сайты. В бесплатной версии всегда висит бренд и могут быть ограничения, например, по объёму данных или внешним источникам. В платной версии может быть white label. Иногда такая бизнес модель очень сложна из-за злоупотреблений. Например, я знаю несколько историй когда разработчики злоупотребляли бесплатными сервисами Google Big Query по триальным серверам и плодили их тысячами для снижения расходов на обработку данных на Amazon.
—————
Большая часть таких подходов требует существенных ресурсов, часто успешно применяется в проектах существующих на венчурных рынках. Я лично вижу десятки продуктов ежемесячно применяющих одну или несколько из из этих бизнес моделей. Иногда они чрезвычайно успешны. Тот же dbt сумели собрать огромное сообщество вокруг открытого и облачного продукта и теперь они что-то вроде центра притяжения в экосистеме Modern Data Stack. В то же время многие такие продукты, часто, после пары лет раскрутки могут терять открытость или переструктурировать развитие от открытости к коммерческим сервисам, предварительно воспользовавшись сообществом, и далее от него отдаляясь. Дебаты вокруг смены лицензии Elastic и отделение проекта OpenSearch - это именно про это.
Таких продуктов и проектов будет только больше и я ещё не все бизнес модели и бизнес практики вокруг открытости перечислил. Если Вы знаете интересные подходы к монетизации в экосистемах открытости, обязательно напишите об этом.
#opendata #opensource #business #startups #openness
Это с одной стороны сложная, с другой очень понятная модель очень хорошего моделирования разницы между бесплатными аккаунтами в своём сервисе и тем за что берутся деньги. Сложная потому что если дать слишком много возможностей в бесплатном аккаунте, то конверсия в платные может не происходить вовсе, а если не дать вообще, то пользователи не будут приходить чтобы попробовать и распространять. Хороший баланс возникает когда есть возможность выделить те функции которыми пользуются те кто не платят деньги или сделать обременение брендом. Например, сервисы визуализации данных позволяющие визуализировать данные и встраивать в свои сайты. В бесплатной версии всегда висит бренд и могут быть ограничения, например, по объёму данных или внешним источникам. В платной версии может быть white label. Иногда такая бизнес модель очень сложна из-за злоупотреблений. Например, я знаю несколько историй когда разработчики злоупотребляли бесплатными сервисами Google Big Query по триальным серверам и плодили их тысячами для снижения расходов на обработку данных на Amazon.
—————
Большая часть таких подходов требует существенных ресурсов, часто успешно применяется в проектах существующих на венчурных рынках. Я лично вижу десятки продуктов ежемесячно применяющих одну или несколько из из этих бизнес моделей. Иногда они чрезвычайно успешны. Тот же dbt сумели собрать огромное сообщество вокруг открытого и облачного продукта и теперь они что-то вроде центра притяжения в экосистеме Modern Data Stack. В то же время многие такие продукты, часто, после пары лет раскрутки могут терять открытость или переструктурировать развитие от открытости к коммерческим сервисам, предварительно воспользовавшись сообществом, и далее от него отдаляясь. Дебаты вокруг смены лицензии Elastic и отделение проекта OpenSearch - это именно про это.
Таких продуктов и проектов будет только больше и я ещё не все бизнес модели и бизнес практики вокруг открытости перечислил. Если Вы знаете интересные подходы к монетизации в экосистемах открытости, обязательно напишите об этом.
#opendata #opensource #business #startups #openness
Ещё один шаг в сторону от открытости гос-ва в России - Госдума прекратила трансляции своей работы [1]. Казалось бы, там одни лишь не секретные темы обсуждения, казалось бы и судя по риторике депутатов работы они своей не стыдятся, казалось бы вообще-то законотворчество в принципе должно бы максимально прозрачным, казалось бы члены ГД и так все под санкциями так чего им бояться.
Хорошо ещё не закрыли систему АСОЗД с законопроектами и базы НПА, а то, вдруг ещё и окажется что и законы граждане знать будут должны только когда их по этим законам будут штрафовать или сажать.
Откручивать назад все инициативы по открытости власти - это каждый раз говорить обществу о движении к Северо-корейской модели государства.
Собственно все проблемы с открытостью гос-ва в России не в уровне открытости здесь и сейчас, а в уверенном движении по закрытию. В этом смысле многие постсоветские страны обладают куда меньшей открытостью гос-ва, данных и тд., но двигаются не против, а наоборот, в сторону большей открытости.
А я не могу не напомнить про пример того куда должна двигаться парламентская открытость в мире, проект OpenParliament.tv [2] с трансляцией заседаний парламента Германии (Бундестага) с построчной расшифровкой, поиском по тексту, открытыми данными, API и тд.
P.S. произошло это ещё в прошлом году, но как бы в этом году не закрыли ещё больше
Ссылки։
[1] https://www.vedomosti.ru/politics/articles/2022/10/19/946242-ne-mesto-dlya-translyatsii
[2] https://de.openparliament.tv/
#government #parliament #russia #openness
Хорошо ещё не закрыли систему АСОЗД с законопроектами и базы НПА, а то, вдруг ещё и окажется что и законы граждане знать будут должны только когда их по этим законам будут штрафовать или сажать.
Откручивать назад все инициативы по открытости власти - это каждый раз говорить обществу о движении к Северо-корейской модели государства.
Собственно все проблемы с открытостью гос-ва в России не в уровне открытости здесь и сейчас, а в уверенном движении по закрытию. В этом смысле многие постсоветские страны обладают куда меньшей открытостью гос-ва, данных и тд., но двигаются не против, а наоборот, в сторону большей открытости.
А я не могу не напомнить про пример того куда должна двигаться парламентская открытость в мире, проект OpenParliament.tv [2] с трансляцией заседаний парламента Германии (Бундестага) с построчной расшифровкой, поиском по тексту, открытыми данными, API и тд.
P.S. произошло это ещё в прошлом году, но как бы в этом году не закрыли ещё больше
Ссылки։
[1] https://www.vedomosti.ru/politics/articles/2022/10/19/946242-ne-mesto-dlya-translyatsii
[2] https://de.openparliament.tv/
#government #parliament #russia #openness
Ведомости
Не место для трансляций
В чрезвычайных условиях руководство Госдумы решило, что прежняя открытость – это лишнее
Полезное для тех кто постоянно работает с Pandas в наборе заметок Modern Polars [1] написанных по мотивам Modern Pandas [2]. Основная идея в том что Polars существенно быстрее и более однозначно позволяет работать с теми же данными и миграция на Polars с Pandas не является чем-то реально очень сложным. Наоборот, это довольно просто.
А также несколько полезных обзоров Polars в Towards Data Science:
- Pandas vs. Polars: A Syntax and Speed Comparison [3]
- Tips and Tricks for Working with Strings in Polars [4]
- Polars: Pandas DataFrame but Much Faster [5]
Про Polars именно сейчас особенно много пишут и как продукт он полностью подпадает под категорию
давайте сделаем продукт совместимый с продуктом лидером, но значительно быстрее.
Кроме Polars, конечно, есть ещё modin, PandaPy, datatable, Dask, PySpark, Vaex и другие. Надеюсь однажды увидеть обзор со сравнением их всех.
Ссылки։
[1] https://kevinheavey.github.io/modern-polars/
[2] https://tomaugspurger.github.io/posts/modern-8-scaling/
[3] https://towardsdatascience.com/pandas-vs-polars-a-syntax-and-speed-comparison-5aa54e27497e
[4] https://towardsdatascience.com/tips-and-tricks-for-working-with-strings-in-polars-ec6bb74aeec2
[5] https://towardsdatascience.com/pandas-dataframe-but-much-faster-f475d6be4cd4
#opensource #datatools
А также несколько полезных обзоров Polars в Towards Data Science:
- Pandas vs. Polars: A Syntax and Speed Comparison [3]
- Tips and Tricks for Working with Strings in Polars [4]
- Polars: Pandas DataFrame but Much Faster [5]
Про Polars именно сейчас особенно много пишут и как продукт он полностью подпадает под категорию
давайте сделаем продукт совместимый с продуктом лидером, но значительно быстрее.
Кроме Polars, конечно, есть ещё modin, PandaPy, datatable, Dask, PySpark, Vaex и другие. Надеюсь однажды увидеть обзор со сравнением их всех.
Ссылки։
[1] https://kevinheavey.github.io/modern-polars/
[2] https://tomaugspurger.github.io/posts/modern-8-scaling/
[3] https://towardsdatascience.com/pandas-vs-polars-a-syntax-and-speed-comparison-5aa54e27497e
[4] https://towardsdatascience.com/tips-and-tricks-for-working-with-strings-in-polars-ec6bb74aeec2
[5] https://towardsdatascience.com/pandas-dataframe-but-much-faster-f475d6be4cd4
#opensource #datatools
Modern Polars
A side-by-side comparison of the Polars and Pandas libraries.
База Government Open Source Software Policies [1] опубликована CSIS, Центром стратегий и международных исследований включает описание сотен нормативных документов и стратегий правительств большинства стран мира в части внедрения открытого кода. Данные можно скачать в CSV [2], посмотреть визуально в сервисе Datawrapper [3] и посмотреть версию на Github [4] вместе с документацией.
Данные включают, в том числе, многие постсоветские страны։ РФ, Казахстан, Армения, Киргизия
По России документы упоминаются довольно давние, последний за 2010 год. По другим странам всё куда актуальнее.
Ссылки։
[1] https://www.csis.org/programs/strategic-technologies-program/government-open-source-software-policies
[2] https://csis-website-prod.s3.amazonaws.com/s3fs-public/230105_Government_Open_Source.xlsx?3OPFGJtU3MnmeMLFqDFr0WVytCpiTkXC
[3] https://datawrapper.dwcdn.net/tIMj9/41/
[4] https://github.com/github/government-open-source-policies
#opendata #opensource #policies #regulation
Данные включают, в том числе, многие постсоветские страны։ РФ, Казахстан, Армения, Киргизия
По России документы упоминаются довольно давние, последний за 2010 год. По другим странам всё куда актуальнее.
Ссылки։
[1] https://www.csis.org/programs/strategic-technologies-program/government-open-source-software-policies
[2] https://csis-website-prod.s3.amazonaws.com/s3fs-public/230105_Government_Open_Source.xlsx?3OPFGJtU3MnmeMLFqDFr0WVytCpiTkXC
[3] https://datawrapper.dwcdn.net/tIMj9/41/
[4] https://github.com/github/government-open-source-policies
#opendata #opensource #policies #regulation