К вопросу о том как зарабатывают на открытых данных, открытом коде, экосистеме открытости и почему многие компании используют это в маркетинге своих продуктов успешно.
В качестве предисловия, я регулярно читаю и слышу жалобы российских "импортозамещающих компаний" что вот мол они делают хороший продукт и почему-то никто им не пользуются и "как же обидно почему о них никто не говорит и не пишет". Скажу сдержанно, про хорошие продукты говорят всегда, про очень плохие тоже, с другим контекстом, а на посредственные пусть тратят время и деньги на рекламу. В то же время в мире сейчас, кроме уже устоявшихся бизнес моделей по клонированию продуктов, есть несколько бизнес моделей или ключевых их элементов связанных с открытостью. Я перечислю некоторые.
Открытый код + облачный коммерческий сервис.
Идея проста до безобразия. Если кто-то сделал крутой коммерческий продукт или сервис, успешный и раскрученный, то всегда можно сделать его клон, но конкурировать перпендикулярно, подрывая бизнес того продукта. Создав клон с открытым кодом и его облачной версией с бесплатным аккаунтом и с подпиской за деньги. Таким образом создают сейчас клоны Notion, клоны Airtable, клоны Google таблиц и ещё кучи всяких разных сервисов и продуктов. Причём на такие клоны успешно фандрайзят венчурные деньги, потому что есть подтверждение рынка существованием того платного конкурента(-ов) и раскручивают продукт пользователи которые используют, в том числе, версию с открытым кодом. Это очень популярная бизнес модель в последнее время.
Открытому - бесплатно
Широкая бизнес модель, в разных вариациях, но суть её в том что то что имеет общественную ценность, будь то открытый код, открытые данные, свободно распространяемый контент, а также любые сервисы на их основе отдаются бесплатно. К примеру, сервисы проверки исходного кода. Для открытых git репозиториев бесплатно, для закрытых репозиториев за деньги. Или бизнес модель Github, для открытых репозиториев без ограничений, для закрытых репозиториев и доп сервисов за деньги. По такой же модели существуют сервисы доступа к данным Dolthub и Bit.io и многие другие. Их идея проста, из тех пользователей кто точно не станет их клиентами, но могут распространять о них информацию и создавать вокруг экосистему, создавать большое сообщество.
В качестве предисловия, я регулярно читаю и слышу жалобы российских "импортозамещающих компаний" что вот мол они делают хороший продукт и почему-то никто им не пользуются и "как же обидно почему о них никто не говорит и не пишет". Скажу сдержанно, про хорошие продукты говорят всегда, про очень плохие тоже, с другим контекстом, а на посредственные пусть тратят время и деньги на рекламу. В то же время в мире сейчас, кроме уже устоявшихся бизнес моделей по клонированию продуктов, есть несколько бизнес моделей или ключевых их элементов связанных с открытостью. Я перечислю некоторые.
Открытый код + облачный коммерческий сервис.
Идея проста до безобразия. Если кто-то сделал крутой коммерческий продукт или сервис, успешный и раскрученный, то всегда можно сделать его клон, но конкурировать перпендикулярно, подрывая бизнес того продукта. Создав клон с открытым кодом и его облачной версией с бесплатным аккаунтом и с подпиской за деньги. Таким образом создают сейчас клоны Notion, клоны Airtable, клоны Google таблиц и ещё кучи всяких разных сервисов и продуктов. Причём на такие клоны успешно фандрайзят венчурные деньги, потому что есть подтверждение рынка существованием того платного конкурента(-ов) и раскручивают продукт пользователи которые используют, в том числе, версию с открытым кодом. Это очень популярная бизнес модель в последнее время.
Открытому - бесплатно
Широкая бизнес модель, в разных вариациях, но суть её в том что то что имеет общественную ценность, будь то открытый код, открытые данные, свободно распространяемый контент, а также любые сервисы на их основе отдаются бесплатно. К примеру, сервисы проверки исходного кода. Для открытых git репозиториев бесплатно, для закрытых репозиториев за деньги. Или бизнес модель Github, для открытых репозиториев без ограничений, для закрытых репозиториев и доп сервисов за деньги. По такой же модели существуют сервисы доступа к данным Dolthub и Bit.io и многие другие. Их идея проста, из тех пользователей кто точно не станет их клиентами, но могут распространять о них информацию и создавать вокруг экосистему, создавать большое сообщество.
Существенный бесплатный и открытый сервис
Это с одной стороны сложная, с другой очень понятная модель очень хорошего моделирования разницы между бесплатными аккаунтами в своём сервисе и тем за что берутся деньги. Сложная потому что если дать слишком много возможностей в бесплатном аккаунте, то конверсия в платные может не происходить вовсе, а если не дать вообще, то пользователи не будут приходить чтобы попробовать и распространять. Хороший баланс возникает когда есть возможность выделить те функции которыми пользуются те кто не платят деньги или сделать обременение брендом. Например, сервисы визуализации данных позволяющие визуализировать данные и встраивать в свои сайты. В бесплатной версии всегда висит бренд и могут быть ограничения, например, по объёму данных или внешним источникам. В платной версии может быть white label. Иногда такая бизнес модель очень сложна из-за злоупотреблений. Например, я знаю несколько историй когда разработчики злоупотребляли бесплатными сервисами Google Big Query по триальным серверам и плодили их тысячами для снижения расходов на обработку данных на Amazon.
—————
Большая часть таких подходов требует существенных ресурсов, часто успешно применяется в проектах существующих на венчурных рынках. Я лично вижу десятки продуктов ежемесячно применяющих одну или несколько из из этих бизнес моделей. Иногда они чрезвычайно успешны. Тот же dbt сумели собрать огромное сообщество вокруг открытого и облачного продукта и теперь они что-то вроде центра притяжения в экосистеме Modern Data Stack. В то же время многие такие продукты, часто, после пары лет раскрутки могут терять открытость или переструктурировать развитие от открытости к коммерческим сервисам, предварительно воспользовавшись сообществом, и далее от него отдаляясь. Дебаты вокруг смены лицензии Elastic и отделение проекта OpenSearch - это именно про это.
Таких продуктов и проектов будет только больше и я ещё не все бизнес модели и бизнес практики вокруг открытости перечислил. Если Вы знаете интересные подходы к монетизации в экосистемах открытости, обязательно напишите об этом.
#opendata #opensource #business #startups #openness
Это с одной стороны сложная, с другой очень понятная модель очень хорошего моделирования разницы между бесплатными аккаунтами в своём сервисе и тем за что берутся деньги. Сложная потому что если дать слишком много возможностей в бесплатном аккаунте, то конверсия в платные может не происходить вовсе, а если не дать вообще, то пользователи не будут приходить чтобы попробовать и распространять. Хороший баланс возникает когда есть возможность выделить те функции которыми пользуются те кто не платят деньги или сделать обременение брендом. Например, сервисы визуализации данных позволяющие визуализировать данные и встраивать в свои сайты. В бесплатной версии всегда висит бренд и могут быть ограничения, например, по объёму данных или внешним источникам. В платной версии может быть white label. Иногда такая бизнес модель очень сложна из-за злоупотреблений. Например, я знаю несколько историй когда разработчики злоупотребляли бесплатными сервисами Google Big Query по триальным серверам и плодили их тысячами для снижения расходов на обработку данных на Amazon.
—————
Большая часть таких подходов требует существенных ресурсов, часто успешно применяется в проектах существующих на венчурных рынках. Я лично вижу десятки продуктов ежемесячно применяющих одну или несколько из из этих бизнес моделей. Иногда они чрезвычайно успешны. Тот же dbt сумели собрать огромное сообщество вокруг открытого и облачного продукта и теперь они что-то вроде центра притяжения в экосистеме Modern Data Stack. В то же время многие такие продукты, часто, после пары лет раскрутки могут терять открытость или переструктурировать развитие от открытости к коммерческим сервисам, предварительно воспользовавшись сообществом, и далее от него отдаляясь. Дебаты вокруг смены лицензии Elastic и отделение проекта OpenSearch - это именно про это.
Таких продуктов и проектов будет только больше и я ещё не все бизнес модели и бизнес практики вокруг открытости перечислил. Если Вы знаете интересные подходы к монетизации в экосистемах открытости, обязательно напишите об этом.
#opendata #opensource #business #startups #openness
Ещё один шаг в сторону от открытости гос-ва в России - Госдума прекратила трансляции своей работы [1]. Казалось бы, там одни лишь не секретные темы обсуждения, казалось бы и судя по риторике депутатов работы они своей не стыдятся, казалось бы вообще-то законотворчество в принципе должно бы максимально прозрачным, казалось бы члены ГД и так все под санкциями так чего им бояться.
Хорошо ещё не закрыли систему АСОЗД с законопроектами и базы НПА, а то, вдруг ещё и окажется что и законы граждане знать будут должны только когда их по этим законам будут штрафовать или сажать.
Откручивать назад все инициативы по открытости власти - это каждый раз говорить обществу о движении к Северо-корейской модели государства.
Собственно все проблемы с открытостью гос-ва в России не в уровне открытости здесь и сейчас, а в уверенном движении по закрытию. В этом смысле многие постсоветские страны обладают куда меньшей открытостью гос-ва, данных и тд., но двигаются не против, а наоборот, в сторону большей открытости.
А я не могу не напомнить про пример того куда должна двигаться парламентская открытость в мире, проект OpenParliament.tv [2] с трансляцией заседаний парламента Германии (Бундестага) с построчной расшифровкой, поиском по тексту, открытыми данными, API и тд.
P.S. произошло это ещё в прошлом году, но как бы в этом году не закрыли ещё больше
Ссылки։
[1] https://www.vedomosti.ru/politics/articles/2022/10/19/946242-ne-mesto-dlya-translyatsii
[2] https://de.openparliament.tv/
#government #parliament #russia #openness
Хорошо ещё не закрыли систему АСОЗД с законопроектами и базы НПА, а то, вдруг ещё и окажется что и законы граждане знать будут должны только когда их по этим законам будут штрафовать или сажать.
Откручивать назад все инициативы по открытости власти - это каждый раз говорить обществу о движении к Северо-корейской модели государства.
Собственно все проблемы с открытостью гос-ва в России не в уровне открытости здесь и сейчас, а в уверенном движении по закрытию. В этом смысле многие постсоветские страны обладают куда меньшей открытостью гос-ва, данных и тд., но двигаются не против, а наоборот, в сторону большей открытости.
А я не могу не напомнить про пример того куда должна двигаться парламентская открытость в мире, проект OpenParliament.tv [2] с трансляцией заседаний парламента Германии (Бундестага) с построчной расшифровкой, поиском по тексту, открытыми данными, API и тд.
P.S. произошло это ещё в прошлом году, но как бы в этом году не закрыли ещё больше
Ссылки։
[1] https://www.vedomosti.ru/politics/articles/2022/10/19/946242-ne-mesto-dlya-translyatsii
[2] https://de.openparliament.tv/
#government #parliament #russia #openness
Ведомости
Не место для трансляций
В чрезвычайных условиях руководство Госдумы решило, что прежняя открытость – это лишнее
Полезное для тех кто постоянно работает с Pandas в наборе заметок Modern Polars [1] написанных по мотивам Modern Pandas [2]. Основная идея в том что Polars существенно быстрее и более однозначно позволяет работать с теми же данными и миграция на Polars с Pandas не является чем-то реально очень сложным. Наоборот, это довольно просто.
А также несколько полезных обзоров Polars в Towards Data Science:
- Pandas vs. Polars: A Syntax and Speed Comparison [3]
- Tips and Tricks for Working with Strings in Polars [4]
- Polars: Pandas DataFrame but Much Faster [5]
Про Polars именно сейчас особенно много пишут и как продукт он полностью подпадает под категорию
давайте сделаем продукт совместимый с продуктом лидером, но значительно быстрее.
Кроме Polars, конечно, есть ещё modin, PandaPy, datatable, Dask, PySpark, Vaex и другие. Надеюсь однажды увидеть обзор со сравнением их всех.
Ссылки։
[1] https://kevinheavey.github.io/modern-polars/
[2] https://tomaugspurger.github.io/posts/modern-8-scaling/
[3] https://towardsdatascience.com/pandas-vs-polars-a-syntax-and-speed-comparison-5aa54e27497e
[4] https://towardsdatascience.com/tips-and-tricks-for-working-with-strings-in-polars-ec6bb74aeec2
[5] https://towardsdatascience.com/pandas-dataframe-but-much-faster-f475d6be4cd4
#opensource #datatools
А также несколько полезных обзоров Polars в Towards Data Science:
- Pandas vs. Polars: A Syntax and Speed Comparison [3]
- Tips and Tricks for Working with Strings in Polars [4]
- Polars: Pandas DataFrame but Much Faster [5]
Про Polars именно сейчас особенно много пишут и как продукт он полностью подпадает под категорию
давайте сделаем продукт совместимый с продуктом лидером, но значительно быстрее.
Кроме Polars, конечно, есть ещё modin, PandaPy, datatable, Dask, PySpark, Vaex и другие. Надеюсь однажды увидеть обзор со сравнением их всех.
Ссылки։
[1] https://kevinheavey.github.io/modern-polars/
[2] https://tomaugspurger.github.io/posts/modern-8-scaling/
[3] https://towardsdatascience.com/pandas-vs-polars-a-syntax-and-speed-comparison-5aa54e27497e
[4] https://towardsdatascience.com/tips-and-tricks-for-working-with-strings-in-polars-ec6bb74aeec2
[5] https://towardsdatascience.com/pandas-dataframe-but-much-faster-f475d6be4cd4
#opensource #datatools
Modern Polars
A side-by-side comparison of the Polars and Pandas libraries.
База Government Open Source Software Policies [1] опубликована CSIS, Центром стратегий и международных исследований включает описание сотен нормативных документов и стратегий правительств большинства стран мира в части внедрения открытого кода. Данные можно скачать в CSV [2], посмотреть визуально в сервисе Datawrapper [3] и посмотреть версию на Github [4] вместе с документацией.
Данные включают, в том числе, многие постсоветские страны։ РФ, Казахстан, Армения, Киргизия
По России документы упоминаются довольно давние, последний за 2010 год. По другим странам всё куда актуальнее.
Ссылки։
[1] https://www.csis.org/programs/strategic-technologies-program/government-open-source-software-policies
[2] https://csis-website-prod.s3.amazonaws.com/s3fs-public/230105_Government_Open_Source.xlsx?3OPFGJtU3MnmeMLFqDFr0WVytCpiTkXC
[3] https://datawrapper.dwcdn.net/tIMj9/41/
[4] https://github.com/github/government-open-source-policies
#opendata #opensource #policies #regulation
Данные включают, в том числе, многие постсоветские страны։ РФ, Казахстан, Армения, Киргизия
По России документы упоминаются довольно давние, последний за 2010 год. По другим странам всё куда актуальнее.
Ссылки։
[1] https://www.csis.org/programs/strategic-technologies-program/government-open-source-software-policies
[2] https://csis-website-prod.s3.amazonaws.com/s3fs-public/230105_Government_Open_Source.xlsx?3OPFGJtU3MnmeMLFqDFr0WVytCpiTkXC
[3] https://datawrapper.dwcdn.net/tIMj9/41/
[4] https://github.com/github/government-open-source-policies
#opendata #opensource #policies #regulation
Ребята из Digital Rights Center и Privacy Accelerator проводят международную конференцию Privacy Day [1]. Она пройдет 27 января этого года, буквально через неделю в пятницу. Пометьте себе в календаре, конференция интересная, выступления там живые и по делу.
Я также буду там участвовать в секции Приватность во время военных действий и глобальных катастроф. Пока не знаю с презентацией или в дискуссии, но постараюсь рассказать что-то интересное.
И напомню что после очень долгих размышлений и сомнений, мы всё таки проведем день открытых данных в Москве, в сокращённом, формате - в виде онлайн, а не большой оффлайн конференции. Тем не менее там тоже будут интересные доклады, примеры и кейсы работы с данными и инструментами. Подробности будут на сайте Opendataday.ru [2] и в телеграм канале Инфокультуры [3]. День открытых данных по всему миру будет проходить 5 марта.
Ссылки։
[1] https://2023.privacyday.net/
[2] https://opendataday.ru
[3] https://yangx.top/infoculture
#privacy #opendata #events
Я также буду там участвовать в секции Приватность во время военных действий и глобальных катастроф. Пока не знаю с презентацией или в дискуссии, но постараюсь рассказать что-то интересное.
И напомню что после очень долгих размышлений и сомнений, мы всё таки проведем день открытых данных в Москве, в сокращённом, формате - в виде онлайн, а не большой оффлайн конференции. Тем не менее там тоже будут интересные доклады, примеры и кейсы работы с данными и инструментами. Подробности будут на сайте Opendataday.ru [2] и в телеграм канале Инфокультуры [3]. День открытых данных по всему миру будет проходить 5 марта.
Ссылки։
[1] https://2023.privacyday.net/
[2] https://opendataday.ru
[3] https://yangx.top/infoculture
#privacy #opendata #events
2023.privacyday.net
Privacy Day 2023
Международная практическая конференция, посвященная приватности в сети и защите персональных данных.
В рубрике открытых научных данных в России система ЕСИМО (Единая государственная система информации об обстановке в Мировом океане) [1].
Систему создавали начиная, как минимум, с 1999 года и в неё включены данные собираемые различными подведомственными структурами Росгидромета. Система финансировалась из Федеральной целевой программы Мировой океан. Только на основном портале упомянуто 2305 наборов данных.
Далеко не все данные в этой системе являются открытыми, часто они являются коллекциями ресурсов со ссылками на закрытые порталы входящие в ЕСИМО, но часть данных опубликованы и являются полностью общедоступными.
В мире во многих странах есть похожие информационные системы. Например, Portail des données marines [2] во Франции и многочисленные международные проекты и порталы.
Конкретно ЕСИМО создано на довольно старых технологиях, с одной стороны, а с другой весьма детально проработано с точки зрения управления данными. Включает метаданные, связь типов данных с конкретными наборами данных.
Ссылки:
[1] http://portal.esimo.ru
[2] http://data.ifremer.fr/
#opendata #openaccess #russia
Систему создавали начиная, как минимум, с 1999 года и в неё включены данные собираемые различными подведомственными структурами Росгидромета. Система финансировалась из Федеральной целевой программы Мировой океан. Только на основном портале упомянуто 2305 наборов данных.
Далеко не все данные в этой системе являются открытыми, часто они являются коллекциями ресурсов со ссылками на закрытые порталы входящие в ЕСИМО, но часть данных опубликованы и являются полностью общедоступными.
В мире во многих странах есть похожие информационные системы. Например, Portail des données marines [2] во Франции и многочисленные международные проекты и порталы.
Конкретно ЕСИМО создано на довольно старых технологиях, с одной стороны, а с другой весьма детально проработано с точки зрения управления данными. Включает метаданные, связь типов данных с конкретными наборами данных.
Ссылки:
[1] http://portal.esimo.ru
[2] http://data.ifremer.fr/
#opendata #openaccess #russia
Я сегодня потратил несколько часов смотря брифинг Чернышенко и Шадаева по поводу цифровой трансформации государства в РФ в 2022 году. И, конечно же, как и всегда важно не то что говорят, а то о чём _не говорят_. Пока слушал я делал пометки, постараюсь изложить их тут в сжатом виде.
1. Практически окончательный переход от открытости государства к цифровому патернализму. Запомните этот термин и вспоминайте его слушая про проекты государства в цифре. Развитые госуслуги - это ровно про повышение качества патернализма, государства взаимодействие с которым происходит по строго проложенным рельсам. Всё что за пределами этого оказывается далеко в не столь прекрасно поданном состоянии.
2. Единственная форма открытости которая сейчас упоминается - это присутствие госорганов с соцсетях, что можно перевести как лоббирование VK гарантированным наполнением контентом их проектов, а пиарщиков контрактами на ведение этих пабликов. Всё это никак не отражает реальную открытость. Присутствие органа власти в соцсети не означает вменяемости того что там будут писать, гарантию ответа и вообще не имеет значимого юридического эффекта.
3. Слыша про упоминание Гостеха надо задавать себе лишь один вопрос а существует ли Гостех? Если бы брифинг был настоящие, а у журналистов была бы возможность/готовность/интерес задавать реальные вопросы то ключевые вопросы очень простые։
- почему Правительство Москвы отказалось от Гостеха?
- почему Правительство Казахстана отказалось от Гостеха?
- почему до сих пор нет стратегии, концепции, архитектуры Гостеха?
Ответы отчасти риторические, хотя было бы любопытно услышать Собянина о том почему Гостех "не взлетел в Москве".
4. При этом реклама/маркетинг которым продвигают Гостеха весьмаагрессивны интенсивны. Фактически, Гостех продвигают так словно он в совсем хреновом состоянии. Потому что на хороший продукт столько маркетинга, с привлечением вице-премьера, не нужно. Хороший продукт "продаёт" себя сам. А вот такое административное давление на госорганы федеральные и региональные - это демонстрация давления на сомневающихся, потому что ответственные за ИТ люди в госорганах, помимо того что просто не хотят терять контроля за ИТ системами, но ещё и понимают что потеряют контроль за их разработкой, развитием, гарантией результата и тд.
5. Меры про удержание ИТшников в России я даже не комментирую.
—
В качестве резюме։ выглядит это всё весьма печально. Я более 10 лет изучаю того как устроены подходы государства к цифровой трансформации и внедрении технологий и чем дальше тем больше убеждаюсь что
наблюдать за происходящим в России довольно бессмысленно. Ну или полезно только для примеров того как делать не надо.
#government #policies
1. Практически окончательный переход от открытости государства к цифровому патернализму. Запомните этот термин и вспоминайте его слушая про проекты государства в цифре. Развитые госуслуги - это ровно про повышение качества патернализма, государства взаимодействие с которым происходит по строго проложенным рельсам. Всё что за пределами этого оказывается далеко в не столь прекрасно поданном состоянии.
2. Единственная форма открытости которая сейчас упоминается - это присутствие госорганов с соцсетях, что можно перевести как лоббирование VK гарантированным наполнением контентом их проектов, а пиарщиков контрактами на ведение этих пабликов. Всё это никак не отражает реальную открытость. Присутствие органа власти в соцсети не означает вменяемости того что там будут писать, гарантию ответа и вообще не имеет значимого юридического эффекта.
3. Слыша про упоминание Гостеха надо задавать себе лишь один вопрос а существует ли Гостех? Если бы брифинг был настоящие, а у журналистов была бы возможность/готовность/интерес задавать реальные вопросы то ключевые вопросы очень простые։
- почему Правительство Москвы отказалось от Гостеха?
- почему Правительство Казахстана отказалось от Гостеха?
- почему до сих пор нет стратегии, концепции, архитектуры Гостеха?
Ответы отчасти риторические, хотя было бы любопытно услышать Собянина о том почему Гостех "не взлетел в Москве".
4. При этом реклама/маркетинг которым продвигают Гостеха весьма
5. Меры про удержание ИТшников в России я даже не комментирую.
—
В качестве резюме։ выглядит это всё весьма печально. Я более 10 лет изучаю того как устроены подходы государства к цифровой трансформации и внедрении технологий и чем дальше тем больше убеждаюсь что
наблюдать за происходящим в России довольно бессмысленно. Ну или полезно только для примеров того как делать не надо.
#government #policies
Forwarded from Инфокультура
В каталог каталогов открытых данных Datacatalogs.ru добавлены новые 9 новых каталогов. Из них 8 - это геопорталы региональных правительств, городов и научных центров, а один - это пропущенный ранее портал открытых данных Амурской области.
- Геопортал Республики Саха-Якутия https://sakhagis.ru/
- Геопортал МГИС г. Череповец МАУ "ЦМИРиТ" https://map.cmirit.ru/portal-gorod/
- Геопортал ИВМ СО РАН http://gis.krasn.ru/
- Геопортал Челябинской области https://gis.inf74.ru
- Геопортал города Выборг https://map.vbglenobl.ru/
- Геопортал города Калининграда https://geoportal.klgd.ru
- Геоинформационный портал города Владивостока https://gorod.vlc.ru
- ГИСОГД Нижегородской области https://gisogdno.ru/
- Открытые данные Амурской области https://opendata.amurobl.ru
Если Вы знаете порталы открытых данных, а также каталоги данных и геопорталы с публикацией слоёв геоданных, добавляйте их в форме на сайте или пишите нам в чате.
#opendata #datacatalogs #datasets
- Геопортал Республики Саха-Якутия https://sakhagis.ru/
- Геопортал МГИС г. Череповец МАУ "ЦМИРиТ" https://map.cmirit.ru/portal-gorod/
- Геопортал ИВМ СО РАН http://gis.krasn.ru/
- Геопортал Челябинской области https://gis.inf74.ru
- Геопортал города Выборг https://map.vbglenobl.ru/
- Геопортал города Калининграда https://geoportal.klgd.ru
- Геоинформационный портал города Владивостока https://gorod.vlc.ru
- ГИСОГД Нижегородской области https://gisogdno.ru/
- Открытые данные Амурской области https://opendata.amurobl.ru
Если Вы знаете порталы открытых данных, а также каталоги данных и геопорталы с публикацией слоёв геоданных, добавляйте их в форме на сайте или пишите нам в чате.
#opendata #datacatalogs #datasets
datacatalogs.ru/
Каталог каталогов открытых данных
Поиск и фильтрация каталогов открытых данных
В рубрике интересных наборов данных данные World Values Survey [1] глобального опроса о ценностях проводимого среди жителей десятков стран. Опросы проводятся 5 летними периодами и последняя 7я волна проходила с 2017 по 2022 года. Например, опрос в России проводился в 2017 году, а в Нидерландах в 2022 году. Это делает такой анализ довольно необычным по сравнению с ежегодными исследованиями и рейтингами, а с другой стороны измеряются же фундаментальные ценности, поэтому такие периоды вполне оправданы.
Что не менее интересно и важно, все данные публикуются в машиночитаемых форматах [2] которые включают данные в CSV, SPSS, STATA и пакетами для языка R. Причём за все волны исследований, начиная с 1981 года.
Фактически основной результат исследований - это данные, их хорошо знают социологи работающие с подобными данными во многих странах.
Последнее обновление с актуальными временными рядами были опубликованы в декабре 2022 года и теперь можно визуализировать изменения в ценностях с 1981 по 2022 годы.
Ссылки:
[1] https://www.worldvaluessurvey.org
[2] https://www.worldvaluessurvey.org/WVSContents.jsp
#opendata #datasets #data
Что не менее интересно и важно, все данные публикуются в машиночитаемых форматах [2] которые включают данные в CSV, SPSS, STATA и пакетами для языка R. Причём за все волны исследований, начиная с 1981 года.
Фактически основной результат исследований - это данные, их хорошо знают социологи работающие с подобными данными во многих странах.
Последнее обновление с актуальными временными рядами были опубликованы в декабре 2022 года и теперь можно визуализировать изменения в ценностях с 1981 по 2022 годы.
Ссылки:
[1] https://www.worldvaluessurvey.org
[2] https://www.worldvaluessurvey.org/WVSContents.jsp
#opendata #datasets #data
Полезное чтение про данные, технологии и не только։
Why I moved my dbt workloads to GitHub and saved over $65,000 [1] автор пишет о том что заменил облако dbt (продукт dbt cloud) на Github Actions и сэкономил много денег. Правда в комментариях ему пишут что мол автор, это же очевидно. Но про несколько важных выводом можно вспомнить։
1) Github - это теперь в первую очередь система управления разработкой и автоматизации задач и лишь во вторую хранилище кода. Как минимум с точки зрения бизнес модели.
2) Крупные инфраструктурные игроки могут достаточно легко подорвать бизнес open source сервисов вроде dbt, просто предлагая то же сильно дешевле. Кстати, пример с конфликтом лицензий Elastic тоже был из той же природы, когда Amazon давали аналогичный сервис значительно дешевле
The State of Data Testing [2] обзор состояния задач и подходов к тестированию данных. Автор сотрудник компании Datafold и текст в их блоге. Поскольку компания как раз на тестировании данных специализируется, то и акценты на их компетенциях. С другой стороны все перечисленные подходы действительно есть, а их data-diff [3] полезный продукт с открытым кодом для сравнения таблиц. Почему подходы не полны? Это всё та же ситуация с управляемыми и неуправляемыми источниками данных. Задачи корпоративной дата-инженерии чаще всего сводятся к работе с управляемыми источниками или в возможности воздействия на них в случаях ошибок в данных. Работа с общедоступными данными слишком часто означает ненадёжность источника, невозможность повлиять на качество данных привычными методами.
Ссылки:
[1] https://medium.com/@datajuls/why-i-moved-my-dbt-workloads-to-github-and-saved-over-65-000-759b37486001
[2] https://www.datafold.com/blog/the-state-of-data-testing
[3] https://github.com/datafold/data-diff
#data #readings #dataengineering #dataquality
Why I moved my dbt workloads to GitHub and saved over $65,000 [1] автор пишет о том что заменил облако dbt (продукт dbt cloud) на Github Actions и сэкономил много денег. Правда в комментариях ему пишут что мол автор, это же очевидно. Но про несколько важных выводом можно вспомнить։
1) Github - это теперь в первую очередь система управления разработкой и автоматизации задач и лишь во вторую хранилище кода. Как минимум с точки зрения бизнес модели.
2) Крупные инфраструктурные игроки могут достаточно легко подорвать бизнес open source сервисов вроде dbt, просто предлагая то же сильно дешевле. Кстати, пример с конфликтом лицензий Elastic тоже был из той же природы, когда Amazon давали аналогичный сервис значительно дешевле
The State of Data Testing [2] обзор состояния задач и подходов к тестированию данных. Автор сотрудник компании Datafold и текст в их блоге. Поскольку компания как раз на тестировании данных специализируется, то и акценты на их компетенциях. С другой стороны все перечисленные подходы действительно есть, а их data-diff [3] полезный продукт с открытым кодом для сравнения таблиц. Почему подходы не полны? Это всё та же ситуация с управляемыми и неуправляемыми источниками данных. Задачи корпоративной дата-инженерии чаще всего сводятся к работе с управляемыми источниками или в возможности воздействия на них в случаях ошибок в данных. Работа с общедоступными данными слишком часто означает ненадёжность источника, невозможность повлиять на качество данных привычными методами.
Ссылки:
[1] https://medium.com/@datajuls/why-i-moved-my-dbt-workloads-to-github-and-saved-over-65-000-759b37486001
[2] https://www.datafold.com/blog/the-state-of-data-testing
[3] https://github.com/datafold/data-diff
#data #readings #dataengineering #dataquality
Medium
Why I moved my dbt workloads to GitHub and saved over $65,000
What is dbt Cloud?
В начале 2007 года пропала посылка, отправленная с севера Англии в Национальное контрольно-ревизионное управление (NAO) в Лондоне. В нем находились два диска с личными записями двадцати пяти миллионов человек, включая их адреса, дни рождения и номера национальной страховки, необходимые для работы в Соединенном Королевстве, которые NAO намеревалась использовать для «независимого исследования» база данных детских пособий для проверки на предполагаемое мошенничество. Вместо этого эта информация так и не была восстановлена, последовал национальный скандал, а младший чиновник, отправивший посылку, был уволен...
Познавательная статья Database States от Sanjana Varghese вышла в Baffler [1] и автор пишет о том как Великобритания превратилась в страну баз данных где собирается неимоверное число баз данных. Автор там же ссылается на доклад 2009 года с похожим названием Database State [2] подготовленную группой исследователей из Joseph Rowntree Reform Trust Ltd.
Ключевая тема в статье Sanjana Varghese о том что работа с базами данных все эти годы только нарастала, данных становится больше, они лучшего качества и они не нейтральны, иначе говоря их владельцы могут применять и специальные службы их не только по прямому назначению и этот тренд только нарастает.
Здесь я не могу не оговориться что такая ситуация не только в Великобритании, обзор нарушения приватности с помощью государственных баз данных будет актуален и для России и для многих других не только постсоветских стран.
Ссылки:
[1] https://thebaffler.com/latest/database-states-varghese
[2] https://www.cl.cam.ac.uk/~rja14/Papers/database-state.pdf
#privacy #data #government
Познавательная статья Database States от Sanjana Varghese вышла в Baffler [1] и автор пишет о том как Великобритания превратилась в страну баз данных где собирается неимоверное число баз данных. Автор там же ссылается на доклад 2009 года с похожим названием Database State [2] подготовленную группой исследователей из Joseph Rowntree Reform Trust Ltd.
Ключевая тема в статье Sanjana Varghese о том что работа с базами данных все эти годы только нарастала, данных становится больше, они лучшего качества и они не нейтральны, иначе говоря их владельцы могут применять и специальные службы их не только по прямому назначению и этот тренд только нарастает.
Здесь я не могу не оговориться что такая ситуация не только в Великобритании, обзор нарушения приватности с помощью государственных баз данных будет актуален и для России и для многих других не только постсоветских стран.
Ссылки:
[1] https://thebaffler.com/latest/database-states-varghese
[2] https://www.cl.cam.ac.uk/~rja14/Papers/database-state.pdf
#privacy #data #government
The Baffler
Database States
Government databases make possible the overreach and omnipresent surveillance that are the dominant features of our times.
Минцифры РФ через Гостех разродили документ МЕТОДИЧЕСКИЕ РЕКОМЕНДАЦИИ ПО ОРГАНИЗАЦИИ ПРОИЗВОДСТВЕННОГО ПРОЦЕССА РАЗРАБОТКИ ГОСУДАРСТВЕННЫХ ИНФОРМАЦИОННЫХ СИСТЕМ С УЧЕТОМ ПРИМЕНЕНИЯ ИТЕРАЦИОННОГО ПОДХОДА К РАЗРАБОТКЕ
Он легко гуглится на Tadviser'е и других ресурсах [1].
Я о нём подробно напишу позже, чтобы бить в одну воронку надо долго прицеливаться (с). А пока вопрос с ходу - не превышает ли Минцифры свои полномочия распространяя методические рекомендации на все госконтракты и уровни государственной власти, напоминаю, они могут быть федеральные и субъектов федерации. Муниципальная власть, пока, отдельно.
Ссылки։
[1] https://www.tadviser.ru/images/1/1c/%D0%9C%D0%A0_%D0%98%D1%82%D0%B5%D1%80%D0%B0%D1%86%D0%B8%D0%BE%D0%BD%D0%BD%D1%8B%D0%B9_%D0%BF%D1%80%D0%BE%D0%B8%D0%B7%D0%B2%D0%BE%D0%B4%D1%81%D1%82%D0%B2%D0%B5%D0%BD%D0%BD%D1%8B%D0%B9_%D0%BF%D1%80%D0%BE%D1%86%D0%B5%D1%81%D1%81_%D0%93%D0%98%D0%A1.pdf
#government #tech #readings
Он легко гуглится на Tadviser'е и других ресурсах [1].
Я о нём подробно напишу позже, чтобы бить в одну воронку надо долго прицеливаться (с). А пока вопрос с ходу - не превышает ли Минцифры свои полномочия распространяя методические рекомендации на все госконтракты и уровни государственной власти, напоминаю, они могут быть федеральные и субъектов федерации. Муниципальная власть, пока, отдельно.
Ссылки։
[1] https://www.tadviser.ru/images/1/1c/%D0%9C%D0%A0_%D0%98%D1%82%D0%B5%D1%80%D0%B0%D1%86%D0%B8%D0%BE%D0%BD%D0%BD%D1%8B%D0%B9_%D0%BF%D1%80%D0%BE%D0%B8%D0%B7%D0%B2%D0%BE%D0%B4%D1%81%D1%82%D0%B2%D0%B5%D0%BD%D0%BD%D1%8B%D0%B9_%D0%BF%D1%80%D0%BE%D1%86%D0%B5%D1%81%D1%81_%D0%93%D0%98%D0%A1.pdf
#government #tech #readings
Методические рекомендации по организации Agile/Scrum в госпроектах от команды ГосТеха и с привязкой к платформе ГосТеха — это значит что ... (можно несколько вариантов ответа)
Anonymous Poll
13%
Отличная штука! Больше эджайла и ГосТеха в жизнь госслужащих
22%
Бессмыленна, эджайл и скрум невозможны в госухе
16%
Коррупционно. Ну, мы же понимаем, там весь Гостех это лишь один вендор и мы его знаем...
6%
Хорошо бы больше, но без Гостеха, само по себе
2%
Гостех - хорошо, а методические рекомендации так себе.
12%
Минцифры много на себя берёт распространяя на других пусть с себя и начнут
16%
Нет никакого ГосТеха кроме как на бумаге и в презентациях отдельных людей
7%
Прочитал. Людей с записью "Гостех" в резюме на работу брать не буду. Поделитесь списком, кстати
11%
Да ладно Вам. Люди профессионально саботирует госинформатизацию. Молодцы же! Работают с огоньком
43%
У меня тут пиво и попкорн, так что я ничего не знаю, хочу посмотреть что другие думают
The State of Open Data Policy Repository [1] коллекция регуляторных документов в отношении открытых данных в мире собираемая Open Data Policy Lab. Плюс - мало где такие коллекции есть, я припоминаю разве что коллекции ОЭСР и OGP, минус - пока документов мало, в виде набора данных не публикуют. Совсем нет уровней Sub-national и Local, по-русски - региональные и муниципальные уровни власти. Совсем нет про открытый доступ. Но полезно даже то что там есть, а это 60 документов в общей сложности.
Ссылки։
[1] https://repository.opendatapolicylab.org/
#opendata #policies #regulation
Ссылки։
[1] https://repository.opendatapolicylab.org/
#opendata #policies #regulation
Для тех кто находится в развивающихся странах и интересуется открытыми данными Global Data Barometer раздаёт мини гранты до $5000 [1] для проектов в странах Глобального Юга (Global South). Для тех кто не знает - это модель разделения развитых и развивающихся стран по критерию их местонахождения [2]. Термин довольно давний, часто используемый для разделения развитых и развивающихся стран. При том что есть исключения в виде Австралии которая находится в Южном Полушарии, но относится к Глобальному Северу из-за высокого уровня жизни. А также сейчас сложно относить Китай к развивающимся странам.
Тем не менее термин существует, кооперация между этими странами есть, глобальная международная помощь также присутствует, а GDB раздаёт гранты на проекты в этих странах. Из постсоветских стран к Глобальному Югу относятся։ Узбекистан, Таджикистан, Киргизия, Туркменистан. Все остальные включая Россию, Казахстан, Армению, Азербайджан, Беларусь, Украину и балтийские республики к ним отнести уже давно нельзя.
Гранты небольшие, скорее под личные просветительские проекты. Требуют знания английского языка и даются на 3 месяца с февраля по май 2023 г.
Ссылки։
[1] https://globaldatabarometer.org/2023/01/call-for-proposals-supporting-uses-of-gdb-data-to-advance-the-knowledge-on-data-for-public-good/
[2] https://en.wikipedia.org/wiki/Global_North_and_Global_South
#opendata #grants #opengov
Тем не менее термин существует, кооперация между этими странами есть, глобальная международная помощь также присутствует, а GDB раздаёт гранты на проекты в этих странах. Из постсоветских стран к Глобальному Югу относятся։ Узбекистан, Таджикистан, Киргизия, Туркменистан. Все остальные включая Россию, Казахстан, Армению, Азербайджан, Беларусь, Украину и балтийские республики к ним отнести уже давно нельзя.
Гранты небольшие, скорее под личные просветительские проекты. Требуют знания английского языка и даются на 3 месяца с февраля по май 2023 г.
Ссылки։
[1] https://globaldatabarometer.org/2023/01/call-for-proposals-supporting-uses-of-gdb-data-to-advance-the-knowledge-on-data-for-public-good/
[2] https://en.wikipedia.org/wiki/Global_North_and_Global_South
#opendata #grants #opengov
Global Data Barometer
Call for proposals: Supporting uses of GDB data to advance the knowledge on data for public good
Mini-grants to support innovative ideas focused on the impact of data for development in the Global South.
About the Global Data Barometer
Effective and timely data driven decision-making is essential for countries struggling to respond to a complex development…
About the Global Data Barometer
Effective and timely data driven decision-making is essential for countries struggling to respond to a complex development…
У CitizenLab, канадской лаборатории при Университете Торонто специализирующейся на приватности вышло большое исследование-лонгрид You Move, They Follow Uncovering Iran’s Mobile Legal Intercept System [1] на основе документов электронной переписки которые им передал источник связанный с Иранским телеком-регулятором Communications Regulatory Authority of Iran (CRA).
Исследование/расследование длинное, с большим числом ссылок и подробностей, с важным акцентом на их канадского вендора PortaOne и с упоминанием ещё и британского Telinsor и российского Protei (догадаться несложно оригинальное название в кириллице).
Применительно к вендорам одна из ключевых тем исследования что "все врут", а то есть нигде не указывают сотрудничество с Иранскими компаниями, хотя, как утверждается, его осуществляют.
Другая интересная часть там - это про то как в Иране регулятор буквально встраивает своё API в системы операторов и знает о всех учётных действиях пользователя, а некоторые даже согласуются только через него, например, смена мобильного оператора.
Российской системе слежки за абонентами есть куда стремиться, хотя, может мы просто о ней недостаточно знаем.
Ссылки։
[1] https://citizenlab.ca/2023/01/uncovering-irans-mobile-legal-intercept-system/
#privacy #security #iran #surveillance
Исследование/расследование длинное, с большим числом ссылок и подробностей, с важным акцентом на их канадского вендора PortaOne и с упоминанием ещё и британского Telinsor и российского Protei (догадаться несложно оригинальное название в кириллице).
Применительно к вендорам одна из ключевых тем исследования что "все врут", а то есть нигде не указывают сотрудничество с Иранскими компаниями, хотя, как утверждается, его осуществляют.
Другая интересная часть там - это про то как в Иране регулятор буквально встраивает своё API в системы операторов и знает о всех учётных действиях пользователя, а некоторые даже согласуются только через него, например, смена мобильного оператора.
Российской системе слежки за абонентами есть куда стремиться, хотя, может мы просто о ней недостаточно знаем.
Ссылки։
[1] https://citizenlab.ca/2023/01/uncovering-irans-mobile-legal-intercept-system/
#privacy #security #iran #surveillance
Forwarded from Национальный цифровой архив
⚡️Новый сервис «Поиск по архивам» от Яндекса
Сервис помогает находить рукописные документы по ключевым словам, используя имена, фамилии, названия населённых пунктов и любые другие слова.
Сейчас в базе более 2,5 миллионов архивных документов XVIII — начала XX века из хранилищ Москвы, Оренбурга и Великого Новгорода. Чаще всего это метрические книги с записями актов гражданского состояния (рождений, браков, смертей), исповедные ведомости со списками прихожан церквей и ревизские сказки с результатами переписей населения.
В основе сервиса используются нейросети, способные расшифровывать архивные записи с дореволюционной орфографией.
Попробовать поиск по архивам: https://yandex.ru/archive
Сервис помогает находить рукописные документы по ключевым словам, используя имена, фамилии, названия населённых пунктов и любые другие слова.
Сейчас в базе более 2,5 миллионов архивных документов XVIII — начала XX века из хранилищ Москвы, Оренбурга и Великого Новгорода. Чаще всего это метрические книги с записями актов гражданского состояния (рождений, браков, смертей), исповедные ведомости со списками прихожан церквей и ревизские сказки с результатами переписей населения.
В основе сервиса используются нейросети, способные расшифровывать архивные записи с дореволюционной орфографией.
Попробовать поиск по архивам: https://yandex.ru/archive