В рубрике интересных наборов данных большая коллекция коллекций геопространственных наборов данных geospatial-data-catalogs [1] включает наборы данных из։
- AWS Open Data
- AWS Open Geospatial Data
- AWS Open Geospatial Data with STAC endpoint
- STAC Index Catalogs
- Earth Engine Catalog
- Planetary Computer Catalog
В общей сложности это более 2000 наборов данных довольно большого объёма, многие из них - это спутниковые снимки, а также все метаданные извлечённые из первоисточников.
Обратите внимание, ни один из этих каталогов не является государственным. Earth Engine Catalog - это Google, Planetary Computer Catalog - это Microsoft, каталоги на AWS - это Amazon, а STAC Index - это общественный каталог вокруг спецификации STAC [2].
А также не могу не напомнить о слегка олдскульном, но любопытном каталоге общедоступных инсталляций ArcGIS [3].
Геоданных становится всё больше, думаю что рано или поздно большая часть госпорталов открытых данных будут поддерживать спецификацию STAC, а открытые каталоги big tech корпораций будут агрегировать их оттуда.
Ссылки։
[1] https://github.com/giswqs/geospatial-data-catalogs
[2] https://stacspec.org/en
[3] https://mappingsupport.com/p/surf_gis/list-federal-state-county-city-GIS-servers.pdf
#opendata #geodata #geospatial #datacatalogs
- AWS Open Data
- AWS Open Geospatial Data
- AWS Open Geospatial Data with STAC endpoint
- STAC Index Catalogs
- Earth Engine Catalog
- Planetary Computer Catalog
В общей сложности это более 2000 наборов данных довольно большого объёма, многие из них - это спутниковые снимки, а также все метаданные извлечённые из первоисточников.
Обратите внимание, ни один из этих каталогов не является государственным. Earth Engine Catalog - это Google, Planetary Computer Catalog - это Microsoft, каталоги на AWS - это Amazon, а STAC Index - это общественный каталог вокруг спецификации STAC [2].
А также не могу не напомнить о слегка олдскульном, но любопытном каталоге общедоступных инсталляций ArcGIS [3].
Геоданных становится всё больше, думаю что рано или поздно большая часть госпорталов открытых данных будут поддерживать спецификацию STAC, а открытые каталоги big tech корпораций будут агрегировать их оттуда.
Ссылки։
[1] https://github.com/giswqs/geospatial-data-catalogs
[2] https://stacspec.org/en
[3] https://mappingsupport.com/p/surf_gis/list-federal-state-county-city-GIS-servers.pdf
#opendata #geodata #geospatial #datacatalogs
GitHub
GitHub - opengeos/geospatial-data-catalogs: A list of open geospatial datasets available on AWS, Earth Engine, Planetary Computer…
A list of open geospatial datasets available on AWS, Earth Engine, Planetary Computer, NASA CMR, and STAC Index - opengeos/geospatial-data-catalogs
По поводу Единой биометрической базы данных в России мне много что есть сказать, про разного рода политические аспекты многие журналисты написали, пишут или напишут.
Я же скажу про технические и регуляторные։
1. Важно понимать что прежде чем сама идея единой биометрической базы возникла многие российские компании много инвестировали в биометрию, сбор данных их клиентов и тд. Их причины были рыночными, где-то для защиты от мошенников, где-то для коммерческой слежки (читаем Surveillance capitalism).
2. Для всех этих компаний создаваемая база - это проблема, достаточно серьёзная. Они все теперь зажаты в очень жёсткие рамки, где государство во всём ограничивает компании прикрываясь интересами граждан и никак не ограничивает спецслужбы и, потенциально, другие органы власти.
3. Почему государство прикрывается интересами граждан? Потому что реальная забота об интересах граждан - это усиление граждан в судах и возможность получения значительной компенсации при нарушении прав. А регулирование через штрафы и запреты усиливает не граждан, а те органы власти которые это регулирование будут осуществлять.
4. Это важный аспект перестройки коммуникации с рынками работающими с пользовательскими данными. Стратегия росийского Пр-ва сейчас в том чтобы перевести частный бизнес в подчинённое состояние. Это модель существования "мы вам не мешаем, пока вы делаете то что вам скажут". Это касается не только ЕБС, но тут живой и близкий пример.
5. Это, кстати, касается и всего GR последних лет. Большая часть GR активностей компаний была построена на ситуациях срочной реакции на законопроекты в стиле "сейчас мы вам всем открутим яйца прикрываясь какой-нибудь хренью!" и компании пытались отбиваться чтобы "яйца открутили только чуть-чуть" или "не совсем оторвали". За этим образом скрывается существование исключительно в модели защитного GR.
6. Конечно, единственные выгодоприобретатели это спецслужбы, МВД и потенциальные другие органы власти которые могут получить доступ к этой базе. Ограничения на доступ к ней ровно на столько насколько спецслужбы и МВД бояться что они могут следить друг за другом. Насколько они друг другу не доверяют, насколько они в конфликте, настолько наложены ограничения,но не более
7. Это важно, потому что права гражданина никто сейчас не защищает. Потому что права в законе начинаются и заканчиваются на том что "гражданин имеет право не сдавать биометрию" и то что бизнес не имеет право "принуждать" к его сдаче. Ну, способы принуждения бывают разные. Самый простой - это вписывание в условия договора мелким шрифтом. Да, ты можешь отказаться, если прочитаешь, если обратишь внимание, наверное этот пункт могут вычеркнуть.
8. А если твои данные уже будут в ЕБС то что-как? Права заканчиваются ? А что с ошибками ? А что с разбором инцидентов ? Типа это не для закона ? Нет, это несёрьёзно. Но, повторюсь, права гражданина сейчас никто не защищает.
9. Добавлю что с точки зрения информационной безопасности создание единой базы данных - это, скорее, проблема чем возможность. Единая база - это единая точка сбоя, единый источник утечки и масштабные неуправляемые последствия в случае если это произойдёт.
На этом фоне нельзя не отметить что начинают затыкать рот тем кто выступает против слежки и активно об этом говорит. Например, признание инагентами ребят из Роскомсвободы, не говоря уже о десятках журналистов, многие из которых писали про усиление слежки в России.
Тенденция плохая, не говоря уже о том что лично меня много лет уже поражает насколько российские законотворцы не думают о собственном будущем. Внедрение массовой слежки даёт возможность следить не только за всеми, но и за ними. Это примерно как принять закон о том чтобы создать комнату с компроматом на себя и вручить ключи правоохранителям.
#russia #regulation #privacy #security
Я же скажу про технические и регуляторные։
1. Важно понимать что прежде чем сама идея единой биометрической базы возникла многие российские компании много инвестировали в биометрию, сбор данных их клиентов и тд. Их причины были рыночными, где-то для защиты от мошенников, где-то для коммерческой слежки (читаем Surveillance capitalism).
2. Для всех этих компаний создаваемая база - это проблема, достаточно серьёзная. Они все теперь зажаты в очень жёсткие рамки, где государство во всём ограничивает компании прикрываясь интересами граждан и никак не ограничивает спецслужбы и, потенциально, другие органы власти.
3. Почему государство прикрывается интересами граждан? Потому что реальная забота об интересах граждан - это усиление граждан в судах и возможность получения значительной компенсации при нарушении прав. А регулирование через штрафы и запреты усиливает не граждан, а те органы власти которые это регулирование будут осуществлять.
4. Это важный аспект перестройки коммуникации с рынками работающими с пользовательскими данными. Стратегия росийского Пр-ва сейчас в том чтобы перевести частный бизнес в подчинённое состояние. Это модель существования "мы вам не мешаем, пока вы делаете то что вам скажут". Это касается не только ЕБС, но тут живой и близкий пример.
5. Это, кстати, касается и всего GR последних лет. Большая часть GR активностей компаний была построена на ситуациях срочной реакции на законопроекты в стиле "сейчас мы вам всем открутим яйца прикрываясь какой-нибудь хренью!" и компании пытались отбиваться чтобы "яйца открутили только чуть-чуть" или "не совсем оторвали". За этим образом скрывается существование исключительно в модели защитного GR.
6. Конечно, единственные выгодоприобретатели это спецслужбы, МВД и потенциальные другие органы власти которые могут получить доступ к этой базе. Ограничения на доступ к ней ровно на столько насколько спецслужбы и МВД бояться что они могут следить друг за другом. Насколько они друг другу не доверяют, насколько они в конфликте, настолько наложены ограничения,но не более
7. Это важно, потому что права гражданина никто сейчас не защищает. Потому что права в законе начинаются и заканчиваются на том что "гражданин имеет право не сдавать биометрию" и то что бизнес не имеет право "принуждать" к его сдаче. Ну, способы принуждения бывают разные. Самый простой - это вписывание в условия договора мелким шрифтом. Да, ты можешь отказаться, если прочитаешь, если обратишь внимание, наверное этот пункт могут вычеркнуть.
8. А если твои данные уже будут в ЕБС то что-как? Права заканчиваются ? А что с ошибками ? А что с разбором инцидентов ? Типа это не для закона ? Нет, это несёрьёзно. Но, повторюсь, права гражданина сейчас никто не защищает.
9. Добавлю что с точки зрения информационной безопасности создание единой базы данных - это, скорее, проблема чем возможность. Единая база - это единая точка сбоя, единый источник утечки и масштабные неуправляемые последствия в случае если это произойдёт.
На этом фоне нельзя не отметить что начинают затыкать рот тем кто выступает против слежки и активно об этом говорит. Например, признание инагентами ребят из Роскомсвободы, не говоря уже о десятках журналистов, многие из которых писали про усиление слежки в России.
Тенденция плохая, не говоря уже о том что лично меня много лет уже поражает насколько российские законотворцы не думают о собственном будущем. Внедрение массовой слежки даёт возможность следить не только за всеми, но и за ними. Это примерно как принять закон о том чтобы создать комнату с компроматом на себя и вручить ключи правоохранителям.
#russia #regulation #privacy #security
В рубрике как это работает у них визуализация стоимости аренды квадратного метра жилья во Франции. Автору в комментариях пишут что надо бы добавить градацию от 20 до 30 евро для Парижа, но в целом и так очень наглядно. А главное что визуализация на открытых государственных данных Министерства экологического перехода страны (Ministère de la Transition écologiqueю). Данные сверхгранулированные, гораздо более детальные чем муниципальное деление. Подробнее в файлах и в методологии.
Ссылки։
[1] https://twitter.com/BorisMericskay/status/1607437455656902657/photo/1
[2] https://www.data.gouv.fr/fr/datasets/carte-des-loyers-indicateurs-de-loyers-dannonce-par-commune-en-2022/
#opendata #france #datasets
Ссылки։
[1] https://twitter.com/BorisMericskay/status/1607437455656902657/photo/1
[2] https://www.data.gouv.fr/fr/datasets/carte-des-loyers-indicateurs-de-loyers-dannonce-par-commune-en-2022/
#opendata #france #datasets
В рубрике как это работает у них, французский портал code.gouv.fr [1] посвящённый использованию открытого кода. Содержит данные о 15 114 репозиториях кода созданных органами власти и госучреждениями Франции. Например, не все знают что язык программирования OCaml создан и поддерживается французским Institute for Research in Computer Science and Automation (INRIA). Или вот язык программирования Catala [2] для описания юридических текстов.
Причём код размещён не только на Github'е, но и на десятках инсталляций Gitlab.
Много кода завязано на открытые данные. Во Франции есть своя экосистема открытости госданных, она построена на движке udata и наборе собственных открытых инфраструктурных сервисов.
Ну и помимо всего прочего там же отдельные разделы с информацией о зависимости кода от внешних библиотек и реестр рекомендуемого открытого ПО.
Ссылки։
[1] https://code.gouv.fr
[2] https://github.com/CatalaLang/catala
#opensource #france
Причём код размещён не только на Github'е, но и на десятках инсталляций Gitlab.
Много кода завязано на открытые данные. Во Франции есть своя экосистема открытости госданных, она построена на движке udata и наборе собственных открытых инфраструктурных сервисов.
Ну и помимо всего прочего там же отдельные разделы с информацией о зависимости кода от внешних библиотек и реестр рекомендуемого открытого ПО.
Ссылки։
[1] https://code.gouv.fr
[2] https://github.com/CatalaLang/catala
#opensource #france
47.8 миллионов километров дорог распознано в картах Bing и выложено Microsoft онлайн в виде открытых данных под лицензией ODbl [1]. В данных совсем нет Китая, Японии, Кореи, Папуа Новая-Гвинея.
Но Россия есть, и обитаемая зона её не так велика как географическая.
Все данные в формате TSV, сжатый объём около 10GB.
Ссылки։
[1] https://github.com/microsoft/RoadDetections
#opendata #datasets #microsoft
Но Россия есть, и обитаемая зона её не так велика как географическая.
Все данные в формате TSV, сжатый объём около 10GB.
Ссылки։
[1] https://github.com/microsoft/RoadDetections
#opendata #datasets #microsoft
Новый год приближается очень быстро, можно подвести краткие итоги. В этом году я очень много писал в телеграм канал, более 1000 публикаций. Читателей стало больше, но всё ещё разумное количество. Много репостов и просмотров, много реакций и комментариев.
Я начинал этот канал как записную книжку о прочитанном, просмотренном, обдуманном и большую часть времени так и продолжаю его вести. Спасибо что читаете!
Я начинал этот канал как записную книжку о прочитанном, просмотренном, обдуманном и большую часть времени так и продолжаю его вести. Спасибо что читаете!
Свежее регулирование от Еврокомиссии определяющее раскрытие особо ценных наборов данных (high value datasets) [1].
Охватывает ключевые наборы данных по таким темам как։
- Geospatial
- Earth observation and environment
- Meteorological
- Statistics
- Companies and company ownership
- Mobility
Все данные должны публиковаться под лицензиями CC0 или CC-BY, через API и доступными для массовой выгрузки (bulk download). Еврокомиссия будет мониторить раскрытие данных и раз в два года собирать отчет о выполнении этой директивы.
Обратите внимание, что в этих списках не так много данных о финансах, к примеру, и даже раскрытие по компаниям не так подробно как могло бы быть. Нет данных о бюджетах, о госконтрактах и ещё много чего.
Зато очень много данных связанных с качеством жизни - это данных об окружающей среде, загрязнении воздуха, воды, земли и многое другое.
Поэтому хотя и это регулирование не идеальное, но оно важное и надеюсь оно будет далее расширяться. Причём за основу можно было бы взять данные перечисленные в Global Data Barometer
Можно сравнить эту директиву с регулированием в Казахстане о котором я писал недавно. И найти отличия. Подсказка։ в Казахстане нет ни свободного доступа, ни открытых лицензий, ни иной конкретики.
Про Россию даже писать здесь нечего. Российские НПА требуют раскрытия огромного объёма бессмысленных данных и игнорируют раскрытие реально значимых. Ненужных данных много, нужные всё сложнее получить.
Ссылки։
[1] https://eur-lex.europa.eu/legal-content/EN/TXT/?uri=PI_COM:C(2022)9562
#opendata #datasets #europe
Охватывает ключевые наборы данных по таким темам как։
- Geospatial
- Earth observation and environment
- Meteorological
- Statistics
- Companies and company ownership
- Mobility
Все данные должны публиковаться под лицензиями CC0 или CC-BY, через API и доступными для массовой выгрузки (bulk download). Еврокомиссия будет мониторить раскрытие данных и раз в два года собирать отчет о выполнении этой директивы.
Обратите внимание, что в этих списках не так много данных о финансах, к примеру, и даже раскрытие по компаниям не так подробно как могло бы быть. Нет данных о бюджетах, о госконтрактах и ещё много чего.
Зато очень много данных связанных с качеством жизни - это данных об окружающей среде, загрязнении воздуха, воды, земли и многое другое.
Поэтому хотя и это регулирование не идеальное, но оно важное и надеюсь оно будет далее расширяться. Причём за основу можно было бы взять данные перечисленные в Global Data Barometer
Можно сравнить эту директиву с регулированием в Казахстане о котором я писал недавно. И найти отличия. Подсказка։ в Казахстане нет ни свободного доступа, ни открытых лицензий, ни иной конкретики.
Про Россию даже писать здесь нечего. Российские НПА требуют раскрытия огромного объёма бессмысленных данных и игнорируют раскрытие реально значимых. Ненужных данных много, нужные всё сложнее получить.
Ссылки։
[1] https://eur-lex.europa.eu/legal-content/EN/TXT/?uri=PI_COM:C(2022)9562
#opendata #datasets #europe
Если говорить про рынки основанные на данных, то 2022 год - это, безусловно, год Generative AI. Многие уже видели подборку продуктов в этой области [1] и это далеко не все продукты. Следующий год будет проходить под девизом "какую следующую креативную профессию мы собираемся [уничтожить] автоматизировать?".
На втором уровне этого рынка стремительно растёт вопрос на данные которыми можно обучать языковые модели, генеративные сервисы и иные многочисленные продукты.
Многие нынешние лидеры рынков проверки орфографии, поиска, чат-ботов, личных помощников, сервисов электронной почты и тд. столкнутся с необходимостью ожесточенной конкуренции с новичками, дающими лучший сервис с помощью ИИ.
P.S․ В данном случае ИИ это уже не только машинное обучение, но именно огромные языковые модели.
Ссылки։
[1] https://t.co/QiNl7VP8oI
#ai #itmarket #endoftheyear
На втором уровне этого рынка стремительно растёт вопрос на данные которыми можно обучать языковые модели, генеративные сервисы и иные многочисленные продукты.
Многие нынешние лидеры рынков проверки орфографии, поиска, чат-ботов, личных помощников, сервисов электронной почты и тд. столкнутся с необходимостью ожесточенной конкуренции с новичками, дающими лучший сервис с помощью ИИ.
P.S․ В данном случае ИИ это уже не только машинное обучение, но именно огромные языковые модели.
Ссылки։
[1] https://t.co/QiNl7VP8oI
#ai #itmarket #endoftheyear
2023 год наступил, я под него откладывал набор предсказаний, предположений, мыслей того что нас ждёт в этом году. В этом году мой список будет краток и, почти наверняка неполон.
Технологический рынок в целом
- несомненно 2023 год будет годом Generative AI. Везде где хоть как-то создаётся любой контент появится, или расширение существующих, или новые продукты
- стартапы и продукты в этой области будут появляться до 100+ в месяц
- реальный масштаб изменений пока до конца оценить, но он будет велик, без сомнений
Рынок данных
- будет всплеск потребности данных для языковых моделей, рынок сбора данных значительно адаптируется под ИИ
- концепция Modern Data Stack постепенно будет размываться, возможно исчезнет из основного лексикона
- продукты корпоративных каталогов данных будут терять клиентов и востребованность, поскольку функции data lineage будут полноценно реализовывать крупные облачные хранилища данных которыми управляют Google, AWS, Amazon и др.
Открытые данные
- наибольшая активность в этом году будет в темах публичных каталогов данных от Big Tech, данных для машинного обучения и открытых научных данных (FAIR и Open Access)
- усилится работа с открытыми данными в ООН и других межгосударственных структурах
- на государственном уровне в большинстве стран будет некая стагнация, не сильно хуже, не сильно лучше.
- в России открытость государства будет снижаться, затронет это и открытые данные и иные общедоступные ранее данные. В первую очередь любые данные дающие прямую или косвенную оценку состояния экономики и общества.
Государства и регулирование
- будет больше партнерств big tech и национальных правительств. Для создания языковых моделей для национальных языков, для распространения доступа к интернету, для повышения доступности технологий и тд.
- продолжится тренд на усиление регулирования персональных данных по всему миру, давления на big tech по локализации присутствия, центров обработки данных и тд.
- в России начнут применять оборотные штрафы к бизнесу, но к госкорпам и госорганам их не применят/их применение будет невозможно
#opendata #data #dataengineering #government #predictions
Технологический рынок в целом
- несомненно 2023 год будет годом Generative AI. Везде где хоть как-то создаётся любой контент появится, или расширение существующих, или новые продукты
- стартапы и продукты в этой области будут появляться до 100+ в месяц
- реальный масштаб изменений пока до конца оценить, но он будет велик, без сомнений
Рынок данных
- будет всплеск потребности данных для языковых моделей, рынок сбора данных значительно адаптируется под ИИ
- концепция Modern Data Stack постепенно будет размываться, возможно исчезнет из основного лексикона
- продукты корпоративных каталогов данных будут терять клиентов и востребованность, поскольку функции data lineage будут полноценно реализовывать крупные облачные хранилища данных которыми управляют Google, AWS, Amazon и др.
Открытые данные
- наибольшая активность в этом году будет в темах публичных каталогов данных от Big Tech, данных для машинного обучения и открытых научных данных (FAIR и Open Access)
- усилится работа с открытыми данными в ООН и других межгосударственных структурах
- на государственном уровне в большинстве стран будет некая стагнация, не сильно хуже, не сильно лучше.
- в России открытость государства будет снижаться, затронет это и открытые данные и иные общедоступные ранее данные. В первую очередь любые данные дающие прямую или косвенную оценку состояния экономики и общества.
Государства и регулирование
- будет больше партнерств big tech и национальных правительств. Для создания языковых моделей для национальных языков, для распространения доступа к интернету, для повышения доступности технологий и тд.
- продолжится тренд на усиление регулирования персональных данных по всему миру, давления на big tech по локализации присутствия, центров обработки данных и тд.
- в России начнут применять оборотные штрафы к бизнесу, но к госкорпам и госорганам их не применят/их применение будет невозможно
#opendata #data #dataengineering #government #predictions
В рубрике как это работает у них, проект FairSharing [1] база стандартов, политик и баз данных/каталогов данных связанных с научными исследованиями.
В общей сложности в базе собраны։
- 1973 баз данных
- 1646 стандартов
- 159 политик
- 3487 организаций
Важная особенность в том что все материалы тщательно перелинкованы, включают ссылки на научные публикации, информацию об организациях, их роли и так далее.
Это курируемый каталог, с командой из 8 человек из Data Readiness Group из Университета Оксфорда [2] и десятков если не сотен исследователей вовлеченных в его наполнение.
Изначально специализация команды была в биомедицине, бионауках и всё что подпадает под life sciences, поэтому можно заметить что и FairSharing содержит более всего ресурсов по медицине и биологии, а также то что в самом каталоге есть возможность фильтрации по материалам относящимся к видам животных. Тем не менее, сейчас проект развивается скорее как универсальный. К примеру, уже много материалов по компьютерным наукам и совсем мало по экономике.
Материалов связанных с Россией там очень мало, с другими постсоветскими странами. Есть данные по метеорологии, несколько баз данных по биологии и генетике, профинансированных РНФ, и несколько баз созданных ещё в советское время в рамках World Data Centers.
При этом данные интегрированы с проектами Re3Data от DataCite и ROR.
Лично меня удивило только что сделан он на самостоятельно разработанном движке, а не на Wikidata, к примеру, который смотрится почти идеально для подобных задач. С другой стороны у продуктов на базе Mediawiki и Wikidata свои ограничения, несомненно собственный движок гораздо гибче.
Ссылки։
[1] https://fairsharing.org/
[2] https://datareadiness.eng.ox.ac.uk/
#openaccess #opendata #fair #datastandards
В общей сложности в базе собраны։
- 1973 баз данных
- 1646 стандартов
- 159 политик
- 3487 организаций
Важная особенность в том что все материалы тщательно перелинкованы, включают ссылки на научные публикации, информацию об организациях, их роли и так далее.
Это курируемый каталог, с командой из 8 человек из Data Readiness Group из Университета Оксфорда [2] и десятков если не сотен исследователей вовлеченных в его наполнение.
Изначально специализация команды была в биомедицине, бионауках и всё что подпадает под life sciences, поэтому можно заметить что и FairSharing содержит более всего ресурсов по медицине и биологии, а также то что в самом каталоге есть возможность фильтрации по материалам относящимся к видам животных. Тем не менее, сейчас проект развивается скорее как универсальный. К примеру, уже много материалов по компьютерным наукам и совсем мало по экономике.
Материалов связанных с Россией там очень мало, с другими постсоветскими странами. Есть данные по метеорологии, несколько баз данных по биологии и генетике, профинансированных РНФ, и несколько баз созданных ещё в советское время в рамках World Data Centers.
При этом данные интегрированы с проектами Re3Data от DataCite и ROR.
Лично меня удивило только что сделан он на самостоятельно разработанном движке, а не на Wikidata, к примеру, который смотрится почти идеально для подобных задач. С другой стороны у продуктов на базе Mediawiki и Wikidata свои ограничения, несомненно собственный движок гораздо гибче.
Ссылки։
[1] https://fairsharing.org/
[2] https://datareadiness.eng.ox.ac.uk/
#openaccess #opendata #fair #datastandards
Полезное чтение про ИИ, языковые модели и не только։
- The Dark Risk of Large Language Models [1] от Gary Marcus об ограничениях языковых моделей и с предсказанием о том что в 2023 году хотя бы один человек умрёт/погибнет из-за советов или общения с чат-ботом
- AGI Debate [2] видеозапись недавних дебатов о возможности создания полноценного ИИ и прогресс текущих технологий по приближении к нему. Ведущий всё тот же Gary Marcus, а среди участников Noam Chomsky.
- Database of AI tools for every use case [3] подборка свежих отобранных инструментов на базе ИИ, чаще всего на базе ChatGPT. Много ссылок с описанием.
- Future Tools [4] база из 246 продуктов/стартапов разделённых по темам. Обновления чуть ли не ежедневно и тематические подборки там весьма неплохие. Думаю что и этот список неполон и реально сервисов и продуктов куда больше. Большая часть основаны на GPT-3 и ChatGPT.
- ChatGPT generated content vs McKinsey article on "How tools like ChatGPT can change your business" [5] консультанты из McKinsey написали статью о том как инструменты вроде ChatGPT могут поменять Ваш бизнес, а один из читателей попросил ChatGPT написать альтернативную таблицу применения ChatGPT по сравнению с той что была в статье. В комментариях многие пишут что в случае McKinsey важно не только содержание, но бренд.
Ссылки։
[1] https://www.wired.com/story/large-language-models-artificial-intelligence/
[2] https://www.youtube.com/watch?v=JGiLz_Jx9uI&t=393s
[3] https://bensbites.beehiiv.com/p/database-ai-tools-every-use-case
[4] https://www.futuretools.io/
[5] https://www.linkedin.com/feed/update/urn:li:share:7014223165421666304/
#ai #readings
- The Dark Risk of Large Language Models [1] от Gary Marcus об ограничениях языковых моделей и с предсказанием о том что в 2023 году хотя бы один человек умрёт/погибнет из-за советов или общения с чат-ботом
- AGI Debate [2] видеозапись недавних дебатов о возможности создания полноценного ИИ и прогресс текущих технологий по приближении к нему. Ведущий всё тот же Gary Marcus, а среди участников Noam Chomsky.
- Database of AI tools for every use case [3] подборка свежих отобранных инструментов на базе ИИ, чаще всего на базе ChatGPT. Много ссылок с описанием.
- Future Tools [4] база из 246 продуктов/стартапов разделённых по темам. Обновления чуть ли не ежедневно и тематические подборки там весьма неплохие. Думаю что и этот список неполон и реально сервисов и продуктов куда больше. Большая часть основаны на GPT-3 и ChatGPT.
- ChatGPT generated content vs McKinsey article on "How tools like ChatGPT can change your business" [5] консультанты из McKinsey написали статью о том как инструменты вроде ChatGPT могут поменять Ваш бизнес, а один из читателей попросил ChatGPT написать альтернативную таблицу применения ChatGPT по сравнению с той что была в статье. В комментариях многие пишут что в случае McKinsey важно не только содержание, но бренд.
Ссылки։
[1] https://www.wired.com/story/large-language-models-artificial-intelligence/
[2] https://www.youtube.com/watch?v=JGiLz_Jx9uI&t=393s
[3] https://bensbites.beehiiv.com/p/database-ai-tools-every-use-case
[4] https://www.futuretools.io/
[5] https://www.linkedin.com/feed/update/urn:li:share:7014223165421666304/
#ai #readings
WIRED
The Dark Risk of Large Language Models
AI is better at fooling humans than ever—and the consequences will be serious.
Восстанавливаю привычку писать в блог тексты длиннее половины страницы. Написал в рассылку большой пост [1] про общедоступные каталоги межгосударственных структур вроде ООН того как они развиваются и с множеством примеров каталогов данных таких организаций.
Если коротко։
1. Развиваются хорошо, открытых данных всё больше
2. Десятки порталов открытых данных создано межгосударственными структурами.
Ссылки։
[1] https://begtin.substack.com/p/cb4
#opendata #un #datasets #blogging
Если коротко։
1. Развиваются хорошо, открытых данных всё больше
2. Десятки порталов открытых данных создано межгосударственными структурами.
Ссылки։
[1] https://begtin.substack.com/p/cb4
#opendata #un #datasets #blogging
В рубрике интересных проектов на открытых данных и создающих открытые данные база DB Nomics [1]. Это общедоступная база открытых данных показателей собранных из 65 источников таких как UN Data, портал открытых данных Всемирного банка, данные центральных банков многих стран, Евростата и так далее. Даже с сайта российского Росстата собирается несколько показателей [2]. Все содержимое сайта доступно через через открытое API [3] и в репозиториях на Git вместе с его кодом, который также полностью открыт [4]. Кроме того существуют клиенты для доступа к данным для языков программирования Python, R, Julia и для продуктов Mathlab, Stata и многих других. В общей сложности там собрано 24862 показателя, многие из которых обновляются ежедневно.
DB Nomics можно отнести к проектам для исследователей экономистов. Его команда работает во французском мозговом центре CEPREMAP и данные индикаторов, собираемых в проекте, используются для формирования макроэкномических моделей и прогнозов․ Таких как Macroeconomic outlook [5] от 23 декабря 2022 года.
Проектов собирающих данные показателей по странам довольно много, но важное отличие именно DB Nomics в открытости данных и кода и при этом довольно высоком качестве реализации.
Ссылки։
[1] https://db.nomics.world/
[2] https://db.nomics.world/ROSSTAT
[3] https://api.db.nomics.world/v22/apidocs
[4] https://git.nomics.world/dbnomics
[5] https://www.cepremap.fr/depot/2022/12/2022-12-23-Macroeconomic-Outlook.pdf
#opendata #dataset #economy #france #indicators
DB Nomics можно отнести к проектам для исследователей экономистов. Его команда работает во французском мозговом центре CEPREMAP и данные индикаторов, собираемых в проекте, используются для формирования макроэкномических моделей и прогнозов․ Таких как Macroeconomic outlook [5] от 23 декабря 2022 года.
Проектов собирающих данные показателей по странам довольно много, но важное отличие именно DB Nomics в открытости данных и кода и при этом довольно высоком качестве реализации.
Ссылки։
[1] https://db.nomics.world/
[2] https://db.nomics.world/ROSSTAT
[3] https://api.db.nomics.world/v22/apidocs
[4] https://git.nomics.world/dbnomics
[5] https://www.cepremap.fr/depot/2022/12/2022-12-23-Macroeconomic-Outlook.pdf
#opendata #dataset #economy #france #indicators
Особый жанр в рынке данных - это стартапы-дискаунтеры, расширяющие доступность данных переводя премиум-продукты в разряд общедоступных меняя модель ценообразования. У Александра Горного интересный пост [1] про стартап Databento [2]. Данные те же что и у других провайдеров высокочастотных биржевых данных, но покупать можно небольшими порциями и иметь возможность обучать свои алгоритмы без очень дорогих коммерческих подписок. Получили $63M инвестиций за 3 года, последний раунд в $31.8M был анонсирован 19 декабря 2022 года. [3]
Другой пример стартапа Rejustify [4], это стартап по обогащению данных общедоступной статистикой. Можно сказать полноценно стартап на открытых данных. Они используют данные из проекта DB Nomics о котором я ранее писал [5] и помогают обогащать таблицы данными этих показателей. Сумма привлеченных инвестиций не раскрывается и, лично по мне, так у них всё плохо с маркетингом, но сама задумка более чем интересная.
Ещё один любопытный испанский стартап Citibeats [6] отслеживающий общественное мнение по публикациям в социальных сетях. От других подобных продуктов отличаются автоматическим построением отчетов и отслеживанием тем, в основном, связанных с международной повесткой. А то есть ориентированы они на международный бизнес и межгосударственные структуры. Привлекли $4M инвестиций, что немного и поэтому интересно где они берут данные и как их собирают. Потому что $4M будет достаточно только для интерфейса и обработки данных, а сбор тут самое дорогое.
Ссылки։
[1] https://yangx.top/startupoftheday/2752
[2] https://databento.com
[3] https://www.crunchbase.com/organization/databento
[4] https://rejustify.com
[5] https://yangx.top/begtin/4512
[6] https://www.citibeats.com
[7] https://www.crunchbase.com/organization/citibeats
#startups #data #opendata
Другой пример стартапа Rejustify [4], это стартап по обогащению данных общедоступной статистикой. Можно сказать полноценно стартап на открытых данных. Они используют данные из проекта DB Nomics о котором я ранее писал [5] и помогают обогащать таблицы данными этих показателей. Сумма привлеченных инвестиций не раскрывается и, лично по мне, так у них всё плохо с маркетингом, но сама задумка более чем интересная.
Ещё один любопытный испанский стартап Citibeats [6] отслеживающий общественное мнение по публикациям в социальных сетях. От других подобных продуктов отличаются автоматическим построением отчетов и отслеживанием тем, в основном, связанных с международной повесткой. А то есть ориентированы они на международный бизнес и межгосударственные структуры. Привлекли $4M инвестиций, что немного и поэтому интересно где они берут данные и как их собирают. Потому что $4M будет достаточно только для интерфейса и обработки данных, а сбор тут самое дорогое.
Ссылки։
[1] https://yangx.top/startupoftheday/2752
[2] https://databento.com
[3] https://www.crunchbase.com/organization/databento
[4] https://rejustify.com
[5] https://yangx.top/begtin/4512
[6] https://www.citibeats.com
[7] https://www.crunchbase.com/organization/citibeats
#startups #data #opendata
Telegram
Стартап дня. Александр Горный.
БИРЖЕВЫЕ ДАННЫЕ ПО ОДНОМУ
Если на рынке доминирует оплата за каждую транзакцию, то клиента легко привлечь подпиской – “всего 100 долларов за безлимит”. Если на рынке доминирует подписка, то привлекательное предложение клиенту может звучать как “оплачивайте…
Если на рынке доминирует оплата за каждую транзакцию, то клиента легко привлечь подпиской – “всего 100 долларов за безлимит”. Если на рынке доминирует подписка, то привлекательное предложение клиенту может звучать как “оплачивайте…
Исследователь безопасности Matt Kunze опубликовал большой текст [1] о том как он нашёл в колонке Google Home Mini уязвимость позволяющую превращать её в шпионское устройство и дающее возможность записывать всё что человек рядом с колонкой произносит. Автор нашёл эту уязвимость ещё в 2021 году, участвовал в программе баг баунти от Google и в итоге получил от них $107 500 наградой за обнаружение этой уязвимости.
Можно предположить что условием получение этого приза было то что он не мог публиковать подробности какое-то время и вот только уже в декабре 2022 года он разместил очень подробное и хорошо проработанное описание.
Почему это важно? Потому что даже если предположить что корпорации создающие подобные устройства не являются безусловным злом и сами не следят за Вами, это не значит что такая возможность отсутствует принципиально. Умными колонками могут использоваться для слежки хакерами, полицией, правительственными службами, кибервойсками противоборствующих стран, конкурентами и многими другими.
Это, конечно же, при том вольном предположении что корпорации не являются этим самым безусловным злом.
При этом важное отличие колонок и других "домашних умных вещей" в том что их, в том что их меняют реже чем телефоны. Их трафик ещё сложнее контролировать чем трафик настольных компьютеров или телефонов. Уязвимости в таких устройствах могут существовать достаточно долгое время, и неизвестно сколь многие могут их использовать. Не говоря уже о том что спецслужбы могут иметь прямое влияние на устанавливающие их компании и иметь возможность дистанционного подключения в нужных им случаях.
Как бы то ни было каждый для себя сам подбирает комфортный уровень паранойи, а подобные находки можно просто принимать для сведения.
Ссылки։
[1] https://downrightnifty.me/blog/2022/12/26/hacking-google-home.html
#privacy #security #iot #google
Можно предположить что условием получение этого приза было то что он не мог публиковать подробности какое-то время и вот только уже в декабре 2022 года он разместил очень подробное и хорошо проработанное описание.
Почему это важно? Потому что даже если предположить что корпорации создающие подобные устройства не являются безусловным злом и сами не следят за Вами, это не значит что такая возможность отсутствует принципиально. Умными колонками могут использоваться для слежки хакерами, полицией, правительственными службами, кибервойсками противоборствующих стран, конкурентами и многими другими.
Это, конечно же, при том вольном предположении что корпорации не являются этим самым безусловным злом.
При этом важное отличие колонок и других "домашних умных вещей" в том что их, в том что их меняют реже чем телефоны. Их трафик ещё сложнее контролировать чем трафик настольных компьютеров или телефонов. Уязвимости в таких устройствах могут существовать достаточно долгое время, и неизвестно сколь многие могут их использовать. Не говоря уже о том что спецслужбы могут иметь прямое влияние на устанавливающие их компании и иметь возможность дистанционного подключения в нужных им случаях.
Как бы то ни было каждый для себя сам подбирает комфортный уровень паранойи, а подобные находки можно просто принимать для сведения.
Ссылки։
[1] https://downrightnifty.me/blog/2022/12/26/hacking-google-home.html
#privacy #security #iot #google
Matt’s internet home
Turning Google smart speakers into wiretaps for $100k
I was recently rewarded a total of $107,500 by Google for responsibly disclosing security issues in the Google Home smart speaker that allowed an attacker within wireless proximity to install a “backdoor” account on the device, enabling them to send commands…
Полезное чтение про данные, технологии и не только։
- Data science has a tool obsession [1] о том что в data science все слишком много обсуждают инструменты и что не всё сводится к инструментам.
- What if we rewrite everything ? [2] рассуждения о техническом долге и мыслях многих разработчиков о том что "всё надо переписать!". Кстати о техническом долге, главное отличие миддлов от сеньёров в осознании что не всегда и не всё можно и нужно переписывать, а вот документировать надо всегда.
- HTTPIE AI [3] изначально httpie была очень удобной, я бы даже сказал элегантной утилитой командной строки чтобы делать запросы к API, а теперь анонсируют AI Assistant превращающий человеческий текст в запросы. В прошлом году они подняли $6.5M инвестиций [4] и активно делают облачный сервис. Я ещё удивлялся в чём их бизнес модель, а они нацеливаются на вот такие фишки. ИМХО, в таком виде бизнес преимуществ немного.
- Recap: A Data Catalog for People Who Hate Data Catalogs [5] автор сделал то о чём я лично давно думал, каталог данных не для людей, а я для машин. Вернее, сделал некий хороший прототип с поддержкой кучи СУБД, но без документации и тд. Посмотрю как будет развиваться.
- Introducing ADBC: Database Access for Apache Arrow [6] проект по универсализации доступа к СУБД без привязки к вендорам, альтернатива JDBC и ODBC и с поддержкой стандарта/формата Arrow по умолчанию. Выглядит логично и полезно․ Расшифровывается как Arrow Database Connectivity.
- Salesforce Guts Tableau After Spending $15.7 Billion in 2019 Deal [7] в Salesforce увольняют 10% сотрудников, включая тех кто работает в приобретённым ими ранее Tableau. Интересно как это отразится на продукте в итоге.
Ссылки։
[1] https://counting.substack.com/p/data-science-has-a-tool-obsession
[2] https://blog.malt.engineering/what-if-we-rewrite-everything-e1662e86da41
[3] https://httpie.io/blog/ai
[4] https://yangx.top/begtin/3871
[5] https://cnr.sh/essays/recap-for-people-who-hate-data-catalogs
[6] https://arrow.apache.org/blog/2023/01/05/introducing-arrow-adbc/
#data #datatools #readings #technology
- Data science has a tool obsession [1] о том что в data science все слишком много обсуждают инструменты и что не всё сводится к инструментам.
- What if we rewrite everything ? [2] рассуждения о техническом долге и мыслях многих разработчиков о том что "всё надо переписать!". Кстати о техническом долге, главное отличие миддлов от сеньёров в осознании что не всегда и не всё можно и нужно переписывать, а вот документировать надо всегда.
- HTTPIE AI [3] изначально httpie была очень удобной, я бы даже сказал элегантной утилитой командной строки чтобы делать запросы к API, а теперь анонсируют AI Assistant превращающий человеческий текст в запросы. В прошлом году они подняли $6.5M инвестиций [4] и активно делают облачный сервис. Я ещё удивлялся в чём их бизнес модель, а они нацеливаются на вот такие фишки. ИМХО, в таком виде бизнес преимуществ немного.
- Recap: A Data Catalog for People Who Hate Data Catalogs [5] автор сделал то о чём я лично давно думал, каталог данных не для людей, а я для машин. Вернее, сделал некий хороший прототип с поддержкой кучи СУБД, но без документации и тд. Посмотрю как будет развиваться.
- Introducing ADBC: Database Access for Apache Arrow [6] проект по универсализации доступа к СУБД без привязки к вендорам, альтернатива JDBC и ODBC и с поддержкой стандарта/формата Arrow по умолчанию. Выглядит логично и полезно․ Расшифровывается как Arrow Database Connectivity.
- Salesforce Guts Tableau After Spending $15.7 Billion in 2019 Deal [7] в Salesforce увольняют 10% сотрудников, включая тех кто работает в приобретённым ими ранее Tableau. Интересно как это отразится на продукте в итоге.
Ссылки։
[1] https://counting.substack.com/p/data-science-has-a-tool-obsession
[2] https://blog.malt.engineering/what-if-we-rewrite-everything-e1662e86da41
[3] https://httpie.io/blog/ai
[4] https://yangx.top/begtin/3871
[5] https://cnr.sh/essays/recap-for-people-who-hate-data-catalogs
[6] https://arrow.apache.org/blog/2023/01/05/introducing-arrow-adbc/
#data #datatools #readings #technology
Counting Stuff
Data science has a tool obsession
That we need to balance out