На сайте Счетной палаты РФ выложили все открытые бюллетени СП РФ с 1996 года [1] что для российских органов власти шаг абсолютно беспрецедентный даже не потому что многие боятся что-то открывать, а потому что просто продалбывают собственные архивы и даже не пытаются их восстановить когда это понимают.
Поэтому архив отчетов Счетной палаты - это полезная база документов, важная для открытости гос-ва в целом. При этом архив был опубликован в специальном разделе сайта СП РФ [2] недостатком и достоинством которого является то что внутри него используется API для поиска по этим файлам. В результате поисковые системы, Интернет-архив и другие краулеры могут не добраться для индексирования PDF файлов. Но данные из этого же API легко превращаются в набор данных и файлы можно скачать с его помощь.
При смене руководителей организаций очень часто в первую очередь новый руководитель меняет именно сайт. Поэтому мы заархивировали архив отчетов Счетной палаты и слепок всех документов архива находится по ссылке [3], а по другой ссылке набор данных в формате JSONL с метаданными к этим документам [4]
Ссылки։
[1] https://ach.gov.ru/news/project_archive
[2] https://ach.gov.ru/checks/
[3] https://cdn.ruarxive.org/public/dataportals/ach.gov.ru/2022-11-30/checks/files/
[4] https://cdn.ruarxive.org/public/dataportals/ach.gov.ru/2022-11-30/checks/data.jsonl.zip
#datasets #opendata
Поэтому архив отчетов Счетной палаты - это полезная база документов, важная для открытости гос-ва в целом. При этом архив был опубликован в специальном разделе сайта СП РФ [2] недостатком и достоинством которого является то что внутри него используется API для поиска по этим файлам. В результате поисковые системы, Интернет-архив и другие краулеры могут не добраться для индексирования PDF файлов. Но данные из этого же API легко превращаются в набор данных и файлы можно скачать с его помощь.
При смене руководителей организаций очень часто в первую очередь новый руководитель меняет именно сайт. Поэтому мы заархивировали архив отчетов Счетной палаты и слепок всех документов архива находится по ссылке [3], а по другой ссылке набор данных в формате JSONL с метаданными к этим документам [4]
Ссылки։
[1] https://ach.gov.ru/news/project_archive
[2] https://ach.gov.ru/checks/
[3] https://cdn.ruarxive.org/public/dataportals/ach.gov.ru/2022-11-30/checks/files/
[4] https://cdn.ruarxive.org/public/dataportals/ach.gov.ru/2022-11-30/checks/data.jsonl.zip
#datasets #opendata
reestr-inostrannyih-agentov-01-12-2022.zip
93 KB
Минюст опубликовал единый реестр иностранных агентов [1] в виде PDF файла в 15 страниц и 493 записи. Не буду комментировать странности ведения и публикации этого реестра в PDF файле и тем более его содержание.
В любом случае журналистам и не только для анализа будет удобнее работать с Excel и CSV файлами, поэтому именно их прилагаю.
Ссылки։
[1] https://minjust.gov.ru/uploaded/files/reestr-inostrannyih-agentov-01-12-2022.pdf
#opendata #dataset
В любом случае журналистам и не только для анализа будет удобнее работать с Excel и CSV файлами, поэтому именно их прилагаю.
Ссылки։
[1] https://minjust.gov.ru/uploaded/files/reestr-inostrannyih-agentov-01-12-2022.pdf
#opendata #dataset
В США Propublica опубликовали наиболее подробную карту загрязнения воздуха в США [1] с возможностью выбрать конкретную локацию и увидеть на карте уровни загрязнения на очень детальном уровне.
В основе карты данные EPA Risk-Screening Environmental Indicators (RSEI) Model [2] публикуемые Агентством по защите природы США в многочисленных форматах открытых данных [3]. Там буквально есть всё։ CSV, SHP, данные переписи наложенные на модель RSEI и даже база MS Access и всё выложенное на FTP сервер для массовой выгрузки [4].
Хороший пример того как надо публиковать данные о качестве жизни органам власти и о том что можно создать на их основе.
Ссылки։
[1] https://projects.propublica.org/toxmap/
[2] https://www.epa.gov/rsei
[3] https://www.epa.gov/rsei/ways-get-rsei-results#products
[4] https://gaftp.epa.gov/rsei/Current_Version/Version2310_RY2020/
#opendata #datasets #lifequality #pollution #usa
В основе карты данные EPA Risk-Screening Environmental Indicators (RSEI) Model [2] публикуемые Агентством по защите природы США в многочисленных форматах открытых данных [3]. Там буквально есть всё։ CSV, SHP, данные переписи наложенные на модель RSEI и даже база MS Access и всё выложенное на FTP сервер для массовой выгрузки [4].
Хороший пример того как надо публиковать данные о качестве жизни органам власти и о том что можно создать на их основе.
Ссылки։
[1] https://projects.propublica.org/toxmap/
[2] https://www.epa.gov/rsei
[3] https://www.epa.gov/rsei/ways-get-rsei-results#products
[4] https://gaftp.epa.gov/rsei/Current_Version/Version2310_RY2020/
#opendata #datasets #lifequality #pollution #usa
В дополнение к новости про архив отчетов Счетной палаты [1], копия отчетов загружена в Интернет архив [2], это будет удобнее тем кто хочет скачать их одним файлом. Там же набор данных с метаданными и ссылками на документы отчетов. Структура директорий в файле с отчетами воспроизводит структуру сайта Счетной палаты, поэтому можно по каждой ссылки из набора данных найти нужный сохранённый файл.
Общий объём 4.2 гигабайта в сжатом виде, около 5 гигабайт в распакованном виде
Архив был сделан с помощью программы с открытым кодом apibackuper [3], её настройки для выгрузки данных Счетной палаты можно найти здесь, в репозитории apibackuper-datarchive [4].
Для чего можно использовать набор данных с отчетами Счетной палаты?
1. В аналитических задачах связанных с контролем за государственными финансами.
2. В задачах идентификации именованных объектов.
Может быть можно ещё для чего-то.
Напомню что если Вы знаете о возможном исчезновении или риске исчезновения каких-либо значимых данных, напишите нам, в @ruarxive через сайт, письмом или сообщением или в чате и мы постараемся оперативно сохранить эти данные.
Ссылки։
[1] https://yangx.top/begtin/4442
[2] https://archive.org/details/achgovru-checks
[3] https://github.com/ruarxive/apibackuper
[3] https://github.com/ruarxive/apibackuper-dataarchive/tree/main/achgovru-checks
#opendata #datasets #government
Общий объём 4.2 гигабайта в сжатом виде, около 5 гигабайт в распакованном виде
Архив был сделан с помощью программы с открытым кодом apibackuper [3], её настройки для выгрузки данных Счетной палаты можно найти здесь, в репозитории apibackuper-datarchive [4].
Для чего можно использовать набор данных с отчетами Счетной палаты?
1. В аналитических задачах связанных с контролем за государственными финансами.
2. В задачах идентификации именованных объектов.
Может быть можно ещё для чего-то.
Напомню что если Вы знаете о возможном исчезновении или риске исчезновения каких-либо значимых данных, напишите нам, в @ruarxive через сайт, письмом или сообщением или в чате и мы постараемся оперативно сохранить эти данные.
Ссылки։
[1] https://yangx.top/begtin/4442
[2] https://archive.org/details/achgovru-checks
[3] https://github.com/ruarxive/apibackuper
[3] https://github.com/ruarxive/apibackuper-dataarchive/tree/main/achgovru-checks
#opendata #datasets #government
Telegram
Ivan Begtin
На сайте Счетной палаты РФ выложили все открытые бюллетени СП РФ с 1996 года [1] что для российских органов власти шаг абсолютно беспрецедентный даже не потому что многие боятся что-то открывать, а потому что просто продалбывают собственные архивы и даже…
Не про данные, но про открытость․ В мире продолжается "ползучий тренд" по увеличению сроков действия действия авторских прав [1] и вот свежая новость, правительство Канады с 30 декабря 2022 года продлевает сроки действия авторских прав с 50 на 70 лет [2], тем самым гармонизируя законодательство со странами Евросоюза и США.
Об этом всём и последствиях пишут в блоге интернет-архива Канады [3] и там же ссылка на научную статью What Happens When Books Enter the Public Domain? [4] главный вывод в которой о том что продление сроков авторских прав не приносит пользы обществу.
В России, кстати, также срок действия авторских прав уже давно составляет 70 лет минимум.
Ссылки։
[1] https://ru.wikipedia.org/wiki/Сроки_действия_авторских_прав
[2] https://orders-in-council.canada.ca/attachment.php?attach=42842&lang=en
[3] https://internetarchivecanada.org/2022/11/23/a-missed-opportunity-to-revive-obscure-canadian-literature/
[4] https://papers.ssrn.com/sol3/papers.cfm?abstract_id=3401684
#copyright #open
Об этом всём и последствиях пишут в блоге интернет-архива Канады [3] и там же ссылка на научную статью What Happens When Books Enter the Public Domain? [4] главный вывод в которой о том что продление сроков авторских прав не приносит пользы обществу.
В России, кстати, также срок действия авторских прав уже давно составляет 70 лет минимум.
Ссылки։
[1] https://ru.wikipedia.org/wiki/Сроки_действия_авторских_прав
[2] https://orders-in-council.canada.ca/attachment.php?attach=42842&lang=en
[3] https://internetarchivecanada.org/2022/11/23/a-missed-opportunity-to-revive-obscure-canadian-literature/
[4] https://papers.ssrn.com/sol3/papers.cfm?abstract_id=3401684
#copyright #open
Wikipedia
Сроки действия авторских прав
Сроки действия авторских прав — сроки, установленные законами об авторских правах в разных странах, после которых не требуются разрешения авторов на копирование, публикование или использование той или иной авторской работы. Термины «копия» и «публикация»…
Интересное чтение про данные, технологии и не только։
- A bot that watched 70,000 hours of Minecraft could unlock AI’s next big thing [1] в OpenAI сделали бота который умеет "крафтить" инструменты в Minecraft и играть значительно лучше людей. Но фишка не в Minecraft'е, а в том что бот обучался на 70 тысячах часах видео и далее воспроизводил сложные действия людей. Иначе говоря, если иметь значительное время записи действий человека, то с помощью ИИ можно гораздо быстрее обучать машины делать какие-либо ручные монотонные действия.
- Trino at Apple [2] о том как работает движок для распределённых запросов Trino внутри Apple. Интерактивность выступления оставляет желать лучшего, а содержание интересно, поскольку инфраструктура у Apple велика и задачи непростые.
- Snack Stack: If Programming Languages Were Desserts … [3] если бы языки программирования были бы десертами. Лично я никогда бы не проассоциировал Perl с молекулярной кухней, но фантазии у автора весьма яркие, читать смешно.
- Modern Data Modeling: Start with the End? [4] современное моделирование данных с акцентом на dbt. Скорее техническое чем глубоко концептуальное, но небесполезное.
- Data Gaps Initiative [5] инициатива министров финансов G20 после финансового кризиса в 2009 году по систематизации сбора данных которые помогли бы предотвратить следующий подобный кризис. Во время встречи лидеров G20 на Бали инициативу расширили [6] на такие темы как։ изменение климата, распределение доходов и богатства, финтех и фининклюзивность и доступ к частным источникам данных и повышении качества, точности и оперативности официальной статистики.
- We could run out of data to train AI language programs [7] о том что гонка за увеличением объёмов данных для обучения больших языковых моделей уже не работает и что важнее повышать качество данных и работать над связностью используемых тренировочных данных. Проблема, кстати, актуальная в особенности для малых языков для которых мало текстов для обучения.
Ссылки։
[1] https://www.technologyreview.com/2022/11/25/1063707/ai-minecraft-video-unlock-next-big-thing-openai-imitation-learning/
[2] https://trino.io/blog/2022/11/28/trino-summit-2022-apple-recap.html
[3] https://thenewstack.io/snack-stack-if-programming-languages-were-desserts/
[4] https://www.adventofdata.com/modern-data-modeling-start-with-the-end/
[5] https://www.imf.org/en/News/Seminars/Conferences/g20-data-gaps-initiative
[6] https://www.imf.org/en/News/Articles/2022/11/28/pr22410-g20-leaders-welcome-ndgi-to-address-climate-change-inclusion-financial-innovation
[7] https://www.technologyreview.com/2022/11/24/1063684/we-could-run-out-of-data-to-train-ai-language-programs/
#ai #technology #data #regulation #readings
- A bot that watched 70,000 hours of Minecraft could unlock AI’s next big thing [1] в OpenAI сделали бота который умеет "крафтить" инструменты в Minecraft и играть значительно лучше людей. Но фишка не в Minecraft'е, а в том что бот обучался на 70 тысячах часах видео и далее воспроизводил сложные действия людей. Иначе говоря, если иметь значительное время записи действий человека, то с помощью ИИ можно гораздо быстрее обучать машины делать какие-либо ручные монотонные действия.
- Trino at Apple [2] о том как работает движок для распределённых запросов Trino внутри Apple. Интерактивность выступления оставляет желать лучшего, а содержание интересно, поскольку инфраструктура у Apple велика и задачи непростые.
- Snack Stack: If Programming Languages Were Desserts … [3] если бы языки программирования были бы десертами. Лично я никогда бы не проассоциировал Perl с молекулярной кухней, но фантазии у автора весьма яркие, читать смешно.
- Modern Data Modeling: Start with the End? [4] современное моделирование данных с акцентом на dbt. Скорее техническое чем глубоко концептуальное, но небесполезное.
- Data Gaps Initiative [5] инициатива министров финансов G20 после финансового кризиса в 2009 году по систематизации сбора данных которые помогли бы предотвратить следующий подобный кризис. Во время встречи лидеров G20 на Бали инициативу расширили [6] на такие темы как։ изменение климата, распределение доходов и богатства, финтех и фининклюзивность и доступ к частным источникам данных и повышении качества, точности и оперативности официальной статистики.
- We could run out of data to train AI language programs [7] о том что гонка за увеличением объёмов данных для обучения больших языковых моделей уже не работает и что важнее повышать качество данных и работать над связностью используемых тренировочных данных. Проблема, кстати, актуальная в особенности для малых языков для которых мало текстов для обучения.
Ссылки։
[1] https://www.technologyreview.com/2022/11/25/1063707/ai-minecraft-video-unlock-next-big-thing-openai-imitation-learning/
[2] https://trino.io/blog/2022/11/28/trino-summit-2022-apple-recap.html
[3] https://thenewstack.io/snack-stack-if-programming-languages-were-desserts/
[4] https://www.adventofdata.com/modern-data-modeling-start-with-the-end/
[5] https://www.imf.org/en/News/Seminars/Conferences/g20-data-gaps-initiative
[6] https://www.imf.org/en/News/Articles/2022/11/28/pr22410-g20-leaders-welcome-ndgi-to-address-climate-change-inclusion-financial-innovation
[7] https://www.technologyreview.com/2022/11/24/1063684/we-could-run-out-of-data-to-train-ai-language-programs/
#ai #technology #data #regulation #readings
MIT Technology Review
A bot that watched 70,000 hours of Minecraft could unlock AI’s next big thing
Online videos are a vast and untapped source of training data—and OpenAI says it has a new way to use it.
У Privacy International материал о том как британское правительство поменяло способ слежки за мигрантами отпущенными под залог с электронных браслетов на ногах на умные часы [1] для чего привлекли частного подрядчика Buddi Limited [2].
У Guardian в этом году было уже две публикации с расследованиями того как организована слежка за мигрантами [3] уличёнными в преступлениях. Если кратко, то меры включают ношение устройства такого как электронный браслет с передачей информации 24 на 7 и запросом до 5 раз в день присылать фотографии.
Ничего не напоминает? Да, очень похоже на ковидный мониторинг как он был организован в России в Москве. Так вот похоже сама задумка непрерывной слежки для временно или постоянно дискриминируемыми группами населения становятся популярными у полицейский в разных странах.
Когда режим слежки за отпускаемыми под залог или за мигрантами могут внедрить в России? Да сразу после того как появится крупный внутригосударственный лоббист который продавит эту технологию.
Можно обратить внимание что, Buddi Limited, поставщик умных часов Минюста Великобритании, публично позиционировал свои продукты как продукты для пожилых людей.
Ссылки։
[1] https://privacyinternational.org/long-read/4991/buddi-limited-immigration-enforcements-favourite-tracking-buddy
[2] https://www.buddi.co.uk/
[3] https://www.theguardian.com/politics/2022/aug/05/facial-recognition-smartwatches-to-be-used-to-monitor-foreign-offenders-in-uk
[4] https://www.theguardian.com/world/2022/oct/05/ankle-tags-used-to-target-young-black-men-london-mayors-report-finds
#privacy #police #surveillance #crimetech
У Guardian в этом году было уже две публикации с расследованиями того как организована слежка за мигрантами [3] уличёнными в преступлениях. Если кратко, то меры включают ношение устройства такого как электронный браслет с передачей информации 24 на 7 и запросом до 5 раз в день присылать фотографии.
Ничего не напоминает? Да, очень похоже на ковидный мониторинг как он был организован в России в Москве. Так вот похоже сама задумка непрерывной слежки для временно или постоянно дискриминируемыми группами населения становятся популярными у полицейский в разных странах.
Когда режим слежки за отпускаемыми под залог или за мигрантами могут внедрить в России? Да сразу после того как появится крупный внутригосударственный лоббист который продавит эту технологию.
Можно обратить внимание что, Buddi Limited, поставщик умных часов Минюста Великобритании, публично позиционировал свои продукты как продукты для пожилых людей.
Ссылки։
[1] https://privacyinternational.org/long-read/4991/buddi-limited-immigration-enforcements-favourite-tracking-buddy
[2] https://www.buddi.co.uk/
[3] https://www.theguardian.com/politics/2022/aug/05/facial-recognition-smartwatches-to-be-used-to-monitor-foreign-offenders-in-uk
[4] https://www.theguardian.com/world/2022/oct/05/ankle-tags-used-to-target-young-black-men-london-mayors-report-finds
#privacy #police #surveillance #crimetech
Privacy International
Buddi Limited - Immigration Enforcement's favourite tracking buddy
Since early 2021, PI have been investigating and challenging the latest stride in the UK’s cruel migration policies: the roll-out of GPS ankle tags to monitor migrants released on immigration bail, a dehumanising,
В рубрике интересных наборов открытых данных публикуемых в России и малоизвестных, поскольку относящихся к узким научным областям знаний. В данном случае к биоинформатике.
- HOMOCOMO [1] проект по полной коллекции моделей связывания факторов транскрипции для человека и мыши с помощью крупномасштабного анализа ChIP-Seq создан на гранты РФФИ, РНФ и Skoltech Systems Biology Fellowship. Данные доступны под лицензией WTFPL ("Do What The Fuck You Want To Public License") [2]
- VDJdb [3] это курируемая база данных последовательностей Т-клеточных рецепторов (TCR) с известной антигенной специфичностью. Основной целью VDJdb является облегчение доступа к существующей информации о специфичности антигена Т-клеточного рецептора, т. е. способность распознавать определенные эпитопы в определенных контекстах MHC. Проект создавался совместным российским и европейским финансированием [4], а все данные и исходных код доступны на Github.
- GTRD (Gene Transcription Regulation Database) [5] наиболее полная коллекция единообразно обработанных данных ChIP-seq по идентификации сайтов связывания факторов транскрипции для человека и мыши. Доступно в виде данных для скачивания в машиночитаемых форматах.
А также многие другие данные создаются как открытые в проектах где российская наука существует и была интегрирована с мировой.
Ссылки։
[1] https://hocomoco11.autosome.org/
[2] https://en.wikipedia.org/wiki/WTFPL
[3] https://vdjdb.cdr3.net/
[4] https://vdjdb.cdr3.net/credits
[5] http://gtrd.biouml.org/#
#opendata #openaccess #FAIR
- HOMOCOMO [1] проект по полной коллекции моделей связывания факторов транскрипции для человека и мыши с помощью крупномасштабного анализа ChIP-Seq создан на гранты РФФИ, РНФ и Skoltech Systems Biology Fellowship. Данные доступны под лицензией WTFPL ("Do What The Fuck You Want To Public License") [2]
- VDJdb [3] это курируемая база данных последовательностей Т-клеточных рецепторов (TCR) с известной антигенной специфичностью. Основной целью VDJdb является облегчение доступа к существующей информации о специфичности антигена Т-клеточного рецептора, т. е. способность распознавать определенные эпитопы в определенных контекстах MHC. Проект создавался совместным российским и европейским финансированием [4], а все данные и исходных код доступны на Github.
- GTRD (Gene Transcription Regulation Database) [5] наиболее полная коллекция единообразно обработанных данных ChIP-seq по идентификации сайтов связывания факторов транскрипции для человека и мыши. Доступно в виде данных для скачивания в машиночитаемых форматах.
А также многие другие данные создаются как открытые в проектах где российская наука существует и была интегрирована с мировой.
Ссылки։
[1] https://hocomoco11.autosome.org/
[2] https://en.wikipedia.org/wiki/WTFPL
[3] https://vdjdb.cdr3.net/
[4] https://vdjdb.cdr3.net/credits
[5] http://gtrd.biouml.org/#
#opendata #openaccess #FAIR
Разработчики ИИ пугающими темпами создают сервисы и продукты замещающие людей творческих профессий։ художников, писателей, дизайнеров, музыкантов. Все уже слышали про Midjourney и Stable Diffusion, а тут подборка продуктов менее известных, но не менее интересных։
- Soundraw [1] сервис создающий музыку для заднего фона для Вашего видео, игры или ещё чего-либо. Лицензия не позволяет только использовать её для массового прослушивания именно как только музыку, а не как часть составного продукта. Зато просто таки напрашивается как часть продуктов вроде TikTok и его аналогов. Вместе пресета мелодий, тут можно создать музыку под себя настраивая длительность, стиль, ритм и тд.
- Metaphor [2] обещают не много, не мало, а заменить поисковые системы вроде Google. А пока генерируют набор ссылок по структурированному запросу. Выглядит как прототип экспериментальной поисковой системы. В чистом виде Google пока не заменит, но для некоторых областей будет очень интересно, например, в поиске научных публикаций по специализированным темам.
- LexicaArt [3] генератор изображений похожий на Stable Diffusion, но включающий поисковик по тому что успели нагенерировать другие. База там огромная, можно найти иногда необычные изображения, много примеров и, конечно, сгенерировать собственные
- Լex [4] сервис помогающий писателям дописывать куски текстов когда они застревают в какой-то части повествования. Ну, мы же понимаем, вначале помогает, потом заменяет писателей;) Сервис пока доступен ограниченно, но есть видео того как он работает [5]
- Runway [6] сервис по убиранию фона из видел, быстрому редактированию, преобразованию текста в 3D модели и ещё много чему по работе с видео с помощью ИИ
Таких сервисов и продуктов становится всё больше, они появляются каждую неделю и их станет всё больше.
Здесь можно порассуждать что ждёт креативные профессии в ближайшие годы и многочисленные области применения области применения креативного ИИ для развлечения или пользы человечеству.
Ссылки։
[1] https://soundraw.io
[2] https://metaphor.systems/
[3] https://lexica.art/
[4] https://lex.page/
[5] https://www.youtube.com/watch?v=4zctPN_mO4o&t=10s
[6] https://runwayml.com/
#ai #startups
- Soundraw [1] сервис создающий музыку для заднего фона для Вашего видео, игры или ещё чего-либо. Лицензия не позволяет только использовать её для массового прослушивания именно как только музыку, а не как часть составного продукта. Зато просто таки напрашивается как часть продуктов вроде TikTok и его аналогов. Вместе пресета мелодий, тут можно создать музыку под себя настраивая длительность, стиль, ритм и тд.
- Metaphor [2] обещают не много, не мало, а заменить поисковые системы вроде Google. А пока генерируют набор ссылок по структурированному запросу. Выглядит как прототип экспериментальной поисковой системы. В чистом виде Google пока не заменит, но для некоторых областей будет очень интересно, например, в поиске научных публикаций по специализированным темам.
- LexicaArt [3] генератор изображений похожий на Stable Diffusion, но включающий поисковик по тому что успели нагенерировать другие. База там огромная, можно найти иногда необычные изображения, много примеров и, конечно, сгенерировать собственные
- Լex [4] сервис помогающий писателям дописывать куски текстов когда они застревают в какой-то части повествования. Ну, мы же понимаем, вначале помогает, потом заменяет писателей;) Сервис пока доступен ограниченно, но есть видео того как он работает [5]
- Runway [6] сервис по убиранию фона из видел, быстрому редактированию, преобразованию текста в 3D модели и ещё много чему по работе с видео с помощью ИИ
Таких сервисов и продуктов становится всё больше, они появляются каждую неделю и их станет всё больше.
Здесь можно порассуждать что ждёт креативные профессии в ближайшие годы и многочисленные области применения области применения креативного ИИ для развлечения или пользы человечеству.
Ссылки։
[1] https://soundraw.io
[2] https://metaphor.systems/
[3] https://lexica.art/
[4] https://lex.page/
[5] https://www.youtube.com/watch?v=4zctPN_mO4o&t=10s
[6] https://runwayml.com/
#ai #startups
soundraw.io
AI Music Generator SOUNDRAW
Discover the power of AI generated music with our platform. Create unique songs in just a few clicks. Edit & personalize the songs you create to your specific needs. Generate unlimited royalty-free music to use in your songs, projects and videos. Distribute…
В StackOverflow, сервисе вопросов и ответов, изначально для инженеров и программистов, запретили использование ChatGPT [1]. Пока временно, а там будет видно․ Главная причина в том что ChatGPT генерирует ответы которые выглядят как хорошие, а на самом деле не так уже хороши, а то и плохи.
А вот у Бена Томпсона в блоге пост AI Homework [2] о последствиях применения ChatGPT в некоторых областях, в частности в школе и студентами.
На всякий случай напомню что ChatGPT это свежий движок по генерации ответов и поддержания разговора
от команды которая делала языковую модель GPT-3. Его особенность в высокой осмысленности ответов, которые, даже если неверны, начинают походить на осмысленный диалог. У ChatGPT меньше чем за неделю уже более 1 миллиона пользователей, так что мы ещё немало услышим и о самом продукте и о том что в ближайшие месяцы будет появляться на его основе․
Ссылки։
[1] https://meta.stackoverflow.com/questions/421831/temporary-policy-chatgpt-is-banned
[2] https://stratechery.com/2022/ai-homework/
#ai #startups
А вот у Бена Томпсона в блоге пост AI Homework [2] о последствиях применения ChatGPT в некоторых областях, в частности в школе и студентами.
На всякий случай напомню что ChatGPT это свежий движок по генерации ответов и поддержания разговора
от команды которая делала языковую модель GPT-3. Его особенность в высокой осмысленности ответов, которые, даже если неверны, начинают походить на осмысленный диалог. У ChatGPT меньше чем за неделю уже более 1 миллиона пользователей, так что мы ещё немало услышим и о самом продукте и о том что в ближайшие месяцы будет появляться на его основе․
Ссылки։
[1] https://meta.stackoverflow.com/questions/421831/temporary-policy-chatgpt-is-banned
[2] https://stratechery.com/2022/ai-homework/
#ai #startups
Meta Stack Overflow
Policy: Generative AI (e.g., ChatGPT) is banned
Moderator Note: This post has been locked to prevent comments because people have been using them for protracted debate and discussion (we've deleted over 300 comments on this post alone, not even
Вышел свежий доклад The State of Open Data 2022 [1] от Figshare посвящённый открытости данных в науке. Как и все доклады типа "The state of ..." это построен на опросе, в данном случае опросе исследователей работающих с данными. Там много любопытного о том как учёные используют данные и обмениваются ими, но интересно и то что открытость науки сейчас это характеристика живой науки. Уж насколько можно считать закрытым Китай, но в докладе есть статья The role of policy makers in China: facilitating the move to open data for researchers and journals о том как в Китае разработали и применяют принципы управления данными Measures for the Management of Scientific Data (MMDS) и открытый обмен данными часть их стратегии.
Ссылки։
[1] https://digitalscience.figshare.com/articles/report/The_State_of_Open_Data_2022/21276984
#opendata #openaccess #openscience #datasharing
Ссылки։
[1] https://digitalscience.figshare.com/articles/report/The_State_of_Open_Data_2022/21276984
#opendata #openaccess #openscience #datasharing
Полезная заметка Казахстанские власти хотят закрыть неугодные данные [1] со сравнением прошлого и нового перечней данных подлежащих обязательному раскрытию в Республике Казахстан. Вполне ожидаемо перестанут публиковать некоторые чувствительные данные с одной стороны, а с другой стороны в списке появилась конкретика по содержанию.
Напомню что я ранее писал [2] о новом проекте постановления Пр-ва Казахстана по открытости данных и о том что в нём отсутствуют принципы открытости данных по умолчанию и недискриминационный доступ к данным, сейчас они доступны только гражданам страны. Граждане Казахстана могут оставить свои комментарии к проекту постановления на сайте Открытые НПА [3]. Прошу, не поленитесь, напишите там Ваши комментарии и мнение.
Ссылки։
[1] https://exclusive.kz/kazahstanskie-vlasti-hotyat-zakryt-neugodnye-dannye/
[2] https://yangx.top/begtin/4440
[3] https://legalacts.egov.kz/npa/view?id=14317392
#opendata #opengov #kazakhstan #policies
Напомню что я ранее писал [2] о новом проекте постановления Пр-ва Казахстана по открытости данных и о том что в нём отсутствуют принципы открытости данных по умолчанию и недискриминационный доступ к данным, сейчас они доступны только гражданам страны. Граждане Казахстана могут оставить свои комментарии к проекту постановления на сайте Открытые НПА [3]. Прошу, не поленитесь, напишите там Ваши комментарии и мнение.
Ссылки։
[1] https://exclusive.kz/kazahstanskie-vlasti-hotyat-zakryt-neugodnye-dannye/
[2] https://yangx.top/begtin/4440
[3] https://legalacts.egov.kz/npa/view?id=14317392
#opendata #opengov #kazakhstan #policies
Telegram
Ivan Begtin
В Казахстане на публичное обсуждение выложили Постановление Правительства "О утверждении единого перечня открытых данных государственных органов, размещаемых на интернет-портале открытых данных" [1].
Не будучи гражданином Казахстана я принять участие в…
Не будучи гражданином Казахстана я принять участие в…
Тем временем в Германии Министерство внутренних дел и общества и другие организации создают Институт данных, Dateninstitut [1] для повышения доступности данных для бизнеса и общества. Ещё в начале года на его создание было выделено 1,7 миллиона евро и к концу года он появится. Его создание должны обсуждать сегодня на секции Das Dateninstitut – neue Impulse für die Datenökonomie (Институт данных - новый импульс для экономики данных) [2] конференции Digital-Gipfel 2022 по берлинскому времени сегодня в 10։10 (это 12։10 по Москве, 13։10 по Еревану и 15։10 по Астане). Живая трансляция должна быть доступна на сайте, на немецком языке.
Почему это важно? По сути в Германии создают аналог The Open Data Institute существующего (ODI) в Великобритании. Однако ODI всегда строился и существует как глобальная институция, с претензией на воспроизводство лучших практик в развитых и развивающихся странах. Относительно Dateninstitute пока неизвестно будет ли он действовать локально про Германию, на весь Евросоюз или глобально как ODI.
Ссылки։
[1] https://www.bmi.bund.de/SharedDocs/pressemitteilungen/DE/2022/10/dateninstitut-startschuss.html
[2] https://www.de.digital/DIGITAL/Navigation/DE/Konferenzen/konferenzen.html
#opendata #data #policy #germany #dataeconomy #datapolicy
Почему это важно? По сути в Германии создают аналог The Open Data Institute существующего (ODI) в Великобритании. Однако ODI всегда строился и существует как глобальная институция, с претензией на воспроизводство лучших практик в развитых и развивающихся странах. Относительно Dateninstitute пока неизвестно будет ли он действовать локально про Германию, на весь Евросоюз или глобально как ODI.
Ссылки։
[1] https://www.bmi.bund.de/SharedDocs/pressemitteilungen/DE/2022/10/dateninstitut-startschuss.html
[2] https://www.de.digital/DIGITAL/Navigation/DE/Konferenzen/konferenzen.html
#opendata #data #policy #germany #dataeconomy #datapolicy
Bundesministerium des Innern und für Heimat
Startschuss für das Dateninstitut
Mitglieder der Gründungskommission berufen und Start der Stakeholder-Konsultation.
Top400 A top-down crime prevention strategy in Amsterdam, система предупреждения преступлений в Нидерландах, впервые начатая в 2011 году под названием Top600 и переименованная в Top400 в 2016 году. Основная идея в том чтобы снижать число преступлений через вмешательство в жизнь тех кто наиболее вероятно совершит преступление. Иначе говоря, это обычно то что называется профилактикой преступлений среди лиц ведущих антиобщественный образ жизни.
В ноябре вышел подробный доклад за авторством Fieke Jansen [1] для которого автор запросила множество документов через FOI запросы и исследовала более 4 тысяч страниц текста.
Этот проект создан создан для создания списка, примерно, 400 изначально, а сейчас уже под 1000 человек которые находятся под особым наблюдением полиции.
Для попадания туда есть два пути.
Первый набор критериев это комбинация взаимодействия с полицией и местным сообществом и включает։
• имеет (имели) меры по реабилитации молодежи (признак удваивается)
• находится или находился под наблюдением
• например, часто отсутствовал в школе или не закончил школу
• сменил начальную школу не менее 3 раз
• участвовал в инциденте с домашним насилием (в качестве потерпевшего, свидетеля или подозреваемого)
• был арестован как подозреваемый в возрасте от 12 до 14 лет
• был арестован за торговлю поддельным наркотиком в течение последних 2 лет
Второй набор критериев, это взаимодействие с полицией։
• хотя бы раз за последние 5 лет подозревался с полицией
• имел другие контакты с полицией
• и/или люди из их непосредственного окружения контактировали с полицией
К этому добавляется что полиция Амстердама сотрудничает с программой уличных тренеров (Street coaches) в рамках которой тренеры сообщают об антиобщественном поведении об отдельных лицах и это учитывается как один из критериев попадания в Top400.
Там же в докладе весьма подробно рассказывается про систему Prokid+ в которой регистрируются сведения о детях которые совершают нарушения или ведут антиобщественный образ жизни и о том что школы также сотрудничают с полицией.
Сам доклад всячески рекомендую почитать чтобы понимать в каком направлении сейчас движутся практики профилактики преступлений.
Ссылки։
[1] https://pilpnjcm.nl/wp-content/uploads/2022/11/Top400_topdown-crime-prevention-Amsterdam.pdf
#predictivepolicing #netherlands #privacy #eu
В ноябре вышел подробный доклад за авторством Fieke Jansen [1] для которого автор запросила множество документов через FOI запросы и исследовала более 4 тысяч страниц текста.
Этот проект создан создан для создания списка, примерно, 400 изначально, а сейчас уже под 1000 человек которые находятся под особым наблюдением полиции.
Для попадания туда есть два пути.
Первый набор критериев это комбинация взаимодействия с полицией и местным сообществом и включает։
• имеет (имели) меры по реабилитации молодежи (признак удваивается)
• находится или находился под наблюдением
• например, часто отсутствовал в школе или не закончил школу
• сменил начальную школу не менее 3 раз
• участвовал в инциденте с домашним насилием (в качестве потерпевшего, свидетеля или подозреваемого)
• был арестован как подозреваемый в возрасте от 12 до 14 лет
• был арестован за торговлю поддельным наркотиком в течение последних 2 лет
Второй набор критериев, это взаимодействие с полицией։
• хотя бы раз за последние 5 лет подозревался с полицией
• имел другие контакты с полицией
• и/или люди из их непосредственного окружения контактировали с полицией
К этому добавляется что полиция Амстердама сотрудничает с программой уличных тренеров (Street coaches) в рамках которой тренеры сообщают об антиобщественном поведении об отдельных лицах и это учитывается как один из критериев попадания в Top400.
Там же в докладе весьма подробно рассказывается про систему Prokid+ в которой регистрируются сведения о детях которые совершают нарушения или ведут антиобщественный образ жизни и о том что школы также сотрудничают с полицией.
Сам доклад всячески рекомендую почитать чтобы понимать в каком направлении сейчас движутся практики профилактики преступлений.
Ссылки։
[1] https://pilpnjcm.nl/wp-content/uploads/2022/11/Top400_topdown-crime-prevention-Amsterdam.pdf
#predictivepolicing #netherlands #privacy #eu
Полезное чтение про данные, технологии и не только։
- GPT-4 Rumors From Silicon Valley [1] коллекция слухов про дату выхода GPT-4, языковой модели которая должна многократно превосходить по возможностям GPT-3 и, соответственно, основанные на GPT-3 инструменты такие как ChatGPT.
- Why Google Missed ChatGPT [2] о том почему не Google сделали ChatGPT и о том как этот продукт разрушает ценность их продукта поиска, ключевым достоинством которого остаётся только быстрая доступность наиболее актуальной информации.
- How analysis dies [3] у Бен Стэнцила опять хороший текст, сейчас о том как умирает анализ тоже в контексте ChatGPT. Главное в рассуждениях о ChatGPT - это резкое ощущение неопределённости будущего у многих кто работает в областях связанных со смыслом и аналитикой.
Ссылки։
[1] https://thealgorithmicbridge.substack.com/p/gpt-4-rumors-from-silicon-valley
[2] https://bigtechnology.substack.com/p/why-google-missed-chatgpt
[3] https://benn.substack.com/p/how-analysis-dies
#ai #future #languagemodels
- GPT-4 Rumors From Silicon Valley [1] коллекция слухов про дату выхода GPT-4, языковой модели которая должна многократно превосходить по возможностям GPT-3 и, соответственно, основанные на GPT-3 инструменты такие как ChatGPT.
- Why Google Missed ChatGPT [2] о том почему не Google сделали ChatGPT и о том как этот продукт разрушает ценность их продукта поиска, ключевым достоинством которого остаётся только быстрая доступность наиболее актуальной информации.
- How analysis dies [3] у Бен Стэнцила опять хороший текст, сейчас о том как умирает анализ тоже в контексте ChatGPT. Главное в рассуждениях о ChatGPT - это резкое ощущение неопределённости будущего у многих кто работает в областях связанных со смыслом и аналитикой.
Ссылки։
[1] https://thealgorithmicbridge.substack.com/p/gpt-4-rumors-from-silicon-valley
[2] https://bigtechnology.substack.com/p/why-google-missed-chatgpt
[3] https://benn.substack.com/p/how-analysis-dies
#ai #future #languagemodels
Substack
GPT-4 Rumors From Silicon Valley
People are saying things...
В рубрике как это работает у них, портал открытых данных Новой Зеландии data.govt.nz [1]. На портале размещено почти 32 тысячи наборов данных от 182 организаций. Более половины опубликованных данных - это геоданные в форматах KML, SHP, DWG, GPKG и геоAPI, ввиде метаданных и ссылок на данные опубликованные в системе ведения геоданных Linz Data Service [2] и на порталах открытых данных на платформе ArcGIS [3].
Кроме органов власти данные на государственном портале публикуют 4 университета [4]. Например, университет Окленда опубликовал 665 наборов данных [5] большая часть из которых это данные которые были размещены вместе с научными статьями на сайте Figshare.
Почти все данные опубликованы под лицензией Creative Commons.
Для наполнения портала и развития темы открытых данных в Новой Зеландии есть государственная стратегия и дорожная карта [6], включающая такие пункты как публикацию плана инвестиций в создание данных, публикацию фреймворка обеспечения качества данных, введение новых обязательных стандартов работы с данными и многое другое.
Портал data.govt.nz работает на базе CKAN, а геоданные, в основном, публикуются в системе ArcGIS и с помощью сервиса Koordinates [7], реже на базе Geonode [8].
Ссылки։
[1] https://data.govt.nz
[2] https://data.linz.govt.nz/
[3] https://doc-deptconservation.opendata.arcgis.com/maps/c417dcd7c9fb47b489df1f9f0a673190_0
[4] https://catalogue.data.govt.nz/organization/?q=University&sort=title+asc
[5] https://catalogue.data.govt.nz/organization/the-university-of-auckland
[6] https://www.data.govt.nz/leadership/strategy-and-roadmap/
[7] https://koordinates.com
[8] https://data.otodc.govt.nz/
#opendata #newzealand
Кроме органов власти данные на государственном портале публикуют 4 университета [4]. Например, университет Окленда опубликовал 665 наборов данных [5] большая часть из которых это данные которые были размещены вместе с научными статьями на сайте Figshare.
Почти все данные опубликованы под лицензией Creative Commons.
Для наполнения портала и развития темы открытых данных в Новой Зеландии есть государственная стратегия и дорожная карта [6], включающая такие пункты как публикацию плана инвестиций в создание данных, публикацию фреймворка обеспечения качества данных, введение новых обязательных стандартов работы с данными и многое другое.
Портал data.govt.nz работает на базе CKAN, а геоданные, в основном, публикуются в системе ArcGIS и с помощью сервиса Koordinates [7], реже на базе Geonode [8].
Ссылки։
[1] https://data.govt.nz
[2] https://data.linz.govt.nz/
[3] https://doc-deptconservation.opendata.arcgis.com/maps/c417dcd7c9fb47b489df1f9f0a673190_0
[4] https://catalogue.data.govt.nz/organization/?q=University&sort=title+asc
[5] https://catalogue.data.govt.nz/organization/the-university-of-auckland
[6] https://www.data.govt.nz/leadership/strategy-and-roadmap/
[7] https://koordinates.com
[8] https://data.otodc.govt.nz/
#opendata #newzealand