Давно хочу написать о проекте OpenFoodFacts [1] - это открытая база данных по продуктам питания собираемая через краудсорсинг. Ведется она французской НКО с аналогичным названием Open Food Facts [2], публикует все данные в форматах CSV, RDF, JSON API и дампы MongoDB [3] и включают в базу записи по 117581 продуктам по всему миру [4].
Глядя на этот проект я понимаю что, в каком-то смысле, его автор, Stéphane Gigandet, проделал большую работу над тем чтобы помочь тысячам людей любящим не просто еду, но хорошую еду. А в Вики проекта можно узнать подробности по тому как он организован, как работать с его данными и API [5]
Конечно же, открытый исходный код всего проекта и под проектов [6] позволяет использовать его API для Python, Ruby или любого другого языка, для многих из которых уже готовы библиотеки для легкого подключения.
По России в проекте собрано 1196 продуктов [7], но ничто не ограничивает нас с вами добавлять туда новые описания.
Сейчас авторы запустили еще один проект "Open Beauty Facts" [8] где собирают базу космететических товаров и их ингредиентов.
Все это - пример успешного краудсорсингового проекта по созданию баз данных силами тысяч добровольцев. Они много меньше чем Википедия или OpenStreetMap, но может стать сравнимым с ними по значимости.
Глядя именно на эти проекты я и утверждаю что открытые данные не связаны и не зависят от государства. Однако именно таких проектов нам в России и не хватает, тех которые создают данные, а не только потребляют. Те которые формируют сообщество и существуют вне зависимости от чьей-то политической воли или ее отсутствия.
Ссылки:
[1] https://www.openfoodfacts.org/
[2] https://ru.openfoodfacts.org/legal
[3] https://ru.openfoodfacts.org/data
[4] https://world.openfoodfacts.org/
[5] https://en.wiki.openfoodfacts.org/Main_Page
[6] https://github.com/openfoodfacts/
[7] https://ru.openfoodfacts.org/
[8] https://world.openbeautyfacts.org/
#opendata #crowdsourcing
Глядя на этот проект я понимаю что, в каком-то смысле, его автор, Stéphane Gigandet, проделал большую работу над тем чтобы помочь тысячам людей любящим не просто еду, но хорошую еду. А в Вики проекта можно узнать подробности по тому как он организован, как работать с его данными и API [5]
Конечно же, открытый исходный код всего проекта и под проектов [6] позволяет использовать его API для Python, Ruby или любого другого языка, для многих из которых уже готовы библиотеки для легкого подключения.
По России в проекте собрано 1196 продуктов [7], но ничто не ограничивает нас с вами добавлять туда новые описания.
Сейчас авторы запустили еще один проект "Open Beauty Facts" [8] где собирают базу космететических товаров и их ингредиентов.
Все это - пример успешного краудсорсингового проекта по созданию баз данных силами тысяч добровольцев. Они много меньше чем Википедия или OpenStreetMap, но может стать сравнимым с ними по значимости.
Глядя именно на эти проекты я и утверждаю что открытые данные не связаны и не зависят от государства. Однако именно таких проектов нам в России и не хватает, тех которые создают данные, а не только потребляют. Те которые формируют сообщество и существуют вне зависимости от чьей-то политической воли или ее отсутствия.
Ссылки:
[1] https://www.openfoodfacts.org/
[2] https://ru.openfoodfacts.org/legal
[3] https://ru.openfoodfacts.org/data
[4] https://world.openfoodfacts.org/
[5] https://en.wiki.openfoodfacts.org/Main_Page
[6] https://github.com/openfoodfacts/
[7] https://ru.openfoodfacts.org/
[8] https://world.openbeautyfacts.org/
#opendata #crowdsourcing
Для всех кто интересуется тем как устроен государственный заказ изнутри вышла первая из серии заметок на портале Госвопрос про то как оно все "на самом деле" http://www.gosvopros.ru/job/professionalnye-navyki/goszakupki-1/
Название статьи, конечно, вызывающее, но пусть останется таким какое оно есть;) Открытость и прозрачность в этой области, действительно, внедрялись так чтобы нанести больше вреда чем пользы.
Это не последняя статья, будут и продолжения там же на ГосВопрос. Вопросы задавать можно мне на канале https://yangx.top/begtinchat
#opendata #opengov #procurement
Название статьи, конечно, вызывающее, но пусть останется таким какое оно есть;) Открытость и прозрачность в этой области, действительно, внедрялись так чтобы нанести больше вреда чем пользы.
Это не последняя статья, будут и продолжения там же на ГосВопрос. Вопросы задавать можно мне на канале https://yangx.top/begtinchat
#opendata #opengov #procurement
yogart.ru
Школа йоги Аэройога обучение инструкторов Фитнес и йоги в гамаках Йога flow
Школа йоги Аэройога обучение инструкторов Фитнес и йоги в гамаках. Комплексы Йога flow, Аэройога, йога для детей, йога для беременных
Новости дайджестом
Подразделение WPP "The Government & Public Sector Practice" выпустило доклад "The future of government communication". Доклад сжатый и больше ориентированный на продажу их услуг, но там есть интересные цифры из опыта анализа 40 стран и их практик коммуникаций с гражданами. Подробности тут http://wpp.com/govtpractice/leaders-report (требует регистрации)
Петиция о запрете государственного визита Дональда Трампа в Великобританию собрала 1 миллион 772 тысячи подписей (на 1 февраля). 20 февраля Парламент Великобритании будет ее рассматривать. Подробнее - https://petition.parliament.uk/petitions/171928/ Кстати, посмотрите на замечательные карты которые показывают сколько избирателей отдало голос за петицию http://petitionmap.unboxedconsulting.com/?petition=171928
А вот параллельно идущая петиция о том что, наоборот, Трампа надо приветствовать в Великобритании собрала всего 187 тысяч подписей - https://petition.parliament.uk/petitions/178844 и тоже будет рассматриваться 20 февраля парламентом.
В блоге UK Government Digital Services заметка о том как важно собирать и предоставлять данные опираясь на потребности потребителей, о пользе метаданных и об открытых реестрах. Подробнее https://gds.blog.gov.uk/2017/01/31/what-you-can-learn-from-making-data-user-centred/
Команда 18F пишет о том что делают новый проект с избирательной комиссией США по тому чтобы их данных были бы удобны. Напомню что 18F - это внутренний стартап в агентстве общего управления Правительства США. Подробнее о проекте - https://18f.gsa.gov/project/fec-gov/
#opendata #opengov #digitalgov
Подразделение WPP "The Government & Public Sector Practice" выпустило доклад "The future of government communication". Доклад сжатый и больше ориентированный на продажу их услуг, но там есть интересные цифры из опыта анализа 40 стран и их практик коммуникаций с гражданами. Подробности тут http://wpp.com/govtpractice/leaders-report (требует регистрации)
Петиция о запрете государственного визита Дональда Трампа в Великобританию собрала 1 миллион 772 тысячи подписей (на 1 февраля). 20 февраля Парламент Великобритании будет ее рассматривать. Подробнее - https://petition.parliament.uk/petitions/171928/ Кстати, посмотрите на замечательные карты которые показывают сколько избирателей отдало голос за петицию http://petitionmap.unboxedconsulting.com/?petition=171928
А вот параллельно идущая петиция о том что, наоборот, Трампа надо приветствовать в Великобритании собрала всего 187 тысяч подписей - https://petition.parliament.uk/petitions/178844 и тоже будет рассматриваться 20 февраля парламентом.
В блоге UK Government Digital Services заметка о том как важно собирать и предоставлять данные опираясь на потребности потребителей, о пользе метаданных и об открытых реестрах. Подробнее https://gds.blog.gov.uk/2017/01/31/what-you-can-learn-from-making-data-user-centred/
Команда 18F пишет о том что делают новый проект с избирательной комиссией США по тому чтобы их данных были бы удобны. Напомню что 18F - это внутренний стартап в агентстве общего управления Правительства США. Подробнее о проекте - https://18f.gsa.gov/project/fec-gov/
#opendata #opengov #digitalgov
Petitions - UK Government and Parliament
Petition: Prevent Donald Trump from making a State Visit to the United Kingdom.
Donald Trump should be allowed to enter the UK in his capacity as head of the US Government, but he should not be invited to make an official State Visit because it would cause embarrassment to Her Majesty the Queen.
Напомню что в ближайшие субботу и воскресение в Москве пройдет хакатон по культурным данным организованным Министерством Культуры РФ, Факультетом медиа и коммуникаций НИУ ВШЭ, АНО Инфокультура, Social Data Hub и многими другими партнерами.
Подробнее о хакатоне - http://data.socialdatahub.com , регистрация на таймпаде - https://hakaton-kultura-v-sovreme.timepad.ru/event/435460/
Я лично буду на хакатоне рассказывать про открытые данные (как всегда), но в культурном плане. Тема "Тайны данных в лабиринтах культуры" специально нестандартная, чтобы у меня не было соблазна взять свою привычную презентацию. Буду рассказывать о том о чем раньше не рассказывал.
И я лично буду ментором на хакатоне.
#opendata #opengov
Подробнее о хакатоне - http://data.socialdatahub.com , регистрация на таймпаде - https://hakaton-kultura-v-sovreme.timepad.ru/event/435460/
Я лично буду на хакатоне рассказывать про открытые данные (как всегда), но в культурном плане. Тема "Тайны данных в лабиринтах культуры" специально нестандартная, чтобы у меня не было соблазна взять свою привычную презентацию. Буду рассказывать о том о чем раньше не рассказывал.
И я лично буду ментором на хакатоне.
#opendata #opengov
Для тех кто любит визуализировать данные и не хочет разбираться в очень сложных движках - еще один сервис Raw Graphs сильно облегчит жизнь - http://rawgraphs.io/
Умеет визуализировать таблицы и Excel файлами многими разными способами
Рекламировать его не жалко, потому как у него и код открыт и онлайн его можно опробовать.
#opendata #dataviz
Умеет визуализировать таблицы и Excel файлами многими разными способами
Рекламировать его не жалко, потому как у него и код открыт и онлайн его можно опробовать.
#opendata #dataviz
Сразу две новости про госзакупки которыми я занимаюсь в основное время (да - открытые данные это форма общественной деятельности).
1. Для всех кто хочет лучше знать о том как устроены закупки рекомендую вторую заметку по теме в журнале "Госвопрос" http://www.gosvopros.ru/job/professionalnye-navyki/begtin-2/
2. Сегодняшнее утро я провел за модерацией круглого стола про госзакупки. Вот тут видео http://pressmia.ru/pressclub/20170202/951399847.html не могу сказать что модерация - это то что я люблю, болтать я люблю больше, но беседа была насыщенная
#opendata #goszakaz #procurement
1. Для всех кто хочет лучше знать о том как устроены закупки рекомендую вторую заметку по теме в журнале "Госвопрос" http://www.gosvopros.ru/job/professionalnye-navyki/begtin-2/
2. Сегодняшнее утро я провел за модерацией круглого стола про госзакупки. Вот тут видео http://pressmia.ru/pressclub/20170202/951399847.html не могу сказать что модерация - это то что я люблю, болтать я люблю больше, но беседа была насыщенная
#opendata #goszakaz #procurement
www.gosvopros.ru
Госзакупки. Кому это выгодно?
В предыдущей статье мы рассказали об эволюции государственных закупок в России, о том, как менялись подходы к мониторингу и управлению госзакупками и, в конечном итоге, о том, что основные административные рычаги на этом поле оказались в руках Минэкономразвития…
One Angry Bird [1] - прекрасный проект по визуализации эмоций последних 10 инаугурационных речей президентов США. Группа исследователей из Periscopic [2] проанализировали видео выступления на инаугурации президентов и зафиксировали эмоции и аплодисменты.
Для распознавания эмоций использовали Microsoft Emotion API [3] и анализ вручную для апплодисментов.
На мой взгляд совершенно прекрасный проект. Политика - есть, контекст - есть, новые технологии - есть, сложные алгоритмы - есть.
Может быть когда-нибудь кто-нибудь додумается, например, использовать технологии распознавания лиц при анализе видео заседаний российского правительства - автоматически создавая базу того кто как сидит. Или, наконец-то, хоть кто-то создаст базы вокабуляров публичных персон выступающих регулярно.
Ссылки:
[1] http://emotions.periscopic.com/inauguration/
[2] http://periscopic.com/
[3] https://www.microsoft.com/cognitive-services/en-us/emotion-api
#opendata #hightech #recognition #emotions
Для распознавания эмоций использовали Microsoft Emotion API [3] и анализ вручную для апплодисментов.
На мой взгляд совершенно прекрасный проект. Политика - есть, контекст - есть, новые технологии - есть, сложные алгоритмы - есть.
Может быть когда-нибудь кто-нибудь додумается, например, использовать технологии распознавания лиц при анализе видео заседаний российского правительства - автоматически создавая базу того кто как сидит. Или, наконец-то, хоть кто-то создаст базы вокабуляров публичных персон выступающих регулярно.
Ссылки:
[1] http://emotions.periscopic.com/inauguration/
[2] http://periscopic.com/
[3] https://www.microsoft.com/cognitive-services/en-us/emotion-api
#opendata #hightech #recognition #emotions
Periscopic
One Angry Bird
The most negative inaugural speech in decades. Visualization by @Periscopic
Примеры визуализации данных опроса на сайте опроса учителей в школах штата Теннеси - http://educatorsurvey.tnk12.gov/
Довольно простая, но качественная визуализация, возможность просмотреть результаты опроса до каждой школы и экспорт данных.
А делалось это все той же командой Periscopic о которой я писал ранее.
#dataviz
Довольно простая, но качественная визуализация, возможность просмотреть результаты опроса до каждой школы и экспорт данных.
А делалось это все той же командой Periscopic о которой я писал ранее.
#dataviz
educatorsurvey.tnk12.gov
Tennessee Educator Survey
Для тех кто задается вопросами о том как устроены госзакупки в России и кроме тех материалов на сайте Госвопрос которые Вы уже читали. Здесь будет множество ссылок на мои публикации разных лет.
В 2011 году в ЖЖ тезисами про устройство госзаказа - http://ivbeg.livejournal.com/438154.html
В 2011 году о проблемах гражданского контроля http://ivbeg.livejournal.com/351597.html
О том чем я занимался в 2011 году - http://ivbeg.livejournal.com/378570.html
Слепые закупки https://clearspending.ru/media/analytics/Open%20data%20as%20a%20tool%20for%20civil%20society%20and%20expert%20control%20in%20public%20procurement.pdf
Многие другие материалы уже просто недоступны. А про многие рассказывать долго и, кое-где, придется сбиваться на политику.
Но я то все очень хорошо помню как какие законы вносились и принимались. О очень хорошо помню как поправки в 94-ФЗ в 2009 году это был ФЗ N 93-ФЗ от 08.05.2009 для создания единого портала проходили без обсуждений, без ФЭО и спрятанными под проведение форума АТЭС.
Там вообще столько всякой пакости творилось что я на несколько лет перестал что-то серьезное делать в госзакупках потому что было элементарно противно.
Кстати, я тему открытых данных раскручивал в 2010-2012 годах пользуясь темой госзаказа.
Чувствую, мне надо книгу воспоминаний писать. "Государство как моя личная боль".
#goszakaz
В 2011 году в ЖЖ тезисами про устройство госзаказа - http://ivbeg.livejournal.com/438154.html
В 2011 году о проблемах гражданского контроля http://ivbeg.livejournal.com/351597.html
О том чем я занимался в 2011 году - http://ivbeg.livejournal.com/378570.html
Слепые закупки https://clearspending.ru/media/analytics/Open%20data%20as%20a%20tool%20for%20civil%20society%20and%20expert%20control%20in%20public%20procurement.pdf
Многие другие материалы уже просто недоступны. А про многие рассказывать долго и, кое-где, придется сбиваться на политику.
Но я то все очень хорошо помню как какие законы вносились и принимались. О очень хорошо помню как поправки в 94-ФЗ в 2009 году это был ФЗ N 93-ФЗ от 08.05.2009 для создания единого портала проходили без обсуждений, без ФЭО и спрятанными под проведение форума АТЭС.
Там вообще столько всякой пакости творилось что я на несколько лет перестал что-то серьезное делать в госзакупках потому что было элементарно противно.
Кстати, я тему открытых данных раскручивал в 2010-2012 годах пользуясь темой госзаказа.
Чувствую, мне надо книгу воспоминаний писать. "Государство как моя личная боль".
#goszakaz
Livejournal
Много и нудно о госзакупках в тезисах
Я вот уже с неделю думаю о том как бы оформить словами всё, что я думаю про госзакупки и происходящую полемику вокруг 94-ФЗ. Как я ранее упоминал, я не хочу…
Все больше и больше про госзакупки, на сей раз на Радио Медиаметрикс
http://radio.mediametrics.ru/vse_za_laiki/47557/
Тема стала все более актуальной и я ней возвращаюсь после очень долгого перерыва, но вот видимо давно уже пора.
#goszkaz
http://radio.mediametrics.ru/vse_za_laiki/47557/
Тема стала все более актуальной и я ней возвращаюсь после очень долгого перерыва, но вот видимо давно уже пора.
#goszkaz
radio.mediametrics.ru
Радио МедиаМетрикс - Госзакупки за лайки
Кто делом занимается, а лайки собирает на серьезной теме
У сервиса GitLab который используют десятки тысяч проектов по всему миру произошла локальная катастрофа 31 января со случайным уничтожением базы данных на production сервере.
Серьезная история с профессиональной работой разработчиков сервиса, которые честно обо всем написали.
Перевод их лога на русском языке [1] и на английском оригинал [2]
Это страшная история для всех кто когда-либо вел большие проекты. В моей жизни что-то близкое происходило лишь дважды, но каждый раз с потерями удавалось восстанавливаться.
Паранойя потери данных для многих переживших подобное бывает сильнее паранойи приватности.
Ссылки:
[1] https://habrahabr.ru/company/centosadmin/blog/321074/
[2] https://docs.google.com/document/d/1GCK53YDcBWQveod9kfzW-VCxIABGiryG7_z_6jHdVik/pub
#data #backup #archives
Серьезная история с профессиональной работой разработчиков сервиса, которые честно обо всем написали.
Перевод их лога на русском языке [1] и на английском оригинал [2]
Это страшная история для всех кто когда-либо вел большие проекты. В моей жизни что-то близкое происходило лишь дважды, но каждый раз с потерями удавалось восстанавливаться.
Паранойя потери данных для многих переживших подобное бывает сильнее паранойи приватности.
Ссылки:
[1] https://habrahabr.ru/company/centosadmin/blog/321074/
[2] https://docs.google.com/document/d/1GCK53YDcBWQveod9kfzW-VCxIABGiryG7_z_6jHdVik/pub
#data #backup #archives
Habr
sudo rm -rf, или Хроника инцидента с базой данных GitLab.com от 2017/01/31
Он пьянел медленно, но все-таки опьянел, как-то сразу, скачком; и когда в минуту просветления увидел перед собой разрубленный дубовый стол в совершенно незнакомой комнате, обнаженный меч в своей...
4 марта по всему миру пройдет День открытых данных, мы, "Инфокультура" под эгидой OKI Russia вместе с партнерами организуем День открытых данных в Москве который пройдет в виде лекционного дня 4 марта и хакатона 5 марта.
Это преданонс - мы продолжаем работать над программой, скоро откроем сайт и сделаем полноценный анонс с упоминанием всех секций, всех спикеров и партнеров.
Программа хакатона продолжает формироваться - у нас уже есть 4 подтвержденные секции: НКО, СМИ, Бизнес и Город.
Наше мероприятие будет не государственным, не коммерческим, не политическим. Акцент будет именно на работе с данными во всех его проявлениях и мы будем звать тех спикеров у которых накопился реальный опыт и тех участников кто хочет узнать новое, погрузиться в тему или познакомиться с другими. Будут и сотрудников органов власти публикующие данные, а активисты сделавшие проекты, и крутые журналисты работающие с базами данных и многие другие.
Пока есть страница регистрации на Timepad'е - https://oki-russia.timepad.ru/event/439731/
и в Facebook https://www.facebook.com/events/1668561813437491/
Пока же прошу писать мне на @ibegtin или в @begtinchat предложения:
- какие еще секции Вы бы хотели увидеть?
- готовы ли Вы быть спикером? Если да, то присылайте тему выступления - я сведу Вас с модератором секции
- готовы ли Вы помочь на мероприятии - спонсорской поддержкой, выступить волонтером и так далее
- есть ли у Вас интересные данные или задачи чтобы дать участникам хакатона
Отдельно - обратите внимание. В секции "Бизнес" мы будем разбирать конкретные бизнес кейсы того как зарабатывают и можно зарабатывать на открытых данных. Здесь очень нехватает спикеров от бизнеса. Это хорошая возможность рассказать про свой стартап или для венчурных фондов и инвесторов рассказать о том какие стартапы Вы ждете.
Если Вы организуете OpenDataDay в Вашем городе или в другой стране для русскоязычной аудитории - мы будем рады проанонсировать Ваше событие в общем анонсе и выйти с Вами на связь в процессе.
#opendata #opengov #opendataday #data
Это преданонс - мы продолжаем работать над программой, скоро откроем сайт и сделаем полноценный анонс с упоминанием всех секций, всех спикеров и партнеров.
Программа хакатона продолжает формироваться - у нас уже есть 4 подтвержденные секции: НКО, СМИ, Бизнес и Город.
Наше мероприятие будет не государственным, не коммерческим, не политическим. Акцент будет именно на работе с данными во всех его проявлениях и мы будем звать тех спикеров у которых накопился реальный опыт и тех участников кто хочет узнать новое, погрузиться в тему или познакомиться с другими. Будут и сотрудников органов власти публикующие данные, а активисты сделавшие проекты, и крутые журналисты работающие с базами данных и многие другие.
Пока есть страница регистрации на Timepad'е - https://oki-russia.timepad.ru/event/439731/
и в Facebook https://www.facebook.com/events/1668561813437491/
Пока же прошу писать мне на @ibegtin или в @begtinchat предложения:
- какие еще секции Вы бы хотели увидеть?
- готовы ли Вы быть спикером? Если да, то присылайте тему выступления - я сведу Вас с модератором секции
- готовы ли Вы помочь на мероприятии - спонсорской поддержкой, выступить волонтером и так далее
- есть ли у Вас интересные данные или задачи чтобы дать участникам хакатона
Отдельно - обратите внимание. В секции "Бизнес" мы будем разбирать конкретные бизнес кейсы того как зарабатывают и можно зарабатывать на открытых данных. Здесь очень нехватает спикеров от бизнеса. Это хорошая возможность рассказать про свой стартап или для венчурных фондов и инвесторов рассказать о том какие стартапы Вы ждете.
Если Вы организуете OpenDataDay в Вашем городе или в другой стране для русскоязычной аудитории - мы будем рады проанонсировать Ваше событие в общем анонсе и выйти с Вами на связь в процессе.
#opendata #opengov #opendataday #data
oki-russia.timepad.ru
День открытых данных / События на TimePad.ru
4-5 марта 2017 года АНО «Информационная культура» снова проведет День открытых данных (International Open Data Day) в Москве. Open data day - это международный проект, организованный Фондом открытых знаний (Open Knowledge International) при поддержке разных…
Хочу напомнить о том что открытые данные - это не только "открытые государственные данные". Это любые базы данных в открытом доступе и под свободными лицензиями.
Например, моя любимая рубрика, наборы данных крупных международных корпораций.
Microsoft
- Microsoft Research dataset directory https://www.microsoft.com/en-us/research/academic-program/data-science-at-microsoft-research/ много исследовательских данных по десяткам тем
- Common objects in context http://mscoco.org/
- Логи сайта Microsoft.com еще с 1998 года https://archive.ics.uci.edu/ml/datasets/Anonymous+Microsoft+Web+Data
- Microsoft MAchine Reading COmprehension Dataset http://www.msmarco.org/
Google
- Google Ngram dataset - http://storage.googleapis.com/books/ngrams/books/datasetsv2.html огромная база Ngram от Гугла
- Google Webgraph (2002) - https://snap.stanford.edu/data/web-Google.html
- Google Open Images - https://github.com/openimages/dataset
- Google Syntactic N-grams http://commondatastorage.googleapis.com/books/syntactic-ngrams/index.html
- FreeBase https://developers.google.com/freebase/ выкупленный Google и встроенный в их API доступен как набор данных
Yahoo
- Webscope datasets https://webscope.sandbox.yahoo.com/ (13 терабайт в разжатом виде)
Facebook
- Датасет по связям из 2005 года - https://lists.ufl.edu/cgi-bin/wa?A2=ind1102&L=SOCNET&T=0&P=22841
Intel
- Intel Science and Technology Center for Big Data http://istc-bigdata.org/index.php/our-research-data-sets/ коллекция датасетов исследовательской лаборатории Intel
Другие компании поддерживают создание открытых данных посредством целевых грантов.
Например Amazon:
- Web data commons http://webdatacommons.org/ проект создает открытые данные на базе данных Common Crawl и получил грант от Amazon in Education
Обратите внимание что почти все эти наборы данных под лицензией Creative Commons. То есть их можно использовать для практически любых целей.
При том что data корпорации всегда больше заинтересованы в том чтобы получать данные, а не отдавать, но в мире все больше примеров когда вложения в общее благо приносит пользу и им самим.
Этот очень неполный список для меня иллюстративен и дает ответ на вопрос о том что не так с интернет-бизнесом в России. В первую очередь в отсутствии открытости, ни как ценности, ни как культуры. Медленно-медленно проникает у нас культура открытия исходного кода, куда хуже - культура свободных лицензий и совсем плохо культура открытости знаний, даже для тех проектов в которых нет коммерческих интересов.
#opendata #opengov #data
Например, моя любимая рубрика, наборы данных крупных международных корпораций.
Microsoft
- Microsoft Research dataset directory https://www.microsoft.com/en-us/research/academic-program/data-science-at-microsoft-research/ много исследовательских данных по десяткам тем
- Common objects in context http://mscoco.org/
- Логи сайта Microsoft.com еще с 1998 года https://archive.ics.uci.edu/ml/datasets/Anonymous+Microsoft+Web+Data
- Microsoft MAchine Reading COmprehension Dataset http://www.msmarco.org/
- Google Ngram dataset - http://storage.googleapis.com/books/ngrams/books/datasetsv2.html огромная база Ngram от Гугла
- Google Webgraph (2002) - https://snap.stanford.edu/data/web-Google.html
- Google Open Images - https://github.com/openimages/dataset
- Google Syntactic N-grams http://commondatastorage.googleapis.com/books/syntactic-ngrams/index.html
- FreeBase https://developers.google.com/freebase/ выкупленный Google и встроенный в их API доступен как набор данных
Yahoo
- Webscope datasets https://webscope.sandbox.yahoo.com/ (13 терабайт в разжатом виде)
- Датасет по связям из 2005 года - https://lists.ufl.edu/cgi-bin/wa?A2=ind1102&L=SOCNET&T=0&P=22841
Intel
- Intel Science and Technology Center for Big Data http://istc-bigdata.org/index.php/our-research-data-sets/ коллекция датасетов исследовательской лаборатории Intel
Другие компании поддерживают создание открытых данных посредством целевых грантов.
Например Amazon:
- Web data commons http://webdatacommons.org/ проект создает открытые данные на базе данных Common Crawl и получил грант от Amazon in Education
Обратите внимание что почти все эти наборы данных под лицензией Creative Commons. То есть их можно использовать для практически любых целей.
При том что data корпорации всегда больше заинтересованы в том чтобы получать данные, а не отдавать, но в мире все больше примеров когда вложения в общее благо приносит пользу и им самим.
Этот очень неполный список для меня иллюстративен и дает ответ на вопрос о том что не так с интернет-бизнесом в России. В первую очередь в отсутствии открытости, ни как ценности, ни как культуры. Медленно-медленно проникает у нас культура открытия исходного кода, куда хуже - культура свободных лицензий и совсем плохо культура открытости знаний, даже для тех проектов в которых нет коммерческих интересов.
#opendata #opengov #data
Microsoft Research
Data Science for Research - Microsoft Research
Data and tools to help you push the state of the art in cross disciplinary data science. Apply for cloud based data science resources and partnerships
Figshare выпустили отчет о состоянии открытых данных [1] еще в октябре 2016 года где рассказывают о текущем состоянии темы. Что характерно все это проводится под эгидой компании Digital Science [2] которая помимо FigShare разрабатывает еще множество продуктов и сервисов для ученых.
В проекте нет ссылок на работу Open Knowledge International и нмного ссылок на Open Data Institute. В целом ощущение некого размежевания открытости данных в науке и открытости данных в общественной жизни.
Ссылки:
[1] https://figshare.com/blog/The_State_of_Open_Data_-_A_figshare_report_on_global_trends_around_open_data/252
[2] https://www.digital-science.com/
#opendata #opengov #digitalscience
В проекте нет ссылок на работу Open Knowledge International и нмного ссылок на Open Data Institute. В целом ощущение некого размежевания открытости данных в науке и открытости данных в общественной жизни.
Ссылки:
[1] https://figshare.com/blog/The_State_of_Open_Data_-_A_figshare_report_on_global_trends_around_open_data/252
[2] https://www.digital-science.com/
#opendata #opengov #digitalscience
Digital Science
Digital Science: tools for open, collaborative and inclusive research
Digital Science is a trusted partner providing research workflow solutions, and data and analytical insights for the research community
Социальная ответственность в данных - это, например, когда вполне коммерческая компания DataSalon поддерживает открытую базу данных научных и исследовательских организаций OrgRef [1] . Все данные там в CSV и под Creative Commons.
Аналогично существует проект GRID в виде базы научных учреждений, их грантов и тому подобного [2], он поддерживается компанией Digital Science & Research и доступен в виде базы данных.
Это примерно все что я думаю о проекте "Карта Российской науки" (mapofscience.ru) теперь уже недоступном и о котором писали СМИ в 2013 году [3].
Ссылки:
[1] http://www.orgref.org/web/index.htm
[2] https://grid.ac/
[3] http://polit.ru/news/2013/11/25/ps_map/
#opendata #openscience
Аналогично существует проект GRID в виде базы научных учреждений, их грантов и тому подобного [2], он поддерживается компанией Digital Science & Research и доступен в виде базы данных.
Это примерно все что я думаю о проекте "Карта Российской науки" (mapofscience.ru) теперь уже недоступном и о котором писали СМИ в 2013 году [3].
Ссылки:
[1] http://www.orgref.org/web/index.htm
[2] https://grid.ac/
[3] http://polit.ru/news/2013/11/25/ps_map/
#opendata #openscience
Специально для тех кто задается вопросом о том зачем нужна архивация сайтов - я готов дать ответ на этот вопрос. Проект 'Карта науки', который я упоминал ранее, пропал из сети, но я успел снять его копию в апреле 2015 года.
Копия сайта расположена по ссылке - http://cdn2.sdlabs.ru/preservation/webcollect/education/mapofscience.org/
Будьте осторожны, архивированный WARC файл из 44 мегабайт распаковывается в 5 гигабайт.
Ответы на вопросы как работать с WARC файлами тут:
- http://superuser.com/questions/628350/extract-files-from-a-web-archive-warc
- http://qanda.digipres.org/610/how-to-open-warc-files
- https://warc.readthedocs.io/en/latest/
Для тех кто задается вопросом "Зачем все это нужно если есть Интернет Архив (archive.org) ?" есть ответ.
Интернет-архив собирает только страницы и только тех сайтов которые его не блокируют на уровне robots.txt. А mapofscience.org его блокировал в Интернет архиве есть только снимки его главной страницы. Последний был 30 декабря 2016 года - http://web.archive.org/web/20161230051532/https://www.mapofscience.org/ , после чего сайт исчез
#digitalpreservation #notsoopenscience
Копия сайта расположена по ссылке - http://cdn2.sdlabs.ru/preservation/webcollect/education/mapofscience.org/
Будьте осторожны, архивированный WARC файл из 44 мегабайт распаковывается в 5 гигабайт.
Ответы на вопросы как работать с WARC файлами тут:
- http://superuser.com/questions/628350/extract-files-from-a-web-archive-warc
- http://qanda.digipres.org/610/how-to-open-warc-files
- https://warc.readthedocs.io/en/latest/
Для тех кто задается вопросом "Зачем все это нужно если есть Интернет Архив (archive.org) ?" есть ответ.
Интернет-архив собирает только страницы и только тех сайтов которые его не блокируют на уровне robots.txt. А mapofscience.org его блокировал в Интернет архиве есть только снимки его главной страницы. Последний был 30 декабря 2016 года - http://web.archive.org/web/20161230051532/https://www.mapofscience.org/ , после чего сайт исчез
#digitalpreservation #notsoopenscience
Super User
Extract files from a web archive (.warc)
I have a number of web sites I am archiving in order to retain many of the linked files there, specifically a number of PDFs.
I haven't had a problem using the Heritrix crawler to collect the sit...
I haven't had a problem using the Heritrix crawler to collect the sit...
Совершенно неожиданная новость - Пентагон открыл свой портал открытых данных - data.mil [1]. Об этом уже пишет Fedscoop [2], акцентируя внимание на теме data stories.
В основе идеи сайта данные системы THOR (Theater History of Operations Reports) и большие объемы исторических баз данных. А вот взаимодействие пользователей и сообщество реализуется через стартап data.world, в форме специального сообщества [3].
Может ли российское военное ведомство создать портал открытых данных? Как ни странно может.
У Министерства обороны РФ есть несколько важных исторических ресурсов ни разу ранее не публиковавшихся как открытые данные.
Это:
- База ОБД Мемориал - https://www.obd-memorial.ru
- Проект Памяти героев Великой войны 1914-1918 - http://gwar.elar.ru/
- Проект "Подвиг народа" - http://podvignaroda.ru/
- Проект "Память народа" - https://pamyat-naroda.ru/
- Календарь победы - http://pobeda.elar.ru/
Почти все проекты делала корпорация ЭЛАР и практически во всех отсутствуют открытые данные. Некоторые из проектов не обновлялись с 2014 года и судьба их будущая неизвестна. Конкретно, ОБД Мемориал еще и была сделана на технологии не позволяющей архивацию сайта.
И да, некоторые проекты и базы уже давно потеряны. Например, http://kursk1943.mil.ru/ недоступен с момента обновления сайта Миноброны.
Иногда от важных шагов в открытости ограничивает только элементарное отсутствие знания о том что такое открытые данные. Может быть пример Пентагона подтолкнет Минобороны России к открытым данным в части исторического наследия.
Ссылки:
[1] https://www.data.mil/s/v2/data-mil/1ff45997-196e-4e9a-96e2-eed27e3e17ab/
[2] https://www.fedscoop.com/defense-digital-service-experiments-with-dods-data-strategy-in-new-site/
[3] https://data.world/datamil
#opendata #military #datastories
В основе идеи сайта данные системы THOR (Theater History of Operations Reports) и большие объемы исторических баз данных. А вот взаимодействие пользователей и сообщество реализуется через стартап data.world, в форме специального сообщества [3].
Может ли российское военное ведомство создать портал открытых данных? Как ни странно может.
У Министерства обороны РФ есть несколько важных исторических ресурсов ни разу ранее не публиковавшихся как открытые данные.
Это:
- База ОБД Мемориал - https://www.obd-memorial.ru
- Проект Памяти героев Великой войны 1914-1918 - http://gwar.elar.ru/
- Проект "Подвиг народа" - http://podvignaroda.ru/
- Проект "Память народа" - https://pamyat-naroda.ru/
- Календарь победы - http://pobeda.elar.ru/
Почти все проекты делала корпорация ЭЛАР и практически во всех отсутствуют открытые данные. Некоторые из проектов не обновлялись с 2014 года и судьба их будущая неизвестна. Конкретно, ОБД Мемориал еще и была сделана на технологии не позволяющей архивацию сайта.
И да, некоторые проекты и базы уже давно потеряны. Например, http://kursk1943.mil.ru/ недоступен с момента обновления сайта Миноброны.
Иногда от важных шагов в открытости ограничивает только элементарное отсутствие знания о том что такое открытые данные. Может быть пример Пентагона подтолкнет Минобороны России к открытым данным в части исторического наследия.
Ссылки:
[1] https://www.data.mil/s/v2/data-mil/1ff45997-196e-4e9a-96e2-eed27e3e17ab/
[2] https://www.fedscoop.com/defense-digital-service-experiments-with-dods-data-strategy-in-new-site/
[3] https://data.world/datamil
#opendata #military #datastories
pamyat-naroda.ru
Память народа::Подлинные документы о Второй Мировой войне
Память народа – Министерство обороны РФ и Корпорация ЭЛАР представляют крупнейший в мире Интернет-портал подлинных документов о Второй мировой 1939-1945 и Великой Отечественной войне 1941-1945.
Да, не могу не прорекламировать. В мае пройдет научная конференция "Интернет по ту сторону цифр" http://internetbeyond.net/
где много ожидается выступлений о том как интернет устроен.
Конференция серьезная, с научным советом и тд. Но я постараюсь туда заглянуть, может быть выступить про открытые данные и послушать.
Кстати, я давно думаю про сбор баз данных по устройству Интернета.
Статистика, браузеры, сети и тд и тп. Да, все меняется постоянно, но данных очень много. Не говоря уже о социологии, пользователях, опросах, развитию IOT.
Когда-нибудь можно и над этими данными что-то интересное сделать.
#opendata #opengov
где много ожидается выступлений о том как интернет устроен.
Конференция серьезная, с научным советом и тд. Но я постараюсь туда заглянуть, может быть выступить про открытые данные и послушать.
Кстати, я давно думаю про сбор баз данных по устройству Интернета.
Статистика, браузеры, сети и тд и тп. Да, все меняется постоянно, но данных очень много. Не говоря уже о социологии, пользователях, опросах, развитию IOT.
Когда-нибудь можно и над этими данными что-то интересное сделать.
#opendata #opengov
internetbeyond.net
конференция Internet Beyond 2020
главная страница