Для тех кто читает и изучает ежегодно Gartner Hype Cycle появилась наглядная видеоинфографика изменений в технологических прогнозах за 25 лет [1], а также автор выложил данные на основе которых это видео создавалось [2].
25 лет хайпа, с выявлением технологий упомянутых единожды, категорий технологий и многое другое. Автор Mark Mine весьма дотошно подошёл к тому чтобы показать изменения более чем наглядно. На его данных Amelia Wattenberger также сделала интерактивную визуализацию [3] уже без видео, но в виде графика.
Ссылки:
[1] https://vimeo.com/464835556
[2] https://drive.google.com/file/d/1y_fzgknqRdPa0KfXiGq44blGqDN3NYv3/view
[3] https://wattenberger.com/hype-cycle
#visual #gartner #hype
25 лет хайпа, с выявлением технологий упомянутых единожды, категорий технологий и многое другое. Автор Mark Mine весьма дотошно подошёл к тому чтобы показать изменения более чем наглядно. На его данных Amelia Wattenberger также сделала интерактивную визуализацию [3] уже без видео, но в виде графика.
Ссылки:
[1] https://vimeo.com/464835556
[2] https://drive.google.com/file/d/1y_fzgknqRdPa0KfXiGq44blGqDN3NYv3/view
[3] https://wattenberger.com/hype-cycle
#visual #gartner #hype
Vimeo
A Quarter Century of Hype - 25 Years of the Gartner Hype Cycle
A presentation of several novel ways to visualize 25 years of the Gartner Hype Cycle. The goal is to demonstrate how one's understanding of complex information…
В США полным ходом идёт не только подготовка в выборам Президента, но и моделирование их исхода. Свои модели выпустили 538 [1] и Economist [2], в том числе делая акцент на возможных сценариях развития и корреляциям между голосованием по отдельным штатам.
И там и там модели основаны на результатах опросов, а прогнозно обе модели показывают что:
- Байден станет президентом
- скорее всего контроль над сенатом будет у демократов
- совершенно точно контроль над палатой представителей будет у демократов
Впрочем политические прогнозы хотя и интересны, интересно развитие моделей предсказаний и их результатов.
Ссылки:
[1] https://projects.fivethirtyeight.com/2020-election-forecast/
[2] https://projects.economist.com/us-2020-forecast/president
#elections #data
И там и там модели основаны на результатах опросов, а прогнозно обе модели показывают что:
- Байден станет президентом
- скорее всего контроль над сенатом будет у демократов
- совершенно точно контроль над палатой представителей будет у демократов
Впрочем политические прогнозы хотя и интересны, интересно развитие моделей предсказаний и их результатов.
Ссылки:
[1] https://projects.fivethirtyeight.com/2020-election-forecast/
[2] https://projects.economist.com/us-2020-forecast/president
#elections #data
FiveThirtyEight
2020 Election Forecast
Latest forecast of the 2020 presidential election between President Donald Trump and Joe Biden by Nate Silver’s FiveThirtyEight
Может ли искусственный интеллект заменить архитекторов и урбанистов или хотя бы помочь им в проектировании городов? Продукт Delve [1] от SideWalkLabs - это сервис для автоматического моделирования жилых кварталов по заданным параметрам с подбором наиболее оптимального варианта зависящего от этих параметров и территории. Всё это, конечно же, в облаке, с искусственным интеллектом (умными алгоритмами) и перебором множества вариантов.
В параметрах учитываются: плотность, комфортабельность, доступность дневного света, пешая доступность общественного транспорта, удобство прогулок
Ссылки:
[1] https://hello.delve.sidewalklabs.com/
#urban #ai
В параметрах учитываются: плотность, комфортабельность, доступность дневного света, пешая доступность общественного транспорта, удобство прогулок
Ссылки:
[1] https://hello.delve.sidewalklabs.com/
#urban #ai
Sidewalk Labs
Delve by Sidewalk Labs | Real Estate Generative Design
Learn how Delve by Sidewalk Labs simplifies the complex development process and empowers real estate teams to design better, faster, and with less risk.
Вышел доклад Automating Society Report 2020 [1] от AlgorithmWatch, в докладе обзор автоматизации в понимании алгоритмических систем в таких странах Европы как: Бельгия, Дания, Эстония, Финляндия, Франция, Германия, Греция, Италия, Голландия, Польша, Португалия, Словения, Испания, Швеция, Швейцария и Великобритания. В целом это более половины Европейского союза.
Доклад отражает картину жизни граждан в среде где есть системы автоматического принятия решений (ADM systems).
В докладе много примеров применения ADM систем, многие были мне неизвестны. Например "Gladsaxe-model" в Дании, это система баллов оценки 'уязвимости ребенка' на основе таких параметров как: плохое душевное здоровье родителя (3000 баллов), отсутствие работы у родителя (500 баллов), пропущенное посещение доктора (500 баллов) и так далее. Работу системы сейчас приостановили, но исследования продолжились.
Также там ещё очень много примеров.
Ссылки:
[1] https://automatingsociety.algorithmwatch.org/
#algorithms
Доклад отражает картину жизни граждан в среде где есть системы автоматического принятия решений (ADM systems).
В докладе много примеров применения ADM систем, многие были мне неизвестны. Например "Gladsaxe-model" в Дании, это система баллов оценки 'уязвимости ребенка' на основе таких параметров как: плохое душевное здоровье родителя (3000 баллов), отсутствие работы у родителя (500 баллов), пропущенное посещение доктора (500 баллов) и так далее. Работу системы сейчас приостановили, но исследования продолжились.
Также там ещё очень много примеров.
Ссылки:
[1] https://automatingsociety.algorithmwatch.org/
#algorithms
В мире всё больше проектов мониторинга государственных мер в ситуации с COVID-19. Некоторые из них государственные и многие общественные.
Вот некоторые из них:
- Citizen Budget Tracker [1] проект группы волонтеров на Филлипинах
- COVID-19 Africa Public Finance Response Monitor [2] мониторинг того как реагируют министры финансов африканских стран [3]
- Сведения о бюджетных расходах на борьбу с COVID-19 публикуют власти Бразилии на портале прозрачности [4]
- В Аргентине правительство публикует сведения о мерах на портале открытых данных [5]
- В Мексике финансовые данные о реакции на COVID-19 публикуются на портале Padrón de Beneficiarios (PUB) [6]
- На Украине мониторингом занимаются Transparency Int. Ukraine через проект DoZorro [7]
Необходим ли мониторинг расходов на COVID-19 в России? Есть ли хоть одна инициатива в этой области?
Ссылки:
[1] https://www.covidbudget.ph/
[2] https://www.cabri-sbo.org/en/blog/2020/covid-19-africa-public-finance-response-monitor-how-african-governments-particularly-ministries-of-finance-are-tackling-covid-19
[3] https://www.cabri-sbo.org/en/pages/covid-19-public-finance-monitor
[4] http://www.portaltransparencia.gov.br/programas-e-acoes/acao/21C0-enfrentamento-da-emergencia-de-saude-publica-de-importancia-internacional-decorrente-do-coronavirus
[5] https://www.buenosaires.gob.ar/coronavirus/medidas-de-gobierno
[6] https://pub.bienestar.gob.mx/#:~:text=El%20Padr%C3%B3n%20%C3%9Anico%20de%20Beneficiarios,de%20Geoestad%C3%ADstica%20y%20Padrones%20de
[7] https://dozorro.org/
#budgets #spending #covid19
Вот некоторые из них:
- Citizen Budget Tracker [1] проект группы волонтеров на Филлипинах
- COVID-19 Africa Public Finance Response Monitor [2] мониторинг того как реагируют министры финансов африканских стран [3]
- Сведения о бюджетных расходах на борьбу с COVID-19 публикуют власти Бразилии на портале прозрачности [4]
- В Аргентине правительство публикует сведения о мерах на портале открытых данных [5]
- В Мексике финансовые данные о реакции на COVID-19 публикуются на портале Padrón de Beneficiarios (PUB) [6]
- На Украине мониторингом занимаются Transparency Int. Ukraine через проект DoZorro [7]
Необходим ли мониторинг расходов на COVID-19 в России? Есть ли хоть одна инициатива в этой области?
Ссылки:
[1] https://www.covidbudget.ph/
[2] https://www.cabri-sbo.org/en/blog/2020/covid-19-africa-public-finance-response-monitor-how-african-governments-particularly-ministries-of-finance-are-tackling-covid-19
[3] https://www.cabri-sbo.org/en/pages/covid-19-public-finance-monitor
[4] http://www.portaltransparencia.gov.br/programas-e-acoes/acao/21C0-enfrentamento-da-emergencia-de-saude-publica-de-importancia-internacional-decorrente-do-coronavirus
[5] https://www.buenosaires.gob.ar/coronavirus/medidas-de-gobierno
[6] https://pub.bienestar.gob.mx/#:~:text=El%20Padr%C3%B3n%20%C3%9Anico%20de%20Beneficiarios,de%20Geoestad%C3%ADstica%20y%20Padrones%20de
[7] https://dozorro.org/
#budgets #spending #covid19
Ivan Begtin via @vote
Необходим ли общедоступный мониторинг, реестр проектов, бюджетов и контрактов и открытые данные по всем расходам и государственным инициативам вокруг COVID-19?
anonymous poll
Да, нужен как независимый общественный проект – 91
👍👍👍👍👍👍👍 55%
Да, нужен от Счетной палаты – 64
👍👍👍👍👍 39%
Да, нужен, но только чтобы от Прокуратуры (и с открытыми данными по посадкам) – 7
👍 4%
Да, нужен от Правительства РФ – 3
▫️ 2%
Нет необходимости, имеющейся информации достаточно – 1
▫️ 1%
👥 166 people voted so far.
anonymous poll
Да, нужен как независимый общественный проект – 91
👍👍👍👍👍👍👍 55%
Да, нужен от Счетной палаты – 64
👍👍👍👍👍 39%
Да, нужен, но только чтобы от Прокуратуры (и с открытыми данными по посадкам) – 7
👍 4%
Да, нужен от Правительства РФ – 3
▫️ 2%
Нет необходимости, имеющейся информации достаточно – 1
▫️ 1%
👥 166 people voted so far.
Дайджест новостей по открытым данным:
- Microsoft вместе с ODI запускают инициативу по Data Collaboration https://blogs.microsoft.com/on-the-issues/2020/10/22/peer-learning-network-for-data-collaborations/
- в Австралии началась вторая фаза сбора предложений для третьего национального плана по открытости https://ogpau.pmc.gov.au/consultations/phase-2c-final-consultation-draft-commitments
- в блоге проекта Qri о том как архивировать данные из Airtable https://medium.com/qri-io/archiving-your-airtable-data-with-qri-12dbda8783c3
- научная статья о барьерах в обмене данными о гидрометеорологии в Европе https://www.sciencedirect.com/science/article/abs/pii/S0022169410001496
- обзор инструментов для обзора Земли, какие инструменты мониторинга Земли лучше использовать https://towardsdatascience.com/the-best-earth-observation-data-science-toolkits-a51d867343a0
- Aura Network, совместная исследовательская инициатива Великобритании и Ирландии по исследованию применения искусственного интеллекта к архивам рожденных-в-цифре документов https://www.aura-network.net/
#opendata
- Microsoft вместе с ODI запускают инициативу по Data Collaboration https://blogs.microsoft.com/on-the-issues/2020/10/22/peer-learning-network-for-data-collaborations/
- в Австралии началась вторая фаза сбора предложений для третьего национального плана по открытости https://ogpau.pmc.gov.au/consultations/phase-2c-final-consultation-draft-commitments
- в блоге проекта Qri о том как архивировать данные из Airtable https://medium.com/qri-io/archiving-your-airtable-data-with-qri-12dbda8783c3
- научная статья о барьерах в обмене данными о гидрометеорологии в Европе https://www.sciencedirect.com/science/article/abs/pii/S0022169410001496
- обзор инструментов для обзора Земли, какие инструменты мониторинга Земли лучше использовать https://towardsdatascience.com/the-best-earth-observation-data-science-toolkits-a51d867343a0
- Aura Network, совместная исследовательская инициатива Великобритании и Ирландии по исследованию применения искусственного интеллекта к архивам рожденных-в-цифре документов https://www.aura-network.net/
#opendata
Microsoft On the Issues
Microsoft and the Open Data Institute join together to launch a Peer Learning Network for Data Collaborations - Microsoft On the…
Today, in partnership with the Open Data Institute (ODI), we are delighted to announce an open call for participation in a new Peer Learning Network for Data Collaborations as part of Microsoft’s Open Data Campaign.
Сегодня было большое онлайн мероприятие по простоте и понятности законов «О языке законов, их понятности и сложности» с презентациями и выступлениями коллег из нескольких университетов и, в том числе, моим выступлением.
Если была запись, я потом выложу на него ссылку. А пока небольшая презентация про то как простота НПА устроена в мире и в России и о нашем проекте Простой русский язык
Ссылки:
[1] https://www.beautiful.ai/player/-MKtlUfFd3FAkgQyXZca
[2] http://plainrussian.ru
#plainrussian
Если была запись, я потом выложу на него ссылку. А пока небольшая презентация про то как простота НПА устроена в мире и в России и о нашем проекте Простой русский язык
Ссылки:
[1] https://www.beautiful.ai/player/-MKtlUfFd3FAkgQyXZca
[2] http://plainrussian.ru
#plainrussian
Beautiful.ai
Простой язык
Сегодня у меня день мероприятий и второе мероприятие на котором я выступал - это всероссийская конференция «Информация и коммуникация в цифровую эпоху: явные и неявные воздействия» [1]
С темой "Цифровая слежка во время COVID-19. На время или навсегда" [2]. Презентации обычно у меня короткие, многое я говорю только с голоса, но думаю что надо будет записать вебинар на эту тему и саму тему расширить набором действий.
Ссылки:
[1] http://ifapcom.ru/news/1696/?returnto=0&n=1
[2] https://www.beautiful.ai/player/-MKuzvlv7fdrA06kDs97
#privacy #covid19
С темой "Цифровая слежка во время COVID-19. На время или навсегда" [2]. Презентации обычно у меня короткие, многое я говорю только с голоса, но думаю что надо будет записать вебинар на эту тему и саму тему расширить набором действий.
Ссылки:
[1] http://ifapcom.ru/news/1696/?returnto=0&n=1
[2] https://www.beautiful.ai/player/-MKuzvlv7fdrA06kDs97
#privacy #covid19
Помните в мае 2019 года я публиковал доклад об утечках персональных данных из государственных информационных систем? [1] Хотите знать что изменилось за эти годы? А ничего не изменилось.
1. Официальной реакции Роскомнадзора не было да и диалога с ними тоже.
2. Официального технологического аудита информационных систем не было
3. Кое-что происходило кулуарно и непублично, об этом эхом мне потом рассказывали коллеги из разных органов власти.
4. Во многих случаях никакие изменения в информационных системах не вносились и данные по прежнему публикуются.
В качестве примера сайт http://xn--80akibckndbdsx1ezg.xn--p1ai/ от Роструда где собираются жалобы граждан. И, конечно же, они публикуются.
Мне очень не хотелось возвращаться к этой теме, потому что у неё есть сопутствующих ущерб, больше людей узнают об утечках и знают где их найти.
Ссылки:
[1] https://begtin.tech/pdleaks-p3-govsys/
#privacy #PersonalData #leaks
1. Официальной реакции Роскомнадзора не было да и диалога с ними тоже.
2. Официального технологического аудита информационных систем не было
3. Кое-что происходило кулуарно и непублично, об этом эхом мне потом рассказывали коллеги из разных органов власти.
4. Во многих случаях никакие изменения в информационных системах не вносились и данные по прежнему публикуются.
В качестве примера сайт http://xn--80akibckndbdsx1ezg.xn--p1ai/ от Роструда где собираются жалобы граждан. И, конечно же, они публикуются.
Мне очень не хотелось возвращаться к этой теме, потому что у неё есть сопутствующих ущерб, больше людей узнают об утечках и знают где их найти.
Ссылки:
[1] https://begtin.tech/pdleaks-p3-govsys/
#privacy #PersonalData #leaks
Но вернуться к этой теме всё равно придется несмотря на её "подвешенное состояние", с её регулятором Роскомнадзором, взаимодействовать бессмысленно, по моему опыту, у Минцифры тема не на повестке, у Счетной палаты у неё нет полномочий, а говорить об этом с людьми в Прокуратуре - это сразу жесткий вариант и неизвестно работающий ли.
Поэтому те несколько примеров что я привожу это то, что есть на сайте онлайнинспекция.рф в открытом доступе и очень легко находимое. А есть много других примеров также в открытом доступе, но не находимые самыми очевидными способами.
#privacy #leaks
Поэтому те несколько примеров что я привожу это то, что есть на сайте онлайнинспекция.рф в открытом доступе и очень легко находимое. А есть много других примеров также в открытом доступе, но не находимые самыми очевидными способами.
#privacy #leaks
Если Вы ещё не читали, то очень рекомендую почитать свежий документ Third wave of Open Data [1] от Open Data Policy Lab [2] о том как развивается тема открытых данных.
Документ интересный с одной стороны, с описанием многих трендов в мире, а с другой стороны, конечно, не полный и всё более похожий на профессиональный консалтерский, продукт. Даже беглым чтением я там насчитал более 70 терминов сочетающихся с "data ...": data holders, data subjects, data hoarding, data provenance, data capacity, data liquidity, data gaps и ещё бесконечное множество как ранее использовавшихся, так и свежих. Я так и не понял причин такого терминологического разнообразия.
В то же время, например, в документе нет ни слова про Open Knowledge Foundation, ничего нет про Open Data Barometer и Global Data Barometer. Впрочем возможно это как подчеркивание что у третьей волны другие лидеры и Open Data Policy Lab и упоминаемые ими в докладе одни из них?
Ссылки:
[1] https://opendatapolicylab.org/third-wave-of-open-data/
[2] https://opendatapolicylab.org
#opendata #reports
Документ интересный с одной стороны, с описанием многих трендов в мире, а с другой стороны, конечно, не полный и всё более похожий на профессиональный консалтерский, продукт. Даже беглым чтением я там насчитал более 70 терминов сочетающихся с "data ...": data holders, data subjects, data hoarding, data provenance, data capacity, data liquidity, data gaps и ещё бесконечное множество как ранее использовавшихся, так и свежих. Я так и не понял причин такого терминологического разнообразия.
В то же время, например, в документе нет ни слова про Open Knowledge Foundation, ничего нет про Open Data Barometer и Global Data Barometer. Впрочем возможно это как подчеркивание что у третьей волны другие лидеры и Open Data Policy Lab и упоминаемые ими в докладе одни из них?
Ссылки:
[1] https://opendatapolicylab.org/third-wave-of-open-data/
[2] https://opendatapolicylab.org
#opendata #reports
Минприроды вывело из эксплуатации/закрыло/случайно уничтожило/(свой вариант?) сайты в заповедников в домене zapoved.ru [1], они ещё есть в кеше Гугла, но в остальном они закрыты. Архивные копии Минприроды не делало, анонсов о закрытии тоже.
Ссылки:
[1] http://zapoved.ru
[2] https://www.google.com/search?q=site:zapoved.ru+-oldsite
#archives #digitalpreservation
Ссылки:
[1] http://zapoved.ru
[2] https://www.google.com/search?q=site:zapoved.ru+-oldsite
#archives #digitalpreservation
Google
site:zapoved.ru -oldsite - Google Search
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
2 новости об открытых данных Минфина России:
1. Реестр субсидий сегодня снова стал доступным на портале Электронного бюджета (реестр был отключен примерно на две недели). Мы уже восстановили разделы о субсидиях и в «Госзатратах», и в «Госрасходах».
2. Исторические бюджеты больше недоступны на сайте Минфина России. Пока неизвестно, как давно и техническая это ошибка или политическое решение. Через месяц узнаем (https://minfin.gov.ru/ru/historylib/)
1. Реестр субсидий сегодня снова стал доступным на портале Электронного бюджета (реестр был отключен примерно на две недели). Мы уже восстановили разделы о субсидиях и в «Госзатратах», и в «Госрасходах».
2. Исторические бюджеты больше недоступны на сайте Минфина России. Пока неизвестно, как давно и техническая это ошибка или политическое решение. Через месяц узнаем (https://minfin.gov.ru/ru/historylib/)
Очередная рассылка, на сей раз о третьей волне открытых данных и разнообразии терминологии данных. [1]
Ссылки:
[1] https://begtin.substack.com/p/6-
#opendata #data
Ссылки:
[1] https://begtin.substack.com/p/6-
#opendata #data
Ivan’s Begtin Newsletter on digital, open and preserved government
#6. Третья волна открытых данных, и терминология данных
И ручейки в тени лесной Чуть вьются сонною волной. / А.С. Пушкин
Для тех кто работает с открытыми данными (и просто с данными) напоминание про инструменты полезные для сбора и извлечения данных из самых разнообразных источников
- Tabula [1] инструмент с открытым кодом для извлечения таблиц из PDF файлов.
- Scrapy [2] фреймворк сбора данных из веб страниц.
- Docx2csv [3] утилита и библиотека извлечения таблиц из файлов docx
- Lazyscraper [4] утилита для извлечения таблиц и иных объектов из HTML файлов
- APIBackuper [5] утилита выгрузки данных из API, делает резевную копию данных и сохраняет их в формате JSON lines
Большая коллекция инструментов для сбора данных в Awesome Web Scraping [6].
А также существует несколько десятков онлайн сервисов и компаний которые дают возможность наладить сбор данных на их инфраструктуре или собрать данные на заказ. Это не самая большая, но вполне состоявшаяся индустрий охватывающая от сбора госданных, до сбора информации с сайтов интернет-магазинов и не только.
Лично я могу сказать что собрать или обработать один набор данных не требует много людей или очень много сил. Это можно делать очень быстро и чаще важнее наличие одного понимающего человека раздающего задачи внешней команде или работающего с внешним сервисом.
Лично я много лет, можно сказать, увлекался темой автоматизации извлечения данных. Не просто собрать и извлечь, а сделать это самым ленивым способом, без перетаскиваний и GUI, и без программирования непосредственно сбора данных. Утилиты вроде APIBackuper или Lazyscraper - это плод моих экспериментов.
Я как-то очень давно писал что много лет назад я "убил много времени" на задачи автоматизации сбора данных. Идея фикс была в том что большая часть разработчиков веб-сайтов думают шаблонами, разрабатывают фреймворки по шаблонам и шаблонами же делают сайты. Есть ограниченно число паттернов по описания объекта, описания коллекции объектов, способов их отображения и так далее, основные отличия скорее языковые, чем какие-либо иные.
Впрочем и имеющиеся инструменты сильно облегчают жизнь тем кто собирает данные.
Ссылки:
[1] https://tabula.technology/
[2] https://scrapy.org/
[3] https://github.com/ivbeg/docx2csv
[4] https://github.com/ivbeg/lazyscraper
[5] https://github.com/ruarxive/apibackuper
[6] https://github.com/lorien/awesome-web-scraping
#scraping #data #extraction
- Tabula [1] инструмент с открытым кодом для извлечения таблиц из PDF файлов.
- Scrapy [2] фреймворк сбора данных из веб страниц.
- Docx2csv [3] утилита и библиотека извлечения таблиц из файлов docx
- Lazyscraper [4] утилита для извлечения таблиц и иных объектов из HTML файлов
- APIBackuper [5] утилита выгрузки данных из API, делает резевную копию данных и сохраняет их в формате JSON lines
Большая коллекция инструментов для сбора данных в Awesome Web Scraping [6].
А также существует несколько десятков онлайн сервисов и компаний которые дают возможность наладить сбор данных на их инфраструктуре или собрать данные на заказ. Это не самая большая, но вполне состоявшаяся индустрий охватывающая от сбора госданных, до сбора информации с сайтов интернет-магазинов и не только.
Лично я могу сказать что собрать или обработать один набор данных не требует много людей или очень много сил. Это можно делать очень быстро и чаще важнее наличие одного понимающего человека раздающего задачи внешней команде или работающего с внешним сервисом.
Лично я много лет, можно сказать, увлекался темой автоматизации извлечения данных. Не просто собрать и извлечь, а сделать это самым ленивым способом, без перетаскиваний и GUI, и без программирования непосредственно сбора данных. Утилиты вроде APIBackuper или Lazyscraper - это плод моих экспериментов.
Я как-то очень давно писал что много лет назад я "убил много времени" на задачи автоматизации сбора данных. Идея фикс была в том что большая часть разработчиков веб-сайтов думают шаблонами, разрабатывают фреймворки по шаблонам и шаблонами же делают сайты. Есть ограниченно число паттернов по описания объекта, описания коллекции объектов, способов их отображения и так далее, основные отличия скорее языковые, чем какие-либо иные.
Впрочем и имеющиеся инструменты сильно облегчают жизнь тем кто собирает данные.
Ссылки:
[1] https://tabula.technology/
[2] https://scrapy.org/
[3] https://github.com/ivbeg/docx2csv
[4] https://github.com/ivbeg/lazyscraper
[5] https://github.com/ruarxive/apibackuper
[6] https://github.com/lorien/awesome-web-scraping
#scraping #data #extraction
tabula.technology
Tabula: Extract Tables from PDFs
Tabula is a free tool for extracting data from PDF files into CSV and Excel files.
Forrester провели анализ по 39 критериям 10 крупнейших продуктов каталогов для машинного обучения и опубликовали отчет [1].
Лидеры: Alation, Collibra, Alex Solutions и IBM
Сильные исполнители: data.world, Informatica, Io-Tahoe и Hitachi Vantara
Претенденты: Infogix и erwin
У них же в отчете можно обратить внимание на такой критерий оценки как data activation (активация данных). Термин больше похож на маркетинговый жаргон, с несколькими разными определениями тут [2], тут [3] и тут [4] и ближе всего он к тому чтобы собираемые данные собирались в реальном времени и на их основе можно было бы принимать быстрые решения в отношении клиентов, в основном, решения в области маркетинга.
Впрочем тут важный акцент именно на том что это каталоги для машинного обучения, потому что решений для каталогов данных, в принципе, довольно много. Особенность машинного обучения в интеграции с ML продуктами, в том насколько подключение к каталогу данных просто именно для data scientist'ов и так далее.
Я ранее писал про каталоги данных [5] и их классификации на каталоги открытых данных, корпоративные каталоги данных и на каталоги данных исследователей. Классификацию это можно расширять на каталоги для машинного обучения, которые по сути своей подвид корпоративных каталогов данных. С той важной разницей что их уже не совсем корректно называть именно каталогами данных, потому что реестр метаданных формирующий каталог - это не более чем одна из функций такого продукта, а по сути он является скорее подвидом платформ управления данными. Не случайно что многие из каталогов выше включают в себя атрибуты платформы управления аудиторными данными, data management platform (DMP).
Ссылки:
[1] https://reprints2.forrester.com/#/assets/2/1946/RES157467/report
[2] https://www.dynamicyield.com/glossary/data-activation/
[3] https://www.oracle.com/cx/marketing/data-activation/
[4] https://blueshift.com/blog/what-is-data-activation/
[5] https://yangx.top/begtin/2175
#dmp #data #opendata #datacatalogs
Лидеры: Alation, Collibra, Alex Solutions и IBM
Сильные исполнители: data.world, Informatica, Io-Tahoe и Hitachi Vantara
Претенденты: Infogix и erwin
У них же в отчете можно обратить внимание на такой критерий оценки как data activation (активация данных). Термин больше похож на маркетинговый жаргон, с несколькими разными определениями тут [2], тут [3] и тут [4] и ближе всего он к тому чтобы собираемые данные собирались в реальном времени и на их основе можно было бы принимать быстрые решения в отношении клиентов, в основном, решения в области маркетинга.
Впрочем тут важный акцент именно на том что это каталоги для машинного обучения, потому что решений для каталогов данных, в принципе, довольно много. Особенность машинного обучения в интеграции с ML продуктами, в том насколько подключение к каталогу данных просто именно для data scientist'ов и так далее.
Я ранее писал про каталоги данных [5] и их классификации на каталоги открытых данных, корпоративные каталоги данных и на каталоги данных исследователей. Классификацию это можно расширять на каталоги для машинного обучения, которые по сути своей подвид корпоративных каталогов данных. С той важной разницей что их уже не совсем корректно называть именно каталогами данных, потому что реестр метаданных формирующий каталог - это не более чем одна из функций такого продукта, а по сути он является скорее подвидом платформ управления данными. Не случайно что многие из каталогов выше включают в себя атрибуты платформы управления аудиторными данными, data management platform (DMP).
Ссылки:
[1] https://reprints2.forrester.com/#/assets/2/1946/RES157467/report
[2] https://www.dynamicyield.com/glossary/data-activation/
[3] https://www.oracle.com/cx/marketing/data-activation/
[4] https://blueshift.com/blog/what-is-data-activation/
[5] https://yangx.top/begtin/2175
#dmp #data #opendata #datacatalogs
Dynamic Yield
What is Data Activation? Definition by Dynamic Yield
Data activation refers to a brand’s ability to not only collect and store customer data, but also to be able to act upon this data in real-time.
Я бы сказал удивительно, но на самом деле не очень то что на сайте Открытого бюджета Москвы есть новость о том что проект бюджета на 2021-2023 годы внесен в Московскую городскую думу [1] а ссылки на сам текст внесенного проекта бюджета или данные отсутствуют.
В виде текста в формате DOCX он есть на сайте МГД [2], для тех кому очень лень извлекать таблицы из этого файла вручную рекомендую утилиту docx2csv [3] с её помощью можно извлечь все таблицы в CSV формате или в виде Excel файлов.
Ссылки:
[1] https://budget.mos.ru/news05112020
[2] https://duma.mos.ru/ru/0/regulation_projects/corebofs002080000nb3mf7d2btjvc48
[3] https://github.com/ivbeg/docx2csv
#opendata #moscow #budget
В виде текста в формате DOCX он есть на сайте МГД [2], для тех кому очень лень извлекать таблицы из этого файла вручную рекомендую утилиту docx2csv [3] с её помощью можно извлечь все таблицы в CSV формате или в виде Excel файлов.
Ссылки:
[1] https://budget.mos.ru/news05112020
[2] https://duma.mos.ru/ru/0/regulation_projects/corebofs002080000nb3mf7d2btjvc48
[3] https://github.com/ivbeg/docx2csv
#opendata #moscow #budget
budget.mos.ru
Новости / Проект бюджета города Москвы на 2021 год и плановый период 2022 и 2023 годов внесен в Московскую городскую Думу
Информационный портал «Открытый бюджет» открывает доступ к полной информации по планированию и реализации бюджетной политики города Москвы