О городах и данных
2.68K subscribers
50 photos
1 video
2 files
180 links
Канал про то, кто, как и зачем измеряет города: как исследования,построенные на городских данных, улучшают жизнь в городе и какие риски они несут
Автор:@intra23
Сайт: http://geopython.su/
加入频道
​​Как обещала - пост об одном из методов, которые я использовала в дипломе, чтобы понять пространственные взаимосвязи между пешеходами, инфраструктурой и музеями. На мой взгляд, сильно недооцененный в России метод при анализе социально0экономических показателей регионов.

Global Moran's индекс (Moran's I)- индекс пространственной автокорреляции. Он показывает насколько расположенные рядом с друг с другом объекты схоже себя ведут или похожи друг на друга по определенному параметру - чем больше схожесть, тем выше значение индекса. Значения индекса измеряются от -1 до 1, где -1 - это шахматная доска ( соседи полностью отличаются друг от друга), а 1 - это российский флаг( идеальное разделение на группы с одинаковыми значениями).

При расчетах индекса ориентируются еще на z-score и pseudo p-value - как и в обычных статистических тестах, они показывают вероятность достичь полученного значения индекса в случае его рандомного распределения между регионами. Подробнее написано здесь: https://mgimond.github.io/Spatial/spatial-autocorrelation.html.

Расчет индекса зависит от того как будут определены соседи - в одном случае это могут быть только объекты имеющие общую границу( метод "ладьи") или общую точку ( метод "королевы") , в другом соседями будут считаться все в рамках заданного расстояния, при этом чем дальше они от анализируемого региона, тем меньше их вес.

Moran's I - индикатор того нужно ли включать пространственные факторы в анализ. Это первый этап перед тем как искать локальные кластеры и "горящие точки" или строить пространственные регрессии.

Индекс обычно используют не для оценки распределения самого показателя, а для оценки распределения остатков модели, которая пытается его объяснить. Инсайт: при оценке социо-демографических показателей регионов, например стоимости жилья или уровня безработицы - Moran's I показывает наличие кластеров ( групп) в распределении или, проще говоря, что соседи важны.

Интуитивно понятный пример : средний доход населения российского региона. Очевидно, что доход жителей Подмосковья или Ленинградской области зависит не только от количества рабочих мест или инвестиций в них, но и от дохода жителей столиц - они служат индикатором столичных зарплат, которые получают многие из жителей областей.

В случае моего диплома, индекс (= 0.42) показал , что количество пешеходов зависит не только от инфраструктуры и транспортной доступности, но и от количества пешеходов в соседних районах. Это совпадает со словами датского урбаниста Jehn Geil ,о том, что "люди привлекают людей на улицы". К слову, с включением пространственных факторов в модель ее точность модели ( R^2) улучшилось с 46% до 86%. Для наглядности прикладываю карту остатков линейной регрессии, прогнозирующей число пешеходов, по районам - пространственная взаимосвязь на лицо.


Инструменты для расчета индекса:

1. Geoda (https://geodacenter.github.io/ ) - программа от "создателя"локальной версии индекса. Мощный инструмент для пространственного анализа экономических показателей, не требующий навыков программирования. Ссылка на серию лекций автора: https://www.youtube.com/channel/UCzvhOfSmJpRsFRF2Pgrv-Wg

2. Инструмент в ArcGIS в разделе Spatial Statistics Tools

3. R - Moran.I из библиотеки ape

4. Python - метод Moran из библиотеки pysal
"Интересный" способ применения AI нашло в этом году правительство Великобритании ( https://rpubs.com/JeniT/ofqual-algorithm) . В августе этого года из-за пандемии правительство отменило школьные выпускные экзамены и вместо этого решило спрогнозировать оценки выпускников с помощью модели.

Модель принимала на вход индивидуальную успеваемость каждого ученика, начиная с начальной школы, прогноз оценок от учителей и нормировала ее на результаты школы за 2017-2019 относительно. Затем для каждой возможной оценки, каждого предмета и каждого ученика модель рассчитывала вероятность получить как минимум такую оценку и выбирала наиболее вероятную. На выходе она давала финальную оценку по каждому предмету и говорила, поступил школьник в желаемый университет или нет.

Интересно, что целью модели было не дать, как можно более точный балл по каждому ученику, а в среднем по школе, региону и стране получить оценку, которая бы не выбивалась из исторической динамики.

Как результат: множество недовольных школьников (https://www.bbc.com/news/education-53787203) с заниженными, по их мнению, баллами - почти 40% оценок модели оказалось ниже выставленных преподавателями. Однако оставить оценки учителей разрешили только в Шотландии, тогда как в остальных частях UK говорили о завышении баллов - средний прогноз учителей оказался на 2.5 пункта ( при максимуме в 7) выше реального прошлогоднего в этих регионах

Какие из этого "опыта можно сделать выводы":

1. В Британии все школы хранят детальную статистику по своим ученикам за последние 12 лет в оцифрованном формате - круто!

2. Модели еще не готовы точно прогнозировать поведение человека, тем более ребенка, тем более в поворотный момент его жизни. Судя по тому что написано в открытых источниках, профиль школьника строился только на основе его оценок и рейтинга, упуская из виду его личные качества, а также возможность прогресса. Может британские дети и отличаются от российских, но не думаю, что настолько, чтобы быть полностью "предсказуемыми" : волнение на экзамене или наоборот, умение собраться, также как и подготовиться "за ночь" никто не отменял

3. Сильная предвзятость в британском мышлении. Ограниченный данными об "успеваемости" школы, алгоритм не мог и не учитывал возможность прогресса учебного заведения за год. То есть создатели просто не рассматривали такую возможность , хотя теоретически, можно было бы считать вероятность такого события, опираясь на косвенные признаки и их связь с прогрессом школ в истории, и взвешивать на него прошлогодний рейтинг

4. Классовость системы: студенты из частных школ априори лучше студентов из общеобразовательных учреждений, школьники Англии из социально-обсепеченных районов лучше своих Шотландских сверстников из неблагоприятных районов

5. Если хочешь способ быстро объяснить ребятам 17-18 лет особенности работы алгоритмов ML, спрогнозируй их выпускные оценки)
Продолжая тему важности "соседей".
Недавний пост Дмитрия Прокофьева об агломерациях в России и, в частности в Ленобласти, навел меня на мысль, что за исключением связки Москва-Подмосковье ( а в России, если верить википедии их 17) я ни разу не слышала о том, что регионы обменивались данными для запуска новых проектов. При этом даже в случае столичной агломерации, которая включает Москву и ближайшие ко МКАДу города, их кооперация ограничивается планированием транспортных потоков.

На самом же деле связей намного больше. Специалисты, в целом, рассматривают города как вершины сети, которые соединены с друг с другом разными типами связей, и за счет этого изменения в одном городе приводят к изменению связанных с ним территорий и дальше по цепочке до изменения во всей сети в зависимости наличия и от силы связей ( M.Batty). Чем больше связей существует, тем больше воздействие на сеть.

С данной точки зрения агломерации или metropolitan regions - это кластеры сети, где вершины тесно соединены с центром и иногда между собой.

Европейский комитет называет следующие области взаимодействия между вершинами и центром:

1. Мобильность: дороги и хорошо спланированный общественный транспорт поддерживают ежедневные поездки в центр на работу, учебу, миграцию людей, поездки из центра на природу, на дачу.

2. Экономика: поддержка бизнеса позволяет создавать рыночные отношения между городом и пригородами: вырастая бизнес создает рабочие места в пригородах для удешевления стоимости аренды или из-за потребности в большой площади, например под склад. Плюс появляются торговые отношения, например между сельскохозяйственными производителями и жителями центрального города

3. Возможности для отдыха: создание природных комплексов и развлекательных центров в пригородах, ведет к созданию единых туристических маршрутов, которые могут распределить туристический поток по всей агломерации

4. Экология - создание цепочки "зеленых" объектов(здесь объяснение что это такое ) из пригородов в центр обеспечит более свежий воздух и понижение температуры в урбанизированных районах

5. Использование воды и переработка мусора: "импорт воды" в центр осуществляется из зеленой части агломерации, так как она там чище, а мусор, наоборот, вывозится в пригороды, так как в центре не хватает места для мусоросжигательных заводов.

6. Cоцальные связи - близость проживания позволяет физически чаще видеться с друзьями и родными. Кроме этого, мобильную связь и интернет проще обеспечить для абонентов на небольшой территории, чем прокладывать сети по всей стране. ( Про обратный эффект, что в большом городе мы даже соседей не знаем, почему-то не пишут))

К чему я веду : если создавать агломерации, то нужно думать о том, как обеспечить совместное принятие решение и их оценку: для этого должен быть настроен шеринг данными и смоделирована система, которая будет показывать, как эти решения повлияют на всех членов агломерации.
#urbanreflections
В связи с недавней новостью об утечке данных пациентов в Москве, возникли следующие мысли.

Общий уровень осведомленности об информационной безопасности в России очень низкий - у нас этому не учат. Лично я, несмотря на техническое образование, впервые столкнулась с этой темой, только придя в Сбер, когда получила требование пройти серию тестов на кибербезопасность. Проходят их все сотрудники без исключения: независимо от того анализируешь ли ты данные или обслуживаешь клиентов в отделении. Получается в России научить людей «безопасной» работе с данными - это сугубо ответственность работодателя – государство в целом не парится.

В мире не так: умение защитить данные повсеместно становится таким же важным, как умение писать, и поэтому власти отвечают за то, чтобы каждый, понимал, что такое кибербезопасность. У многих, в том числе и образцовых для Москвы Сингапуре , Дубае и Гонконге есть стратегии кибербезопасности, а где-то, как в Лондоне, кибербезопасность включена в стратегию Умного города.
Процитирую:
Дубаи: «наша первая цель: повысить знание населения о важности кибербезопасности и гарантировать, что они осознают всю опасность киберугроз»;

Сингапур: «кибербезопасность - это командная работа и каждый должен сыграть свою роль. Правительство возьмет на себя инициативы по усилению позиции Сингапура в области кибербезопасности, и нам понадобится помощь каждого для получения долгосрочных выгод для киберэкосистемы»;

Гонконг: «Поскольку информационная безопасность - это дело каждого, департаменты должны постоянно повышать осведомленность об информационной безопасности во всех организациях и организовывать обучение, чтобы гарантировать, что все связанные стороны понимают риски, соблюдают правила и требования безопасности и соответствуют передовым методам обеспечения безопасности».

У Москвы нет такой стратегии, а ответственность смещена с лидеров города на ДИТ и дальше на it-специалистов подразделений.

Про кибербезопасность упоминает стратегия «Умного города 2030», но к ней есть вопросы.

1. Ни слова про обучение. Цель «Повышение эффективности противодействия киберугрозам» скорее про технологии, чем про развитие компетенций, а ведь именно они стали причиной недавней "утечки". На мой взгляд это должно быть частью раздела «Образование»

2. К выше названной цели есть показатель «доля органов, использующих стандарты безопасного информационного взаимодействия». Становится страшно: какое тогда взаимодействие сейчас? Правильно ли я понимаю, что, например, к 2030 году, департамент образования должен обеспечить безопасность, а вот здравоохранения только в следующем 10-летии?

Конечно, у города как работодателя есть документы для чиновников. В случае Москвы - это методологические рекомендации от 2019 года. С одной стороны он включает в себя все, что требует закон: здесь и ознакомление сотрудников с требованиями обработки персданных (ПДн), и определение ответственного за безопасность данных, и соответствие фактического использования ПДн заявленным целям, и контроль защищенности.

С другой стороны, погружаясь в документ, видно, что - это сплошная формальность. Вопросов много:

1. Почему согласно приложению 7 к Методологии к ПДн, с которыми работают госорганы, относятся только данные из кадровой и бухгалтерской системы? То есть информация о москвичах за персданные у чиновников в принципе не считается?

2. Почему для департамента здравоохранения, работающего с наиболее "чувствительными" данными нет отдельных правил?

3. Как учитывается специфика работы госорганов? Документ как будто списан с частной компании, даже слово "Организация" осталось

4. Где можно увидеть, как именно будет гарантировано знание основ защиты данных сотрудниками и как технически предполагается информацию защищать? По факту идет просто переписывание 152-ФЗ без деталей

Чтобы понять насколько ситуация нехорошая, представьте, что вы забираетесь на Эверест, не пройдя обучение и не имея предварительной подготовки, при этом ваша страховка рассчитана для занятий на скалодроме. Много ли у вас шансов достичь вершины?
#geotools
Еще один повод обратить внимание на мощный и понятный пользователю инструмент для пространственного анализа. Единственный язык, который нужно хоть чуть-чуть знать, чтобы работать с ним - это английский. Ссылка : https://geodacenter.github.io
Forwarded from Egor Kotov
возвращаясь к разговору о пространственных моделях - сегодня вышла GeoDa 1.8 - GUI open source для работы с пространственной автокорреляцией, пространственными моделями, кластеризацией и др. в РФ меньше 1000 пользователей. Рекомендую обратить внимание. Все, что она может - можно накодить в R/Pyhon/Julia, но при первом знакомстве с концептами это отличный помощник + интерактивные карты и графики в GeoDa можно заменить только очень долгим кодингом собственных дэшбордов
Так как в этом году жизнь в городах диктовалась пандемией, то в финальный посте я собрала на мой взгляд основные изменения, с которыми столкнулись города в борьбе с ней

1. Усилилось взаимодействие между городскими властями, бизнесом и академией: первые формировали запрос, вторые давали данные ( преимущественно данные о перемещениях), третьи делали аналитику и формировали рекомендации. Например, в этой статье financial times совместная работа University College London и компании Kup показала, что люди больше не могут сидеть дома и властям необходимо начинать разумно снижать ограничения.

2. Пространственные модели стали чаще использоваться для анализа. Помимо классических SIR и SEIR применяли agent-based modelling - подход, позволяющий учитывать помимо пространственно-временных особенностей еще индивидуальные характеристики агентов – например, возраст, хронические заболевания или число контактов. Примеры: https://www.nature.com/articles/s41591-020-1001-6 ( Франция), https://www.medrxiv.org/content/10.1101/2020.07.05.20146977v1 (США)

3 С помощью графики журналистам удалось объяснить людям, почему необходимо соблюдать локдаун. Пример WashingtonPost

4. Необходимость в открытых данных стала более очевидной и вместе с этим выросло число источников ( жаль только, что коснулось это преимущественно тех стран, кто уже с ними работал).
Ресурсы:
https://data.world/datasets/covid-19 – статистика некоторых стран в разрезе городов по перемещениям людей и числу заболевших https://wiki.unece.org/display/DSOCIOT/Data+Sources+on+Coronavirus+impact+on+transport – основные цифры по использованию транспорта в период локдауна по странам


5. Острее стал вопрос приватности персональных данных в связи с необходимостью трекинга распространения вируса. Что выбрать : сохранение тайны личных данных, но при этом невысокой эффективности отслеживания контактов заболевших, как в Европе , либо нарушение права на приватность ради гарантии , что люди сидят дома, как, например, в Южной Корее и Эквадоре

6. Многие страны разработали мобильные приложения для сбора статистики. Решения : GPS-трекинг, определение соседних устройств по Bluetooth, чекин по qr-коду в общественных местах. Полный список решений по странам здесь

7. Стали больше говорить о городе шаговой доступности ( в 15-минутах от дома есть все необходимые сервисы) и увеличилось число исследований оценки качества текущей инфраструктуры для пешеходов:
рекомендации
анализ перепланировочных инициатив
оценка текущей ширины тротуаров в Лондоне

Суммирая, кажется, что год оказался положительным для развития работы с данными в городах и еще острее показал существующие проблемы "smart cities", такие как слабая защищенность персональных данных и недостаточная связанность между источниками особенно разных стейкхолдеров, не позволяющая быстро получить картину целиком.

Надеюсь Новый год учтет ошибки предыдущего, а прогрессивные исследования будут посвящены не только пандемии)
Forwarded from Медуза — LIVE
Департамент информационных технологий Москвы потратит 185 миллионов рублей на создание подробной и персонализированной базы данных о каждом жителе города.

Среди данных будут, в частности, номера паспортов, СНИЛС, ИНН, полиса ОМС, карты «Тройка», сведения о фактическом месте жительства, родственниках, транспорте и месте работы

https://mdza.io/sTpZgV9qS3k
Forwarded from Ivan Begtin (Ivan Begtin)
В догонку про геоданные и их доступность, Максим Дубинин из NextGIS поделился статистикой их проекта [1] облачного, не государственного, сервиса российского происхождения и международной аудиторией:
- 2.1 млн скачиваний клиента для QGIS, 0.7 за последний год
- 1800+ сервисов
- 1000 авторов сервисов из 50 стран.

Максим был одним из основателей ГИС Лаборатории [2], одного их первых сообществ по открытым геоданным в России. А NextGIS - это пример коммерческого проекта на открытых данных и с открытым кодом для общественной пользы.


Ссылки:
[1] https://www.facebook.com/maxim.dubinin/posts/10111830597349957
[2] https://gis-lab.info/

#opendata #tech #opensource
#urbanreflections
И снова карательная функция Умного города Москвы в действии. Интересно, почему у московского правительства лучше всего получается та деятельность, которой даже в Стратегии нет? Это очень грустно, что власти забывают, что главная цель технологий Умного города - облегчать жизнь горожан, а не усложнять ее. Кажется, что лучше тогда совсем без технологий..

Какие выводы можно сделать из последних новостей кроме того, что мой друг и просто хороший человек, Камиль, получил 10 суток ни за что и что под горячую руку полиции может попасть каждый.

1. В очередной раз можно убедиться, что алгоритм идентификации личности с видеоизображений у правительства Москвы настроен хорошо, даже отлично. В огромной толпе с высокой вероятностью идентифицировать человека среднего роста и не особо выделяющейся внешности ни так-то просто.

2. Очевидно, для заданного массива ФИО ( в данном случае это лица идентифицированные на видео с камер) существует возможность автоматической сцепки не только с базой данных паспортов, как минимум прописанных в Москве, но и с информацией из поисковика и соц.сетей. Иначе сложно поверить, что полиция вручную забивает в поисковик 20 тыс человек.

3.Далее, по всей видимости, в столичной полиции используют алгоритмы анализа текста, которые определяют окраску сообщений и выделяют ключевые слова ( иначе как понять к кому из 20000 человек "идти в гости"). И они явно нуждаются в доработке, потому что только машина в текстах Камиля ( он автор канала Высокая порта - @sublimeporte) может увидеть угрозу, выделив такие ключевые слова как "война", "бунт", "низвержение правительства" и т.д. - человек же сразу поймет, что речь идет об исторических событиях 16-17 веков, так как Камиль -историк, а не политик).

4. В который раз можно говорить о нарушении закона о персональных данных, потому что цели, для которых камеры ставились не совпадают с целями, для которых их фактически используют. Автоматическое сопоставление с базой преступников + их идентификация и распознавание каждого жителя Москвы - очень разные вещи...
#spatialmodels
На днях увидела интересную работу(https://ieeexplore.ieee.org/document/8406847), где довольно простым способом авторы автоматически выделяли функциональные зоны в городе. Имея под рукой данные по инфраструктуре Москвы с data,mos.ru захотела повторить подобный эксперимент.

Алгоритм следующий:
1. Выгружаются списки POIs для каждой локации, все слова нормализуются и удаляются "стоп-слова". На первый раз взяла только данные магазинов .
2. Вычисляется матрица tf-idf (https://ru.wikipedia.org/wiki/TF-IDF). Пример на python здесь
3. С помощью алгоритма кластеризации ( для пробы взяла k-means) локации делятся на кластеры
4. Для каждого кластера составляются облака слов, показывающие самые частые словосочетания
5. Кластеры отображают на карте разными цветами

.Заранее скажу, что это пробная попытка, цель которой - увидеть насколько хорошо можно выделять зоны в Москве ( в пределах МКАД), не погружаясь в детальный анализ и обработку "грязных" данных.

Хотя, безусловно, это может быть первым шагом в задачах не соответствия инфраструктуры потребностям жителей, например, в обнаружении, так называемых, "food deserts" - мест без продуктовых магазинов в шаговой доступности. Также для бизнеса - это быстрый способ оценить уровень конкуренции в определенном районе.

Результаты анализа:
- Карта с кластерами сформированными на основе наименований магазинов. Единица оценки - гексагон системы H3 радиусом 174 метра.
- Облака слов, позволяющие понять специфику каждого кластера из магазинов- показывают 100 самых частых слов в списке POIs.

Выводы:
1. Территория делится на 4 кластера - это оптимальное число, определенное "методом локтя"
2. Порядка 8% территории ( кластер №1) не покрыты никакими магазинами. Большая часть это парковые зоны, однако есть и жилые районы.
3. Центр города и, похоже, торговые центры- ( кластер №0) зона высокого разнообразия магазинов. Нет одного ярко выделенного сегмента
4. 50% территории приходится на жилые районы. Из них на 32% ( кластер №2) преобладают продуктовые магазины, и на остальных 20% ( кластер №3) магазины одежды. Причем кластер 2 распределен равномерно, то участки, относящиеся к кластеру №3 представляют собой островки.

Потенциальное улучшение : добавление данных о других POIs, использование других типов кластеризации, например, иерархической, разделение центральных зон и жилых за счет добавления координат и флага центральности района в модель кластеризации.

Я пока не стала добавлять новые данные по инфраструктуре, но мне стало интересно наложить получившиеся кластеры на кластеры, построенные на интересах людей в городе, рассчитанных компанией Locomizer. Что получилось - следующий пост + с меня ссылка на Github с кодом проекта
Карта кластеров на основе открытых данных о расположении магазинов
word clouds для 0 и 1 кластеров
word clouds для 2 и3 кластеров
Для тех, кто интересуется data science и анализом данных рекомендую подписаться следующие каналы, авторы - мои коллеги из Сбербанка, люди, знающие про большие данные не понаслышке) :

@start_ds Роман (@RAVasiliev) делится полезными материалами для подготовки к собеседованиям в ДС

@dataviznews Никита (@nikitarokotyan) рассказывает о визуализации данных

@botka_chronics Алексей (@shpacman) о математике в ДС

@moir_x Мария ( @izomeraz4 ) дата инжениринг , математика , ДС

@data_events Николай (@NikolayKrupiy) держит в курсе ДС (и других data-тематических) событий в Москве и онлайне

@sv9t_channel Святослав ( @IggiSv9t) : лучший канал в тг по ДС, графам , визуализациям

Места общего сбора : @sberloga и @sberlogajobs
Для тех, кто хотел бы освоить ГИС — в рамках Дистанционной программы Высшей школы урбанистики им. А.А.Высоковского пройдёт онлайн-курс «Геоинформационные методы анализа городских данных». Егор Котов приглашает на онлайн-презентацию курса 11 февраля в онлайне:
https://urban.hse.ru/announcements/440588837.html
Сегодня еще один проект нашего студента - Артема Панкина
Он подготовил карты, где мы изучали плотность жилья и насколько плотность влияет на пасспоток. Основная гипотеза заключалась в поиске мест, где число пассажиров на остановке значительно превосходит число жителей вокруг. А значит требуется дополнительный анализ и усиление работы транспорта. Часто такие полигоны лежат рядом с метро или другими точками притяжения, но чаще есть другой источник спроса, про который перевозчик и комитеты по транспорту не знают.

Отношение числа пассажиров к числу жителей:
https://studio.unfolded.ai/public/daae3cad-087a-425e-a752-ad4950ed0782

Плотность населения:
https://studio.unfolded.ai/public/6f13c7b1-4a20-4adf-aea5-12fa4b241a9f

Питер в целом очень интересный для геоанализа: большое число открытых данных и масштаб города с одной стороны, огромные проблемы и потенциал развития наземного транспорта с другой. Даже невооруженным взглядом видны огромные районы высокой плотности, вообще не покрытые автобусами. Странно.