О городах и данных

Как обещала - пост об одном из методов, которые я использовала в дипломе, чтобы понять пространственные взаимосвязи между пешеходами, инфраструктурой и музеями. На мой взгляд, сильно недооцененный в России метод при анализе социально0экономических показателей регионов.

Global Moran's индекс (Moran's I)- индекс пространственной автокорреляции. Он показывает насколько расположенные рядом с друг с другом объекты схоже себя ведут или похожи друг на друга по определенному параметру - чем больше схожесть, тем выше значение индекса. Значения индекса измеряются от -1 до 1, где -1 - это шахматная доска ( соседи полностью отличаются друг от друга), а 1 - это российский флаг( идеальное разделение на группы с одинаковыми значениями).

При расчетах индекса ориентируются еще на z-score и pseudo p-value - как и в обычных статистических тестах, они показывают вероятность достичь полученного значения индекса в случае его рандомного распределения между регионами. Подробнее написано здесь: https://mgimond.github.io/Spatial/spatial-autocorrelation.html.

Расчет индекса зависит от того как будут определены соседи - в одном случае это могут быть только объекты имеющие общую границу( метод "ладьи") или общую точку ( метод "королевы") , в другом соседями будут считаться все в рамках заданного расстояния, при этом чем дальше они от анализируемого региона, тем меньше их вес.

Moran's I - индикатор того нужно ли включать пространственные факторы в анализ. Это первый этап перед тем как искать локальные кластеры и "горящие точки" или строить пространственные регрессии.

Индекс обычно используют не для оценки распределения самого показателя, а для оценки распределения остатков модели, которая пытается его объяснить. Инсайт: при оценке социо-демографических показателей регионов, например стоимости жилья или уровня безработицы - Moran's I показывает наличие кластеров ( групп) в распределении или, проще говоря, что соседи важны.

Интуитивно понятный пример : средний доход населения российского региона. Очевидно, что доход жителей Подмосковья или Ленинградской области зависит не только от количества рабочих мест или инвестиций в них, но и от дохода жителей столиц - они служат индикатором столичных зарплат, которые получают многие из жителей областей.

В случае моего диплома, индекс (= 0.42) показал , что количество пешеходов зависит не только от инфраструктуры и транспортной доступности, но и от количества пешеходов в соседних районах. Это совпадает со словами датского урбаниста Jehn Geil ,о том, что "люди привлекают людей на улицы". К слову, с включением пространственных факторов в модель ее точность модели ( R^2) улучшилось с 46% до 86%. Для наглядности прикладываю карту остатков линейной регрессии, прогнозирующей число пешеходов, по районам - пространственная взаимосвязь на лицо.

Инструменты для расчета индекса:

1. Geoda (https://geodacenter.github.io/ ) - программа от "создателя"локальной версии индекса. Мощный инструмент для пространственного анализа экономических показателей, не требующий навыков программирования. Ссылка на серию лекций автора: https://www.youtube.com/channel/UCzvhOfSmJpRsFRF2Pgrv-Wg

2. Инструмент в ArcGIS в разделе Spatial Statistics Tools

3. R - Moran.I из библиотеки ape

4. Python - метод Moran из библиотеки pysal

1.3K viewsincitydata, 12:00