доказательный ⎵ пробел
1.02K subscribers
152 photos
1 video
10 files
232 links
Про causal inference, данные для исследований и принятие решений на основе данных.

Чат: @evidence_chat
加入频道
⚡️
Олег Ицхоки, выпускник ЭФ 2003, профессор университета Калифорнии в Лос Анжелесе, получил медаль Джона Бейтса Кларка. Медаль Кларка -- премия, которая вручается американской экономической ассоциацией лучшему молодому экономисту, работающему в США. Олег получил эту награду как ведущий исследователь в области международной торговли и глобальной макроэкономики. Это первый случай награждения экономиста, который получил высшее образование в России. Поздравляем Олега и гордимся им! https://www.aeaweb.org/about-aea/honors-awards/bates-clark
Напомним, что с 1947 года медаль Кларка получили 14 нобелевских лауреата. Среди обладателей медали Кларка такие экономисты, как Пол Самуэльсон, Милтон Фридман, Джеймс Тобин, Кеннет Эрроу, Гэри Беккер, Джозеф Стиглиц, Джеймс Хекман, Пол Кругман, Дэвид Кард, Дарон Асемоглу, Эстер Дуфло, Радж Четти и другие.
Фейк: causal inference — это сплошная математика и очень сложно.
Факт: методы выявления причинности опираются на статистику и теорию вероятностей, однако многие из них очень интуитивны.

Разрывный дизайн —популярный метод causal inference. Для идентификации эффекта он использует тот факт, что попадание в группу воздействия определяется значением переменной участия (например, балл за ЕГЭ при поступлении в университет). Наблюдения, для которых значение переменной участия превышает установленный порог (проходной балл) попадают в группу воздействия, а остальные наблюдения — нет. Вблизи от порогового значения (слева и справа) ничего не меняется кроме статуса воздействия. Тогда эти наблюдения можно использовать, чтобы оценивать целевой эффект.

📖 Собрали в одной подборке учебники, видео-лекции и статьи по разрывному дизайну. Там можно найти материалы как для начинающих, так и для тех, кто хочет разобраться в отдельных нюансах метода. Подборка будет обновляться 🕷.

👉 Подписаться на доказательный ⎵ пробел
База данных показателей по муниципальным образованиям России за 2006—2020 годы
Уже не бета — кстати, спасибо всем за обратную связь.

К выходу новой версии мы успели ещё немного дополнить данные за последний год и добавили возможность получить датасет в формате БД — при скачивании можно выбрать CSV или POSTGRESQL.
А в остальном — это всё та же удобная, нормализованная база на 200+ миллионов наблюдений.

Чтобы освежить память:
🔹 Этот датасет — результат обработки дампа исходной БД Росстата (данные максимально актуальные и полные).
🔹Рубрикатор работает — можно скачивать и использовать в работе отдельные группы показателей МО. Но можно и БД полностью:)

Подробности и сам датасет
Forwarded from Reliable ML
Применение методов Causal Inference

Потребность в применении методов причинно-следственного анализа развивается со временем. В начале она была сконцентрирована, в основном, в науках: социальных науках, экономике, медицине, биологии, генетике. В последние пять лет наблюдается резкий рост этой потребности для бизнеса. Основными отраслями применения методов являются IT-компании, игровая индустрия, ритейл и e-commerce.

Ключевыми используемыми методами являются АБ-тесты, но с каждым годом встречается все больше отдельных интересных кейсов. Часто эти кейсы возникают из проблем применения классического ML для задач, когда мы хотим управлять параметрами моделей, тем самым, меняя целевую переменную Y. К этой категории можно отнести истории про исключение эффекта эндогенности при исследовании эффекта изменения цен на выручку при динамическом ценообразовании, оценку реального причинно-следственного эффекта изменения параметров персональной промо-кампании на выручку, которую она генерирует (uplift-модели), повышение эффективности работы прокатного стана за счет управления параметрами его работы, оценка эффекта генерации дополнительного спроса от установки различных видов прилавков (мясо, рыба, хлеб, и др.) в продуктовых магазинах.

В целом, о кейсах бизнес-применения causal inference 2021 г. я рассказывала в одном из постов @Reliable_ML еще в начале года.

#business #causal_inference #practice
Дифференциальная приватность и TopDown алгоритм Бюро переписи населения США

При публикации больших объемов данных стат. ведомствам и коммерческим компаниям неизбежно приходится искать компромисс между детализацией и конфиденциальностью данных. С одной стороны, пользователи данных стремятся получить доступ к более гранулярным данным. С другой стороны, оператор, раскрывающий данные, ограничен требованиями законодательства о защите персональных данных и этическими соображениями. Традиционно используются методы снижения детализации и зашумления, чтобы исключить возможность идентификации реальных людей в опубликованной информации.

💡В этот вторник Бюро переписей населения США выложило программную статью про механизм обеспечения конфиденциальности данных при публикации результатов переписи 2020 годаTopDown алгоритме с дифференциальной приватностью.

🤔 В чем идея дифференциальной приватности? Она заключается в том, что внешний пользователь не имеет доступа к микроданным, но может строить различные запросы агрегированной статистики к ним. К примеру, запрашивает информацию о количестве наблюдений, обладающих определенными характеристиками. Так работал конструктор на данных переписей 2002 и 2010 годов Росстата (к сожалению, безвременно от нас ушедший). Но если запросы детальные, то выполнив их достаточно много и в большем числе разрезов, можно будет восстановить исходные микроданные. Дифференциальная приватность предполагает, что в ситуации, когда внешний пользователь имеет доступ к двум версиям набора данных, которые различаются всего на одно наблюдение, один и тот же запрос агрегированной статистики по любому атрибуту (например, подсчет количества записей с определенными характеристиками) с высокой вероятностью должен вернуть одинаковый результат.

Тогда значения атрибутов для этого наблюдения хорошо защищены — даже выполнив много запросов, восстановить исходные микроданные не получится. Если такой принцип выполняется для каждого наблюдения в наборе данных, то он соответствует принципу дифференциальной приватности. Реализовать механизм дифференциальной приватности можно использую различные алгоритмы, которые к результату запроса добавляют случайный шум. А уровень шума выбирается как раз такой, чтобы удаление или добавление одного наблюдения, почти не меняло доступный пользователю результат.

Простая идея на практике сталкивается с большим числом вызовов, о которых в статье тоже идет речь. Например, нужно, чтобы при последовательной агрегации зашумленных данных от переписных блоков к штатам все суммы в дифференциально приватных данных сходились. Или, чтобы при подсчете числа наблюдений алгоритм в результате зашумления не выдавал отрицательные числа.

Что еще посмотреть:
· Github-репозиторий Census Bureau c исходным кодом TopDown алгоритма
· 12-минутный популярный ролик про дифференциальную приватность
· Подробное руководство по дифференциальной приватности есть в книге Differential Privacy and Applications

Иллюстрация к посту: https://habr.com/ru/company/domclick/blog/526724/
Воркшоп Microsoft про open-source инструменты для причинного вывода

🔸 3 мая (вторник) в 19:00 МСК Microsoft проведет двухчасовой онлайн-воркшоп, на котором расскажет про свои открытые библиотеки (DoWhy+EconML) для анализа причинно-следственных связей и кейсы их использования в финансах, ретейле и энергетике. Зарегистрироваться на воркшоп можно по ссылке.

👉 Подписаться на доказательный ⎵ пробел: https://yangx.top/evidencespace
Семинары и курсы по Causal Inference

🔸 26 апреля (вторник) в 18:30 МСК — на Online Causal Inference Seminar выступит 🗣 Shu Yang (North Carolina State University). Тема — «Test-based integrative analysis for heterogeneous treatment effects combining randomized trial and real-world data». Подключиться можно по ссылке.

🔸 29 апреля (пятница) в 19:00 МСК — в рамках Chamberlain Seminar состоится интервью с нобелевским лауреатом по экономике 2000 года 🗣 Dan McFadden (Berkeley).

🔸 И возвращается рубрика #скоттнампишет. В рамках Mixtape Sessions 12 и 13 августа пройдет двухдневный воркшоп по прикладным экономическим исследованиям от 🗣 Daniel Rees (Universidad Carlos III de Madrid, IZA) и 🗣 Mark Anderson (Montana State University, NBER, IZA). Обещают рассказать про то, как проводить прикладные исследования, проходить job-market интервью, подавать статьи в журналы, успешно преодолевать рецензирование, участвовать в конференциях и выстраивать академический нетворкинг. Курс платный, но для студентов и слушателей из развивающихся стран доступны большие скидки 🤟. В прошлый раз места на эти воркшопы быстро закончились, так что стоит поторопиться с регистрацией.

👉 Подписаться на доказательный ⎵ пробел: https://yangx.top/evidencespace
Forwarded from Рюмочная ИПП
Олимпиада ИПП и «Пепеляев Групп»
«Мысли эмпирически»

Друзья, в этом году мы совместно с «Пепеляев Групп» объявляем Олимпиаду «Мысли эмпирически».

Олимпиада посвящена теме эмпирического правоведения — междисциплинарного направления, в рамках которого право изучаются методами социальных наук. В ходе проведения Олимпиады участникам будет предложено пройти серию обучающих вебинаров от сотрудников ИПП и «Пепеляев Групп» и, в завершении, написать три мини-эссе, посвященных публичному, частному и уголовному правоприменению.

К участию приглашаются студенты последних курсов обучения и выпускников вузов. Призами для лучших участников станут:

📍 Две стажировки в «Пепеляев Групп»
📍 Один бонус 99 баллов при сдаче экзаменов в магистратуру ЕУСПб «Эмпирические исследования права».

Подробности проведения и расписание вебинаров вы можете найти на сайте Олимпиады.
Байесовские методы в оценке программ и политик

Ключевой вопрос в доказательной политике – привели ли вмешательство / интервенция / изменения к улучшениям или нет? Но простой ответ «да/нет» на этот вопрос сформировать сложно, поскольку все оценки воздействия подвержены статистическим ошибкам. Фактически мы можем утверждать сработала ли наша интервенция или нет с некоторой степенью неопределенности. Исследователи часто используют в этих целях проверку статистических гипотез и уровень статистической значимости (p-value / p-критерий). Однако зачастую стат. значимость неверно интерпретируется как мера вероятности эффекта, а иногда и его размера. К тому же, проверка стат. гипотез принимает к оценке только одну гипотезу, не принимая во внимание остальные возможные.

Альтернативой классической проверке стат. гипотез являются байесовские методы, которые могут учитывать накопленные доказательства, корректируя оценки эффектов от доказательства к доказательству и фиксируя их размер с указанием доверительного интервала. В свою очередь, доверительные интервалы позволяют получить более точное восприятие данных, чем p-критерий (см. например Beyth-Marom, R., Fidler, F., & Cumming, G. (2008). «Statistical cognition: Towards evidence-based practice in statistics and statistics education»).

📙 В начале апреля Национальный центр оценки образования США (National Center for Education Evaluation and Regional Assistance) выпустил подробное руководство по методике оценки программ и политик, основанной на байесовских методах (BAyeSian Interpretation of Estimates - BASIE). На основе базы данных обзоров доказательств в области развития образования What Works Clearinghouse авторами методики рассчитаны распределения предшествующих (априорных) эффектов от реализуемых мер госполитики, параметры которых могут использоваться при оценке новых интервенций. Доказательства, полученные в ходе таких оценок, будут учитывать прошлые эффекты и являться более валидными. Руководство содержит электронные таблицы и код (на языках R и Stan), позволяющие имплементировать описанную методику.
Из вкусного: Лаборатория борьбы с бедностью (J-PAL) при Массачусетском технологическом институте опубликовала электронный гайд по проведению рандомизированных контролируемых исследований в «поле» при оценке влияния различных мер госполитики. Очень много полезной информации: от погружения в контекст RCTs (что это такое?) до проектировки полевого исследования, разработки и обработки опросов, проверки и валидации качества данных, раскрытия результатов.

#ebpm #rct
Семинары по Causal Inference

🔸 27 мая (пятница) в 19:00 МСК — на Chamberlain Seminar 🗣 Michael Pollmann (Stanford) презентует свою статью «Causal Inference for Spatial Treatments». Речь пойдет про то, как оценивать эффекты для программ, действие которых привязано к определенной географической локации. Например, как открытие больницы влияет на здоровье тех, кто живет в непосредственной близости от нее. Или как наличие продуктового магазина рядом с рестораном влияет на пешеходный трафик и выручку.

К обсуждению присоединятся 🗣 Paul Goldsmith-Pinkham (Yale School of Management), 🗣 Fredrik Sävje (Yale University) и 🗣 Alberto Abadie (MIT). Зарегистрироваться на семинар можно по ссылке.

👉 Подписаться на доказательный ⎵ пробел: https://yangx.top/evidencespace
14-17 июня на экономическом факультете МГУ – Летний семинар «Современные методы и модели в экономике». Тема 2022 года – Пространственная и городская экономика.
https://www.econ.msu.ru/science/smu/announce/Article.20220524194451_4061/

Спикеры:
Лариса Баранова, ЭФ’19, Высшая школа урбанистики НИУ ВШЭ’21, аналитик АНО «Московский урбанистический форум»,

Виктор Ветеринаров, ЭФ’19, CEMFI (Мадрид)’21, исследователь в Университетском колледже Лондона.

В рамках семинара запланированы лекции по экономике города и городскому планированию, микро-основаниях в моделях агломерационной экономики, обзору эмпирических исследований и практические занятия по геокодингу, пространственному мэтчингу в R и работе с пространственными данными в QGIS.

Программа курса с список литературы для слушателей

Расписание занятий

Формат – смешанный очно + zoom, язык - русский

Регистрация до 8 июня 23:59 (МСК): https://forms.gle/uAfBG2aQCgzUgSLU7

Контакты организаторов [email protected] (Совет молодых учёных ЭФ МГУ).
AS OPEN AS POSSIBLE, AS CLOSED AS NECESSARY

Новый закон ЕС об управлении данными устанавливает рамку для повторного использования данных государства, компаний и граждан для создания публичных благ

16 мая Совет Европейского союза одобрил Закон ЕС об управлении данными (EU Data Governance Act). Он устанавливает принципы и правила повторного использования данных гос. органов, компаний и граждан в коммерческих и некоммерческих целях (в т.ч. исследовательских). До этого каждая страна ЕС придумывала свои инструменты раскрытия данных. Теперь все они подведены под одну рамку.

Отдельный акцент сделан на раскрытии данных для исследователей. Предполагается, что гос. органы будут внедрять практики управления данными, которые сделают процесс доступа исследователей к данным максимально прозрачным и простым в соответствии с принципом «as open as possible, as close as necessary».

Закон акцентируется на четырех типах данных:

• данные, составляющие коммерческую тайну
• данные, защищаемые принципами конфиденциальности первичной статистической информации
• данные, составляющие интеллектуальную собственность
персональные данные

Институционально закрепляются роли:

💱 дата-посредников (data intermediation services providers), которые помогают владельцам данных сделать их пригодными для использования третьими лицами, анонимизировать, а также развивают сервисы по доступу к данным (например, среды защищенного удаленного или физического доступа к чувствительным данным).

🏛 ответственных органов (competent bodies) на уровне государств-членов ЕС, которые помогают другим гос. органам предоставлять доступ к данным, в частности:

• осуществляют техническую поддержку по обеспечению доступа к данным в защищенных средах
• консультируют гос. органы по форматам хранения и структурирования данных
• помогают анонимизировать данные и проверять, что при раскрытии данных не нарушается конфиденциальность и другие требования
• помогают получать согласие других владельцев данных на объединение данных

📌 единых точек доступа (single information points) к информации о данных, которые собираются в информационных системах гос. органов и могут быть использованы третьими лицами, а также о правилах доступа к таким данным. Такие точки создаются в каждом государстве-члене ЕС, через них будут проходить все запросы по доступу к данным. Также создается общеевропейский электронный регистр доступных данных и правил доступа к ним.

Предполагается, что гос. органы смогут взимать плату с компаний за доступ к данным. Однако закон требует использование специальных условий (скидки или отсутствие платы) в случае, если запрос на доступ к данным поступил от некоммерческих организаций (в т.ч. научных), малого и среднего бизнеса, а также стартапов. Перечень категорий пользователей, которые смогут получить доступ к данным на льготных условиях, утверждается ответственными органами на уровне государств-членов ЕС и публикуется в открытом доступе.

👉 Подписаться на доказательный ⎵ пробел: https://yangx.top/evidencespace
Forwarded from Reliable ML
Data Fest 3.0 - Reliable ML - 5 июня 2022 г. - Программа
Продолжаем анонсы

В 10:00 по Мск нашу секцию откроет Полина Окунева, ведущий аналитик Glowbyte, с докладом "Causal Inference. Advanced методы моделирования".

Полина расскажет об усовершенствованных методах моделирования причинно-следственного эффекта с опорой на библиотеки causalML и EconML : X-, R-, DR-learner, Domain Adaptation Learner, Doubly Robust Instrumental Variable learner, Tree-based algorithms (DDP, CTS). Рассмотрит основные плюсы и минусы методов и особенности их применения.
Исторический факультет Иркутского государственного университета в рамках Международного летнего университета на Байкале организует Вторую летнюю методологическую школу «Текст как данные: количественный и качественный анализ текстов в политических науках».

Это школа для тех, кто хочет научиться:

формировать дизайн научного исследования;
критически читать политические тексты и понимать скрытые в них смыслы;
применять современные методы анализа текстов в политической науке;
использовать в исследовательской работе современное ПО (Python, программная среда R, Dedoose).

К участию приглашаются студенты старших курсов, магистранты, аспиранты, молодые исследователи в области политических наук и смежных дисциплин.

📍Школа пройдет 7-13 августа в пос. Большие Коты, на побережье оз. Байкал.

Срок подачи заявок: до 3 июля 2022 года (включительно)

Подробная программа, условия участия и форма регистрации на сайте школы:
http://baikalmethodsschool.ru/
Наиболее цитируемые статьи по экспериментам

Ronny Kohavi составил список самых цитируемых статей по экспериментам и перечислил их в спредшите.

Все статьи отсортированы по цитированию, разделенному по годам с момента публикации

https://docs.google.com/spreadsheets/d/1PAWG7NWVEwAwwfrd9b-V5o5q4nB6i67N2ITrzyrIdP0/edit#gid=0
PyWhy вместо DoWhy

В апреле мы уже рассказывали о воркшопе Microsoft, посвященному открытым библиотекам DoWhy и EconML для анализа причинно-следственных связей.

В конце мая Microsoft передал библиотеку DoWhy для анализа причинно-следственных связей в независимую некоммерческую организацию PyWhy. К проекту присоединилась AWS, дополнившая функциональность инструмента своими разработками.

Подробнее об изменениях можно почитать в Microsoft Research Blog и посмотреть запись воркшопа, посвященного изменениям.

👉 Подписаться на доказательный ⎵ пробел: https://yangx.top/evidencespace
Семинар по Causal Inference

🔸 Сегодня 14 июня (вторник) в 18:30 МСК — на Online Causal Inference Seminar выступит 🗣 AmirEmad Ghassami (Johns Hopkins University). Тема — «Combining Experimental and Observational Data for Identification and Estimation of Long-Term Causal Effects». В обсуждении примет участие 🗣 Guido Imbens. Подключиться можно по ссылке (пароль: 386638).

👉 Подписаться на доказательный ⎵ пробел: https://yangx.top/evidencespace
🧩 В этом интерактивном таймлайне собрано много важных статей по анализу причинно-следственных связей, методам машинного обучения и статистике. Начинается таймлайн с классической статьи 1923 года математика и статистика 🗣Ежи Неймана, в которой он впервые ввел понятие потенциального исхода. Заканчивается всё на статье 2020 года профессора статистики и политологии 🗣 Эндрю Гельмана про bayesian workflow в анализе данных.