green_fr | Pour la science (№ 429) — парадокс Симпсона

Это один из моих любимых парадоксов. Возьмём какую-то гипотетическую болезнь и два лекарства от неё. Предположим, у нас есть статистика выздоровления больных, которых лечили обоими лекарствами:

Общая статистика	Выздоровело	Не выздоровело	Доля выздоровевших
Лекарство А	40	40	50%
Лекарство Б	32	48	40%

Таблица 1

Очевидно, нужно всем прописывать лекарство А — вероятность выздоровления существенно выше.

Затем, к нам приходят более подробные результаты того же исследования:

Мужская статистика	Выздоровело	Не выздоровело	Доля выздоровевших
Лекарство А	36	24	60%
Лекарство Б	14	6	70%

Таблица 2

Ага, у мужчин лекарство Б оказывается более действенно, прописываем им Б.
Что там с женщинами? Простым вычитанием получаем следующую таблицу:

Женская статистика	Выздоровело	Не выздоровело	Доля выздоровевших
Лекарство А	4	16	20%
Лекарство Б	18	42	30%

Таблица 3

И у женщин тоже лекарство Б более действенно. Приехали.

Парадокс красивый, в очередной раз показывает, что наши мозги со статистикой не дружат, интуиция здесь не работает. Можно просто свыкнуться с этой идеей, а можно постараться переделать собственную интуицию, постараться найти что-то, делающее результат этого парадокса более интуитивным. Переформулируем парадокс:
Есть два неравенства

Рассматриваем соотношении величин

Очень хочется сказать, что и там должно быть «больше». Но с какой стати? Порисуем графики, в плоскости (m x n) интересующее нас отношение соответствует углу наклона прямой, соединяющей начало координат и точку (m, n). И графически понимаем, что может быть так, а может и эдак.

Самый интересный вопрос в этом парадоксе — кто виноват и что делать?

Ставим себя на место врача из начала поста. Нужно прописать пациенту лекарство — какое?
В статье рассматривается вариант «если я знаю пол пациента, то лекарство Б, если не знаю — лекарство А», но, как я понимаю, этот вариант упомянули исключительно для того, чтобы его эффектно опровергнуть.
Другой вариант — я использую максимально подробную информацию, то есть таблицы 2 и 3, первую вообще в расчёт не беру, то есть всегда лекарство Б. Это не решение парадокса, т.к. можно построить таблицы 4 и 5 по другому уточняющему критерию (брюнет / блондин), которые точно так же будут указывать на лекарство А. Более того, можно построить вообще все возможные варианты «самых точных» таблиц (одновременно пол и цвет волос), которые будут совместимы с таблицами 1–5.

Вывода в статье толком не делают, но как я понимаю рассуждения автора, нужно пытаться понять внутреннюю структуру парадокса. Либо мы сосредоточились на несущественных переменных (пол в нашем случае), и решение можно принимать случайным образом. Либо мы складываем (усредняем) переменные, внутренняя структура которых при этом теряется.
Возьмём пример парадокса Симпсона из реальной жизни. Смертность в Коста Рике выше смертности в Швеции — какой бы мы ни взяли возраст, вероятность умереть в этом возрасте выше в Коста Рике. При этом суммарная смертность ниже в Коста Рике — среди всего населения страны в год умирает меньший процент людей.
Разгадка здесь, очевидно, в скрытом распределении населения по возрастам — в Коста Рике гораздо больше молодёжи, чем в Швеции, а у молодёжи смертность ниже, чем у стариков. Таким образом, большая доля стариков в шведском обществе гораздо больше увеличивает среднюю смертность, чем глобальная разница в уровне смертности.

А ещё, совершенно неожиданно в статье ответили на давно мучивший меня вопрос взаимоотношения альтруистов и эгоистов. В двух словах (большое упрощение, и

birdwatcher очень красиво разжевал мне ещё тогда это упрощение, но тем не менее), при прочих равных, эгоисты находятся в более выгодном положении, чем альтруисты. При этом, общество с большим количеством эгоистов менее «счастливо», чем общество с меньшим. То есть, мы автоматически скатываемся в общество несчастных эгоистов. Не знаю, как кого, мне этот факт (ген эгоизма, вырождение альтруизма) сильно капал на мозги все эти годы. И вот — па-пам! — прекрасное разрешение проблемы через парадокс Симпсона.

Возьмём 3 группы бактерий. В каждой группе есть бактерии-альтруисты (они вырабатывают антибиотик, который нужен всем) и бактерии-эгоисты (они пользуются антибиотиком, но не вырабатывают его). В первой группе 1/4 бактерий альтруистов, во второй — 1/2, в третьей — 3/4. Группы равные, то есть в общем 1/2 бактерий — альтруисты.
Запускаем время и видим, как в каждой группе доля бактерий-альтруистов падает, но при этом общая пропорция бактерий-альтруистов растёт. Потому что первая группа, в которой их было большинство, развивается быстрее, и её удельный вес становится всё больше и больше.

Понятно, что этим мы только отодвинули решение проблемы до полного перемешивания групп (установления полной глобализации, если вернуться к человеческому обществу), но всё равно, чертовски приятно!

Flat | Top-Level Comments Only

From:

zlyuk.livejournal.com

по-моему, байесианский подоход в таких случаях помогает стряхнуть оцепенение.
во-первых, если пол пациента известен, то надо пользоваться условной вероятностью конечно и кормить лек-вом Б.
а что делать, если пол неизвестен? тогда можно задать такой вопрос: является ли выборка случайной. если да, то априорная вероятность того, что пациент мужчина - выше, и из-за этого общая статистика иная,. тогда результат для общей популяции применим (если пол пациента неизвестен!) - кормим лек-вом А.
если же мы считаем, что вероятности пациента оказаться м или ж равны, то опять-таки, лек-во Б будет эффективнее.
при таком рассмотрении, всё что надо понять - случайно ли оказалось больше мужчин чем женщин среди испытуемых. и ещё - сможем ли мы "измерять" пол для будущих пациентов.
профессионалы, понятное дело, применяют для этого рандомизацию клинических испытаний.

From:

green-fr.livejournal.com

если пол пациента известен, то надо пользоваться условной вероятностью конечно и кормить лек-вом Б.
А если известен пол и цвет глаз, по полу нужно лекарство А, а по цвету глаз — лекарство Б. При этом перекрёстной статистики нет, но известно, что она может быть любая?

а что делать, если пол неизвестен? тогда можно задать такой вопрос: является ли выборка случайной. если да, то априорная вероятность того, что пациент мужчина - выше, и из-за этого общая статистика иная,. тогда результат для общей популяции применим (если пол пациента неизвестен!) - кормим лек-вом А.
Этого я не понял. Ну да, мужчины болеют чаще этим заболеванием. Но почему из этого следует лекарство А?

From:

zlyuk.livejournal.com

если перекрёстной статистики нет, то полагаем что нет зависимости, наверное. в принципе что частотная что байесовская интерпретация - разницы быть не должно. просто если смотреть с точки зрения ариорных оценок и как новые данные их меняют, то легче примириться.

насчёт второго: просто если пол неизвестен, то пользоваться стоит общей статистикой (если мы доверяем выборке). а то что мужчины больше болеют, это просто объяснение чтоб разрулить парадокс. для успокоения.

если что, я не профессионал, но чем-то таким чувствую, что если правильно подставить в формулы условной вероятности и посчитать, то получится верно. типа, выписать все формулы вида
P(вылечился | давали лекарство Б | пациент мужчина | пациент попал в выборку) = ...
занудство, но так считают.

From:

green-fr.livejournal.com

Так а что делать, если мужчинам надо прописывать А, брюнетам — Б, и перед нами мужчина брюнет?

А по концовке — мне кажется, что и так всё верно получается. Не надо искать «объяснения» парадоксу, его нет. Просто наш мир таков, что некоторые вещи не интуитивные. Но это не означает, что нас где-то кинули с формулами, и что если переписать всё в других переменных, то станет ясно. Проблема остаётся — есть рост в каждой популяции, но нет роста в сумме этих популяций. И это может быть нормально, как ни записывай.

From:

zlyuk.livejournal.com

по моему скромному, правильно так: не "мужчинам надо прописывать А, брюнетам — Б" а "есть вероятностная модель, согласно которой у мужчин вероятность х1 успеха с лек-вом А, х2 с лек-вом Б, у брюнетов у1 с лек-вом А и у2 с лек-вом Б". из этой модели можно вывести ответы на все такие вопросы (конечно, при необходимых предположениях, например что быть мужчиной-респондером, брюнетом-респондером и т.п. - независимые собтыия). ещё точнее - описать выборку, следующие из неё оценки и их confidence intervals. в общем, так это и делается, и проблем не возникает (методологических). проблемы там обычно в базовых предположениях. например, что опыт бернулли это хорошая модель. это требует совершенно непропорциональных ресурсов для ответа на простые вопросы. и нет никакого шанса в обозримом будущем получить уверенность в том что такой-то способ лечить оптимален.

собственно, я с вами согласен. всё верно и нормально. мой пафос в том, что проблемы тоже нет и парадокс - superficial. :->)

From:

green-fr.livejournal.com

Я не понимаю, почему, если описать красивые слова, то проблем не будет. Ну посчитаем мы эти интервалы, вышло, например, 0,000001 (у нас ооооочень много наблюдений), и что? А ответа о независимости между полом и цветом волос нет — то ли они независимы (как на самом деле, наверное), то ли просто нет у нас соответствующих данных, никто не посчитал.
То есть я как раз не понимаю, как можно отрицать наличие такого парадокса.

Flat | Top-Level Comments Only

Profile

green_fr

June 2025

S	M	T	W	T	F	S
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Page Summary

zlyuk.livejournal.com - (no subject)

Style Credit

Style: Neutral Good for Practicality by timeasmymeasure

Expand Cut Tags

No cut tags

Page generated Jun. 13th, 2025 05:12 am

It's all in your mind

Pour la science (№ 429) — парадокс Симпсона

Pour la science (№ 429) — парадокс Симпсона

no subject

no subject

no subject

no subject

no subject

no subject

Profile

June 2025

Most Popular Tags

Page Summary

Style Credit

Expand Cut Tags