green_fr: (Default)
green_fr ([personal profile] green_fr) wrote2013-07-24 04:00 pm

Pour la science (№ 429) — парадокс Симпсона

Это один из моих любимых парадоксов. Возьмём какую-то гипотетическую болезнь и два лекарства от неё. Предположим, у нас есть статистика выздоровления больных, которых лечили обоими лекарствами:

Общая статистикаВыздоровелоНе выздоровелоДоля выздоровевших
Лекарство А404050%
Лекарство Б324840%
Таблица 1

Очевидно, нужно всем прописывать лекарство А — вероятность выздоровления существенно выше.

Затем, к нам приходят более подробные результаты того же исследования:

Мужская статистикаВыздоровелоНе выздоровелоДоля выздоровевших
Лекарство А362460%
Лекарство Б14670%
Таблица 2

Ага, у мужчин лекарство Б оказывается более действенно, прописываем им Б.
Что там с женщинами? Простым вычитанием получаем следующую таблицу:

Женская статистикаВыздоровелоНе выздоровелоДоля выздоровевших
Лекарство А41620%
Лекарство Б184230%
Таблица 3

И у женщин тоже лекарство Б более действенно. Приехали.


Парадокс красивый, в очередной раз показывает, что наши мозги со статистикой не дружат, интуиция здесь не работает. Можно просто свыкнуться с этой идеей, а можно постараться переделать собственную интуицию, постараться найти что-то, делающее результат этого парадокса более интуитивным. Переформулируем парадокс:
Есть два неравенства Рассматриваем соотношении величин
Очень хочется сказать, что и там должно быть «больше». Но с какой стати? Порисуем графики, в плоскости (m x n) интересующее нас отношение соответствует углу наклона прямой, соединяющей начало координат и точку (m, n). И графически понимаем, что может быть так, а может и эдак.



Самый интересный вопрос в этом парадоксе — кто виноват и что делать?

Ставим себя на место врача из начала поста. Нужно прописать пациенту лекарство — какое?
В статье рассматривается вариант «если я знаю пол пациента, то лекарство Б, если не знаю — лекарство А», но, как я понимаю, этот вариант упомянули исключительно для того, чтобы его эффектно опровергнуть.
Другой вариант — я использую максимально подробную информацию, то есть таблицы 2 и 3, первую вообще в расчёт не беру, то есть всегда лекарство Б. Это не решение парадокса, т.к. можно построить таблицы 4 и 5 по другому уточняющему критерию (брюнет / блондин), которые точно так же будут указывать на лекарство А. Более того, можно построить вообще все возможные варианты «самых точных» таблиц (одновременно пол и цвет волос), которые будут совместимы с таблицами 1–5.

Вывода в статье толком не делают, но как я понимаю рассуждения автора, нужно пытаться понять внутреннюю структуру парадокса. Либо мы сосредоточились на несущественных переменных (пол в нашем случае), и решение можно принимать случайным образом. Либо мы складываем (усредняем) переменные, внутренняя структура которых при этом теряется.
Возьмём пример парадокса Симпсона из реальной жизни. Смертность в Коста Рике выше смертности в Швеции — какой бы мы ни взяли возраст, вероятность умереть в этом возрасте выше в Коста Рике. При этом суммарная смертность ниже в Коста Рике — среди всего населения страны в год умирает меньший процент людей.
Разгадка здесь, очевидно, в скрытом распределении населения по возрастам — в Коста Рике гораздо больше молодёжи, чем в Швеции, а у молодёжи смертность ниже, чем у стариков. Таким образом, большая доля стариков в шведском обществе гораздо больше увеличивает среднюю смертность, чем глобальная разница в уровне смертности.


А ещё, совершенно неожиданно в статье ответили на давно мучивший меня вопрос взаимоотношения альтруистов и эгоистов. В двух словах (большое упрощение, и [livejournal.com profile] birdwatcher очень красиво разжевал мне ещё тогда это упрощение, но тем не менее), при прочих равных, эгоисты находятся в более выгодном положении, чем альтруисты. При этом, общество с большим количеством эгоистов менее «счастливо», чем общество с меньшим. То есть, мы автоматически скатываемся в общество несчастных эгоистов. Не знаю, как кого, мне этот факт (ген эгоизма, вырождение альтруизма) сильно капал на мозги все эти годы. И вот — па-пам! — прекрасное разрешение проблемы через парадокс Симпсона.

Возьмём 3 группы бактерий. В каждой группе есть бактерии-альтруисты (они вырабатывают антибиотик, который нужен всем) и бактерии-эгоисты (они пользуются антибиотиком, но не вырабатывают его). В первой группе 1/4 бактерий альтруистов, во второй — 1/2, в третьей — 3/4. Группы равные, то есть в общем 1/2 бактерий — альтруисты.
Запускаем время и видим, как в каждой группе доля бактерий-альтруистов падает, но при этом общая пропорция бактерий-альтруистов растёт. Потому что первая группа, в которой их было большинство, развивается быстрее, и её удельный вес становится всё больше и больше.

Понятно, что этим мы только отодвинули решение проблемы до полного перемешивания групп (установления полной глобализации, если вернуться к человеческому обществу), но всё равно, чертовски приятно!

[identity profile] kalvado.livejournal.com 2013-07-24 02:49 pm (UTC)(link)
А потом оказывается, что все прозаичнее - и вопрос тут в стоимости лекарства и бОльшей вероятности заболевания женщин среди бедняков.

[identity profile] dmpogo.livejournal.com 2013-07-24 03:13 pm (UTC)(link)
На счет статистического парадокса, я сильно подозреваю (из 'физической' интуиции) что вопрос практики часто разрешается если учесть
уровень неопределености в оценке эффективности. Даже просто согласно 'корень из N' правилу. Ясно что разница в 10% для подгруп менее существенна чем 10% для полной выборки.

[identity profile] zlyuk.livejournal.com 2013-07-25 07:58 am (UTC)(link)
по-моему, байесианский подоход в таких случаях помогает стряхнуть оцепенение.
во-первых, если пол пациента известен, то надо пользоваться условной вероятностью конечно и кормить лек-вом Б.
а что делать, если пол неизвестен? тогда можно задать такой вопрос: является ли выборка случайной. если да, то априорная вероятность того, что пациент мужчина - выше, и из-за этого общая статистика иная,. тогда результат для общей популяции применим (если пол пациента неизвестен!) - кормим лек-вом А.
если же мы считаем, что вероятности пациента оказаться м или ж равны, то опять-таки, лек-во Б будет эффективнее.
при таком рассмотрении, всё что надо понять - случайно ли оказалось больше мужчин чем женщин среди испытуемых. и ещё - сможем ли мы "измерять" пол для будущих пациентов.
профессионалы, понятное дело, применяют для этого рандомизацию клинических испытаний.

(Anonymous) 2013-07-25 01:44 pm (UTC)(link)
Самое смешное, что не важно - мужчина пациент или женщина. Если мы знаем пол - одна эффективность, не знаем - другая. А какой он - не важно ))
Чернышев.

[identity profile] mevamevo.livejournal.com 2013-08-16 11:21 pm (UTC)(link)
Интересный парадокс :).

Однако, чисто с практической точки зрения (как медик) не могу не заметить, что серьёзные исследования эффективности мед. препаратов, во-первых, проводятся, на намного больших группах, а, во-вторых, безусловно подвергаются необходимой статистической стандартизации. Ну и, в третьих, подавляющее большинство препаратов либо действуют и на мужчин, и на женщин одинаково (ну, понятно, что у каждого конкретного испытуемого реакция будет своя, но по чисто физиологическим причинам большинство "общих" препаратов будут действовать "в среднем" одинаково), либо просто не назначаются в одинаково равной степени как мужчинам, так и женщинам (когда речь идёт, к примеру, о препаратах половых гормонов).

[identity profile] yuriyag.livejournal.com 2020-12-18 12:59 pm (UTC)(link)
Забавный парадокс, но в принципе он решаем добавлением к параметру "Доле выздоровевших" ещё одно параметра "fiabilité des données" (не могу как-то сразу подобрать удачный русский перевод).
В "мужской" статистике "Лекарство Б" показывает большую долю выздоровевших (на 10%) но при этом "fiabilité des données" для Лекарства Б ниже в три раза (количество мужчин которым давали Лек. Б было 20 человек против 60 которым давали Лек. А). Поэтому ввиду небольшого разброса по доле выздоровевших между двумя лекарствами и гораздо более "надёжного" результата для Лекарства А, оно выглядит более предпочтительным для мужчин.
В "женской" же статистике всё замечательно - в случае Лекарства Б и доля выздоровевших выше и надёжность данных для Лекарства Б выше - женщинам смело прописываем Лекарство Б !