green_fr: (Default)
[personal profile] green_fr
Это один из моих любимых парадоксов. Возьмём какую-то гипотетическую болезнь и два лекарства от неё. Предположим, у нас есть статистика выздоровления больных, которых лечили обоими лекарствами:

Общая статистикаВыздоровелоНе выздоровелоДоля выздоровевших
Лекарство А404050%
Лекарство Б324840%
Таблица 1

Очевидно, нужно всем прописывать лекарство А — вероятность выздоровления существенно выше.

Затем, к нам приходят более подробные результаты того же исследования:

Мужская статистикаВыздоровелоНе выздоровелоДоля выздоровевших
Лекарство А362460%
Лекарство Б14670%
Таблица 2

Ага, у мужчин лекарство Б оказывается более действенно, прописываем им Б.
Что там с женщинами? Простым вычитанием получаем следующую таблицу:

Женская статистикаВыздоровелоНе выздоровелоДоля выздоровевших
Лекарство А41620%
Лекарство Б184230%
Таблица 3

И у женщин тоже лекарство Б более действенно. Приехали.


Парадокс красивый, в очередной раз показывает, что наши мозги со статистикой не дружат, интуиция здесь не работает. Можно просто свыкнуться с этой идеей, а можно постараться переделать собственную интуицию, постараться найти что-то, делающее результат этого парадокса более интуитивным. Переформулируем парадокс:
Есть два неравенства Рассматриваем соотношении величин
Очень хочется сказать, что и там должно быть «больше». Но с какой стати? Порисуем графики, в плоскости (m x n) интересующее нас отношение соответствует углу наклона прямой, соединяющей начало координат и точку (m, n). И графически понимаем, что может быть так, а может и эдак.



Самый интересный вопрос в этом парадоксе — кто виноват и что делать?

Ставим себя на место врача из начала поста. Нужно прописать пациенту лекарство — какое?
В статье рассматривается вариант «если я знаю пол пациента, то лекарство Б, если не знаю — лекарство А», но, как я понимаю, этот вариант упомянули исключительно для того, чтобы его эффектно опровергнуть.
Другой вариант — я использую максимально подробную информацию, то есть таблицы 2 и 3, первую вообще в расчёт не беру, то есть всегда лекарство Б. Это не решение парадокса, т.к. можно построить таблицы 4 и 5 по другому уточняющему критерию (брюнет / блондин), которые точно так же будут указывать на лекарство А. Более того, можно построить вообще все возможные варианты «самых точных» таблиц (одновременно пол и цвет волос), которые будут совместимы с таблицами 1–5.

Вывода в статье толком не делают, но как я понимаю рассуждения автора, нужно пытаться понять внутреннюю структуру парадокса. Либо мы сосредоточились на несущественных переменных (пол в нашем случае), и решение можно принимать случайным образом. Либо мы складываем (усредняем) переменные, внутренняя структура которых при этом теряется.
Возьмём пример парадокса Симпсона из реальной жизни. Смертность в Коста Рике выше смертности в Швеции — какой бы мы ни взяли возраст, вероятность умереть в этом возрасте выше в Коста Рике. При этом суммарная смертность ниже в Коста Рике — среди всего населения страны в год умирает меньший процент людей.
Разгадка здесь, очевидно, в скрытом распределении населения по возрастам — в Коста Рике гораздо больше молодёжи, чем в Швеции, а у молодёжи смертность ниже, чем у стариков. Таким образом, большая доля стариков в шведском обществе гораздо больше увеличивает среднюю смертность, чем глобальная разница в уровне смертности.


А ещё, совершенно неожиданно в статье ответили на давно мучивший меня вопрос взаимоотношения альтруистов и эгоистов. В двух словах (большое упрощение, и [livejournal.com profile] birdwatcher очень красиво разжевал мне ещё тогда это упрощение, но тем не менее), при прочих равных, эгоисты находятся в более выгодном положении, чем альтруисты. При этом, общество с большим количеством эгоистов менее «счастливо», чем общество с меньшим. То есть, мы автоматически скатываемся в общество несчастных эгоистов. Не знаю, как кого, мне этот факт (ген эгоизма, вырождение альтруизма) сильно капал на мозги все эти годы. И вот — па-пам! — прекрасное разрешение проблемы через парадокс Симпсона.

Возьмём 3 группы бактерий. В каждой группе есть бактерии-альтруисты (они вырабатывают антибиотик, который нужен всем) и бактерии-эгоисты (они пользуются антибиотиком, но не вырабатывают его). В первой группе 1/4 бактерий альтруистов, во второй — 1/2, в третьей — 3/4. Группы равные, то есть в общем 1/2 бактерий — альтруисты.
Запускаем время и видим, как в каждой группе доля бактерий-альтруистов падает, но при этом общая пропорция бактерий-альтруистов растёт. Потому что первая группа, в которой их было большинство, развивается быстрее, и её удельный вес становится всё больше и больше.

Понятно, что этим мы только отодвинули решение проблемы до полного перемешивания групп (установления полной глобализации, если вернуться к человеческому обществу), но всё равно, чертовски приятно!

Date: 2013-07-25 07:58 am (UTC)
From: [identity profile] zlyuk.livejournal.com
по-моему, байесианский подоход в таких случаях помогает стряхнуть оцепенение.
во-первых, если пол пациента известен, то надо пользоваться условной вероятностью конечно и кормить лек-вом Б.
а что делать, если пол неизвестен? тогда можно задать такой вопрос: является ли выборка случайной. если да, то априорная вероятность того, что пациент мужчина - выше, и из-за этого общая статистика иная,. тогда результат для общей популяции применим (если пол пациента неизвестен!) - кормим лек-вом А.
если же мы считаем, что вероятности пациента оказаться м или ж равны, то опять-таки, лек-во Б будет эффективнее.
при таком рассмотрении, всё что надо понять - случайно ли оказалось больше мужчин чем женщин среди испытуемых. и ещё - сможем ли мы "измерять" пол для будущих пациентов.
профессионалы, понятное дело, применяют для этого рандомизацию клинических испытаний.

Date: 2013-07-25 08:40 am (UTC)
From: [identity profile] green-fr.livejournal.com
если пол пациента известен, то надо пользоваться условной вероятностью конечно и кормить лек-вом Б.
А если известен пол и цвет глаз, по полу нужно лекарство А, а по цвету глаз — лекарство Б. При этом перекрёстной статистики нет, но известно, что она может быть любая?

а что делать, если пол неизвестен? тогда можно задать такой вопрос: является ли выборка случайной. если да, то априорная вероятность того, что пациент мужчина - выше, и из-за этого общая статистика иная,. тогда результат для общей популяции применим (если пол пациента неизвестен!) - кормим лек-вом А.
Этого я не понял. Ну да, мужчины болеют чаще этим заболеванием. Но почему из этого следует лекарство А?

Date: 2013-07-25 10:17 am (UTC)
From: [identity profile] zlyuk.livejournal.com
если перекрёстной статистики нет, то полагаем что нет зависимости, наверное. в принципе что частотная что байесовская интерпретация - разницы быть не должно. просто если смотреть с точки зрения ариорных оценок и как новые данные их меняют, то легче примириться.

насчёт второго: просто если пол неизвестен, то пользоваться стоит общей статистикой (если мы доверяем выборке). а то что мужчины больше болеют, это просто объяснение чтоб разрулить парадокс. для успокоения.

если что, я не профессионал, но чем-то таким чувствую, что если правильно подставить в формулы условной вероятности и посчитать, то получится верно. типа, выписать все формулы вида
P(вылечился | давали лекарство Б | пациент мужчина | пациент попал в выборку) = ...
занудство, но так считают.

Date: 2013-07-25 12:50 pm (UTC)
From: [identity profile] green-fr.livejournal.com
Так а что делать, если мужчинам надо прописывать А, брюнетам — Б, и перед нами мужчина брюнет?

А по концовке — мне кажется, что и так всё верно получается. Не надо искать «объяснения» парадоксу, его нет. Просто наш мир таков, что некоторые вещи не интуитивные. Но это не означает, что нас где-то кинули с формулами, и что если переписать всё в других переменных, то станет ясно. Проблема остаётся — есть рост в каждой популяции, но нет роста в сумме этих популяций. И это может быть нормально, как ни записывай.

Date: 2013-07-25 02:19 pm (UTC)
From: [identity profile] zlyuk.livejournal.com
по моему скромному, правильно так: не "мужчинам надо прописывать А, брюнетам — Б" а "есть вероятностная модель, согласно которой у мужчин вероятность х1 успеха с лек-вом А, х2 с лек-вом Б, у брюнетов у1 с лек-вом А и у2 с лек-вом Б". из этой модели можно вывести ответы на все такие вопросы (конечно, при необходимых предположениях, например что быть мужчиной-респондером, брюнетом-респондером и т.п. - независимые собтыия). ещё точнее - описать выборку, следующие из неё оценки и их confidence intervals. в общем, так это и делается, и проблем не возникает (методологических). проблемы там обычно в базовых предположениях. например, что опыт бернулли это хорошая модель. это требует совершенно непропорциональных ресурсов для ответа на простые вопросы. и нет никакого шанса в обозримом будущем получить уверенность в том что такой-то способ лечить оптимален.

собственно, я с вами согласен. всё верно и нормально. мой пафос в том, что проблемы тоже нет и парадокс - superficial. :->)

Date: 2013-07-25 02:32 pm (UTC)
From: [identity profile] green-fr.livejournal.com
Я не понимаю, почему, если описать красивые слова, то проблем не будет. Ну посчитаем мы эти интервалы, вышло, например, 0,000001 (у нас ооооочень много наблюдений), и что? А ответа о независимости между полом и цветом волос нет — то ли они независимы (как на самом деле, наверное), то ли просто нет у нас соответствующих данных, никто не посчитал.
То есть я как раз не понимаю, как можно отрицать наличие такого парадокса.

Profile

green_fr: (Default)
green_fr

June 2025

S M T W T F S
123 4 567
89 1011 121314
15161718192021
22232425262728
2930     

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Jun. 13th, 2025 05:12 am
Powered by Dreamwidth Studios