![[personal profile]](https://www.dreamwidth.org/img/silk/identity/user.png)
Это один из моих любимых парадоксов. Возьмём какую-то гипотетическую болезнь и два лекарства от неё. Предположим, у нас есть статистика выздоровления больных, которых лечили обоими лекарствами:
Таблица 1
Очевидно, нужно всем прописывать лекарство А — вероятность выздоровления существенно выше.
Затем, к нам приходят более подробные результаты того же исследования:
Таблица 2
Ага, у мужчин лекарство Б оказывается более действенно, прописываем им Б.
Что там с женщинами? Простым вычитанием получаем следующую таблицу:
Таблица 3
И у женщин тоже лекарство Б более действенно. Приехали.
Парадокс красивый, в очередной раз показывает, что наши мозги со статистикой не дружат, интуиция здесь не работает. Можно просто свыкнуться с этой идеей, а можно постараться переделать собственную интуицию, постараться найти что-то, делающее результат этого парадокса более интуитивным. Переформулируем парадокс:
Есть два неравенства
Рассматриваем соотношении величин 
Очень хочется сказать, что и там должно быть «больше». Но с какой стати? Порисуем графики, в плоскости (m x n) интересующее нас отношение соответствует углу наклона прямой, соединяющей начало координат и точку (m, n). И графически понимаем, что может быть так, а может и эдак.

Самый интересный вопрос в этом парадоксе — кто виноват и что делать?
Ставим себя на место врача из начала поста. Нужно прописать пациенту лекарство — какое?
В статье рассматривается вариант «если я знаю пол пациента, то лекарство Б, если не знаю — лекарство А», но, как я понимаю, этот вариант упомянули исключительно для того, чтобы его эффектно опровергнуть.
Другой вариант — я использую максимально подробную информацию, то есть таблицы 2 и 3, первую вообще в расчёт не беру, то есть всегда лекарство Б. Это не решение парадокса, т.к. можно построить таблицы 4 и 5 по другому уточняющему критерию (брюнет / блондин), которые точно так же будут указывать на лекарство А. Более того, можно построить вообще все возможные варианты «самых точных» таблиц (одновременно пол и цвет волос), которые будут совместимы с таблицами1–5.
Вывода в статье толком не делают, но как я понимаю рассуждения автора, нужно пытаться понять внутреннюю структуру парадокса. Либо мы сосредоточились на несущественных переменных (пол в нашем случае), и решение можно принимать случайным образом. Либо мы складываем (усредняем) переменные, внутренняя структура которых при этом теряется.
Возьмём пример парадокса Симпсона из реальной жизни. Смертность в Коста Рике выше смертности в Швеции — какой бы мы ни взяли возраст, вероятность умереть в этом возрасте выше в Коста Рике. При этом суммарная смертность ниже в Коста Рике — среди всего населения страны в год умирает меньший процент людей.
Разгадка здесь, очевидно, в скрытом распределении населения по возрастам — в Коста Рике гораздо больше молодёжи, чем в Швеции, а у молодёжи смертность ниже, чем у стариков. Таким образом, большая доля стариков в шведском обществе гораздо больше увеличивает среднюю смертность, чем глобальная разница в уровне смертности.
А ещё, совершенно неожиданно в статье ответили на давно мучивший меня вопрос взаимоотношения альтруистов и эгоистов. В двух словах (большое упрощение, и
birdwatcher очень красиво разжевал мне ещё тогда это упрощение, но тем не менее), при прочих равных, эгоисты находятся в более выгодном положении, чем альтруисты. При этом, общество с большим количеством эгоистов менее «счастливо», чем общество с меньшим. То есть, мы автоматически скатываемся в общество несчастных эгоистов. Не знаю, как кого, мне этот факт (ген эгоизма, вырождение альтруизма) сильно капал на мозги все эти годы. И вот — па-пам! — прекрасное разрешение проблемы через парадокс Симпсона.
Возьмём 3 группы бактерий. В каждой группе есть бактерии-альтруисты (они вырабатывают антибиотик, который нужен всем) и бактерии-эгоисты (они пользуются антибиотиком, но не вырабатывают его). В первой группе 1/4 бактерий альтруистов, во второй — 1/2, в третьей — 3/4. Группы равные, то есть в общем 1/2 бактерий — альтруисты.
Запускаем время и видим, как в каждой группе доля бактерий-альтруистов падает, но при этом общая пропорция бактерий-альтруистов растёт. Потому что первая группа, в которой их было большинство, развивается быстрее, и её удельный вес становится всё больше и больше.
Понятно, что этим мы только отодвинули решение проблемы до полного перемешивания групп (установления полной глобализации, если вернуться к человеческому обществу), но всё равно, чертовски приятно!
Общая статистика | Выздоровело | Не выздоровело | Доля выздоровевших |
---|---|---|---|
Лекарство А | 40 | 40 | 50% |
Лекарство Б | 32 | 48 | 40% |
Очевидно, нужно всем прописывать лекарство А — вероятность выздоровления существенно выше.
Затем, к нам приходят более подробные результаты того же исследования:
Мужская статистика | Выздоровело | Не выздоровело | Доля выздоровевших |
---|---|---|---|
Лекарство А | 36 | 24 | 60% |
Лекарство Б | 14 | 6 | 70% |
Ага, у мужчин лекарство Б оказывается более действенно, прописываем им Б.
Что там с женщинами? Простым вычитанием получаем следующую таблицу:
Женская статистика | Выздоровело | Не выздоровело | Доля выздоровевших |
---|---|---|---|
Лекарство А | 4 | 16 | 20% |
Лекарство Б | 18 | 42 | 30% |
И у женщин тоже лекарство Б более действенно. Приехали.
Парадокс красивый, в очередной раз показывает, что наши мозги со статистикой не дружат, интуиция здесь не работает. Можно просто свыкнуться с этой идеей, а можно постараться переделать собственную интуицию, постараться найти что-то, делающее результат этого парадокса более интуитивным. Переформулируем парадокс:
Есть два неравенства


Очень хочется сказать, что и там должно быть «больше». Но с какой стати? Порисуем графики, в плоскости (m x n) интересующее нас отношение соответствует углу наклона прямой, соединяющей начало координат и точку (m, n). И графически понимаем, что может быть так, а может и эдак.

Самый интересный вопрос в этом парадоксе — кто виноват и что делать?
Ставим себя на место врача из начала поста. Нужно прописать пациенту лекарство — какое?
В статье рассматривается вариант «если я знаю пол пациента, то лекарство Б, если не знаю — лекарство А», но, как я понимаю, этот вариант упомянули исключительно для того, чтобы его эффектно опровергнуть.
Другой вариант — я использую максимально подробную информацию, то есть таблицы 2 и 3, первую вообще в расчёт не беру, то есть всегда лекарство Б. Это не решение парадокса, т.к. можно построить таблицы 4 и 5 по другому уточняющему критерию (брюнет / блондин), которые точно так же будут указывать на лекарство А. Более того, можно построить вообще все возможные варианты «самых точных» таблиц (одновременно пол и цвет волос), которые будут совместимы с таблицами
Вывода в статье толком не делают, но как я понимаю рассуждения автора, нужно пытаться понять внутреннюю структуру парадокса. Либо мы сосредоточились на несущественных переменных (пол в нашем случае), и решение можно принимать случайным образом. Либо мы складываем (усредняем) переменные, внутренняя структура которых при этом теряется.
Возьмём пример парадокса Симпсона из реальной жизни. Смертность в Коста Рике выше смертности в Швеции — какой бы мы ни взяли возраст, вероятность умереть в этом возрасте выше в Коста Рике. При этом суммарная смертность ниже в Коста Рике — среди всего населения страны в год умирает меньший процент людей.
Разгадка здесь, очевидно, в скрытом распределении населения по возрастам — в Коста Рике гораздо больше молодёжи, чем в Швеции, а у молодёжи смертность ниже, чем у стариков. Таким образом, большая доля стариков в шведском обществе гораздо больше увеличивает среднюю смертность, чем глобальная разница в уровне смертности.
А ещё, совершенно неожиданно в статье ответили на давно мучивший меня вопрос взаимоотношения альтруистов и эгоистов. В двух словах (большое упрощение, и
![[livejournal.com profile]](https://www.dreamwidth.org/img/external/lj-userinfo.gif)
Возьмём 3 группы бактерий. В каждой группе есть бактерии-альтруисты (они вырабатывают антибиотик, который нужен всем) и бактерии-эгоисты (они пользуются антибиотиком, но не вырабатывают его). В первой группе 1/4 бактерий альтруистов, во второй — 1/2, в третьей — 3/4. Группы равные, то есть в общем 1/2 бактерий — альтруисты.
Запускаем время и видим, как в каждой группе доля бактерий-альтруистов падает, но при этом общая пропорция бактерий-альтруистов растёт. Потому что первая группа, в которой их было большинство, развивается быстрее, и её удельный вес становится всё больше и больше.
Понятно, что этим мы только отодвинули решение проблемы до полного перемешивания групп (установления полной глобализации, если вернуться к человеческому обществу), но всё равно, чертовски приятно!
no subject
Date: 2013-07-25 07:58 am (UTC)во-первых, если пол пациента известен, то надо пользоваться условной вероятностью конечно и кормить лек-вом Б.
а что делать, если пол неизвестен? тогда можно задать такой вопрос: является ли выборка случайной. если да, то априорная вероятность того, что пациент мужчина - выше, и из-за этого общая статистика иная,. тогда результат для общей популяции применим (если пол пациента неизвестен!) - кормим лек-вом А.
если же мы считаем, что вероятности пациента оказаться м или ж равны, то опять-таки, лек-во Б будет эффективнее.
при таком рассмотрении, всё что надо понять - случайно ли оказалось больше мужчин чем женщин среди испытуемых. и ещё - сможем ли мы "измерять" пол для будущих пациентов.
профессионалы, понятное дело, применяют для этого рандомизацию клинических испытаний.
no subject
Date: 2013-07-25 08:40 am (UTC)А если известен пол и цвет глаз, по полу нужно лекарство А, а по цвету глаз — лекарство Б. При этом перекрёстной статистики нет, но известно, что она может быть любая?
а что делать, если пол неизвестен? тогда можно задать такой вопрос: является ли выборка случайной. если да, то априорная вероятность того, что пациент мужчина - выше, и из-за этого общая статистика иная,. тогда результат для общей популяции применим (если пол пациента неизвестен!) - кормим лек-вом А.
Этого я не понял. Ну да, мужчины болеют чаще этим заболеванием. Но почему из этого следует лекарство А?
no subject
Date: 2013-07-25 10:17 am (UTC)насчёт второго: просто если пол неизвестен, то пользоваться стоит общей статистикой (если мы доверяем выборке). а то что мужчины больше болеют, это просто объяснение чтоб разрулить парадокс. для успокоения.
если что, я не профессионал, но чем-то таким чувствую, что если правильно подставить в формулы условной вероятности и посчитать, то получится верно. типа, выписать все формулы вида
P(вылечился | давали лекарство Б | пациент мужчина | пациент попал в выборку) = ...
занудство, но так считают.
no subject
Date: 2013-07-25 12:50 pm (UTC)А по концовке — мне кажется, что и так всё верно получается. Не надо искать «объяснения» парадоксу, его нет. Просто наш мир таков, что некоторые вещи не интуитивные. Но это не означает, что нас где-то кинули с формулами, и что если переписать всё в других переменных, то станет ясно. Проблема остаётся — есть рост в каждой популяции, но нет роста в сумме этих популяций. И это может быть нормально, как ни записывай.
no subject
Date: 2013-07-25 02:19 pm (UTC)собственно, я с вами согласен. всё верно и нормально. мой пафос в том, что проблемы тоже нет и парадокс - superficial. :->)
no subject
Date: 2013-07-25 02:32 pm (UTC)То есть я как раз не понимаю, как можно отрицать наличие такого парадокса.