![[personal profile]](https://www.dreamwidth.org/img/silk/identity/user.png)
Это один из моих любимых парадоксов. Возьмём какую-то гипотетическую болезнь и два лекарства от неё. Предположим, у нас есть статистика выздоровления больных, которых лечили обоими лекарствами:
Таблица 1
Очевидно, нужно всем прописывать лекарство А — вероятность выздоровления существенно выше.
Затем, к нам приходят более подробные результаты того же исследования:
Таблица 2
Ага, у мужчин лекарство Б оказывается более действенно, прописываем им Б.
Что там с женщинами? Простым вычитанием получаем следующую таблицу:
Таблица 3
И у женщин тоже лекарство Б более действенно. Приехали.
Парадокс красивый, в очередной раз показывает, что наши мозги со статистикой не дружат, интуиция здесь не работает. Можно просто свыкнуться с этой идеей, а можно постараться переделать собственную интуицию, постараться найти что-то, делающее результат этого парадокса более интуитивным. Переформулируем парадокс:
Есть два неравенства
Рассматриваем соотношении величин 
Очень хочется сказать, что и там должно быть «больше». Но с какой стати? Порисуем графики, в плоскости (m x n) интересующее нас отношение соответствует углу наклона прямой, соединяющей начало координат и точку (m, n). И графически понимаем, что может быть так, а может и эдак.

Самый интересный вопрос в этом парадоксе — кто виноват и что делать?
Ставим себя на место врача из начала поста. Нужно прописать пациенту лекарство — какое?
В статье рассматривается вариант «если я знаю пол пациента, то лекарство Б, если не знаю — лекарство А», но, как я понимаю, этот вариант упомянули исключительно для того, чтобы его эффектно опровергнуть.
Другой вариант — я использую максимально подробную информацию, то есть таблицы 2 и 3, первую вообще в расчёт не беру, то есть всегда лекарство Б. Это не решение парадокса, т.к. можно построить таблицы 4 и 5 по другому уточняющему критерию (брюнет / блондин), которые точно так же будут указывать на лекарство А. Более того, можно построить вообще все возможные варианты «самых точных» таблиц (одновременно пол и цвет волос), которые будут совместимы с таблицами1–5.
Вывода в статье толком не делают, но как я понимаю рассуждения автора, нужно пытаться понять внутреннюю структуру парадокса. Либо мы сосредоточились на несущественных переменных (пол в нашем случае), и решение можно принимать случайным образом. Либо мы складываем (усредняем) переменные, внутренняя структура которых при этом теряется.
Возьмём пример парадокса Симпсона из реальной жизни. Смертность в Коста Рике выше смертности в Швеции — какой бы мы ни взяли возраст, вероятность умереть в этом возрасте выше в Коста Рике. При этом суммарная смертность ниже в Коста Рике — среди всего населения страны в год умирает меньший процент людей.
Разгадка здесь, очевидно, в скрытом распределении населения по возрастам — в Коста Рике гораздо больше молодёжи, чем в Швеции, а у молодёжи смертность ниже, чем у стариков. Таким образом, большая доля стариков в шведском обществе гораздо больше увеличивает среднюю смертность, чем глобальная разница в уровне смертности.
А ещё, совершенно неожиданно в статье ответили на давно мучивший меня вопрос взаимоотношения альтруистов и эгоистов. В двух словах (большое упрощение, и
birdwatcher очень красиво разжевал мне ещё тогда это упрощение, но тем не менее), при прочих равных, эгоисты находятся в более выгодном положении, чем альтруисты. При этом, общество с большим количеством эгоистов менее «счастливо», чем общество с меньшим. То есть, мы автоматически скатываемся в общество несчастных эгоистов. Не знаю, как кого, мне этот факт (ген эгоизма, вырождение альтруизма) сильно капал на мозги все эти годы. И вот — па-пам! — прекрасное разрешение проблемы через парадокс Симпсона.
Возьмём 3 группы бактерий. В каждой группе есть бактерии-альтруисты (они вырабатывают антибиотик, который нужен всем) и бактерии-эгоисты (они пользуются антибиотиком, но не вырабатывают его). В первой группе 1/4 бактерий альтруистов, во второй — 1/2, в третьей — 3/4. Группы равные, то есть в общем 1/2 бактерий — альтруисты.
Запускаем время и видим, как в каждой группе доля бактерий-альтруистов падает, но при этом общая пропорция бактерий-альтруистов растёт. Потому что первая группа, в которой их было большинство, развивается быстрее, и её удельный вес становится всё больше и больше.
Понятно, что этим мы только отодвинули решение проблемы до полного перемешивания групп (установления полной глобализации, если вернуться к человеческому обществу), но всё равно, чертовски приятно!
Общая статистика | Выздоровело | Не выздоровело | Доля выздоровевших |
---|---|---|---|
Лекарство А | 40 | 40 | 50% |
Лекарство Б | 32 | 48 | 40% |
Очевидно, нужно всем прописывать лекарство А — вероятность выздоровления существенно выше.
Затем, к нам приходят более подробные результаты того же исследования:
Мужская статистика | Выздоровело | Не выздоровело | Доля выздоровевших |
---|---|---|---|
Лекарство А | 36 | 24 | 60% |
Лекарство Б | 14 | 6 | 70% |
Ага, у мужчин лекарство Б оказывается более действенно, прописываем им Б.
Что там с женщинами? Простым вычитанием получаем следующую таблицу:
Женская статистика | Выздоровело | Не выздоровело | Доля выздоровевших |
---|---|---|---|
Лекарство А | 4 | 16 | 20% |
Лекарство Б | 18 | 42 | 30% |
И у женщин тоже лекарство Б более действенно. Приехали.
Парадокс красивый, в очередной раз показывает, что наши мозги со статистикой не дружат, интуиция здесь не работает. Можно просто свыкнуться с этой идеей, а можно постараться переделать собственную интуицию, постараться найти что-то, делающее результат этого парадокса более интуитивным. Переформулируем парадокс:
Есть два неравенства


Очень хочется сказать, что и там должно быть «больше». Но с какой стати? Порисуем графики, в плоскости (m x n) интересующее нас отношение соответствует углу наклона прямой, соединяющей начало координат и точку (m, n). И графически понимаем, что может быть так, а может и эдак.

Самый интересный вопрос в этом парадоксе — кто виноват и что делать?
Ставим себя на место врача из начала поста. Нужно прописать пациенту лекарство — какое?
В статье рассматривается вариант «если я знаю пол пациента, то лекарство Б, если не знаю — лекарство А», но, как я понимаю, этот вариант упомянули исключительно для того, чтобы его эффектно опровергнуть.
Другой вариант — я использую максимально подробную информацию, то есть таблицы 2 и 3, первую вообще в расчёт не беру, то есть всегда лекарство Б. Это не решение парадокса, т.к. можно построить таблицы 4 и 5 по другому уточняющему критерию (брюнет / блондин), которые точно так же будут указывать на лекарство А. Более того, можно построить вообще все возможные варианты «самых точных» таблиц (одновременно пол и цвет волос), которые будут совместимы с таблицами
Вывода в статье толком не делают, но как я понимаю рассуждения автора, нужно пытаться понять внутреннюю структуру парадокса. Либо мы сосредоточились на несущественных переменных (пол в нашем случае), и решение можно принимать случайным образом. Либо мы складываем (усредняем) переменные, внутренняя структура которых при этом теряется.
Возьмём пример парадокса Симпсона из реальной жизни. Смертность в Коста Рике выше смертности в Швеции — какой бы мы ни взяли возраст, вероятность умереть в этом возрасте выше в Коста Рике. При этом суммарная смертность ниже в Коста Рике — среди всего населения страны в год умирает меньший процент людей.
Разгадка здесь, очевидно, в скрытом распределении населения по возрастам — в Коста Рике гораздо больше молодёжи, чем в Швеции, а у молодёжи смертность ниже, чем у стариков. Таким образом, большая доля стариков в шведском обществе гораздо больше увеличивает среднюю смертность, чем глобальная разница в уровне смертности.
А ещё, совершенно неожиданно в статье ответили на давно мучивший меня вопрос взаимоотношения альтруистов и эгоистов. В двух словах (большое упрощение, и
![[livejournal.com profile]](https://www.dreamwidth.org/img/external/lj-userinfo.gif)
Возьмём 3 группы бактерий. В каждой группе есть бактерии-альтруисты (они вырабатывают антибиотик, который нужен всем) и бактерии-эгоисты (они пользуются антибиотиком, но не вырабатывают его). В первой группе 1/4 бактерий альтруистов, во второй — 1/2, в третьей — 3/4. Группы равные, то есть в общем 1/2 бактерий — альтруисты.
Запускаем время и видим, как в каждой группе доля бактерий-альтруистов падает, но при этом общая пропорция бактерий-альтруистов растёт. Потому что первая группа, в которой их было большинство, развивается быстрее, и её удельный вес становится всё больше и больше.
Понятно, что этим мы только отодвинули решение проблемы до полного перемешивания групп (установления полной глобализации, если вернуться к человеческому обществу), но всё равно, чертовски приятно!
no subject
Date: 2013-07-24 02:49 pm (UTC)no subject
Date: 2013-07-24 03:16 pm (UTC)no subject
Date: 2013-07-24 03:13 pm (UTC)уровень неопределености в оценке эффективности. Даже просто согласно 'корень из N' правилу. Ясно что разница в 10% для подгруп менее существенна чем 10% для полной выборки.
no subject
Date: 2013-07-24 03:20 pm (UTC)На практике этот парадокс вполне часто встречается. Там ещё цитировали улучшение оценок в SAT среди всех этнических групп США, при том, что средняя оценка стагнирует — очевидно, удельный вес менее образованных групп растёт, и это съедает эффект всеобщего улучшения. То есть это никак не неопределённость (погрешность измерения), это фича.
no subject
Date: 2013-07-25 07:58 am (UTC)во-первых, если пол пациента известен, то надо пользоваться условной вероятностью конечно и кормить лек-вом Б.
а что делать, если пол неизвестен? тогда можно задать такой вопрос: является ли выборка случайной. если да, то априорная вероятность того, что пациент мужчина - выше, и из-за этого общая статистика иная,. тогда результат для общей популяции применим (если пол пациента неизвестен!) - кормим лек-вом А.
если же мы считаем, что вероятности пациента оказаться м или ж равны, то опять-таки, лек-во Б будет эффективнее.
при таком рассмотрении, всё что надо понять - случайно ли оказалось больше мужчин чем женщин среди испытуемых. и ещё - сможем ли мы "измерять" пол для будущих пациентов.
профессионалы, понятное дело, применяют для этого рандомизацию клинических испытаний.
no subject
Date: 2013-07-25 08:40 am (UTC)А если известен пол и цвет глаз, по полу нужно лекарство А, а по цвету глаз — лекарство Б. При этом перекрёстной статистики нет, но известно, что она может быть любая?
а что делать, если пол неизвестен? тогда можно задать такой вопрос: является ли выборка случайной. если да, то априорная вероятность того, что пациент мужчина - выше, и из-за этого общая статистика иная,. тогда результат для общей популяции применим (если пол пациента неизвестен!) - кормим лек-вом А.
Этого я не понял. Ну да, мужчины болеют чаще этим заболеванием. Но почему из этого следует лекарство А?
no subject
Date: 2013-07-25 10:17 am (UTC)насчёт второго: просто если пол неизвестен, то пользоваться стоит общей статистикой (если мы доверяем выборке). а то что мужчины больше болеют, это просто объяснение чтоб разрулить парадокс. для успокоения.
если что, я не профессионал, но чем-то таким чувствую, что если правильно подставить в формулы условной вероятности и посчитать, то получится верно. типа, выписать все формулы вида
P(вылечился | давали лекарство Б | пациент мужчина | пациент попал в выборку) = ...
занудство, но так считают.
no subject
Date: 2013-07-25 12:50 pm (UTC)А по концовке — мне кажется, что и так всё верно получается. Не надо искать «объяснения» парадоксу, его нет. Просто наш мир таков, что некоторые вещи не интуитивные. Но это не означает, что нас где-то кинули с формулами, и что если переписать всё в других переменных, то станет ясно. Проблема остаётся — есть рост в каждой популяции, но нет роста в сумме этих популяций. И это может быть нормально, как ни записывай.
no subject
Date: 2013-07-25 02:19 pm (UTC)собственно, я с вами согласен. всё верно и нормально. мой пафос в том, что проблемы тоже нет и парадокс - superficial. :->)
no subject
Date: 2013-07-25 02:32 pm (UTC)То есть я как раз не понимаю, как можно отрицать наличие такого парадокса.
no subject
Date: 2013-07-25 01:44 pm (UTC)Чернышев.
no subject
Date: 2013-07-25 01:55 pm (UTC)no subject
Date: 2013-08-16 11:21 pm (UTC)Однако, чисто с практической точки зрения (как медик) не могу не заметить, что серьёзные исследования эффективности мед. препаратов, во-первых, проводятся, на намного больших группах, а, во-вторых, безусловно подвергаются необходимой статистической стандартизации. Ну и, в третьих, подавляющее большинство препаратов либо действуют и на мужчин, и на женщин одинаково (ну, понятно, что у каждого конкретного испытуемого реакция будет своя, но по чисто физиологическим причинам большинство "общих" препаратов будут действовать "в среднем" одинаково), либо просто не назначаются в одинаково равной степени как мужчинам, так и женщинам (когда речь идёт, к примеру, о препаратах половых гормонов).
no subject
Date: 2013-08-17 11:53 am (UTC)no subject
Date: 2013-08-17 12:03 pm (UTC)no subject
Date: 2013-08-17 11:54 am (UTC)no subject
Date: 2020-12-18 12:59 pm (UTC)В "мужской" статистике "Лекарство Б" показывает большую долю выздоровевших (на 10%) но при этом "fiabilité des données" для Лекарства Б ниже в три раза (количество мужчин которым давали Лек. Б было 20 человек против 60 которым давали Лек. А). Поэтому ввиду небольшого разброса по доле выздоровевших между двумя лекарствами и гораздо более "надёжного" результата для Лекарства А, оно выглядит более предпочтительным для мужчин.
В "женской" же статистике всё замечательно - в случае Лекарства Б и доля выздоровевших выше и надёжность данных для Лекарства Б выше - женщинам смело прописываем Лекарство Б !
no subject
Date: 2020-12-18 02:48 pm (UTC)no subject
Date: 2020-12-18 02:55 pm (UTC)У мужчин:
А - 60
Б - 20
У женщин:
А - 20
Б - 60
чем больше тестов, тем меньше риск ошибки.
no subject
Date: 2020-12-18 02:59 pm (UTC)А что потом? Вот у тебя есть лекарства A и B с процентом вылечившихся tA и tB и определёнными тобой fiabilité fA и fB. Как понять, какое лекарство давать?
no subject
Date: 2020-12-18 03:40 pm (UTC)В "мужской" статистике "Лекарство Б" показывает большую долю выздоровевших (на 10%) но при этом "fiabilité des données" для Лекарства Б ниже в три раза (количество мужчин которым давали Лек. Б было 20 человек против 60 которым давали Лек. А). Поэтому ввиду небольшого разброса по доле выздоровевших между двумя лекарствами и гораздо более "надёжного" результата для Лекарства А, оно выглядит более предпочтительным для мужчин.
В "женской" же статистике всё замечательно - в случае Лекарства Б и доля выздоровевших выше и надёжность данных для Лекарства Б выше - женщинам смело прописываем Лекарство Б !
Т.е. считается общий коэффициент который равен E(fficacy)*ke * R(eliability)*re для каждого лекарства и потом они сравниваются.
(ke и re - это коэффициенты которые позволяют усиливать или ослаблять важность одного из параметров, я их всунул по привычке, так у нас такой способ забит во всех прогнозах - есть общая формула и есть возможность "тюнинга" по желанию пользователя)
no subject
Date: 2020-12-19 06:38 am (UTC)no subject
Date: 2020-12-19 11:42 am (UTC)Просто I = E * R
Для мужчин (R - процентное отношение людей в подгруппе к общему числу):
Ia = 60 * 75 = 4500
Ib = 70 * 25 = 1750
Ia > Ib, мужчинам прописываем Лекарство А
Для женщин:
Ia = 20 * 25 = 500
Ib = 30 * 75 = 2250
Ia < Ib прописываем Лекарство Б.
no subject
Date: 2020-12-19 05:51 pm (UTC)no subject
Date: 2020-12-20 02:36 pm (UTC)Вернёмся к твоей записи выше. Мы видим там результаты некоего опыта, скажем клинического испытания лекарства А и лекарства Б на 160 пациентах, и анализируем результаты этого опыта. Мы видим что в суммарном итоге исследования более эффективно Лекарство А. Однако если результаты разбить не две подгруппы, то в обеих подгруппах более эффективным выглядит Лекарство Б, что и составляет парадокс. Но, если обратить внимание не только на эффективность, а и на количество участников в опытах, то выясняется что на самом деле парадокса нет. В группе мужчин лекарство Б показало лучший результат, но достоверность этого результата в три раза ниже чем достоверность для результатов испытания Лекарства А (руки бы оторвать за такое клиническое испытание), так что если принимать во внимание оба эти параметра то для мужской группы предпочтительным остаётся Лекарство А.
Но несмотря на утрату интриги, есть и интересное наблюдение - Лекарство Б действительно более эффективно для женщин. Какой можно сделать практический вывод из данного опыта - некое решение, имеющее положительный эффект для всей популяции, может быть дискриминирующим для некоей миноритарной группы внутри данной популяции. В случае лекарства это возможно не страшно - зная результаты опыта и посчитав индексы можно решать проблему в индивидуальном порядке - мужчинам давать лекарство А а женщинам лекарство Б. Но представим себе что решение должно быть глобальным. Например возьмём образование о котором ты говорил недавно ссылаясь на данный парадокс. Представим что ты являешься министром образования, а А и Б в данном случае - два учебных плана, один из которых должен стать единым в стране. Если выбрать план А, то национальные показатели успеваемости будут выше, но при этом способности некоей миноритарной группы не будут полностью раскрыты. Если же выбрать план Б, то национальные показатели будут немного хуже, но зато появится возможность вырастить группу интеллектуальной элиты.
no subject
Date: 2020-12-22 05:33 pm (UTC)Для пенициллина и современного антибиотика формула тоже работать будет.
Формула ведь перемножает проценты, а не количество больных. Даже если количество больных принимавших одно из лекарств будет измеряться тысячами, всё равно отношение количества мужчин к женщинам в данной группе все равно не выйдет за 100%.