Стратегия в игре с нулевой суммой
Apr. 30th, 2008 05:03 pmВозвращаясь к подлецу Гарднеру, а точнее (подозреваю) к собственной деградации.
Возьмём простую игру с нулевой суммой. Матрица игры, скажем, такая:
Т.е. два игрока, у каждого по два варианта хода, в зависимости от хода обоих считается результат игры (положительное число - А выигрывает, отрицательное - Б).
Очевидным образом показывается, что любой из игроков не может просто выбрать выигрышный вариант для своего хода. На любой фиксированный ход одного игрока найдётся ход другого такой, что первый игрок проиграет. Т.е. нужно найти стратегию, точнее - вероятность, с которой нужно ходить первый из доступных ходов, в оставшихся случаях - второй.
В статье пересказывают ответ, не дав решение: нужно посчитать некие коэффициенты, которые дадут вес каждого хода. Для первого игрока это будут |1 - (-2)| : |(-7) - 8|, т.е. 1 : 5. Нужно ходить А2 в пять раз чаще, чем А1. Аналогично для второго - по вертикали таблицы - ответ 4 : 5.
Я тупо не понимаю, как они посчитали это. Википедия (английская) даёт тот же результат, тоже не объясняя (за очевидностью?) его вывод. У меня в голове крутится давно забытое слово "минимакс", но я не могу применить его к этой игре.
Я записываю результат игры в предположении, что игрок А играет А1 с вероятностью a, а игрок Б - Б1 с вероятностью c. Результат получается, естественно, линейным как относительно a, так и относительно c (с их перемножением конечно же). Потуги оптимизировать что бы то ни было относительно одной переменной (чтобы потом оптимизировать относительно другой) не приводят ни к чему - что ты получишь с линейной функции? Оптимум будет всегда либо на нуле, либо на 1.
Короче, СОС. Кто понял, ещё лучше, кто знает ответ :-)
Возьмём простую игру с нулевой суммой. Матрица игры, скажем, такая:
| Игрок А | |||
| Ход А1 | Ход А2 | ||
| Игрок Б | Ход Б1 | 1 | -2 |
| Ход Б2 | -7 | 8 | |
Т.е. два игрока, у каждого по два варианта хода, в зависимости от хода обоих считается результат игры (положительное число - А выигрывает, отрицательное - Б).
Очевидным образом показывается, что любой из игроков не может просто выбрать выигрышный вариант для своего хода. На любой фиксированный ход одного игрока найдётся ход другого такой, что первый игрок проиграет. Т.е. нужно найти стратегию, точнее - вероятность, с которой нужно ходить первый из доступных ходов, в оставшихся случаях - второй.
В статье пересказывают ответ, не дав решение: нужно посчитать некие коэффициенты, которые дадут вес каждого хода. Для первого игрока это будут |1 - (-2)| : |(-7) - 8|, т.е. 1 : 5. Нужно ходить А2 в пять раз чаще, чем А1. Аналогично для второго - по вертикали таблицы - ответ 4 : 5.
Я тупо не понимаю, как они посчитали это. Википедия (английская) даёт тот же результат, тоже не объясняя (за очевидностью?) его вывод. У меня в голове крутится давно забытое слово "минимакс", но я не могу применить его к этой игре.
Я записываю результат игры в предположении, что игрок А играет А1 с вероятностью a, а игрок Б - Б1 с вероятностью c. Результат получается, естественно, линейным как относительно a, так и относительно c (с их перемножением конечно же). Потуги оптимизировать что бы то ни было относительно одной переменной (чтобы потом оптимизировать относительно другой) не приводят ни к чему - что ты получишь с линейной функции? Оптимум будет всегда либо на нуле, либо на 1.
Короче, СОС. Кто понял, ещё лучше, кто знает ответ :-)
:)))))))))))))))))))))))
Date: 2008-04-30 03:32 pm (UTC)no subject
Date: 2008-04-30 04:32 pm (UTC)no subject
Date: 2008-05-01 10:02 am (UTC)no subject
Date: 2008-04-30 03:56 pm (UTC)Если ты ложишься в экстремум на {1} или {0}, то партнер может предсказать такое поведение, и всегда ходить так чтобы ты проигрывал; значит надо как минимум иногда из экстремума уходить.
Т.е. надо оптимизировать [а(1-б)+б(1-а)]/[аб+(1-а)(1-б)]; и с весовыми коэффициентами к тому же. К тому же итерационно; оптимизация по а для А, по б для Б.. должно сойтись, ИМХО
где-то так, наверное?
no subject
Date: 2008-04-30 04:31 pm (UTC)Мне кажется, решение должно быть каким-то жутко тривиальным. Иначе его бы так не опустили в статье "на усмотрение читателя".
no subject
Date: 2008-04-30 04:35 pm (UTC)должно быть седло
шас попробую сделать..
no subject
Date: 2008-04-30 04:39 pm (UTC)no subject
Date: 2008-04-30 04:39 pm (UTC)no subject
Date: 2008-04-30 04:43 pm (UTC)no subject
Date: 2008-04-30 04:49 pm (UTC)z=ab-2b(1-a)-7a(1-b)+8(1-a)(1-b)
This is expected payoff of player A for any possible "mixes". It should produce "sedlo".
no subject
Date: 2008-04-30 05:05 pm (UTC)linear vs a for all fixed b
probably win/loss ratio would do it
no subject
Date: 2008-04-30 05:12 pm (UTC)Как известно, у седла есть куча линейных касательных, которые лежат в поверхности седла.
Если мне кто-нибудь объяснит, как выложить сюда картинку, покажу. Или могу выслать куда-нибудь в акробате.
no subject
Date: 2008-05-01 07:54 am (UTC)no subject
Date: 2008-05-01 10:45 am (UTC)Да, трындец. Зато красиво, и понятно, как обобщать на большее количество вариантов хода у каждого игрока (с некоторой фантазией переходить в большие размерности).
Красиво, спасибо!
no subject
Date: 2008-05-01 12:48 pm (UTC)Прочто эта моя метода обобщается на случай игр с ненулевой суммой тоже, в этом ее прелесть.
no subject
Date: 2008-04-30 04:32 pm (UTC)Assume Player A plays A1 with probability a. What is the best strategy of Player B in this case (so-called best reply/response)?
Player B's payoff from his strategy B1 is a-2(1-a)=3a-2
Player B's payoff from his strategy B2 is -7a+8(1-a)=8-15a
Therefore he plays B1 if 3a-2>8-15a, which is equivalent to a>5/9.
He plays B2 if a<5/9
He is indifferent if a=5/9
Similarly, assume Player B plays B1 with probability b.
Player A's payoff from his strategy A1 is -b+7(1-b)=7-8b
Player A's payoff from his strategy A2 is 2b-8(1-b)=10b-8
Therefore he plays A1 if 7-8b>10b-8, which is equivalent to b<5/6.
He plays B2 if b<5/6
He is indifferent if b=5/6
Therefore we can wee that, each player is playing a mix of his strategies when a=5/9 and b=5/6.
The idea here is as follows: you have to choose a and b so that neither of the players has an incentive to play with any other probability (which is called "to deviate" in game theory). So you choose your probability so that it makes the other guy indifferent.
You can also solve it the way you were solving it, and then you will get exactly the conditions written above - e.g, corner solutions for a and b most of the time and indifference in some cases. Just think of how you woould maximize a linear function..
no subject
Date: 2008-04-30 04:33 pm (UTC)no subject
Date: 2008-04-30 04:36 pm (UTC)no subject
Date: 2008-04-30 04:38 pm (UTC)no subject
Date: 2008-04-30 04:51 pm (UTC)no subject
Date: 2008-04-30 04:37 pm (UTC)Я дошёл в своих рассуждениях до строчки "He is indifferent if a=5/9" и добавил "положим он играет в таком случае B1". Идиот :-)
Но логика какая-то извращённая получается: чтобы мочь играть оба варианта, нужно их играть так, чтобы сопернику было тоже выгодно играть оба варианта.
И как показать, что это - оптимум?
no subject
Date: 2008-04-30 04:42 pm (UTC)Для каждого из игроков это оптимум _given the strategy of the other_! (sorry, I cannot stand Russian fonts). This is the basic principle of Nash Equilibrium, the most cited concept in economics.
Otherwise, what are you optimizing? the sum of payoffs (standard measure of social welfare) is zero everywhere :)
no subject
Date: 2008-04-30 04:52 pm (UTC)no subject
Date: 2008-04-30 05:01 pm (UTC)Оптимальное поведение - это кусочно-линейное соответствие, описанное выше. Нет поведения (для данной игры), которое лучше всех прочих _что бы не играл противник_. Если хочешь, твой оптимум как игрока А зависит от параметра - стратегии игрока В. И наоборот. И ты потом решаешь систему двух уравнений от двух параметров, подбирая параметры так, чтобы каждый игрок вел себя оптимально.
Бывают игры, где такой оптимум есть. Такие оптимумы тогда называются доминирующей стратегией.
Ты извини за лекторский тон, я просто про это детям и впрямь лекции читаю. :)
no subject
Date: 2008-04-30 05:15 pm (UTC)no subject
Date: 2008-05-01 08:01 am (UTC)no subject
Date: 2008-05-01 08:01 am (UTC)Во-вторых, если даже это не так - парадокс получается. Мы подобрали стратегию для А такую, которая оптимизирует что? Его выигрыш, в предположении, что Б играет так, как мы ему положили? Если эта стратегия не оптимизирует выигрыш А относительно любого поведения Б, то кто мешает Б, зная, как играет А, подобрать такую стратегию, при которой А выигрывает меньше?
Нет, идея именно в том, что для них для обоих это - оптимальные стратегии. Для одного - максимизация минимального выигрыша (как бы ни играл оппонент), для другого - минимизация максимального проигрыша. И вот это я бы тоже хотел увидеть, каким образом там получается одна и та же цифра. Хотелось бы прочувствовать решение...
no subject
Date: 2008-05-01 09:44 am (UTC)Now, to the proof. I'm going to draw a picture and mail it to you, so that you see it visually, but it will take me some time. Otherwise just google for minimax theorem.
no subject
Date: 2008-05-01 10:00 am (UTC)no subject
Date: 2008-05-01 10:05 am (UTC)no subject
Date: 2008-05-01 09:47 am (UTC)"in the article they are searching for something that minimizes player' _maximum_ payoff, not just payoff".
Those two are proven to be equivalent for zero-sum games, the second one is just easier to illustrate.
no subject
Date: 2008-05-01 10:00 am (UTC)no subject
Date: 2008-05-01 10:01 am (UTC)