green_fr | Стратегия в игре с нулевой суммой

Возвращаясь к подлецу Гарднеру, а точнее (подозреваю) к собственной деградации.
Возьмём простую игру с нулевой суммой. Матрица игры, скажем, такая:

		Игрок А
		Ход А1	Ход А2
Игрок Б	Ход Б1	1	-2
Игрок Б	Ход Б2	-7	8

Т.е. два игрока, у каждого по два варианта хода, в зависимости от хода обоих считается результат игры (положительное число - А выигрывает, отрицательное - Б).
Очевидным образом показывается, что любой из игроков не может просто выбрать выигрышный вариант для своего хода. На любой фиксированный ход одного игрока найдётся ход другого такой, что первый игрок проиграет. Т.е. нужно найти стратегию, точнее - вероятность, с которой нужно ходить первый из доступных ходов, в оставшихся случаях - второй.
В статье пересказывают ответ, не дав решение: нужно посчитать некие коэффициенты, которые дадут вес каждого хода. Для первого игрока это будут |1 - (-2)| : |(-7) - 8|, т.е. 1 : 5. Нужно ходить А2 в пять раз чаще, чем А1. Аналогично для второго - по вертикали таблицы - ответ 4 : 5.

Я тупо не понимаю, как они посчитали это. Википедия (английская) даёт тот же результат, тоже не объясняя (за очевидностью?) его вывод. У меня в голове крутится давно забытое слово "минимакс", но я не могу применить его к этой игре.

Я записываю результат игры в предположении, что игрок А играет А1 с вероятностью a, а игрок Б - Б1 с вероятностью c. Результат получается, естественно, линейным как относительно a, так и относительно c (с их перемножением конечно же). Потуги оптимизировать что бы то ни было относительно одной переменной (чтобы потом оптимизировать относительно другой) не приводят ни к чему - что ты получишь с линейной функции? Оптимум будет всегда либо на нуле, либо на 1.

Короче, СОС. Кто понял, ещё лучше, кто знает ответ :-)

Flat | Top-Level Comments Only

From:

alexnavfr.livejournal.com

Вот честно прочитал, все слова знакомы. А вот всё вместе я не понял. :))))

From:

green-fr.livejournal.com

Присоединяйся к первой фразе - мерзавец Гарднер!

From:

green-fr.livejournal.com

Ты где, кстати, пропал на Пасху? Всё нормально, все живы?

From:

kalvado.livejournal.com

Ну чиста конкретна:
Если ты ложишься в экстремум на {1} или {0}, то партнер может предсказать такое поведение, и всегда ходить так чтобы ты проигрывал; значит надо как минимум иногда из экстремума уходить.
Т.е. надо оптимизировать [а(1-б)+б(1-а)]/[аб+(1-а)(1-б)]; и с весовыми коэффициентами к тому же. К тому же итерационно; оптимизация по а для А, по б для Б.. должно сойтись, ИМХО
где-то так, наверное?

From:

green-fr.livejournal.com

Нифига, итерационно как раз процесс не сходится. Если ты оптимизируешь по одному параметру, ты падаешь в какой-нибудь из нулей. И аргумент "оттуда надо уходить" - а насколько? Или первую точку выбрать от балды, а потом оптимизировать относительно её, ища, куда сойдётся? Неустойчиво получается - как только вылетает какая-то вероятность в 0, всё начинает шататься.
Мне кажется, решение должно быть каким-то жутко тривиальным. Иначе его бы так не опустили в статье "на усмотрение читателя".

From:

kalvado.livejournal.com

ты оптимизируешь по двум параметрам, а не по одному - с учетом оптимизации второго
должно быть седло
шас попробую сделать..

From:

Стратегия в игре с нулевой суммой

Page Summary

Style Credit

Expand Cut Tags