01.09.2020

GTO Poker: на пути к идеальному способу игры в покер?

Автор: Евгений

Знаменитый математик Джон Нэш умер в 2015 году. В 1994 году ему была присуждена Нобелевская премия. Это интересно, но …

Какое отношение имеет Нэш и его вклад к покеру? Куча всего. Возможно, вы слышали о «непригодной» покерной стратегии: GTO. Эта концепция восходит к работе Нэша. Чтобы объяснить эту связь, полезно начать с игры, которая намного менее сложна, чем покер, так называемой «дилеммы заключенного».

Дилемма заключенного

Вот как это работает, как объяснил математик Альберт У. Такер, объяснение которого на английском языке опубликовано в Википедии:

«Два члена преступной группировки арестованы и заключены в тюрьму. Каждый заключенный находится в одиночном заключении и не может разговаривать или обмениваться сообщениями друг с другом. У прокуратуры недостаточно доказательств, чтобы осудить дуэт по основному обвинению. Они оба надеются быть приговоренными к одному году тюремного заключения по менее строгому обвинению. При этом прокуратура предлагает каждому заключенному сделку. У каждого заключенного есть выбор: либо предать другого, дав показания о том, что он совершил преступление, либо сотрудничать с другим, сохраняя молчание. Вот предложение:

Если A и B предают друг друга, каждый из них отбывает 2 года тюрьмы.
Если A предает B, но B хранит молчание, A будет освобожден, а B отсидит 3 года тюрьмы (и наоборот).
Если А и Б оба будут молчать, они отсидят в тюрьме только один год (за менее серьезное обвинение). »

Решение хранить молчание также можно назвать «сотрудничать», а предательство — также «уничтожением».

Предположим, вы А. Что делать? Очевидно, это зависит от того, что выберет Б. Если B предаст вас, то вы отсидите либо 2 года, если вы тоже предадите, либо 3 года, если промолчите. Таким образом, ясно, что если B решит предать, лучше предать тоже.

Что, если Б молчит? Тогда вы либо будете отбывать годичный срок за молчание, либо будете освобождены, предав Б. Так что, если Би будет молчать, вам лучше предать его.

Поэтому предательство — ваш лучший выбор, независимо от того, что выберет Б. И, симметрично, анализ B ее лучшего выбора выходит таким же образом. Это простой пример того, что называется «равновесием по Нэшу».

Обратите внимание, что ключевой фактор не в том, что два игрока в этой игре добиваются наилучшего результата. Ключевым элементом, который делает это равновесие по Нэшу, является то, что каждый выбрал стратегию, в которой их результат не может быть ухудшен никаким выбором, сделанным другим участником.

Стратегия GTO (оптимальная для теории игры)

Идея непригодной для использования покерной стратегии проистекает непосредственно из этого. Это решение, вынесенное в конкретной ситуации, когда противник не может предпринять выгодное контрнаступление. Другой термин для обозначения такой стратегии — «теория оптимальных игр» или GTO.

Для каждого решения, которое вам нужно принять в покере, есть решение GTO. В большинстве ситуаций, как правило, невозможно узнать, что это за решение, потому что покер — настолько сложная игра, что даже лучшие компьютеры, на которых работают лучшие алгоритмы, не могут его вычислить. Но оптимальное решение есть. Если бы вы принимали все решения в покере в соответствии с этой теоретической моделью, то никакая стратегия, которую мог бы выбрать оппонент, не сделала бы вас долгосрочным проигравшим.

Конечно, никто так не играет. Реальные люди все время отходят от GTO, открывая их для эксплуатации.

Возьмем абсурдный и преувеличенный пример: если у вас есть противник, который был настолько тайтовым, что играл только тогда, когда у него были карманные тузы, и вы это знали, вы могли украсть его взгляд. Если бы он намеренно вложил деньги в банк, вы бы знали, что у него тузы, и сбросили бы. В противном случае вы делаете рейз, он сбрасывает карты без тузов, вы забираете банк. В среднем он выигрывает один раз из каждых 221 раздач, а вы выигрываете все остальное.

Играть каждую руку в этой очень специфической ситуации было бы чрезвычайно прибыльно, так как она использовала ужасный недостаток в игре вашего оппонента. Для этого вам нужно отойти от игры GTO, поскольку ясно, что разыгрывание каждой руки, как правило, не является прибыльной стратегией в долгосрочной перспективе.

Отклонение от игры GTO делает вас уязвимыми. Если мы введем в игру третьего игрока, который наблюдал за динамикой хедз-ап, вы, очевидно, не сможете продолжать разыгрывать все руки, так как теперь третий игрок может воспользоваться вашей чрезмерно агрессивной игрой, выборочно повысив вас, а вы придется лечь более слабыми руками.

Покерные приложения

Существуют ли какие-либо реальные покерные ситуации, в которых применима идея баланса Нэша, которые не столь изобретательны, как эти примеры? Да, есть.

Возможно, вы уже видели графики стратегии пуша или фолда. Это турниры, в которых у вас мало фишек (например, меньше десяти больших блайндов), поэтому единственными двумя рациональными вариантами будут сбросить карты или все, ничего промежуточного. Поскольку ситуация проста, можно было математически определить, с какими руками сбрасывать, а с какими руками идти олл-ин, так что ваше решение не работает, то есть ваш оппонент не может коллировать. стратегия, которая улучшает собственную прибыль за ваш счет.

Несколько лет назад первая команда колледжа анонсировала компьютерный алгоритм игры в покер GTO, но только в конкретном случае техасского холдема с фиксированными лимитами. Лучшее, что соперник может надеяться сделать против этого робота в долгосрочной перспективе, — это безубыточность. Робот основан на вероятности и лучше всех игроков-людей. Впечатляет, даже тревожит, не правда ли?

Однако, как быстро отметили многие комментаторы, это не означает, что программное обеспечение будет особенно эффективным против данного оппонента по сравнению с тем, что мог бы сделать опытный игрок-человек. Это связано с тем, что фиксированная стратегия компьютера — она ​​предопределяет, что делать в каждой возможной ситуации — не может отклоняться от GTO, чтобы использовать ошибки, сделанные несовершенным противником.

Другими словами, плохой игрок со временем наверняка потеряет все свои деньги из-за компьютера. Но хороший оппонент-человек отнимет деньги у плохого игрока еще быстрее, потому что он может анализировать ошибки и корректировать свою игру, чтобы воспользоваться преимуществом более слабого игрока.

В нашем исходном примере ни один из них не может воспользоваться выбором заключенного. Но ни то, ни другое не приводит к оптимальному результату, который должен быть бесплатным. Точно так же идеальный игровой компьютер GTO непобедим, но он также не может максимизировать прибыль, обнаруживая и используя неизбежные ошибки своих оппонентов. Игра GTO — это, по сути, защитная стратегия, а не самая прибыльная.

В реальном покере противники никогда не используют стратегию GTO. Каждый игрок совершает частые ошибки. Прибыль в игре состоит в том, чтобы лучше выявлять и использовать их ошибки, чем выявлять и эксплуатировать ваши.

Заключение

Возвращаясь к чествованию человека, чья работа вдохновила эту статью, если ваши оппоненты не играют в покер равновесия по Нэшу — а они никогда не играют — то и вам тоже. Найдите их слабые стороны и заставьте их расплачиваться, стараясь при этом не позволить вашей собственной игре отклониться от теоретического оптимума так, чтобы вас было легко использовать.

Прогресс в GTO в последние годы был впечатляющим, и роботы зарабатывают много денег за столами, особенно в форматах Spin and Go и Espresso. Хотя вы не собираетесь играть как робот, будучи человеком, очень важно, чтобы любой игрок, желающий прогрессировать, проявил интерес к покеру GTO.

Я рекомендую вам, в частности, изучить диапазоны рук для игры на префлопе в турнире в соответствии с вашим стеком, вашей позицией, количеством оппонентов, прогрессом в турнире … Заинтересовавшись этими диапазонами рук, вы будете часто удивляются, обнаружив, что некоторые из ваших привычек со временем теряются. Для меня диапазон рук, в которых я пошел олл-ин с 7-12 блайндами, был слишком широк для того, что рекомендовала бы игра GTO, поэтому с тех пор я исправил его.