Сможет ли человек победить искусственный интеллект в го на этот раз марте этого года один из лучших игроков мира в го Ли Седоль провел несколько игр с AlphaGo, системой компьютерного го. Эта система состоит, грубо говоря, из комбинации метода Монте-Карло и нейросетей политики (policy networks) и ценности (value networks). Для того, чтобы выйти на текущий уровень мастерства, AlphaGo играла в го сотни тысяч раз (речь идет примерно о 160 тысячах партий). Компьютер сражался как с другими компьютерами, так и с людьми с сервера KGS, где уже шла игра с мастерами уровня от шестого до девятого дана. Система самообучалась, причем во многом — благодаря оригинальной системе обучения с подкреплением. Первая сеть политики играла с людьми, вторая — играла с первой, оптимизируя ее. Это делалось для того, чтобы система стремилась выиграть, а не просто предсказывать ходы. И такая система вполне себя оправдала.