AlphaZero

AlphaZero — це комп'ютерна програма, розроблена компанією DeepMind, яка використовує узагальнений підхід AlphaGo Zero. 5 грудня 2017 року колектив DeepMind випустив препринтне введення AlphaZero, яке впродовж 24 годин досягнуло надлюдського рівня гри в шахи, Сьоґі, і ґо, перемігши чемпіонів світу серед програм, Stockfish, Elmo і 3-денний варіант AlphaGo Zero в кожному випадку, використовуючи  краще комп'ютерне обладнання відносно своїх опонентів.[1][2] AlphaZero переміг Stockfish 8 (рушій грав без доступу до дебютних баз та ендшпільних таблиць) граючи з кращим комп'ютерним обладнанням виділеним для AlphaZero.[3][4]

Стосунок до AlphaGo Zero[ред. | ред. код]

AlphaZero (AZ) — це більш узагальнений варіант алгоритму AlphaGo Zero (AGZ), який крім ґо вміє також грати в Сьоґі і шахи. Відмінності між AZ і AGZ полягають у тому, що:

  • AGZ має жорстко задані правила для встановленого пошуку гіперпараметрів.
  • Нейронні мережі тепер оновлюються постійно.
  • Ґо (на відміну від шахів) симетрична за певних відбиттів і обертань; AGZ був запрограмований, щоб скористатися цими симетріями, AZ — ні.
  • Партія в шахи (на відміну від ґо) може закінчитися внічию, тому AZ може враховувати можливість нічийного результату гри.

AlphaZero проти Stockfish і Elmo[ред. | ред. код]

Розглядаючи пошук за допомогою дерева пошуку Монте-Карло, AlphaZero аналізує лише 80,000 позицій на секунду в шахах і 40 000 в сьогах, порівняно з 70 млн для  Stockfish і 35 мільйонів для Elmo. AlphaZero компенсує низьку кількість оцінок використанням своїх глибоких нейронних мереж, зосереджуючись набагато більш вибірково на найбільш перспективних варіантах.

Результати[ред. | ред. код]

Шахи[ред. | ред. код]

У шахових партіях AlphaZero проти Stockfish кожна програма мала по одній хвилині часу на хід. AlphaZero мала краще комп'ютерне обладнання відносно Stockfish. Зі 100 ігор з нормального початкового положення AlphaZero виграв 25 партій білими, виграв 3 чорними і звів унічию решту 72.[5] У серії з дванадцяти 100-ігрових матчів проти Stockfish починаючи з популярних дебютів, AlphaZero виграв 290, звів унічию 886 і програв 24.[джерело?] Результати турнірів не свідчать про те, що AlphaZero — це покращений шаховий рушій, адже алгоритм AlphaZero мав краще комп'ютерне обладнання.

Критика[ред. | ред. код]

Деякі гросмейстери, такі як Хікару Накамура і творець Комодо Ларрі Кауфман, підкреслили, що силу AlphaZero не треба перебільшувати, стверджуючи, що матч мав би інакший результат, якби програма мала доступ до дебютних баз (оскільки Stockfish був оптимізований під цей сценарій).[6]

Сьоги[ред. | ред. код]

У сто іграх у сьоги проти Elmo, AlphaZero виграв дев'яносто разів, вісім разів програв і дві партії завершилися внічию.

Критика[ред. | ред. код]

Спільнота програмістів комп'ютерної гри в сьоги не повністю задоволена умовами підбору програмного забезпечення для рушія AlphaZero і рушія гри в сьоги Elmo.[7][неавторитетне джерело]

Го[ред. | ред. код]

Після 8 годин самостійного навчання гри в го, у матчах проти попередньої версії AlphaZero, AlphaZero виграв шістдесят ігор і програв сорок.

Реакція[ред. | ред. код]

Газети вийшли з заголовками, що навчання шахів зайняло лише чотири години: «це було зроблено за час трохи більший, ніж проміжок між сніданком і обідом.»[8] Wired розкрутили AlphaZero як «перший штучний інтелект, який є чемпіоном з багатьох настільних ігор».[9] Експерт зі штучного інтелекту Джоанна Брайсон зазначила, що «спритність Google до хорошої реклами» ставить його в сильну позицію проти суперників. «Мова йде не лише про те, щоб найняти найкращих програмістів. Це також дуже політична річ, оскільки вона допомагає Google стояти на найсильніших можливих позиціях під час переговорів з урядами і регуляторами, які контролюють сектор штучного інтелекту».

«Мені завжди було цікаво, як це буде, коли вищі істоти приземляться на землю і покажуть нам, як вони грають в шахи», заявив данський гросмейстер Пітер Гайне Нільсен в інтерв'ю Бі-бі-сі, «тепер я знаю». Норвезький гросмейстер Йон Людвіг Гаммер охарактеризував AlphaZero як «божевільні атакуючі шахи» з глибокою позиційною грою. колишній чемпіон світу Гаррі Каспаров сказав: «це чудове досягнення, навіть попри те, що ми вже чекали на нього після AlphaGo.»[10]

Див. також[ред. | ред. код]

Посилання[ред. | ред. код]

Примітки[ред. | ред. код]

  1. https://arxiv.org/pdf/1712.01815.pdf [Архівовано 8 грудня 2017 у Wayback Machine.] Mastering Chess and Shogi by Sef-Play with a General Reinforcment Learning Algorithm.
  2. A bot will complete this citation soon. Click here to jump the queue«Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm». arXiv:1712.01815 [cs.AI]. 5 грудня 2017. 
  3. Knapton, Sarah; Watson, Leon (6 грудня 2017). Entire human chess knowledge learned and surpassed by DeepMind's AlphaZero in four hours (en-GB) . Telegraph.co.uk. Архів оригіналу за 7 грудня 2017. Процитовано 6 грудня 2017.
  4. Vincent, James (6 грудня 2017). DeepMind’s AI became a superhuman chess player in a few hours, just for fun. The Verge. Архів оригіналу за 2 грудня 2020. Процитовано 6 грудня 2017.
  5. 'Superhuman' Google AI claims chess crown. BBC News. 6 грудня 2017. Архів оригіналу за 8 грудня 2017. Процитовано 7 грудня 2017.
  6. Google's AlphaZero Destroys Stockfish In 100-Game Match. Chess.com. Архів оригіналу за 7 грудня 2020. Процитовано 7 грудня 2017.
  7. Архівована копія. Архів оригіналу за 8 грудня 2017. Процитовано 8 грудня 2017.{{cite web}}: Обслуговування CS1: Сторінки з текстом «archived copy» як значення параметру title (посилання)
  8. Badshah, Nadeem (7 грудня 2017). Google’s DeepMind robot becomes world-beating chess grandmaster in four hours. The Times of London. Архів оригіналу за 7 грудня 2020. Процитовано 7 грудня 2017.
  9. Alphabet's Latest AI Show Pony Has More Than One Trick. WIRED. 6 грудня 2017. Архів оригіналу за 7 грудня 2020. Процитовано 7 грудня 2017.
  10. Gibbs, Samuel (7 грудня 2017). AlphaZero AI beats champion chess program after teaching itself in four hours. The Guardian. Архів оригіналу за 7 грудня 2020. Процитовано 8 грудня 2017.