MuZero 的訓練,已經不需要跟真實環境互動,而是另外訓練了一個深度學習的神經網路,用來模擬現實環境。因此,在應用於解決實際問題時,也可以減少許多不必要的耗損。 圖|Google DeepMind