和楼上的几位朋友看法不同,我认为MASTER的神经网络优于40block的zero的神经网络。理由如下:
论文原文已经说明,zero纯神经网络(raw)ELO分值为3055,完全体Zero分值为5185,MASTER为4858,LEE为3739,FAN为3144。
根据AlphaGo的上篇论文,单机版AlphaFAN的神经网络的ELO分值为2177。
论文里也说明了,AlphaLEE和FAN结构相同。最乐观的估计,LEE的提升完全是基于人类特征的走子策略(rollouts),神经网络完全没有改进,那么此策略的提高分数至多为为3739-2177=1562分
论文中明确,MASTER与ZERO在结构上的不同之处,就是MASTER使用和LEE相同的走子策略。最乐观的估计,这一策略使棋力更强的MASTER也能提高相同的分数,那么MASTER纯神经网络ELO分数不会低于4858-1562=3296分,明显强于Zero的3055分
也就是说,拖MASTER后腿的不是人类的训练数据——这些数据有可能训练出了更好的结果,而是从AlphaGO Lee时代带来的“基于人类特征的走子策略”(same handcrafted features and rollouts as AlphaGo Lee