当前位置:首页 > 新闻资讯 > IT业界 > 新闻
深度特写:从人类智慧壁垒守护者,到全世界赛前认定失败——柯洁与AlphaGo这一年都经历了什么?
  • 2017/5/31 16:33:53
  • 类型:原创
  • 来源:电脑报
  • 报纸编辑:电脑报
  • 作者:
【电脑报在线】“我很早就知道自己要输1/4子,所以无奈苦笑。”新闻发布会上,柯洁说起了赛后点棋时自己的“诡异”微笑。

更可怕的是,AlphaGo已可以控制胜率了?

      “以彼之道,还施彼身”带给柯洁的,只是比赛前半段的短暂轻松。很快,柯洁开始变得明显有些犹豫,多次拿起黑棋又放下,并时不时抓头发、皱眉、托晒、摇头,脸上不时露出“诡异”笑容,不知道是苦笑还是微笑。

      相比之下,AlphaGo落子速度飞快,柯洁用时约80分钟思考后,AlphaGo才用时约20分钟,有些棋子甚至是“秒下”,但落子结果却在不停地给柯洁出难题,一番勾心斗角之后,都是AlphaGo更占优势。

      围棋专家们早已看到了结局,记者在午餐偶遇讲解员常昊时,常昊就表示,“柯洁明显和AlphaGo差距很大,在开局不久就已经落后了,AlphaGo的布局构思远胜于人类。”

      第一场比赛,柯洁和执棋的黄士杰没有吃午饭,四个小时之内上了几次厕所。

      或许,在全世界都认定必输局面情况下,胜负已经不是人机大战第二季的主要看点。

     “人工智能不是对手,可以成为朋友。我们看看它的极限究竟在哪里。”古力在发布会开始前表示。

      只是,想要看到AlphaGo的极限并不容易。5月24日,DeepMind首席科学家大卫·席尔瓦(David Silver)透露称,目前的AlphaGo,比去年战胜李世石的那一版要“强三子”:“AlphaGo成为自己的老师,它从自己的搜索里学习,有着更强大的策略和价值网络。”

      也就是说,按照围棋等级划分,现在AlphaGo 的积分为4500分左右,遥遥超越所有人类,目前暂列人类职业棋手第一位的的柯洁积分为3620分。

      此言一出,四座皆惊。虽然此前也有过类似传闻,但这一次却是实实在在从DeepMind首席科学家口中说出。柯洁立刻发了一条微博:“早就听说新版AlphaGo的强大……但……让……让三个?我的天!”他解释说,这个差距有多大呢,就像武林高手对决让人先捅三刀。

      尽管此后DeepMind团队的樊麾二段发表声明称,“当AlphaGo与从未对弈过的人类棋手对局时,这样的优势就不复存在。”不过,这并不能掩盖AlphaGo的种种可怕。 

      更可怕的,或许还是如今版AlphaGo强大的自我迭代和更新能力,在算法上,这一版本的 AlphaGo 已经不需要外在“导师”,能实现自我学习了

      早期,AlphaGo仍通过学习六段以上的围棋选手下法来进行学习,但如今与去年相比,2.0版的AlphaGo将正式摒弃人类棋谱,只靠计算机自身深度学习的方式成长。即通过数学模型下的自我对弈和深度学习,下出完全属于人工智能(AI)的围棋。

      搜狗总裁王小川称,此次AlphaGo可能已经放弃了监督学习,也就是说不再依赖原先人类的3000万局棋谱,甚至有可能放弃了蒙特卡洛树搜索,大大减少了暴力计算,落子速度更快、准确率更高。两台没有棋谱数据的AlphaGo自我对战学习如何下棋,并达到登峰造极的地步,只需要一周的时间。

      换句话说,就是“AlphaGo已经是自己的导师”,甚至于它已经不满足于只是单纯取得胜利,而是控制胜利的概率以及输赢的差距——根据举个通俗的例子:90%赢10目和100%赢1目,AlphaGo一定会选择赢1目的变化,因为胜率更高。这也是AlphaGo在早早掌控巨大优势,后盘一路放缓脚步的原因。

      这个说法得到了哈萨比斯等人某种程度上的认可。“我们的确在研究如何通过多线路决策来扩大胜率,甚至是去控制胜率,这是我们的一个探索方向。” 哈萨比斯说,他们的确在测试AlphaGo获取胜利的程度。

本文出自2017-05-29出版的《电脑报》2017年第21期 A.新闻周刊
(网站编辑:pcw2013)


我来说两句(0人参与讨论)
发表给力评论!看新闻,说两句。
匿名 ctrl+enter快捷提交
读者活动
48小时点击排行
论坛热帖