知者见于未萌——观读《AI已来:让中国AI走向世界的王海峰》

      最后更新:2020-06-23 10:28:04 手机定位技术交流文章

      机器心脏报告

      参与:张骞

      知者可见于不发芽。在所有比赛中,有远见的人将受到亲切的对待。

      自然语言处理峰会ACL 2020将于下月举行。本次会议共收到3429份有效文件。中国大陆提交了最多的1,084篇文章,其中185篇被接受,仅次于美国。

      今天,当中国的人工智能实力位居世界前列时,我们可能已经习惯了这样的数字。

      但大多数人不知道的是:2000年在中国香港举行ACL时,只有微软中国研究院的论文来自大陆;到2005年,只有三份来自大陆的论文。

      过去十年发生了什么?我们可以从美国公民自由协会首任中国主席王海峰那里找到答案。

      王海峰现在是百度的首席技术官。自从他在2004年发表了关于美国公民自由协会的论文并参加了会议,他再也没有错过这次会议。2010年,他当选为美国公民自由联盟主席,这也是美国公民自由联盟成立50多年来中国人首次当选。2016年,王海峰再次当选美国公民自由协会学者,成为第一位获得这一荣誉的中国大陆科学家,也是目前最年轻的美国公民自由协会学者。

      王海峰从未缺席过,中国的人工智能在过去30年里发展迅速。

      本、硕、博都毕业于哈尔滨工业大学。在百年庆典之际,哈尔滨工业大学以一本书的形式记录了优秀学生在哈尔滨工业大学学习并离开母校后的人生历程。王海峰是其中之一。

      这本书最大的价值在于它不仅是王海峰的个人成长史,也是中国人工智能的学术史、教育史和应用史的记录,王海峰既是见证人,也是推动者。

      人工智能是一场残酷的战争。当许多人没有意识到起跑线的存在时,比赛已经开始了。幸运的是,以王海峰为代表的中国研究人员很久以前就看到了这条起跑线。

      王海峰对人工智能的洞察反映在他学术和工业生涯的各个阶段。首先,神经网络被引入到机器翻译中,使中国的机器翻译从规则和统计方法时代一直延续到神经网络时代,朝着没有人的地方迈出了第一步。之后,他预见到中国互联网行业的无限机遇,并在百度建立了一个完整的人工智能登陆应用系统。王海峰对整个人工智能技术领域的长期观察对此是不可或缺的。

      今天,当工业智能革命席卷我们的时候,我们不仅可以从王海峰那里看到中国与人工智能历史握手的要点,也可以看到王海峰对智能工业革命发展的思考。

      著名科幻作家刘在他的推荐中写道:“科学是科幻的源泉。在我看来,科学战线和科学战线的关系,科幻小说一定是科学的背后。本书对王海峰博士的介绍是中国人工智能科学家成长的缩影。我建议喜欢科幻小说的读者看看这本书,看看建筑是未来想象的起点。”

      接下来,让我们一起走进这段历史。

      1989~1999:在哈尔滨工业大学学习十年

      1989年,王海峰进入哈尔滨工业大学。他来到李生教授的实验室时,他正在做他的毕业设计。在那里,王海峰以机器翻译为媒介,真正遇到了自然语言处理。

      哈尔滨工业大学计算机系原系主任李生教授。

      李生教授于1985年开始学习机器翻译。当时,中国的人工智能研究仍然是一个独立而贫瘠的孤岛。王海峰刚入学时,由李生教授领导的汉英机器翻译系统“CEMT一号”成为中国第一个通过技术鉴定的汉英机器翻译系统。1993年,当王海峰进入李生教授的实验室时,CEMT系统已经发展到第三代,并且已经投入实际应用,获得了很多好评。

      李生教授分配给王海峰的任务是优化CEMT-ⅲ并设定三个目标:提高效率、集成源代码和降低系统维护难度。王海峰善于简化复杂性,将CEMT-ⅲ的源代码模块化,建立模块间的关联,便于在修改代码和维护系统时缩小范围,从而提高效率。回想起当时王海峰对CEMT三号的优化,李生教授仍然对他在这个看似微不足道的0+工作中表现出的能力和才华感到遗憾。

      继CEMT三世之后,王海峰还参与了“863计划”的一个重要项目——汉英双向机器翻译系统BT863。那时,王海峰正在读研究生。他为BT863的汉英翻译方向的规则知识库和计算机软件的建设做了准备。

      根据当时在哈尔滨工业大学实验室工作的学生的记忆,当时实验室资金非常短缺。即使是像BT863这样的重点项目,每年也只有几十万元。此外,获取信息也非常困难。王海峰不得不往返于北京和哈尔滨之间,从国家图书馆复制数千页信息,然后装在旅行袋里带回去。

      在这样的条件下,王海峰等人完成了BT863的设计。在测试中,他们的系统在中国的汉英翻译部分获得了第一名,并在一分钟内完成了200个句子的翻译。今天,这个速度几乎不值得一提,整个程序必须加载到一个沉重的硬盘上。然而在当时,这个结果极大地鼓舞了王海峰和其他哈尔滨工业大学。

      在参与这两个项目的过程中,王海峰涉足了基于规则和统计的机器翻译技术。当时,这两个方向的机器翻译系统已经投入商业应用。许多人试图扩大词典基础,积累句法规则数据,并继续在现有方向上进行更深入的挖掘。然而,王海峰的愿景并不仅限于此。

      在本科和硕士期间,他开始实现神经网络,这是一种参照人脑认知模型的计算方法。在攻读博士期间,他开始思考是否可以尝试一些新的东西。

      在这个重要的节点上,王海峰博士生导师高文院士把他带到了一个更广阔的世界。

      中国工程院院士高文。

      高文参观了美国卡内基梅隆大学机器人研究所和麻省理工学院人工智能实验室。1996年,他就职于由国家智能计算机研究中心和摩托罗拉共同建立的高级人机通信技术联合实验室(JDL)。王海峰也以博士生的身份来到北京。

      在此期间,王海峰发现海外(例如卡耐基梅隆大学)的人们已经开始将神经网络应用于语音处理。然而,多层前馈神经网络(BP神经网络)在当时被更广泛地使用,并且不能有效地建模上下文。针对这个问题,王海峰开始寻求突破。他将循环神经网络方法引入机器翻译领域来反映语境关系,并取得了良好的效果。

      即使在世界范围内,将循环神经网络引入机器翻译领域也并不普遍,尤其是在中国。多亏了王海峰等人的努力,中国的机器翻译已经迈出了第一步,从规则和统计方法时代到神经网络时代,再到无人时代。

      后来的发展也证明王海峰选择了正确的方向。

      1999年,王海峰博士毕业,结束了他在哈尔滨工业大学十年的学习生涯。此时,王海峰面临着一个许多人都将面临的选择:留在学校教书还是去行业旅行?

      最终,王海峰选择了后者。

      1999~2010:十年工业初步研究

      王海峰博士毕业前,李开复在哈尔滨工业大学做了演讲,并与王海峰进行了对话。当李开复问到他毕业后的计划时,王海峰回答说:“我已经做了这么多年的研究,我希望这些研究是有用的。”

      抱着这样的信念,王海峰进入了这个行业,他的第一站是微软中国研究院,由李开复创建,被称为人工智能的“黄埔军校”。有2000多名医生和王海峰一起参加了体检,最终只有27人被录取。

      当他第一次加入微软时,李开复教王海峰如何制作语言模型,教他如何推进公式,并帮助他修改论文。在此期间,王海峰和他的同事共同完成了微软中国研究院的第一篇零基论文。

      六个月后,王海峰转而研究搜索。又过了六个月,随着微软总部停止了搜索项目,王海峰也有了离开微软的想法。

      虽然王海峰在微软只呆了15个月,但他通过这个窗口看到了这个行业是如何思考和解决问题的。这对于他坚守行业前沿,参与人工智能的产业化进程非常重要。

      离开微软后,王海峰在香港的一家互联网初创公司工作了一段时间,但互联网冷却后,他很快回到内地,加入了当时刚刚成立的东芝中国研发中心。

      在东芝的时代,王海峰不仅成长为杰出的领导者,也是一位卓有成效的学者。据不完全统计,现阶段他已发表了43篇学术论文,涉及自然语言处理、基础语音理论研究和机器翻译系统的研发等领域。在此期间,他发表了他的第一篇美国公民自由协会论文,并在2006年赢得了其中的五篇。此外,他的研究成果已应用于许多东芝产品,如汽车芯片。

      然而,随着王海峰对行业探索的深入,他发现东芝平台所能提供的应用场景逐渐不足。他意识到为了包含更广泛的应用场景,他必须有更多的数据、更大的实验平台和应用平台。这些情况隐藏在冉冉正在崛起的国内互联网行业中。

      最终,他选择了百度。

      2010~2020:百度十年职业生涯

      为什么是百度?我相信每个人都会有这个问题。事实上,当时就连王海峰的朋友和同事都对这个选择感到困惑。因为在他们看来,王海峰应该去找像微软和谷歌这样的大型国际企业,或者顶级科研机构。

      对于这个选择,王海峰有自己的预测。

      根据王海峰自己的记忆,2007年,他觉得未来属于中国企业。从他仍然希望加入这个行业的角度来看,快速增长的互联网行业是最好的选择。在互联网公司中,百度显然是最擅长技术、最尊重技术人才的公司。

      从研究方向来看。机器翻译的进一步研究和探索离不开互联网的兴起带来的语料库爆炸。百度的搜索服务也是互联网世界中最好的语料库保留中心。许多科学家说,百度是一个天然的“矿藏”,以进一步探索语言的秘密。与此同时,百度也是一个连接数千万用户的技术出口,这有助于为王海峰的技术找到更多应用场景。

      2009年8月,李彦宏在第四届百度世界大会上推出了新的计算平台“盒子计算”。当时,王海峰敏锐地判断,如果百度想在“盒子计算”的方向上进一步发展,它需要自然语言处理技术的更强有力的支持。特别是在语言分析、语义理解和知识获取方面,百度将面临许多前所未有的工作,需要在技术深度上寻求突破。这些领域正是王海峰擅长和追求的。

      2010年,王海峰在百度开始了他的职业生涯。

      当他第一次加入百度的时候,王海峰做的第一件事就是建立一个“自然语言处理部门”,来满足搜索引擎产生的相关需求。此外,百度自然语言处理的研究范围逐渐包括一些应用较少但更具前瞻性的技术方向,如语义搜索、语义理解、智能交互、深度问答、文本理解等。这些技术为百度在人工智能技术领域的领先地位奠定了坚实的基础。

      当然,如果只是在NLP方向布局,我们不会看到百度AI像今天这样遍地开花。

      几乎与自然语言处理系成立的同时,王海峰开始设计声音和视觉技术,并领导了当时的“多媒体系”的形成。在王海峰的推动下,“多媒体部”很快取得了大量的研发成果:在语音领域,围绕语音识别有复杂声学建模、海量语言模型和高速解码等关键技术。在图像方面,他进一步推动了图像识别、图像分类、图像搜索、光学字符识别等技术的进步。2012年年中,百度多媒体部门开始推动这些技术的商业化,将它们带入用户的视野。

      在基础研究方面,2013年,王海峰作为执行董事,协助李彦宏建立了世界上第一个企业深度学习研究所(IDL),这是在普通人对深度学习的第一印象——李石师对阿尔法戈之前。2011年,王海峰和其他人已经预测到,深入学习在行业中有巨大的潜力。

      在筹备过程中,王海峰完成了两项至关重要的基础工作。第一,为百度深度学习研究所确定自己的定位,让百度深度学习研究所专注于基础研究。二是吸引研究人才,为百度深度学习研究院奠定人才基础。

      此后,王海峰开始初步推进百度的技术平台,结果是我们今天看到的人工智能开源平台,如飞舟。

      2020年5月,王海峰发布了飞行桨平台的最新全景。

      2017年,经过几年的技术积累,百度为人工智能的全面到来做了充分的准备。王海峰接受了任务。它整合了百度多年来积累和发展的各种人工智能前沿。也是在今年,王海峰被任命为百度新成立的人工智能技术平台系统(AIG)的首席执行官。

      AIG基本整合了当时百度系统下所有与人工智能相关的技术研发部门,包括自然语言处理、知识映射、语音、视觉、大数据、人工智能平台和生态学,百度研究院包括百度深度学习实验室、大数据实验室和硅谷人工智能实验室。对王海峰来说,他不仅希望将原来独立的技术部门整合到美国国际集团中,还希望它们在技术上和管理上发生化学反应,以便通过全面的研究真正掌握。

      为了使整个美国国际集团在战略层面上达成一致,王海峰设定了美国国际集团的三项基本任务:整合核心技术,使每一项人工智能技术稳固,并保持一个敏锐的前瞻性技术布局;利用人工智能技术全力支持和优化百度的业务;面对外部需求,开展人工智能生态赋权、人才培养和商业化探索。

      整合后的美国国际集团显示出强大的技术优势,催生了百度脑等高度整合的产品和平台。

      2019年7月,王海峰宣布将百度大脑升级到5.0。

      到2018年底,美国国际集团迎来了又一次重要的结构调整,其中最引人注目的是王海峰同时掌管百度的人工智能技术平台和基础技术平台。这意味着百度在基础技术领域的布局,如系统、基础设施、安全、工程效率等技术部门,已经完成了与美国国际集团的全面重组。在这一点上,作为一个面向人工智能时代的技术基础设施,美国国际集团在为百度和整个行业提供人工智能的基础支持方面有着更清晰的定位。王海峰在百度整体布局中的作战范围再次升级。

      2019年5月,李彦宏通过一封内部信函宣布,王海峰是百度的首席技术官,同时继续担任美国国际集团和通用汽车的首席执行官。外界认为,这反映了百度对整个人工智能技术的坚定信任,以及对王海峰和他的团队的高度认可。另一方面,这也反映出王海峰将在百度发展工业智能的新领域承担更重要的战略任务和更多的责任。

      2020年1月,王海峰发布内部结构升级邮件,宣布原AIG(人工智能技术平台系统)、TG(基础技术系统)和ACG(百度智能云业务集团)整合为“百度人工智能系统”(新AIG)。新的美国国际集团包括科技中国集团(TPG)和智能云业务集团(ACG),它们将继续由百度首席技术官王海峰全面负责。与此同时,智能政务、智能医疗、智能金融、智能客户服务和营销四大业务板块升级为四大业务板块,加大对工业互联网、视频、物联网、工业质检和物流地图领域的投资。相关负责人继续向王海峰报告。

      从2010年到2020年,王海峰不仅帮助百度早早站上了人工智能产业化的起跑线,还促成了一系列技术和产品的落地。开源的不断发展使百度成为中国第一个也是唯一一个功能齐全的开源深度学习平台;“多媒体部”和深度学习研究所的建立为阿波罗自动驾驶仪和其他技术的着陆奠定了基础;美国国际集团与其他部门和集团的整合催生了百度的大脑,它可以向四面八方输出各种人工智能。行业内有评估,王海峰擅长让项目着陆-

      让人工智能真正像水和电一样渗透到人们的日常生活中。

      从1989年至今,我们从王海峰看到了中国人工智能的学术史、教育史和应用史。但是除此之外,我们还可以从他身上看到一部中国人工智能的“海洋史”。

      中国第一任美国公民自由联盟主席,中国人工智能的“骨干一代”

      如前所述,当李生教授开始自然语言处理研究时,中国的人工智能研究仍然是一个独立而贫瘠的岛屿。中国研究人员很难获得国际人工智能研究的第一手资料,外国研究人员对中国人工智能研究也知之甚少。

      在王海峰时代,情况有所改善。中国研究人员已经逐渐登上世界舞台,并在世界顶级期刊上发表论文,但他们的学术影响力仍然稍弱。

      因此,王海峰想出了一个办法:竞选美国公民自由联盟主席。

      ACL是自然语言处理领域最具影响力和活力的国际学术组织。在自然语言处理领域最有影响力的国际学术会议,包括美国语言学会年会、欧洲自然语言处理学会、美国语言处理学会等。,都是ACL的下属会议。

      在竞选期间,王海峰对美国公民自由联盟做出了几项承诺:1)促进中国公民自由联盟的发展;2)提高亚洲无法律约束力文书社区对无法律约束力文书的贡献率;3)加强ACL与行业的联系。从王海峰自身的学术成就、影响力和他作为“中国科技企业代表”的独特地位来看,这些承诺非常有说服力。最终,王海峰在全球会员投票中成功当选。

      2013年,王海峰担任美国公民自由联盟主席。

      在ACL任职期间,王海峰提名了许多优秀的中国学者担任ACL职务,包括周明、赵士奇、吴华、刘洋和一大批中国NLP人才。

      2015年,随着自然语言处理在中国的学术成就越来越受到关注,当年的美国语言学会年会在北京举行。这也是第一次有一个国际性的NLP学术活动来到中国大陆。在提名终身成就奖时,王海峰提议选择亚洲人,最好是中国人,以增强美国公民自由协会在中国的吸引力。最终,李生教授成为中国公民自由联盟成立53年来第一位获得终身成就奖的中国人。

      2015年,前美国公民自由联盟主席、斯坦福大学教授克里斯托弗·曼宁授予李生教授美国公民自由联盟终身成就奖。

      到2017年,亚太地区在美国公民自由协会论文中的作者比例甚至达到了33.3%。

      2018年,在美国公民自由协会第56届年会开幕式上,时任主席的马丁赫斯特宣布成立亚太地区分会(AACL),并计划于2020年举行首次会议。此后,每两年将举行一次会议。地点将设在亚太地区(今年受疫情影响已改为网上),由王海峰担任AACL的创始主席。在AACL成立之前,ACL在欧洲和北美也有分支机构。自1999年北美分公司成立以来,二十年过去了。

      对外,王海峰帮助中国的人工智能走向世界。在国内,王海峰承担了培养下一代人工智能人才的责任,并为中国人工智能的发展提供更高层次的建议。可以说,以王海峰为代表的人工智能人才是中国人工智能的中坚力量。

      尽管王海峰已经加入了这个行业,但他仍然坚持招收博士生,并且对他们要求非常严格。至于博士研究生的研究成果,王海峰甚至会一个接一个地盯着实验数据,他的眼睛不能容忍任何不严谨的地方。兼职博士生导师赵士奇(音译)表示,当王海峰改变事情时,他会逐字逐句地改变,而英文论文则会逐字逐句地改变,钻研细节,而不是泛泛而谈。

      此外,王海峰还在国家项目、学术组织和企业中任职,如国家深度学习技术与应用实验室、国家类脑智能技术与应用实验室、中国电子学会、中国信息学会等,为中国人工智能的更高水平发展做出了贡献。

      王海峰的勤奋是显而易见的,并且影响了很多人。甚至有一个“传奇”在百度流传,说王海峰“一生”没有睡觉。然而,正是这种勤奋和一丝不苟让我们感受到这支“脊梁”力量的坚实和中国人工智能的希望。

      百度董事长兼首席执行官李彦宏在序言中写道,他希望渴望加入人工智能的年轻朋友们能从海丰的故事中看到一种精神和方向。

      关于人工智能产业的未来发展趋势,王海峰提到了三点:

      首先,在技术层面,除了深入学习之外,还会出现算法和技术。例如,小数据学习和低能耗学习。随着对人脑机制的深入理解,新的认知机制和算法将逐渐被探索出来,以弥补深度学习的一些先天缺陷。

      第二,在工业层面,不要追风。在王海峰看来,历史上许多最后的成功往往不是第一个冲出去站在空中的人或公司。只有通过扎实的积累和把握新技术的窗口期,人工智能才能一步一步做好。

      第三,在个人层面,打好基础,多练习。对于刚刚进入人工智能或想进入人工智能领域的年轻人来说,王海峰认为打好基础是关键。你掌握的基础知识越多,比如数学和编程能力,你就能走得更远。

      王海峰的这些想法与他的导师李生的想法一致。李生认为,“中国人工智能现在需要做的是消除一些短视的行为,而不是一味地沉湎于一时的收获,脚踏实地地科学地做好科学工作。在追求科学和真理的光明而平坦的道路上,中国的人工智能还将经历无数个30年。”

      本文由 在线网速测试 整理编辑,转载请注明出处,原文链接:https://www.wangsu123.cn/news/8169.html

          热门文章

          文章分类