首页 > 企业新闻 > 

企业新闻

一个天才如何制造问题?让“人工智能”不再冷门的戴文渊

阅读次数:次   发布时间:2019/10/8 9:48:49  所属栏目:企业新闻


   戴文渊不是那种严格遵循规则的人,喜欢「玩出花儿」——编程有各种规范,他常常不遵守,写出一些完全不遵循规

律、但执行效率特别高的程序,当然,别人也接不下去,属于不可维护。第四范式的前一万行代码,是他自己写的,那

时候刚创业,白天忙各种作为创始人要忙的事情,到了半夜12点,就到了他写代码状态最好的时候。他就坐在黑夜里,

开始敲击键盘,那是他一天中最自如的时光。

   当你知道,鸟要往哪里飞

   2018年的中国,平均每分钟有28名婴儿出生,在每天要发生的41000多次分娩中,每位女性都要面临一个重要问

题,是顺产还是剖腹产?这不仅关系到她们要遭受的疼痛,甚至也关系到生命存续。而它也是一件往往在最后关头才被

决定之事,是这个医学昌明时代,为数不多主要依靠医生经验来判断的事。

   今年春天,长春一位妇产科医生找到了新方法,也许可以为缓解这种痛苦提供一种工具——医生在网上偶然看到一个

人工智能平台,想试试看,能不能更精确地预测新生儿体重,来指导医生做判断。这个机器并不难操作,他把过往自己

收集的所有孕妇体检的指标数据,以表格形式输入到机器里,很快得到答案——不用选择公式,没有复杂操作,机器自己

完成了一切。

   这种看不到过程的运算,可信吗?结果出来医生也觉得意外——所有案例的误差都精确在0.2公斤以内。这比起目前临

床医学已达到的精确度,还要高。这个结果被写成一篇论文,最终在顶级医学会议上发表。

   以上这一切,提供人工智能机器的公司第四范式,事先都不知情。医生通过他们官网上的试用入口,试用了这个名为

AutoML的产品,完成了运算。

   公司创始人戴文渊先生得知此事后的兴奋程度,甚至超过他们拿下银行的大订单。他还讲起了另一个相似的故事。某

天朋友跟他讲起,偶然间看到别人使用他们的产品。那是一个「候鸟迁徙」的项目,机器被用来预测候鸟的飞行路径。

当你知道,鸟要往哪里飞,又知道它们即将经过的地带会有污染或雾霾时,可以做一些干预措施,让它们尽量在安全地

带飞行。

   在这些故事里,戴文渊最看重的是这一个个具体的、活生生的人,他们没有太多AI基础,不会写代码,可能只会操

作Excel表格,但可以通过基本的学习,用他们的工具来使用AI。「我认为这个代表我们真的改变了世界。」

   人们坐在一个陌生的人工智能新工具面前,困惑、尝试,最终为自己所用,这与许多年前我们刚开始接触电脑时的过

程,并无二致。

   1991年,在苏州古城区读小学二年级的戴文渊,考了三次数学全班第一后,获得了加入计算机兴趣小组的资格。一

周一次的上机时间极为宝贵,全部用来写程序,不能忍受一丝浪费。他打了个比喻:「比如你花了那么多钱去跟巴菲特

吃一顿午餐,你一定会抓住所有时间向他请教问题,绝对不可能浪费时间跟他闲聊。」

   10岁,他已经开始在机房电脑上写logo语言,家里书架上也有了C语言的书。在那之前,他父母让他去学特长,总

是半途而废,书法坚持了1年,国际象棋也只坚持了1年,中国象棋最久,但他编着理由翘课,「混」了6年。只有计算机

是他自己选的,迄今为止已经坚持了28年。

   像是终于找到了某个人生的入口,年少时的自我发现与确认,此后不再改变。高一时他凭借竞赛获得保送大学资格,

抱定心思只读计算机系,因此放弃了不能选专业的清华。后来在上海交大,他拿到了ACM国际大学生程序设计竞赛的世界

冠军。

   另一个关键节点是在香港科技大学的实验室里,他第一次知道什么是人工智能,并把它作为一生的追求。一开始是在

论文上追逐它;后来离开学校到百度,在广告推荐系统上实践;再到华为诺亚方舟实验室,看看能在非互联网领域做到

什么程度;再后来他发现,做一家公司可能是最好的方法,于是有了现在的第四范式。

   「最重要的是,我在这件事情上得到内心的愉悦。我感兴趣,并且目标坚定,我没有想过其他的事。」

     

   一份为队友准备可乐的工作

   采访进行前,凌晨1点多,戴文渊还在办公,早上5点又回复了微信。

   我们好奇他怎么安排一天的工作——之前《人物》采访过一位女演员,她说会把最不想做的事情安排在早上,这样她

每天都是越来越开心,都拥有一个愉悦的晚上。但戴文渊的回答是,「我已经不太记得自己喜欢做什么了。」一切都从

逻辑出发,逻辑推出来该做什么就做什么,如机器运转,严丝合缝。

   「逻辑」,合伙人陈雨强评价他时,也一直提到这个词。戴文渊曾是陈雨强大学的小导师,也是他在百度实习时的

leader,他认为逻辑是自己从戴文渊那儿学到的最重要的东西。「比如形成一段描述,或者一个算法。他关心这里面本

质的逻辑是什么;第二点就是,你怎么做,别人能听懂,别人能理解。」

   这种极度理智,与戴文渊在ACM竞赛中受到的训练密不可分。

   大学前他的性格截然相反,是紧张的、情绪化的。高二时他的计算机水平已经是江苏省顶尖,代表全省参加全国信息

学竞赛。10年的准备,到了现场,第一试就开始紧张,第二试好一些,但一综合,排到了全国第23名。当时第18到22名

都是同分并列,前20名进国家集训队,他失之交臂。

   进国家队,代表中国参加世界信息学竞赛,是他中学时代的理想。他认为自己也具备这种实力。从10岁开始,他的

世界里只有计算机和题目,花了大量时间做编程训练。比赛完,从北京回到家,他形容当时的心情:「就像奥运会,非

常有实力竞争体操冠军的人,结果从平衡木上摔下来了。」

   当时高中正好有一个保送清华的名额,但不能选专业,他不能接受不学计算机。刚好同一时间,上海交大的教授俞

勇,寄了一张填了他名字的保送推荐表到戴文渊的学校。俞勇说,这张表不能给别人,如果戴文渊不要,那就自动作

废。戴文渊接受了上交的邀请。

   高中毕业前的5月,正是每年举办ACM竞赛的时间。戴文渊不需要高考,就在家通宵看比赛。那时的网络无法做视频

直播,只有文字,只能打开一个网页,不停地刷新。那是上海交大第一次获得世界冠军。选手林晨曦,后来成了戴文渊

的教练,再之后创办了现在知名的人工智能公司依图科技。

   戴文渊的ACM之旅,开局并不算顺利。大一大二两次参赛,都没拿到好名次。大三备战时他开始琢磨,「怎么去做一

个最正确的决定,怎么去非常理性地思考」——「你根本没有必要证明你比队友强。我前一年那支队,三个人都很强,都

在努力证明我是这个队里最强的人,但我发现这个事儿其实一点意义都没有。只有这个队强才行,至于你比队友强还是

弱,都不重要。」

   那是一个关键答案。如果说之前他认为自己是最优秀的,那时候他开始接受,自己可能没那么厉害,「到了那个层

面,全世界最好的几个人(在比),你会发现从个人能力上单拼是拼不过的。但是团队不是,还要想办法去赢。」

   之后的事情就变得简单了。他和队友们住到一起,肩负起让一个「喝了可乐就能写出好代码」的队员随时能喝到可乐

的工作,并和另一个队员一起看他根本不感兴趣的动漫,只为了与他们训练默契度,达成相互理解。他的目的不再是解

出一道题,而是在这个比赛里夺冠。

   那年的决赛,刚好在上海,开场第一个小时,他们已经被对手甩开。当时戴文渊跟队友说,「这后面4个小时,是我

们最后的4个小时。比完了我们就退役了。我们不用想之前一个小时做了什么,只要把握最后4个小时,发挥我们这些年

的全部积累,不留遗憾。」到第2个小时、第3个小时、第4个小时,他又重复了这番话。那时候三个人的心态已经非常平

静。

   比赛结束前一个小时,按照惯例封榜,不再实时更新成绩。他们当时是第四名。但在倒数第8分钟,他们又用看起来

不可能的「暴力枚举」方法,解出了一道新题,成为全场解题最多的队伍,获得冠军。

   结束后,三人筋疲力尽,瘫倒在房间里。戴文渊用这枚代表世界最高水平的奖杯,告别了三年的ACM竞赛史。

     

   更本质的问题

   那时已是大三,同龄人都开始寻找人生方向。选择冷清还是火热,戴文渊也站在了小径分叉的路口。

   他面临的第一个选择是确定研究方向。在他的描述里,AI当时是个「一点都不火」的专业,大家热捧的是图形学,

做CG渲染,能去好莱坞。那AI是什么?一个被选剩下的专业。他只能跟人解释,有部科幻片叫《AI》。上海交大也没有

人工智能领域的老师,戴文渊被送到了港科大,师从杨强教授。

   港科大建在山上,实验室没有窗,手机也没信号,他关在里面,过得根本不知白天黑夜,又将信将疑,觉得在做一个

所有人都做不出来的东西。

   但教授杨强是坚信并热爱人工智能的「狂人」。学生们总开玩笑,说他们是《西游记》里的师徒,除了师父,其他人

只觉得:「我靠,西天那么远,要不我回高老庄吧。」每次学生们蔫儿了,就被杨强「K一顿」,被「K」得多了,就会

受到感染。「我发现这个人为什么几十年如一日坚持这样做事,这个事儿这么遥远,为什么你还……?这个目标怎么回

事?你都不动摇。」时间一长,他们也就跟着信了。

   戴文渊很快做出成绩,就算是隔了10年,打开他的谷歌学术页面,成绩单还是闪闪发亮——2007到2008的两年时间

里,他一共发表了11篇论文,不少都是顶会,迁移学习领域单篇论文被引数位居全球第三。师弟陈雨强记得,当时这个

成绩,不止在交大,在中国都很罕见。那时AI没有那么火,一年只接收100篇左右的文章,中国人当时也还不在AI圈子

里。而戴文渊觉得,他的成绩得益于ACM竞赛的底子,那种做事的方式,和那种目标导向。

   他获得了学术共同体的承认,但很快发现事情不太对。「我知道怎么去发顶会的论文,甚至知道怎么发让很多人引用

的论文,但我发现一个问题——在这个领域里,没有东西是能用的。」AI是基于数据、再加上算法,才能得到结果,但当

时大家只关注算法。「不是说算法没用,但如果你是在一个破烂的数据上比哪个算法更好,那算法就没有商业应用价

值。所以我们才被人家耻笑说,你居然还是做AI的。」

   要解决这个问题,只有一个方法,就是去工业界。他在心里做斗争:「那时候从学术界去工业界,是一件很丢脸的

事。当时有个词儿叫『去工业界』。什么叫『去工业界』?就是你在学术界混不下去了,就去写代码。」但百度对他的

诱惑在于,它是当时数据质量最好的公司之一,而且一定会落地,因为有商业化的需求。于是不再犹豫,他放弃博士学

位,入职百度,成为最年轻的T10科学家,扎进火热的现实之中。

   他在百度四年的工作,用一个词总结就是「点击率提升系统」。这个系统的目的是提升百度搜索的商业变现。点击率

的提升,首先让商家满意,因为广告被点击了更多次;用户收到的也不再是不感兴趣的东西;百度就更满意了,因为百

度按照点击率收费。这其中的关键在于机器学习技术,它把效率提升了8倍。

   技术得到验证,戴文渊认为AI应该有更大的用武之地。他争取过很多次,愿意调到其他部门,去做推荐系统,去做

视频、问答,甚至是做围棋。当然,马上被驳回了——百度是上市公司,每季度都有收入预期,而他就是那个扛预期的

人,「一般每季度最后那个月,我就是全公司最忙的人之一。根本没时间思考别的,先把财报完成。」不久后,他决定

从百度离开。

   因为希望促进整个AI行业发展,所以离开,这个理由听起来太理想主义,显得遥远和隔膜。但实际上一切都有迹可

循——2012年冬天,戴文渊还在百度任职,有人在微博上讨论Google和Facebook的区别,提到Facebook有一位科学家

离职了,因为「他觉得自己的技能全用来算计广告点击率这事,太悲催了」。一位朋友艾特了戴文渊,他留下了一个

「大哭」的表情,说「面壁去」。

   陈雨强对戴文渊的理解是,他一直是一个「造问题的人」。他一直在挑战更本质的问题,更大的问题,那些没被解

决、还不知道怎么去解决的问题。陈雨强记得一个细节,离开百度时戴文渊在琢磨,机器人的操作系统是什么,那是一

个还没被定义过的问题,是超前的。不是因为他喜欢尝鲜,而是因为那是新的价值、重要的价值。

   他们一起从学生时代走到创业,戴文渊想做的事,全都没人做过。「不是已经有了一个问题,谁提出了A算法,他再

提出一个B算法。他不是,他会提出一个新问题。这也是比较痛苦的一点,我们没有谁可以抄,只有别人抄我们。」

   闭着眼睛往下跳

   2015年,一天陈雨强突然接到戴文渊的消息,邀请他创业。陈雨强当时在今日头条负责搭建最关键的推荐系统,听

说他要走,张一鸣每天找他聊到深夜。

   但陈雨强看重两点,一是戴文渊是个值得追随的leader,二是他要做的是一家纯粹的人工智能平台公司,让更多的

企业和个人能够用上AI,心一横,「闭着眼睛往下跳」。另一位联合创始人胡时伟也是那时候加入的。他们当时互相调

侃:「You jump, I jump.」

   戴文渊决定创业的原因很简单——他看到了人工智能广阔的市场,以及最终明白他想做的事情,会在大公司受到多少

限制。

   离开百度后,他到了华为,想看看华为怎么服务企业。一次他为华为竞标,为某家银行搭建大数据平台。他发现就算

这个平台建好了,数据都放在平台上了,它也并不能创造价值。他给银行做了几个AI应用,把小贷的营销效率提升了25

倍,最后银行买了华为的大数据平台。而他做的人工智能应用,本质上只是一块「敲门砖」,他自嘲为「演员」。

   客户当时也说,他们想买这个人工智能系统。戴文渊受到鼓励,回公司沟通,公司的结论是:这不是我们的产品,如

果买大数据平台,我可以把这个系统送给你。这件事让他认清现状——彼时的华为主航道是「端、管、云」,他想做的事

情在主航道之外,且无力改变。

   就这样,一群怀有人工智能理想的年轻人,在深圳福田口岸的民租房里开始了第一步。开始为第一个客户服务时,他

们只有两个正式员工,两个实习生。服务结束半年了,对方催发票,他们发现公司里没有熟悉开票流程的人。

   创业第二年,刚站稳脚跟,戴文渊提出要做AutoML技术。这项技术的核心在于,在里面封装极其强大的算法,让机

器可以自动建模。「这听上去有点天方夜谭,但是可以实现的。训练机器就像训练小狗那么简单,客户定义好目标,收

集数据,给机器设定好行为和反馈,然后抽离出规律和算法。」他曾在接受采访时说。

   这样一来,原来很多需要人工完成的工作,比如选模型、调整参数、处理原始数据,现在都不用了。人们只需要组织

好数据,就可以交给AutoML。这大大降低了普通公司的门槛和成本。用戴文渊的话说,能熟练使用Excel的人,经过数

个小时的培训,都可以使用AutoML。

   这个门槛最低可以降到什么程度?就像我们提到的妇产科医生和候鸟迁徙一样,还有一对夫妻开的摄影工作室,自己

做了一个AI客服。

   AutoML做到今天,也并非一个顺理成章的故事。第四范式决定做AutoML时,它的发展速度不算快,有点儿像2005

年,戴文渊在香港科大的实验室里边做边怀疑自己。但到2019年的今天,已经是陈雨强说的「黎明」了——AutoML已经

是人工智能领域最炙手可热的技术之一。第四范式也已经是唯一一家被五大行投资的创业企业。去年底它的估值超过10

亿美元,进入「独角兽」的行列。

   在聊到理想的明天时,戴文渊回到了过去。他想起,在微软做出ExceL、Powerpoint、Word等办公软件之前,打

字也是一个非常专业的工作,课堂展示用的还是胶片。在苏州读小学时,老师就在机房里让他们用一种更古老版本的WPS

把文章打上去。那时世界上也只有很少人能完成这件事。他想做的事情,就像微软做的那样——怎么能让每篇文章的作

者,都可以自己打字。「如果纵向对比,做AutoML要难得多,但如果放在历史上来看的话,当年做出Word,不也很难

吗?」

   他有时会想,如果有一天公司什么事都不用他来负责了,他就回去做科学家,专心研究AutoML。

   他不是那种严格遵循规则的人,喜欢「玩出花儿」——编程有各种规范,他常常不遵守,写出一些完全不遵循规律、

但执行效率特别高的程序,当然,这些代码别人也接不下去,属于不可维护。第四范式的前一万行代码,是他自己写

的,那时候刚创业,白天忙各种作为创始人要忙的事情,到了半夜12点,就到了他写代码状态最好的时候。他就坐在黑

夜里,开始敲击键盘,那是他一天中最自如的时光。

   今天,距离他埋头在香港研究人工智能、两年发表11篇论文的时候,已经过去10年了。这些年他进入工业界,之后

又创业,论文的产量不高。今年算是一个高峰,他已经发表了3篇论文,Wenyuan Dai这个名字又重新出现在谷歌学术

里,这些文章,都和他最关心的AutoML有关。