今年5月底在联想科技创新大会(Lenovo Tech World)上,被演示的人工智能产品——“百度大脑”的智能水平已经相当于3、4岁孩子的智力。比如该产品理解图片的含义:“他在做什么——打网球,他穿的衣服是什么颜色的——蓝色”。但既然是人工智能,难免会有偏差,它在看一个韩语菜名的时候,给出的中文译文是“有性格的女儿”。
按照行业人士的说法,百度遇到了那只四条腿的桌子。“照片上有一匹马,你让机器来辨认,按照概率它有90%的可能认出来是一匹马,但是还有10%的可能机器会认为它是一张四条腿的桌子。”人工智能泰斗、中国科学院院士、清华大学计算机系张钹教授在今年1月的《网络时代的人工智能》报告演讲时举例说。最大的障碍是,机器无法知道哪个结果属于那正确的90%。
机器翻译是一门古老的人工智能。1954年,美国乔治敦大学(Georgetown University)用IBM-701型计算机完成了首次英俄机译试验,人们很兴奋,以为巴别塔就快建成啦。1964年美国科学院成立语言自动处理咨询委员会(ALPAC)分析和测试机器翻译,两年后公布报告否定了机译的可行性,并建议停止对机译项目的资金支持。随后20多年机器翻译的发展基本停滞。
机器翻译再次令人兴奋,是互联网兴起之后,尤其是网民用上了谷歌翻译(Google Translate)之后。无论是单词还是句子,甚至整段的文章,都可以快速得出译文。谷歌支持70多个语种的互译。这种能力的提升,不仅仅是因为谷歌资金实力雄厚,还因为如今的机器翻译主要是基于语料的统计分析。每天使用人数最多的谷歌,有不可胜数的各语种用户使用的语言数据。听说谷歌机器翻译团队都不招语言学家,只要数学家、IT工程师就把翻译做了。早期机翻的研究则离不开语言学家将人工制定的词汇、语法规则灌输到计算机里。
2011年有个叫雷•库日韦尔(Ray Kurzweil)的未来学家对《赫芬顿邮报》(The Huffington Post)记者言之凿凿地说:“到2029年时机器就将达到人类的翻译水平。”四年来,机翻专家认为雷也就是大嘴说说。张钹教授说:“概率统计方法存在局限性,多层神经网络也不是完美的,不要以为机器深度学习已经完全可以超过人类的水平,那只是在一定的条件环境下。”
机器翻译其实可以反过来分析:它的初衷是让机器来翻译人的语言和文字,现在很多时候需要用户来理解机器的思路,如用户猜机器下一个答案是马还是桌子?
2013年谷歌翻译每天的用户量超过2亿人、翻译10亿次,每天翻译的文字相当于100万册图书,超过全球专业翻译一年的工作量。地球上不同地区的人互相了解的欲望真的很强。
不过免费的谷歌翻译并没有降低翻译行业的产值,相反是精准的翻译需求也同样在增加。机翻抢不走译员的饭碗,正式的沟通和文档必须经过译员的翻译审校。工程师们现在想的是,如何帮助译员把机翻结果里正确的词和句子找出来,让机器完成部分翻译工作。什么时候机翻能完全替代人翻?我见到的工程师们认为不太可能,张钹教授也认为不太可能。
那霍金(Stephen William Hawking)、马斯克(Elon Musk)提出来人工智能对人类造成威胁,岂不是说明人被机器打败、人脑不如电脑吗?张钹教授说:“我不认为电脑可以超过人脑,但是人工智能是有可能危害人类的。如果有一个机器人会做勺子,而且它像人一样‘有意识’自主工作,这个机器人可能耗尽地球的资源来生产勺子,对人类产生威胁。”
张教授的话,打消了我对机器的痴念,别做梦让工程师开发一个彻底理解语义的翻译引擎了。作为一个在中国从业的翻译工作者,我倒是很高兴,既然机器替代不了人,中国每年近百万人、覆盖全语种的外语毕业生就有了用武之地。
机器把专业术语学会,外语人才再让机器说人话,这样的机器翻译不再性感,还有人喜欢吗?
25年前我在北京师范大学读书,美学教授王一川讲了一个意义重大的话题:“人类下一个变化在哪里?是人造人。”王老师不是从生物工程学的角度,而是从人自身的存在价值角度来讲这句话:人类痴迷于再造一个自己。1996年克隆羊多利(Dolly)在英国诞生、人造人的前景触手可及的时候,社会舆论有点接受不了了:你克隆出来的是你儿子还是你父亲?
信息时代的人工智能没有了伦理悖论,但依然存在危险:你可能无法辨别机器信息的真伪,也无法控制机器的自主行动。造一个善解人意的程序,比造一个生物人的欲望还强烈,也更现实。
是的,人工智能产业有点哲学辩论的味道。创新项目商业模式TO C(面向消费者)还是TO B(面向企业),你要做的产品是一个独立的机器人还是一个智能辅助工具?这决定了创业的项目能不能TO VC(面向风险投资),能不能赢在拿投资的起跑线上。投资人喜欢机器人背后的消费人群;在看不清市场前景的阶段,他们更喜欢性感的机器人。
2012年,一个微软(Microsoft)的研究小组发表了题为《基于预训练的上下文相关深层神经网络的大词汇语音识别》(Context-Dependent Pre-trained Deep Neural Networks for Large Vocabulary Speech Recognition)的论文,描述了第一个成功应用于大词汇语音识别系统的上下文相关的深层神经网络。该论文代表的技术突破,使得语音识别的效果改善了20%以上。
今年5月12日,微软Skype软件开放自动语音翻译服务体验版,基本代表了语音识别、机器翻译、语音合成的最高应用水平。不知道微软会将这个智能定义为几岁,它很像听录音学外语:说一个短句停一次,过一段时间再听机器把对方的回答翻译过来。其场景与人类开始学习语言的阶段很类似。
来自中科院自动化所的两支语音团队做起了科大讯飞和云知声两个公司的语音识别系统,是国内智能家具、智能硬件的主要语音识别接口提供方。几年下来,两家公司发现最大的市场是在教育行业:特定场景(安静)、特定需求(固定的问答)下,语音识别和问答准确度符合要求。
另一家才华侧漏的公司“出门问问”,前谷歌工程师李志飞带队创业,为消费者提供语音问答的生活服务。近期该公司推出了一款智能手表[智能手表还是中文智能手表系统,查证],借助人和手表的互动来完成闭环服务。更多的智能语音硬件公司,也使用底层技术公司的技术接口,开发办公室、餐厅或者家庭的服务/陪伴机器人,他们的创业刚开始,着重于产品功能和应用的创新。在语音识别、理解用户意图的技术解决方案里,他们都面临巨大挑战。
让机器说人话是终极梦想,但在这个梦想实现以前,机器依然有很大机会帮助我们把手头的工作干得更好。
本文作者邹剑宇为商鹊网联合创始人、首席执行官。