中国智能语音语义产业主要涉及哪些技术?技术发展水平如何?存在哪些问题?有哪些应用领域、玩家和商业模式?行业格局和未来发展趋势又将如何呢?本文将一一解答。
语音识别作为人工智能发展最早、且率先商业化的技术,近几年来随着深度学习技术的突破,识别准确率大幅提升,带动了一波产业热潮。继科大讯飞、捷通华声之后,行业内又涌现出思必驰、云知声、出门问问等后起之秀,在教育、客服、电信等传统行业之外,开辟出了车载、家居、医疗、智能硬件等语音技术应用新天地。
与此同时,自然语言处理(NLP)作为人机交互技术的重要一环,也为此提供了助力。Siri的推出打开了语音交互的先河,不仅催生了一批语音语义创业公司,还激发了百度、搜狗等大型互联网公司在语音语义技术上的投入。
由于NLP和语义理解技术能够让机器理解人的意图和需求,并把相应内容反馈给用户,因此在客服行业得到了广泛应用,有效降低了人力成本,提高了企业运营效率。
那么,中国智能语音产业主要涉及哪些技术?技术发展水平如何?存在哪些问题?有哪些应用领域、玩家和商业模式?行业格局和未来发展趋势又将如何呢?本文将为您一一解答。
一、技术篇:语音识别和NLP技术仍不成熟
智能语音语义包含语音合成、语音识别和自然语言处理(NLP)三项主要技术。
语音合成技术发展最早,应用已较为普遍,除了合成音仍偏机械之外,基本不存在太大技术问题;语音识别在2012年卷积神经网络(CNN)应用之后,准确率大幅提升,已经在C端、B端得到了广泛应用,但效果和体验还不够理想;NLP技术虽然在搜索引擎中早有应用,但在人机交互领域仍属于浅层处理。
语音识别“鲁棒性“问题显著
在生物学中,有个术语叫做“鲁棒性”,是指系统在扰动或不确定的情况下,仍能保持它的特征行为。这一问题在语音识别领域也存在。
语音识别整个过程包含语音信号处理、静音切除、声学特征提取、模式匹配等多个环节。由于语音信号的多样性和复杂性,系统只能在一定限制条件下才能获得满意效果。在真实使用场景中,考虑到远场、方言、噪音、断句等问题,准确率会大打折扣。目前业内普遍宣称的97%识别准确率,更多的是人工测评结果,只在安静室内的进场识别中才能实现。
要解决语音识别鲁棒性问题,需要在技术和产品两方面进行优化。一方面,在语音增强、麦克风阵列以及说话人分离等多项技术领域持续投入,并结合后端语义,促进对上下文的理解,从而提升识别效果;另一方面,需要从产品设计上进行优化,比如通过进一步交互,使语音识别变得更为准确。
语义分析仍是浅层处理
NLP技术大致包含三个层面:词法分析、句法分析、语义分析,三者之间既递进又相互包含。
图:NLP分析技术
词义消歧是NLP技术的最大瓶颈。机器在切词、标注词性、并识别完后,需要对各个词语进行理解。由于语言中往往一词多义,人在理解时会基于已有知识储备和上下文环境,但机器很难做到。虽然系统会对句子做句法分析,可以在一定程度上帮助机器理解词义和语义,但实际情况并不理想。
目前,机器对句子的理解还只能做到语义角色标注层面,即标出句中的句子成分和主被动关系等,它属于比较成熟的浅层语义分析技术。未来要让机器更好地理解人类语言,并实现自然交互,还是需要依赖深度学习技术,通过大规模的数据训练,让机器不断学习。当然,在实际应用领域中,也可以通过产品设计来减少较为模糊的问答内容,以提升用户体验。
由于人工智能技术对数据依赖性极高,因此,这一领域的技术进步和产业化推进是一种协同关系——通过工程化的方法提升技术效果和体验,从而促进产业化应用,再根据实际应用中的数据和反馈,反过来推动技术实现突破。那么,智能语音语义在产业化方面都有哪些应用领域,又存在哪些问题?
二、应用篇:C端提升体验,B端提升效率
以问答和聊天为服务形式,智能语音语义在多个使用场景和行业领域都有广泛应用,我们可以简单从C端和B端两个方向分别来看。
图:语音识别/NLP技术应用领域
C端应用方面,主要用于移动设备、汽车、家居三大场景,用来变革原有人机交互方式;B端则针对垂直行业需求,提升人工效率,比如帮助医生做电子病历录入,或代替部分人力工作,比如回答大部分简单重复的客服问题。由于两大领域解决的问题不同,因此遇到的挑战也各不相同。
C端应用:变革交互方式,需求和体验是关键
智能语音为C端提供了一种全新的交互方式,但应用和普及又跟具体场景和需求挂钩。目前,三大场景中,移动设备中的智能手机,以及车内语音交互应用最为广泛。家居领域中,虽然各种家电企业也在广泛布局,但实际使用情况并不理想。
移动设备
智能语音语义在智能手机和可穿戴设备中的应用不尽相同。可穿戴设备虽然没有屏幕或屏幕较小,更适合语音交互,但大多(比如智能手表)都是非生活必需品,本身销量就很有限,再加上一些可穿戴设备并没有太多交互需求,因此实际应用量较少。
智能手机中的各类应用软件大多都配备了语音功能,但相比触摸和文字交互,使用率也不算高。很多人仍然没有经常使用语音的习惯,或者还没有使用语音的意识。究其原因,主要由于语音交互在效果和效率上都不够理想。
从效果上看,语音在开放场景下识别准确率并不高。对于用户来讲,结果不可预期,产生错误后纠错成本很高,所以宁愿打字。再者,用户在手机端对于打字和触摸已经非常习惯,因此缺乏改变习惯的动力。
从效率上看,语音在智能手机和各类软件上的应用主要以输入、搜索和调取服务为主,输入信息量并不大,而且大多移动应用都是基于触摸和文字做的交互设计,有文字推荐、按键选择等友好设置,因此原有交互方式本身已经非常便捷,语音交互效果不好,容易出错,并不能很好地提升效率。
目前,除了重度文字使用者,比如作家、记者、编辑等,对语音输入和转化有着刚性需求,其他人使用语音更多还是在无法打字或不方便触摸时,比如走路、开车等情况下。不过,随着语音识别和交互体验不断提升,会有越来越多的人在移动端使用语音。
汽车
由于人在车内双手和双眼被占用,而需求又十分明确,因此智能语音成了这一场景下最合适的交互方式。
智能语音在车内的应用主要以车载导航为主,辅以查询和用车。对于业界热炒的“以语音为入口连接各种服务,从而构建车联网生态”的畅想,目前看来还距离较远。核心困难在于,整个行业尚未找到车内场景下用户的刚性、高频需求。或许等到自动驾驶汽车普及之后,人的双手双眼以及大脑解放出来,才有条件搭建包含各种服务的车内生态。
对于涉足汽车领域的语音企业来说,当前最重要的是,把导航等刚性需求的体验做到位,再去考虑如何延伸服务。
家居
在家居场景下,智能语音应用主要围绕智能电视、音箱、家用机器人展开,解决的需求包括搜片、听歌、提醒、简单交互、应用调取等。
亚马逊Echo面世,带动了语音交互在家居领域应用的热潮。从2014年下半年至今,Alexa平台应用数从最初20多个增加到7000多个,并在过去半年内以每月1000个左右的速度增加。据CIRP报告估计,截止2016年11月,Echo累计销量超过510万台,2016年Q1-Q3共销售约200万台,较前三季度增长18%(2015Q2-Q4数据来源于Mary Meeker《2016互联网趋势报告》)。
图:亚马逊Echo销量估计,来源:MaryMeeker, 2016 Internet Trends Report
家居环境的天然特性使得语音成为最合适的交互方式,类似于Echo Alexa这样的平台将吸引越来越多的应用,不断丰富其产品功能,完整智能家居生态环境。随着用户习惯不断养成,这样的“智能家居控制中心”和“流量入口”有望快速普及,成为iPhone级爆款。不过,由于语音是一种全新的交互方式,除了技术所需的提升,各类应用在开发设计时还将面临用户体验和价值考量等全新挑战。
除了音箱、台灯等小家电智能产品,家用机器人也成了创业者争相押注的对象。拟生物形态智能产品的火热某种程度上承载着人类对于机器人的美好愿望,但创业者还是要从价值和实用性角度考量其产品形态的设计逻辑。最终哪种形态的智能产品会“笑到最后”,还得市场说了算,但语音会成为家居交互主流这一点,已经毋庸置疑。
值得一提的是,一些传统家电,如空调、冰箱、洗衣机、抽油烟机等,也开始配备语音交互功能,事实上并不理性。无论是控制开关、调节设置,还是对话沟通,从现有技术水平所能解决的需求和效率来看,都价值有限,或许等到语音交互成本下降,效率提升,才有可能在各种家电终端上普及。不过更多行业人士倾向于认为,智能家电的语音控制要么通过一个中枢设备来进行,要么通过房屋前装分体式设计来实现。
除了以上三大领域,商用服务机器人的逐渐成熟,有望为语音语义在商场、医院等各类服务场所开辟新的应用领地,点餐机、订票机等传统形态服务设备也将会以语音这种全新的交互方式服务大众,市场之广阔,可想而知。
B端应用:提升效率、解放人力,深耕垂直行业是根本
智能语音语义在B端的应用主要集中于客服、教育、医疗、旅游等领域。
客服
客服作为劳动密集型行业,对于一些大公司来说,成本依然很高。智能机器人客服的出现可以在很大程度上解决简单、重复性工作,帮助企业节省人工和坐席成本,提升运营效率。
由于客服问题主要聚焦在特定产品或单一垂直领域,因此需要企业拥有完整的结构化知识库,帮助机器人更好地查询和匹配问答内容。目前,按照行业平均水平,机器人客服可以解决70%左右问题,其余由人工处理。
机器人客服是主要战场。从成立较早的智臻智能(小i机器人)、捷通华声,到后来的图灵机器人、智齿科技、蓦然认知,以及从云客服转型智能客服的UDesk等,都希望在智能客服市场分得一杯羹。
金融、电信、航空公司等大型客户成了智能客服的主要应用群体。要更好地满足这些群体的需求,各家公司需要针对不同行业对算法和技术做相应的改进和优化,在实际应用中,用更大的数据量去提升产品体验和效果。
教育
教育领域,包括中英文口语评测,以及部分教育机器人的交互功能。科大讯飞作为智能语音和教育市场的龙头企业,通过为一些全国性考试提供技术支持,已经成为中英文口语测评方面的主要玩家。2016年底,科大讯飞与新东方联合成立东方讯飞,用新东方的数据+讯飞的技术,推动教育、培训、学习的智能化进程,智能语音测评技术有望在其中发挥重要作用。
在讯飞的广泛布局之下,脱胎于老牌语音公司思必驰,后被网龙(HK 00777)全资收购的驰声科技,也通过2B2C的模式,在培训、出版、考试服务、教育软硬件等领域持续发力,欲通过中高考口语考试解决方案、人机英语对话模拟考辅系统打入学校市场。
体制之外,以英语流利说为代表的口语评测应用也广受C端用户好评。依靠四年时间积累的3000万用户数据、500万小时练习录音,流利说于2016年推出可替代口语老师的自适应移动英语课堂“懂你英语”,加上辅助在线答疑及外教上课,有望领先一步实现自适应口语学习的商业化落地。
智能语音在教育领域的价值,一方面在于提高教师工作效率,另一方面在于帮助学生提升学习效果。通过大量语音数据的积累,并和后端大数据分析、机器学习相结合,智能语音有望在机器辅助学习和自适应学习方面发挥重大作用,为教育行业带来颠覆性变革。
医疗
医疗领域的应用目前主要是电子病历录入。医生在临床诊断时使用专业麦克风,可将诊断信息实时转化成文字,录入医院HIS(Hospital Information System)系统,方便后续查询和问答,提高医生工作效率。
由于专业性强、识别难度高,国外语音巨头Nuance最早主要是通过后台人工转写,而随着语音识别技术有了突破性进展,国内智能语音在国内医疗领域的应用也开始起步,讯飞和云知声是该领域典型代表。
讯飞正在和安徽省立医院、上交大附属第六医院南院以及北大口腔医院等合作,让医生使用定制麦克风,通过定向和降噪,先将语音转成文字,再用NLP技术对文字进行结构化处理(比如分段),医生只需再做简单修改即可形成电子病历。此外,讯飞还在医疗影像翻译、医疗大数据分析方面展开布局,欲将AI技术广泛用于智慧医疗领域。
云知声的智能医疗语音录入系统也已经在协和医院、西京医院上线。同时,其医疗语音技术还上线了“平安好医生”20多个科室,让医生通过语音方式,更便捷地与患者进行线上沟通。
当前,语音在医疗领域的应用还处于语音转文字的初级阶段,在实际使用中的部分识别错误还需要医生手动修改。不过,以语音为入口所积累的大量医疗数据会在未来产生巨大价值。此外,随着医疗技术和语音分析技术的进步,通过声音诊断病情也将成为可能。南加州大学已经开发出一套新的机器学习工具,可以通过患者的特定语音特征,辅助医生诊断抑郁症等心理疾病。
金融
由于金融行业带有明显的客户服务属性,加上完整而庞大的业务及数据积累,因此成为智能语音语义的重要应用阵地。当前,一些商业银行已经通过使用语音识别技术,实现了语音导航、语音交易、业务办理等基础服务。
除了在线客服和呼叫中心,智能语音技术还被应用于语音/语义分析、大数据挖掘、身份认证等领域。捷通华声的智能语音分析系统就通过将语音数据转化为文本,而后建立语义索引、自动提取特征关键词,再对文本数据进行自动分类,生成结构化的客服大数据,为银行等金融机构提供客服质检、大数据挖掘与分析服务。
此外,随着声纹识别技术的进步,智能语音也将被应用于金融领域的身份认证,通过语音认证实现业务办理、支付等功能,未来有望和指纹、虹膜、人脸等其他生物特征识别方式一起使用。
除了上述四大领域,智能语音语义技术也逐渐渗透到安防、旅游、法律等行业,在效率效果提升、解放人力等方面发挥越来越重要的作用。
三、业务模式及行业格局篇:巨头优势明显,创业公司垂直突围
从业务和规模来看,语音语义类公司大致可分为三类:大型互联网公司、行业技术巨头、创业公司。
大型互联网公司
由于NLP是搜索引擎的关键技术之一,因此百度、搜狗自然而然地成为头号玩家。两家公司依托其强大的搜索引擎和输入法应用,不仅将语音技术用于自身产品,还通过与行业其他技术和产品提供方合作,推出面向C端的产品和应用。比如,搜狗联合四维图新、飞歌等,推出全语音交互的车载导航产品,百度度秘携手小鱼在家,推出Duer OS以及家用视频对讲机器人。
由于互联网公司擅长直接服务用户,因此不会轻易涉足教育、金融等传统垂直行业,而是会把重心放在消费类产品和应用上,其模式主要包括2C和2B2C两种,最终都会落地到消费领域。
技术巨头
技术类公司中,科大讯飞一直以来都是做2B业务,向教育、电信、客服、政府等垂直行业输出语音合成和识别技术,经过十多年积累,讯飞已经积累了相当大的市场份额。近两年,讯飞一方面在智能车载、智能家居、智能机器人等新兴市场加大布局,另一方面也在努力向消费端倾斜,通过讯飞语音输入法、录音宝等产品打入C端市场,逐渐加强品牌认知度。因此,其商业模式既有2B、2C,也有2B2C。
技术类创业公司
其他技术类创业公司大多以2B或2B2C为主。比如,云知声的智能医疗业务完全2B,而智能车载和智能家居则是2B2C。值得注意的是,出门问问作为一家拥有智能语音语义技术的公司,独树一帜地选择了2C模式,通过智能手表、智能后视镜以及智能语音助手等产品和应用,直接切入消费级市场。
NLP技术公司也包括2C和2B两种模式。语音助手和聊天机器人等2C产品,无论是技术还是产品都不成熟,因此并不适合创业公司做。图灵机器人从最早的虫洞语音助手,转型到2B的语义平台和操作系统,也说明了这一问题。聊天机器人由于使用场景和需求尚不明确,目前仍是微软等大公司在探索和尝试。相较2C,2B对于创业公司来说是一条更现实的路,可以在技术发展早期段弥补产业薄弱环节。
整体格局
截止当前,在智能语音语义领域,除了讯飞拥有多年技术积累,在某些前沿技术上处于领先水平,其他互联网公司和创业公司在技术上并没有本质差别,技术本身已经不足以成为其核心竞争力,大多公司很难单纯依赖技术建立成熟可靠的商业模式。
要想更好地实现商业化,这些公司只能通过往上下游延伸来创造价值。上游可以把语音和搜索引擎结合起来,为垂直行业提供内容和服务,下游可以把语音和硬件产品相结合,依靠产品销售实现营收。哪怕是讯飞这样拥有前沿技术的大公司,也在向垂直行业和产品延伸,来挖掘新的利润增长点。
教育、金融、客服等领域需要和行业进行高度定制,大型互联网公司不会轻易涉足,因此会成为技术类公司的主要阵地。但是在智能车载、智能家居、智能机器人等2B2C甚至2C的领域,技术类创业公司则要面对互联网公司的直接竞争。因为,互联网企业具有天然的C端优势。
首先,无论是通过自有2C产品,还是借助合作,大型互联网公司依靠其庞大的用户量、大量真实场景下的数据积累、以及背后强大的搜索引擎和完整的知识库,可以极大提高语音识别在真实环境下的识别准确率,以及语义分析和理解能力。
其次,互联网公司拥有丰富的C端产品经验,加上对用户消费数据的迭代,能够更好地提升产品体验。对于体验至关重要的消费端,一旦产品或应用形成良好的行业口碑,快速的走量也会水到渠成。
当然,巨头的优势并不能阻挡创业公司的成长机会,通过深耕垂直领域和细分赛道,实现自我造血和快速成长,创业公司也有机会在这一新兴产业中逐渐做大。接下来,随着语音识别和NLP技术的逐步成熟,智能汽车、智能家居、智能机器人产业的日渐完善,定会有一批优秀的技术类公司在智能语音产业的浪潮中顺势而起。