关于语音输出的胡思乱想：语音记录的弊端和发展构想_评测_建站

随着互联网在生活中逐步渗透，更多元的交互模式已经从幻想中走了出来，出现在了生活中。听觉相较于视觉而言，是一种更利于交流的方式。在一番清空大脑的思考后，胡乱分析了语音交互所带来的问题与发展。

语音行业类型分析

我们要了解语音，就需要结合当下的发展趋势去看，一个交互的手段当然不是我们所需求的最终目的，用户所需求的是手段所实现的终端是否有价值，所谓价值也就是：

是否提高了生活工作中的效率；

是否降低了用户达到目的的成本；

是否提升了用户的体验。

那么简单想想，语音出现的价值是满足任一条件的，当然，目前语音的发展还很初级，与技术与环境的关系密不可分，而所谓的语音产品也可以大致分为三类：

工具：科大讯飞、siri、Google now等

社交：啪啪、比邻等

内容：喜马拉雅、荔枝、蜻蜓等

在对比之下，仅仅是内容行业的发展迅速，而工具类和社交类并没有形成爆发式的发展，原因可能是多方面的：

工具类的科技技术是高端的，但是呈现形式仅仅停留在技术层面上，或者说仅仅是demo样式，完整的应用并没有实现；

社交类应用的门槛较低，用户范围较广，但大多数用户暂时无法改变图文式社交模式，加上语音本身就是一个信息获取成本较高的方式，所以就造成了用户使用上的反人类行为，不符合直觉。但也有例外，低俗或者说色情等语音是用户愿意违反自身直觉来获取的信息之一，因为信息本身就具备高吸引力，这就造成了语音社交的低俗性；

内容类应用的优势恰好是建立在语音的优势上的，语音的优势：1.比文字更为快捷、方便；2.解放了手眼；3.创造出了伴随性场景；4.声音本身的“成本”是很高的，名人的声音更有代表性。而这四点也是语音内容应用的最大优势。

关于语音行业或者是语音交互的问题，有兴趣的可以去看看《VR还早呢，互联网女皇看好的语音会是大机会吗？》，写得很不错，我也有很多想法来源于其中。

语音记录弊端

最便捷的语音记录是一站式的，即不需要进行任何操作的记录：录音。但是我也提到过，语音本身是获取成本较高的信息，加上语音的分类，辨认，保存上不如文字，所以才会出现语音→文字的转换形式。

市面上的笔记APP大多都支持语音录入，当然，准确率上是有所不同的，准确率最高的肯定是讯飞所做的讯飞语记讯飞在语音上的准确率与多元化是全球领先的，无论是在语音→文字，还是文字→语音上，都是出色的。

不过，实在不是我鸡蛋里挑骨头，或许英文和中文的语音录入都会碰到一些问题：

语言的低效性和冗余性的基础上，记录会变得更加的繁琐

我需要记录笔记：（1+2+3）*3=？

或许能口述：正括号，一加二加三，反括号，乘以三等于问号，甚至这样的描述都会出现错误。

这完全繁琐了公式，更别说上面这是最为简单的公式了，并且在语言中，需要随时注意切换，比如数字与汉字之间的判断切换，记账时的汉字大小写切换（一与壹）等等。

场景的局限性

语言的描述是不存在保存隐私的，普通人在家的时间大约是12小时，去除7小时睡眠时间。也就说在封闭环境中的时间仅仅为五小时，而存在于发散环境的时间是12小时甚至更多，基本是封闭环境的2倍；这就形成了一个问题，用语音时无法保证隐私的保护；当你在地铁，公司突然灵光一现，看了看身边的人，还是老老实实地打字记录了下来。

随时随地的“尴尬感”

这或许不能成为一个弊端。10年前，家长教育孩子在饭桌上做其他的事是不礼貌的，而现在的家长在饭桌上拍照发朋友圈；10年前，家长会教育孩子在路上看东西对眼睛不好，而现在的家长在路上刷着微博，看着小说。什么改变了？是环境改变了，我想，当语音交互成为了主流，尴尬感也会随之消除。

当然，并不是说语音记录会成为了鸡肋，在封闭条件下，语言还是会代替GUI交互，毕竟因为语音交互的独立性大大简化了生活中的内容。

语音交互问题

真正的交互方式，应该符合人的直觉，即上手就能用。

目前的语音APP无论是在工具端，还是在内容端，都存在不独立的操作，比如之前所说的讯飞语记，在语音输入之后延伸出的更多操作是非语音性质的，也就是修改，保存，查看，删除等，各方面都还是建立在了GUI交互的基础之上，我们排除了“尴尬感”再来建立一个用户场景：

小明是一个骑行爱好者，在户外骑车的过程中偶有感触，想记录一下心中所想：

“嘿，siri,打开讯飞语记”，“开始记录”，“哇！成都的天好蓝呀！”

然后，问题来了，小明需要看看是否写错了，他停下了车，掏出了手机，发现语记忘了重要的感叹号了，那好，修改，保存。

怎么样，是不是觉得在用语音记录的过程中步骤的数量并没有减少？仅仅是记录过程由触控变为了语音？既然是这样，为什么需要语音记录？

人类与其他高智商动物的最大区别不在智商，而在语言，语言诞生的一刻，即成为生物联系的最重要和最有效的方式。

为什么这么说？因为现有人人交互中（不考虑未来会有的脑波人人交互），最有效的就是语言：我渴了，帮忙让人买瓶水；我饿了，帮忙让人买吃的……这些在现在即使有即时社交软件的情况下，还是语言最有效率，这也是为什么我认为语音交互会成为，至少不远的未来会成为主流交互方式。

Amazon echo就是一款相当成功的语音交互产品，无论是从产品设计，还是产品定位来说都是相当的完善。

echo并没有过多的GUI交互设计，按键少，强制性的使用户使用语音交互进行操作；

发散式的喇叭也解决了声音采集所遇到的问题；

家居式的产品定位也避免了语音交互的尴尬感。

那，倒过来再次考虑一下语音记录问题，有什么办法可以解决语音记录的种种劣势和弊端呢？

语音记录发展构想

目前的笔记APP多采用：

GUI交互→语音→GUI交互

伪语音交互所带来的就是一次次的差体验，所以思考一个真正的类echo的语音交互过程才是语音记录的未来。

语音→文字→语音：录入→显示→确认→修改→存储

上面所写的是一个完整的流程记录：即语音录入，文字显示，语音确定，语音修改，自动保存

事实上，这一整套过程中，最难实现的是语音修改过程，如何采用语音来修改已录入的文字，这是难点，也是重点。解决了这个问题，那上面所描述的场景就不会成为困难，因为一系列的过程都是在手机未被打开的情况下所展开的。

当然，我在这儿只是口头上的解释产品的改进，实际的操作上或许也有很多的难点。例如：语言的准确性，机器是否能够理解；修改位置如何确定；显示之后的确定如何定时，是一段之后确定？还是一句之后确定？

总结

总的来说，语音的发展并不完善，但是潜在的用户是存在的，也是大量的。

讯飞在截止今年11月时，用户量已经超过千万，且并没有付费宣传。

单从讯飞的用户增量上来看，语音输出是很多用户的兴趣所在，也是很多用户所需求的。而这些用户提供给了语音交互的发展空间，也提供了语音使用场景的平台，在不久的未来，语音所能带来的或许将和文字的重要性一样，现在，我们只是将小说，笔记有声化；未来，我们或许会把档案，资料有声化。

当然，我的一家之言也仅仅建立在语音交互的发展快于更便捷交互方式的发展前提下，如果语音交互的利用率不能加快速度，那么说再多也是白搭。

至于说语音记录的问题，我想也许再过一两年，作家们就不用痛苦的坐在电脑前进行监狱式码字行为了，能转换为文字的录音笔，这将是对作家或者是需要处理文字的工作者来说最大的福音。那么，解放双手的将是我们的嘴、耳和脑。

快好知 kuaihz

关于语音输出的胡思乱想：语音记录的弊端和发展构想

BOSS直聘APP产品分析报告

巴塞电影产品体验报告

VUE产品分析报告

最新