随着自然语言处理技术的发展,计算器对文字对处理能力也达到了一个新的层次。本文中,笔者将为我们解答:自然语言处理究竟拥有什么“能力”,结合具体应用场景能做哪些事儿?技术边界在哪?
一、词法分析
基于大数据和用户行为的分词后,对词性进行标注、命名实体识别,消除歧义 。
识别文本中具有特定意义的实体,主要包括:人名、地名、职位名、产品名词等。
实体识别是信息提取、问答系统、句法分析、机器翻译等应用领域的重要基础工具,作为结构化信息提取的重要步骤。
应用场景:各大手机厂商语音助手
以分词和词性标注为基础,分析语音命令中的关键名词、动词、数量、时间等,快速理解用户命令的含义,迅速反馈提高用户体验。
二、文本分类
对文章按照内容类型(体育、教育、财经、社会、军事等等)进行自动分类,为文章聚类、文本内容分析等应用提供基础支持。
文章分类对文章内容进行深度分析,输出文章的主题一级分类、主题二级分类,在个性化推荐、文章聚合、文本内容分析等场景具有广泛的应用价值。
三、文本纠错
识别文本中有错误的片段,进行错误提示并给出正确的建议文本内容,在搜索引擎、语音识别、内容审查等功能更好运行的基础模块之一,文本纠错能显著提高这些场景下的语义准确性和用户体验。
应用场景:写作类平台
在内容写作平台上内嵌纠错模块,可在作者写作时自动检查并提示错别字情况。从而降低因疏忽导致的错误表述,有效提升作者的文章写作质量,同时给用户更好的阅读体验
四、获取摘要
实现文本内容精简提炼,从长篇的文章中自动提取关键句和关键段落,构成摘要内容,进而生成指定长度的新闻摘要。
应用场景:
(1)智能写作
通过对大量的新闻文本进行语义分析和快速摘要,可以快速形成热点汇总类、新闻聚合类、事件盘点类的新闻稿件,进行自动写作和辅助写作,提升新闻生产效率。
(2)语音播报
语音播报场景往往有严格的字数要求,新闻摘要能够自动生成符合字数规范且表达通顺的信息,在提升用户体验的同时,也提升了播报效率。
五、情感分析
能够对文本信息进行“情感”上的正向、负向及中性进行评价。
情感分析一般根据不同行业语料进行标注,根据不同的模型获得最佳的情感判断准确率。
应用场景:
(1)评论分析与决策
通过对产品多维度评论观点进行倾向性分析,可帮助商家进行产品分析,辅助用户进行消费决策。
(2)评论分类
通过对评论进行情感倾向性分析,将不同用户对同一事件或对象的评论内容按情感极性予以分类展示。
(3)舆情监控
通过对需要舆情监控的实时文字数据流进行情感倾向性分析,把握用户对热点信息的情感倾向性变化。
六、关键词提取
对文本信息进行核心关键词分析,是内容推荐算法的核心。实施手段之一是根据分词后某个词在文章中的出现次数越多,权重越高,但是,在每篇文章中,往往出现次数最多是“的”“是”“在”等等,这些词称为“停用词”,表示对结果毫无用处,必须过滤掉的词。
另外,在其他有实际意义的词中,又会遇到一些问题。
比如:在《中国蜜蜂养殖》这篇文章中,“中国”“蜜蜂”“养殖”三个词出现的次数一样多,但很显然,我们更想要的标签是后面两个词。
应用场景:
(1)各大内容分发平台——基于内容推荐算法
通过对文章的关键词计算再结合用户行为特征两者之间就能进行匹配和推荐,进而实现精准内容推荐。
(2)话题聚合
根据文章计算的关键词权重,聚合相同标签的文章,便于用户对同一话题的文章进行全方位的信息阅读。
七、文本审核
判断一段文本内容是否符合网络发文规范,识别文本中是否包含违禁类型里面的关键字/词,能够实现自动化、智能化的文本审核,大幅节省内容审核的人力成本。
应用场景:
(1)用户信息审核
对网站的注册信息进行检测,过滤筛查用户提交注册的用户名或网名昵称,避免通过用户名的方式恶意推广。
(2)用户评论监控
对网站用户的评论信息检测,一旦发现用户提交恶意垃圾内容,可以做到文本的自动审核与过滤,保证产品良好用户体验
(3)文章内容审核
媒体文章的文本内容审核,自动识别文章中可能存在的推广、反动、色情信息,避免已发布文章的线上风险
八、人与人工智能
“我们把香蕉给猴子,因为它们饿了”和“我们把香蕉给猴子,因为它们熟透了”有同样的结构。
但是代词“它们”在第一句中指的是“猴子”;在第二句中指的是“香蕉”。
如果不了解猴子和香蕉的属性,无法区分,这就是电脑只能处理“字符串”,而人可以解决“意义”。