数据采集大作业-(1)基于豆瓣影评的文本分析---以《流浪地球》为例
作者:付悦、冯园园
指导教师:王文武
单位:曲阜师范大学 统计学院
随着web2.0的出现,我国网民数量越来越多,随之而来的是大量数据的产生。人们在网络上发表的意见、看法,对我们的生活有着一定的影响。同时,也促使文本挖掘的发展。如今,评论分析是研究的一大热门,产品评论根据产品类型区分为搜索型(以电子产品为代表)与体验型(以电影图书为代表)两类评论,其中前者关注产品特点,偏向使用客观指标描述,而后者关注用户参与感受,偏向主观感知描述,含有大量个人感受及体验的描述,情感内容丰富。
本文以豆瓣影评为分析对象。首先,针对评论数据建立分词词典与停用词词典;然后,利用自然语言处理技术对评论进行文本预处理;最后,利用向量空间模型将文本转化为词频矩阵形式,将非结构化的文本数据转化为传统的数值结构。为挖掘出观众对电影的评价观点,对评论文本进行分词并按词频降序排列,抽取出评论中的高频词,筛选出其中电影特征属性。评论中抽取出的特征属性即为观众重点关注的方面以及评价观点。为了实现对评论的主题分类,本文使用LDA主题模型,对评论构建主题。
冯园园、付悦---基于豆瓣影评的文本分析.pdf