大家可能会经历这样一个情况,在朋友圈里看到了一篇非常好的文章,当时没有点收藏,几个月之后突然要找那篇文章,翻了很多朋友圈的文章没有找到。搜狗的微信搜索就是围绕用户的这一痛点而建立的搜索平台。
用户需求产生的意义
什么是微信搜索?它既不是搜索微信好友,也不是去搜索朋友圈内容的,它主要搜索的是微信公众帐号以及公众帐号的文章。包括 PC 端和无线端两个终端的服务。
目前搜狗的微信搜索主要提供了公众号搜索和文章搜索两个功能。在 PC 端搜索上,搜狗搜索为用户提供了扫码一键关注的功能。公众帐号最近发表的文章也会展示在搜索结果页上。
当用户点击这个公众帐号之后,会进入到公众帐号的详情页,其中除了会把公众帐号认证的信息、简介的信息呈现之外,还会把公众帐号所有历史上发布的文章展示出来。
文章搜索就会更加简单一些,跟网页搜索和新闻搜索的展现样式是比较类似的。
微信公众平台对于搜索而言,究竟意味着用户可以从微信公众平台里面 580 多万公众帐号中的 1.4 亿篇优质文章获取内容,这些文章会以每天大概 70 万篇快速的增长速度增长着。
这些公众帐号里,不乏对各个专业、行业,比较专业的意见领袖或者自媒体人士,使得这些文章会有很深刻的解读性和理解。这些对用户而言,用户可以从中获得更广泛、更深度、更有观点性的内容。
反过来,搜狗微信搜索对微信而言,也有一定的意义。首先,搜狗微信搜索的上线,其实是使微信公众平台从一个半封闭的生态圈转向了开放。这意味着意味着微信公众帐号以及微信文章的曝光量获得了极大的提升。
搜狗微信搜索同样为公众帐号打击盗版、保护原创提供了一个工具。由于搜狗平台的存在,盗版内容的生产者,也不会再那么明目张胆的抄袭了。
搜索背后的排序
其实搜索引擎的排序,无非跟相关性、时效性、权威性等等因素相关,公众帐号的排序具有搜索引擎网页通用的指标,但它也有自己鲜明的特点。
公众账号的排序
首先我们考虑的是文本的相关性,在公众号搜索里面,如果公众帐号的名称和用户搜索的内容精准匹配我们会考虑往前排。
同时我们也会考虑权威性,搜狗的微信搜索中认证过的帐号排序肯定会排在非认证帐号之前。
除了上面两点之外,还需要考虑一些热门性的因素,包括公众号的粉丝数,公众帐号发表文章的阅读量、转发率,这些因素从一定程度上能够反映出来,这个公众帐号受关注的程度,以及它的活跃度。上面这些是说,我们目前为止在线上可能用到的一些公众帐号排序因素。
后续我们会考虑增加另外一些因素,来优化排序效果。包括,我们会计算这个公众帐号的分类和发表文章的分类是否对应。再往后,也不排除我们会针对不同类别的查询给出不同排序的策略。
公众账号的显示
对于公众帐号的搜索结果在网页搜索结果里展示,首先要判断用户的查询是否需要展示公众号的结果,这就涉及到用户查询意图的分析。
然后我们会根据微信公众号结果返回的认证号数目以及精准匹配的数量,去确定我们以哪种形式展现,是展现多条还是展现单条结果。确定了如何展现之后,接下来就是展现位置。
首先还是要分析用户的查询意图,看用户的需求是找一个机构还是找一个名人,还是说我其实是一个泛类别的需求。
同时,我们也会参考微信返回的搜索结果效果,看一下返回结果里认证帐号的数目,精准匹配的数目,文本的相关程度等等。网页搜索里面其它搜索结果的排序,也会对我们公众号的排序起到一定的影响作用。
综合以上这些因素,我们最终确定了一个公众帐号在网页搜索里初始排序的位置,后续它还会参与网页搜索点击调权的情况。
文章搜索的排序
文章搜索排序,它更类似于搜索引擎网页搜索的排序。包括我们之前提到的相关性、权威性、时效性、热门性这些纬度的指标。在文章排序里面,会有一个指标是比较重要的,或者说反映了我们对微信运营者尊重的,那就是原创性。
我们目前做这种原创性识别还是比较简单的方式,微信的文章里面会有这么两类文章:一类是以文本为主的,对于这一类文章我们首先会基于这样的文章做文章特征的抽取,根据抽取文章特征做相似度的判断,然后我们会把相似度高的文章进行聚类,然后去寻找里面发表时间最早的那篇。
我们知道,在微信里面并不是都是这种文本的文章,还可以看到这种图片为主的文章,这类文章文本的信息量非常少,有的可能只是纯图片的,还有很多都是 Gif 图。
这种情况该怎么解决呢?其实开始之前的短片里面也介绍了搜狗识图技术,那么在这里也会引入搜狗识图搜索图片的相似度,判断两篇文章是否是相似的或者是否是重复的。
其实,我们线上对原创的识别做的还不是很理想,但是原创识别这块工作一定会作为我们未来非常非常重点的工作来开展。其实不仅仅是原创识别,文章和公众帐号排序的效果,还有待我们持续的优化。
除了这些基础的搜索品质优化和改善之外,我们也会思考,搜狗的微信搜索对于用户而言,对于微信的公众帐号或公众平台而言,它的作用到底是什么呢?是不是就是我之前提到的那几点呢?
用户希望搜索到什么
对于公众帐号而言,用户最在意的指标,无非就是粉丝数、阅读量、转发数这些很 Kpi 的指标,其实这些指标说到底就是一个公众帐号的影响力。另外,微信公众帐号的运营,需要很好的推广平台。
在真实的微信搜索里,用户的真实需求是什么呢?我们发现,以下三类查询会比较突出:首先第一类是和时令相关的,像中秋啊、开学啊、教师节啊、九月啊、秋季养 生这些搜索比例比较高。第二类是和用户兴趣比较相关的,摄影啊、旅游啊、装修啊,里面还隐藏着一类有商业价值的查询,这个量也比较大。