深度学习、机器学习、AlphaGo、神经网络等等这些概念铺天盖地。Google不是搜索引擎吗?这些东西和搜索,和SEO有什么关系?说说我的理解。
先声明一下,下面涉及的深度学习等概念,很可能我的理解和表述是非常粗浅的,甚至是错误的。虽然我也是理工出身的,所学专业听起来还挺艰深,微波与电磁场,但那是25年前的事啦。现在看技术内容只能稀里糊涂了解个大概了。想了解准确细节的读者,还是网上搜一下比较保险。
什么是深度学习?
深度学习(deep learning)是机器学习的(machine learning)一个分支领域。
多层人工神经网络(artificial neural networks)模拟接近了人脑处理信息时从低层到高层不断抽象化的过程。深度学习正是将低层特征分层抽象化为高层特征表达,原来的目的就是模拟多层神经网络。神经网络研究几十年了,沉寂了一段时间,近几年深度学习才又挖掘出其潜力。
深度学习的一个重要特点是,它不需要人工输入或标注特征,而是通过海量数据自动学习特征,也就是所谓无监督学习(unsupervised learning)。所以大数据和深度学习也搅合在一起。
深度学习另一个特点是与具体领域无关(domain independent),既可以用在围棋,也可以用在搜索或其他方面。所以才会有这篇帖子。
Google、Facebook、百度在深度学习领域都有很多进展,尤其是在人脸识别、图像识别、语音识别、翻译等方面。这方面报道挺多的。
深度学习用在搜索引擎上是个什么情况?
以前经典的搜索排名算法是由工程师选择用哪些页面特征(也就是排名因素)来排名,各个特征占多少权重,这些都是工程师决定并写在程序里的,然后测试效果,再修正。
以深度学习为基础的排名算法完全不是这么个过程。深度学习的方法是,用大量数据对程序进行训练,由程序自己学习应该用哪些特征来排名。换句话说,告诉深度学习排名算法,这些已知页面是高质量的,那些已知页面是低质量的,那到底高质量页面应该有什么特征呢?也就是面对新页面时该用哪些特征来排名?各种特征占多大比重?让算法自己琢磨去。
这些学习数据哪里来的?两个明显的来源可能是:
1)Google现有经典算法做测试时的数据。搜索引擎正式上线新算法前都会做测试的,给部分用户返回新算法结果,然后监测点击率、跳出率、停留时间、页面互动性、转化率、变换查询词率等数据,以判断新算法有效性。
2)Google有不少人工质量评估员,而且老早就有,他们会评测特定页面是高质量还是低质量。这些评估数据不直接影响所评估页面的排名,但会显示出算法有效性。这些数据简直就是现成的深度学习训练数据。去年11月Google刚刚公开了最新版本的人工质量评估指南,建议大家下载来看看。
现在问题来了,这种方法靠谱吗?
如前所述,深度学习算法就是个黑箱啊,完全不用人工告诉它找什么特征,而是它自己学习该找什么特征,会找出什么特征谁也不知道,有些特征可能人类压根儿不会想到。很可能以后搜索引擎工程师也不知道排名因素有哪些了,也不知道一个页面为什么会有好的排名。再想一遍:连搜索引擎工程师也不知道排名因素是什么。这和我们的常识、直觉是不是都有相当冲突了呢?
这么整,能行吗?
事实恰恰表明,能行。AlphaGo能战胜围棋职业二段,乍看起来,职业二段离人类顶尖高手还有很大差距。可换个角度想,这世界上能达到职业二段的人类有几个?记得前些天看报道,能赢职业二段的人类不超过1千个。
这种水平,可以快乐地完虐我们几十亿人。我打了5,6年羽毛球,我前几天刚刚9岁的女儿,在经过4个月每周一次的业余训练后,我要赢她必须很认真费劲了。这只是新加坡,只是一个业余教练,每周两个小时,我无法想象,我们普通爱好者与职业水平的差距那是有多大。
站长、SEO们,少说这世界上大概得有个几百万吧?所以我们就是普通人。现在告诉我们,判断我们页面质量的算法,其判断力目前是所有人类的前1千名,年底可能是所有人类前10名。这是什么感觉?这是有点绝望的感觉--就别想着钻空子啦。
也许熊猫更新或企鹅更新就用了深度学习?(2016年10月更新:Google否认企鹅更新使用了人工智能或深度学习)
深度学习真的有这么厉害吗?
其实深度学习近两年已经取得不少以前不敢想象的成就。
2012年,Google Brain项目使用大量图片对神经网络进行训练,系统经过训练后能辨别出:这是一只猫。重要的是,没有输入猫长什么样这类信息,是系统自己“领悟”了猫这个概念。
2015年,深度学习算法的人脸识别率达到了99.47%,甚至超过了人眼。
AlphaGo将在3月份挑战韩国九段、世界冠军李世石。虽然我基本不懂围棋,但乐观预测一下吧,我觉得AlphaGo会赢。原因是,半年过去了,AlphaGo的训练量又增加了几千万局棋谱,其棋力的增长不是线性的啊。
深度学习对SEO意味着什么?
就我个人来说,深度学习对SEO的影响目前还不明朗,还需要一段时间观察、思考。以后有想法了再来交流。现在需要做好心理准备,搜索引擎判断页面质量的准确度可能会有质的飞跃,钻空子的难度将大大提高。
估计还是有做中文SEO的心里在问,这对百度SEO有卵用啊?多写写百度啊?那么请思考百度为什么花大价钱成立百度深度学习研究院?肯定不是闲的了。百度把深度学习领域最牛的人物之一、Google Brain项目创建人吴恩达都给挖来了。这个吴恩达高中还是在新加坡上的呢,莱佛士书院,第一名校。这里有吴恩达讲机器学习的近20小时的线上教程。有互联网真好,不然怎么能轻易看到、听到大师亲自讲课。
最后来点阴谋论。就在今天,Google搜索的最高负责人,Amit Singhal,辞职了。几年前,他对排名算法中使用机器学习是有些排斥的。接替他的是谁呢?John Giannandrea,原Google人工智能部门的负责人。难道由工程师设计规则的算法已成过去,以深度学习为代表的人工智能算法要全面登上舞台了?