百度的搜索URL存在着一定的规律和逻辑,下面的链接是我使用百度搜索“标点符”后得到的链接,下面就来一起分析下百度搜索结果URL的秘密。
%E6%A0%87%E7%82%B9%E7%AC%A6&rsv_spt=1&issp=1&rsv_bp=0&ie=utf-8&tn=baiduhome_pg&inputT=2969
URL中的s?表示搜索,&符号起到参数连接符的作用。上述链接涉及到的参数如下:
wd:Keyword,查询的关键词,有时还会是word,比如打开的链接就是word,wd后面的关键词使用gb2312进行编码,如果搜索词中出现空格则使用+号替换;
rsv_spt:识别浏览器,目前测试下来Chrome、FireFox、Safari的为3,IE浏览器为1;
rsv_bp:判断搜索位置:0为从百度首页进入,1为搜索结果顶部搜索,2为搜索结果底部搜索;
ie:InputEncoding,查询关键词的编码,缺省设置为简体中文,即ie=gb2312;
tn:搜索框来源标识,如百度首页的就是baiduhome_ph,hao123站来的sitehao123,遨游浏览器的为tn=myie2dg等。除了百度自身用来数据统计好,此数据还对百度搜索联盟分成起到跟踪作用。tn=baidulocal表示百度站内搜索,返回的结果很干净,无广告干扰;
inputT:搜索响应时间,单位是毫秒;
以上我上面的URL中出现的参数,但是百度的搜索引擎参数远远比上面的还要多。再来看看还有哪些参数:
bs:BeforeSearch,上一次搜索的关键词;百度会记录上一次用户的搜索词是什么;
sr:结合bs使用。一般查询sr=0或者为空值,但sr=1时,查询将结合bs的值一起作为查询的关键字。默认值为0,除0,1外其它值无效。
pn:PageNumber,搜索结果的页码,从零开始计数。即pn=${结果页码-1}*rn;
rn:RecordNumber,搜索结果显示条数,缺省设置rn=10,取值范围:10-100
cl:Class,搜索类型,cl=3为网页搜索,cl=2为图片搜索;
lm:搜索结果的时间限制。以天为单位,例如搜索最近一个月的网页,lm=30.默认值为0,表示没有时间限制;
ct:语言限制。0-所有语言,1-简体中文网页,2-繁体中文网页;其它不确定或者无效或。默认值为0;
q5:搜索内容位置限制。0-所有内容;1-网页标题(相当于使用’title:’查询前缀);2-url(相当于使用’inurl:’查询前缀);其它值等效于0,默认值为0;
q6:搜索内容网站限制。例如q6=,表示只搜索/的网页;相当于使用了’site:前缀’,默认值为空
dq:不建议使用该参数。查询内容来源的地区限制。具体值有百度确定,默认值为空。使用这个参数的效果很差;
oq:相关搜索的主词,例如,搜索“标点符”后点击“标点符号”,出现的相关搜索,用来记录来源词“标点符”,或输入搜索词,输入到一半点推荐关键词的那个词,两个通过出现rsp/rsv_bp进行区分;
rsp:相关搜索词的位置,第一个推荐词为0,第二个为1,以此类推;
usm:在百度搜索任何词从任何一页点到第三页以后的,都会随机出现usm的参数。当usm=0的时候是正常排名。当usm=1的时候所有排名后移一位,当usm=2的时候排名后移两位,以此类推。而词参数影响排名的效果只对第三页以及第三页以后的有效,也就是说前20名的排名不受词因素影响。此参数具体作用未知;
f:搜索判断,f=8用户自主搜索,f=3下拉框推荐,f=1相关搜索;
rsv_ers:出现的值为rsv_ers=xn0或rsv_ers=xn1,目前还不知道具体的作用。
rs_src:目前看到的都是rs_src=0,此参数与rsv_ers同时出现。
关键字
wd(Keyword):查询的关键词;
关键字&cl=3
cl(Class):搜索类型,cl=3为网页搜索,cl=2为图片搜索;
pn(PageNumber):显示结果的页数;
ie(InputEncoding):查询关键词的编码,缺省设置为简体中文,即ie=gb2312;
ct:此值一般是一串数字,可能是搜索请求的验证码;
si:在限定的域名中搜索,比如想在本站内搜索可使用参数si=,要使这个参数有效必须结合ct参数一起使用;
rn(RecordNumber):搜索结果显示条数,缺省设置rn=10,取值范围:10-100;
今日头条
bs(BeforeSearch):上一次搜索的关键词;
tn:提交搜索请求的来源站点,这是百度与免费软件合作时的利益来源,举例来说我们使用的一些免费浏览器中所提供的百度搜索时,URL地址中都带有tn=内容,tn=后面的内容就是百度联盟的账号。如:Firefox的tn=suvion_dg(tn=suvion_4_dg),傲游的tn=myie2dg,TheWorld的tn=suvion_4_pg,只要你使用了这些带有tn=的搜索,只要点击了其中的广告,提供该软件的浏览器就会从中赚取利益。搜索结果有个例外,当tn=baidulocal时,你可以得到一个无竞价无广告的百度搜索结果.
收集补充:
oq=上一次搜索词(之前利用这个刷出下拉)
rq=这段时间新增加的参数,参数跟oq调用的也是上一次搜索词
sa=ts_“?”(1代表第一个下拉词,2代表第二个下拉词,3代表第三个下拉词,4代表第四个下拉词,5代表第五个下拉词,例:sa=ts_1 那么就是第一个下拉词)
rsv_pq=(搜索验证)
rsv_t=(搜索验证)
ssid=(据说是识别路由器,反正是识别网络或者网段之类的东西,只用利用360浏览器进行搜索才有这个参数)
tn=搜索框来源标识,tn=iphone是代表模拟手机设备苹果模拟器,tn=zbios代表是苹果下面的客户端搜索。
q5=搜索内容位置限制.0-所有内容;1-网页标题(相当于使用"title:"查询前缀);2-url(相当于使用"inurl:"查询前缀);其它值等效于0.默认值为0
q6=搜索内容网站限制.例如q6=,表示只搜索的网页;相当于使用了"site:前缀".默认值为空
dq=不建议使用该参数.查询内容来原的地区限制.具体值有百度确定.默认值为空.试了一下,使用这个参数的效果很差.
submit=
tb=on贴吧?
f未知。默认值为空
cl未知。默认值为空
rs2未知。
sc未知。
构造半自动化搜索引擎查询,需要了解一下,百度url构成方式和参数的作用。虽然是转载,但是还是有很大的学习意义了。
&tn=baidutop10&wd=%B6%B9%B0%EA
这是一个从百度风云榜里面截取的url链接了。cl=3表示网页搜索,tn表示来源站点,wd是关键词%B6%B9%B0%EA是utf编码之后的结果了。
必备参数:
wd——查询的关键词(Keyword)
pn——显示结果的页数(PageNumber)
可选参数:
rn——搜索结果显示条数(RecordNumber),取值范围在10--100条之间,缺省设置rn=10
ie——查询输入文字的编码(InputEncoding),缺省设置ie=gb2312,即为简体中文
tn——提交搜索请求的来源站点
几个有用的tn
tn=baidulocal表示百度站内搜索,返回的结果很干净,无广告干扰。
比如,在百度站内搜索“快乐”,看看返回结果是不是很清爽。
tn=baiducnnic想把百度放在框架中吗?试试这个参数就可以了,是百度为Cnnic定制的
si——在限定的域名中搜索,比如想在新浪的站内搜索可使用参数si=,要使这个参数有效必须结合ct参数一起使用。
ct——此参数的值一般是一串数字,估计应该是搜索请求的验证码
si和ct参数结合使用,比如在中搜索“理想”,可用:&ct=2097152&si=&ie=gb2312&cl=3&wd=理想
bs——上一次搜索的关键词(BeforeSearch),估计与相关搜索有关
如果你是一个细心的人在百度搜索的时候你就会发现每次搜索百度搜索网址的参数除了我们搜的关键词其它参数会随之变化.
要成为一名合格的网站优化员(自称SEOer)了解这些参数是必须的.
举例说明各个参数的意思:
1.浏览器输入打开百度首页/输入"老吧"搜索再看百度的附加了参数:(这里我只分析关键的参数)
%E8%80%81%E5%90%A7
%E8%80%81%E5%90%A7部分就是我刚搜索的关键词"老吧",只是中文字体经过浏览器的编码变成上面的样子,wd就是百度其中的一个参数(wd=关键字).
2.搜索的结果肯定不止一页,我们点第二页,百度搜索结果网址又多了些参数:
%E8%80%81%E5%90%A7&pn=100&rn=100&ie=utf-8&usm=2
rn=100rn参数是指定每页显示100条结果,一般是10的倍数,最大100条/每页;
pn=100pn参数则是当前页码,不过百度进行了运算,如果是第一页pn就等于0,如果是第二页则是(rn=100)*((pn=0)+1)这样显示第二页就刚好是rn=100了.
3.如果我们这时候在当前的百度网页输入框中重新搜索一个词"老修",看百度搜索结果的网址又加了参数.
&ie=utf-8&bs=%E8%80%81%E5%90%A7&f=8&rsv_bp=1&wd=%E8%80%81%E4%BF%AE&rsv_sug3=6&rsv_sug4=187&rsv_sug1=6&rsv_sug2=0&inputT=2
wd参数是我们当前搜索的"老修"关键词,"bs参数"则是指BeforeSearch-上一次搜索输入的关键词
如果我们再在输入框中再搜别的词,百度url中的参数基本不加了.
4.还有一种情况是当我们输入一个关键词的时候百度会给我们一些下拉词选择,如果选择一个关键词,url参数又不一样了:&rn=100&ie=utf-8&bs=%E8%80%81%E5%90%A7&f=3&rsv_bp=1&rsv_spt=1&wd=%E8%80%81%E6%B9%BF%E5%90%A7&rsv_sug3=1&rsv_sug4=15&rsv_sug1=1&oq=%E8%80%81%E5%90%A7&rsv_sug2=1&rsp=4&inputT=0&rsv_sug=1
选择下拉的关键词则多了个oq参数,伴随这oq参数同时还有一个关键的的f=3,这两个参数的含义引用网上的解释:
oq参数是指原先查询字符串(originalqueryString)
oq和关键词(wd)参数值有着相同的特征,亦是自行输入搜索词,百度搜索框提示词,相关搜索候选词或者错别字提示正确搜索词等,长度限制在38个汉字以内。
oq参数不仅在相关搜索(f=1)中出现,另外几种搜索形式,如即时搜索提示(f=3)、错别字提示正确搜索(f=12)也会有oq.rsp=4表示是第四个提示词.
f(form)参数值:1相关搜索;3即时搜索提示;8自主搜索形式;12错别字提示正确搜索
ct此值一般是一串数字,可能是搜索请求的验证码;
si在限定的域名中搜索,比如想在站内搜索可用si=,这个参数必须结合
ct参数一起使用;类似:site:
tn提交搜索请求的来源站点,这是百度与免费软件合作时的利益来源,
ie网页编码比如:gb2312/GBK/UTF-8等
ct语言限制。0-所有语言,1-简体中文网页,2-繁体中文网页等等;
lm搜索结果的时间限制。以天为单位
q5搜索内容位置限制.0-所有内容;1-网页标题(相当于使用"title:"查询前缀);2-url(相当于使用"inurl:"查询前缀);其它值等效于0.默认值为0
q6搜索内容网站限制.例如q6=,表示只搜索的网页;相当于使用了"site:前缀".默认值为空
dq查询内容来原的地区限制.
rs_src相关搜索_语义关联性(relatedsearch_src)参数值:0与原先查询字符串语义关联性较高1与原先查询字符串语义关联性较低(当我们搜索的时候点百度底下提示的相关搜索就会有这个参数)
rsv_bp=0表示在百度首页、浏览器的百度搜索栏、导航站等初次在搜索框输入内容进行搜索。
rsv_bp=1表示在百度搜索结果的页眉(header)搜索框中继续搜索
rsv_bp=2表示在百度搜索结果的页脚(footer)搜索框中继续搜索,至少连续搜索过2次以上,才会出现rsv_bp=1或rsv_bp=2。
rsv_sug=0rsv_sug=1rsv_sug=2,分别表示搜索框提示0-2条搜索历史记录。以蓝色字体和其他黑色提示词区分开。
rsv_sug1搜索框提示次数
rsv_sug2搜索框提示词搜索方式:0键盘选择搜索框提示词后,没有更改过提示词的搜索方式,1非键盘(如鼠标、手指等)选择搜索框提示词进行搜索
rsv_sug3和键盘重复速率有关。键盘重复速度或网速越快,rsv_sug3参数值越小,但不小于0;重复速度或网速越慢,rsv_sug3参数值越大,但不超过总输入次数。键盘重复速度越快表明用户大概知道自己要搜的是什么关键词,但不能反过来认为速度越慢就越不清楚自己想要搜索的是什么。
rsv_sug4反馈搜索结果用时
rsv_sug5提示词输入搜索框方式
rsv_n其他输入搜索词方式:1提示词填充到搜索框后做了修改,2粘贴搜索词
rsv_spt首页搜索类型:1新版百度首页搜索(先要登录百度帐号);2百度实时热点搜索(先要登录百度帐号);3传统百度首页搜索
rsv_ers参数是百度统计用户翻页行为的.
inputT输入耗时
另外还有一个参数USM,这个参数通常出现的非第一页搜索结果中,比如搜索一个词打开第二页,修改这个参数的值:分别为1/2/3,就会发现非第一页的搜索排名发生的移动
新增参数(移动端)
sa=ib(首页)
sa=tb(上方搜索输入框)
sa=np(内页)
上面说了一箩筐,相信给为看官已经很不耐烦了。这TMD的重点没有说呀,一大推的参数怎么来影响排名呀!
下面来讲讲具体的利用方法。
市面上的快排80%以上都是模拟点击+刷参。模拟点击核心点需要大量的IP,这个用点击器可以完成,市面上的点击器很多比如流量宝、点击精灵等。点击器功能也非常强大了,可以构造系统环境、UA、IP、搜索入口、停留时间、COOKIE、行为轨迹、屏幕分辨率等等。
刷参主要解决是的欺骗百度的问题的,把构造好的参数返回给百度,让百度以为我们的网站用户体验非常好,来提升网站整体排名。目前刷参主要的参数si、ct和et。我给我几个链接你仔细看下。
正常的:%E9%BB%91%E5%B8%BDSEO%E5%9F%B9%E8%AE%AD&tn=monline_4_dg&ie=utf-8
si和ct结合来刷的:%E9%BB%91%E5%B8%BDSEO%E5%9F%B9%E8%AE%AD&tn=monline_4_dg&ie=utf-8&si=&ct=2097152
主要注意链接后半段,显示正常页面,全是我们的目标网站。
si和ct结合来刷的:%E9%BB%91%E5%B8%BDSEO%E5%9F%B9%E8%AE%AD&tn=monline_4_dg&ie=utf-8&si=&ct=2097153
主要注意链接后半段,显示正常页面,全是我们的目标网站。
si和ct结合来刷的:%E9%BB%91%E5%B8%BDSEO%E5%9F%B9%E8%AE%AD&tn=monline_4_dg&ie=utf-8&si=&ct=1526456
主要注意链接后半段,显示不正常,没有搜索到网站。这里只是个告诉你ct不是随随便便写的。
百度实例
刷et的:%E9%BB%91%E5%B8%BDSEO%E5%9F%B9%E8%AE%AD&tn=monline_4_dg&ie=utf-8&et=
注意:你往后翻看几页发现还有不是我们的网站的网址。
目前市面上核心的刷参就是si、ct和et,再配合上面提到的一些参数,记住si、ct和et是重点,市面上80%以上的快排系统都在这几个参数上面做文章。
那还有20%的快排呢?
像这种刷参+模拟点击一直是有效果的,对于有些从未刷过的排名效果也非常明显,所以有了7天上首页的说法。但是对比起其他2种就比较菜了。
一种就是传说中的发包。我们上述讨论的都是在说浏览器中的百度链接地址,这种的请求方式都是get请求方式,发包用的POST请求方式,他的参数不会出现在浏览器中。就是我们去网站注册会员的时候,你注册的账号密码是不会通过get请求方式的(为了安全),用的是POST请求方式,你在浏览器网址中是看不到提交数据。
所以,利用发包百度统计工具统计不到IP的,因为根本就没有模拟点击,没有IP进来。当然模拟点击+刷参也可以通过一定手段让流量统计工具统计不到IP。