全国联系电话

13269679025

当前位置:首页营销教程SEO教程

【SEO外包】网站优化到底什么是robots.txt文件怎么设置robots.txt

发布时间:2020-09-02 浏览量:

在我们的网站中存在着众多文件,但是并不是每个文件都是有价值的,很多网站文件针对用户来说完全没有任何作用。所以搜索引擎也不可能把所有的文件都进行收录。这个时候就需要我们告诉搜索引擎,哪些需要抓取收录,哪些不需要。

什么是robots.txt

robots.txt是搜索引擎访问网站首先要产看的文件,它是网站和搜索引擎之间的一个协议。告诉搜索引擎哪些文件可以抓取,那些文件不能抓取。这个协议对大多数搜索引擎都是起作用的。
Robots.txt的语法结构
User-agent:后面放的是搜索蜘蛛的名称,如果使用“*”表示对所有搜索引擎有效,”*”是通配符。如果只是对一种搜素引擎进行限制,那么就只需要填写限制的那个名字即可。
Disallow:后面跟的是不希望搜索引擎抓取的内容,直接加上相关的路径即可。例如:disallow:/abc 表示禁止搜索引擎抓取abc所包含的所有目录文件。
Allow:后面跟的是允许搜索引擎抓取的内容,写法和disallow一致。
“*”通配符,表示可以任意字符
“$”通配符,表示行结束符。
Robots.txt文件在SEO中有什么作用
1.网站中的文件多种多样,但是并非都是搜索引擎所需要的,或者说网站的内容并不需要都让搜索引擎抓取。个别内容只是网站本身的程序文件或者网站内部文件,对搜索引擎和用户来说并没有什么用处。因此,我们需要把它屏蔽掉。
2.为了提高搜索引擎的工作效率,节省搜索引擎蜘蛛的爬行时间,让搜索引擎把更多的时间用在最需要被抓取的内容方面,这样以来不但增强了网站对于搜索引擎的友好性还有利于网站的优化。让搜索引擎抓取更多有价值内容,提高网站收录量。
3.还有一部分网站并希望搜索引擎抓取网站上的内容,就可以使用robots.txt文件屏蔽所有搜索引擎,从而保护网站的隐私和网站权益。例如:淘宝就屏蔽了百度的索引。

Robots.txt用法
例如:如果想屏蔽所有搜索引擎收录网站可以使用
User-agent:*
Disallow:/
允许所有搜索引擎访问网站
User-agent:*
Allow:/
仅禁止360抓取本网站内容
User-agent:360spider
Disallow:/
禁止所有搜索引擎抓取特定的文件目录
User-agent:*
Disallow:/abc/
禁止所有搜索引擎蜘蛛抓取某目录下以.htm为结尾的url文件
User-agent:*
Disallow:/abc/*.htm
禁止所有搜索引擎抓取网站的所有图片
User-agent:*
Disallow:/*.jpg$
Disallow:/*.gif$
Disallow:/*.png$
通常情况下我们可以屏蔽网站的后台文件,以及一些js文件,安装文件,数据库文件、模板文件等。然后将robots.txt文件上传到网站的根目录即可。
Robots.txt使用误区

认为允许所有的搜索引擎抓取网站的所有文件,会增加网站的收录量,这个想法是错误的。收录量的增加和网站的本身内容质量有关系,不给网站添加robots.txt文件不但不利于收录,还会增加搜索引擎蜘蛛的工作负担,降低网站对搜索引擎的友好度。

Disllow和allow后面的斜杠“/”忽略不写,这样是不对的。

照搬别人的robots.txt的写法,完全不考虑自己的网站情况。这种情况是非常严重的错误,希望大家避免。

各搜索引擎蜘蛛名称
google蜘蛛: googlebot
百度蜘蛛:baiduspider
360蜘蛛:360spider
搜狗蜘蛛:sogouspider

SEO外包

教程热度

一站式解决中小企业互联网营销难题

联系我们

电话:13269679025

地址:北京市大兴区龙河路15号

北京木易互联科技有限公司 版权所有 冀ICP备10025411号-7