robots协议详解 robots.txt协议

robots协议也就是robots.txt,网站通过robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。Robots协议是网站国际互联网界通行的道德规范,其目的是保护网站数据和敏感信息、确保用户个人信息和隐私不被侵犯。因其不是命令,故需要搜索引擎自觉遵守。

先讲一下搜索引擎即我们俗称的爬虫或蜘蛛的简单工作流程:

1 我们发布的网站,都有一堆url;

2 蜘蛛抓取这些url并解析网页,抽取其中的超级链接;

robots协议详解 robots.txt协议

3 蜘蛛接着抓取新发现新的网页;

4 以上循环往复。

robots协议就是用来告诉搜索引擎哪些网页页面可以被抓取,哪些网页不能抓取。

robots协议的写法规范:

User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符

Disallow: /xx/ 禁止抓取xx目录下面的目录

Disallow: /xx/ 这里定义是禁止抓取xx目录下面的目录

Disallow: /xx/ 这里定义是禁止抓取xx目录下面的目录

Disallow: /xx/*.htm 禁止访问/xx/目录下的所有以".htm"为后缀的URL(包含子目录)。

Disallow: /*?* 禁止抓取网站中所有包含问号 (?) 的网址

Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片

Disallow:/xx/xx.html 禁止抓取xx文件夹下面的xx.html文件。

Allow: /xx/ 这里定义是允许抓取xx目录下面的目录

Allow: /xx 这里定义是允许抓取xx的整个目录

Allow: .htm$ 仅允许抓取以".htm"为后缀的URL。

Allow: .gif$ 允许抓取网页和gif格式图片

Sitemap: 网站地图 告诉爬虫这个页面是网站地图

用法一:

禁止所有搜索引擎访问网站的任何部分

User-agent: *

Disallow: /

用法二:

允许所有的robot访问

User-agent: *

Allow: /

  

爱华网本文地址 » http://www.aihuau.com/a/25101010/5123.html

更多阅读

如何填写政治面貌?详解 如何查看自己政治面貌

如何填写政治面貌?【详解】——简介政治面貌可不是指的人的外貌,政治面貌其实是一个人的政治身份。对于我们普通公民而言,政治身份似乎没有什么影响,但是对于当权者或者机构组织而言,政治面貌就很重要了,在对个人考察方面或者职位提升方面

不同脸型适合画眉方法,详解眉毛的画法 方脸型画眉

?特写看一下...  对于圆脸型的妹子来说,需要有一些角度的眉毛,把眉峰吊起来,让脸型看起来更有棱角一些~对于下巴比较宽或者太阳穴比较窄的妹纸,美貌的形状要大气自然,而且要适当的短一些,并且加重眉头部分不同脸型适合画眉方法,详解

100道门2013攻略100关图文详解:1 第1~10关

100道门2013攻略100关图文详解:[1]第1~10关——简介100道门2013是安卓平台一款新颖的解密益智游戏,你需要在房间中发现线索,然后把门打开进入下一个房间。每一个房间的主题都不一样,将给你带来百次不同的游戏体验!100道门2013攻略100关

CSOL咆哮怒焰M14EBR详解以及专业强化分析 csol咆哮怒焰强化

众所周知,咆哮怒焰系列是威力最大的突击步枪,其高威力以及不俗的精准度让它成为了一把点射神器。而强化系统更是让这把大威力步枪如虎添翼,咆哮怒焰可以算是最值得强化的几把枪支之一了。下面是这把枪的简略评测,以及它的强化详解。大家

研究生网上报名流程 超详解 2017研究生报名流程

研究生网上报名流程 【超详解】——简介现在开始报名的话,是针对应届的毕业生的,不过过段时间都可以报名的。流程都是一样的。研究生网上报名流程 【超详解】——方法/步骤研究生网上报名流程 【超详解】 1、首先,我们搜索,进入到中国

声明:《robots协议详解 robots.txt协议》为网友一桥轻雨一伞开分享!如侵犯到您的合法权益请联系我们删除