robots是搜索蜘蛛访问你站点时首先检测并访问的文件,我们可以通过这个文件来告诉搜索引擎那些内容可以被抓取收录,那些是不可以被收录。当然并不是所有网站的robots设置是一摸一样的,它根据不同的网站程序的不同设置的内容也会有所不同,但是如果采用的是同一建站程序那基本都是一致的。在这里主要介绍下WordPress robots协议如何设置。
robots协议的创建也很简单,你只需在本地新建一个记事本“.txt”文件,然后重命名为“robots.txt”,把robots协议保存到里面,最后把“robots.txt”上传到站点根目录即可。在此文章中介绍三个等级的WordPress robots协议,分别是简单、适中、严格。请根据自己需要进行选择即可。
一、最简单的配置方法:
User-agent: *
Disallow: /wp-
Disallow: /?s=
Sitemap: http://www.wn789.com/sitemap.xml
解释:“User-agent: *”指的是允许所以的搜索引擎访问;“Disallow: /wp-”是搜索引擎收录“wp-”开头的目录。“Sitemap:http://www.wn789.com/sitemap.xml”指的是你的网站地图。
二、相对适中的配置方法:
User-agent: *
Disallow: /wp-admin
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-includes
Disallow: /?s=
Sitemap: http://www.wn789.com/sitemap.xml
这种写法同样允许所以搜索引擎访问抓取,而且只限制搜索引擎抓取“/wp-admin”、“/wp-content/plugins”、“/wp-content/themes”、“/wp-includes”目录,并非第一种方法直接限制“wp-”开头的目录。
三、最为严格的配置方法:
User-agent: *
Disallow: /wp-*
Disallow: /*.php$
Disallow: /*.inc$
Disallow: /*.js$
Disallow: /*.css$
Disallow: /?s=
Sitemap: http://shandian.biz/sitemap.xml
User-agent: *
Disallow: /wp-*
Disallow: /*.php$
Disallow: /*.inc$
Disallow: /*.js$
Disallow: /*.css$
Disallow: /?s=
Sitemap: http://shandian.biz/sitemap.xml
这种方法最为严格,在禁止搜索引擎抓取“wp-”开头的目录外,还禁止抓取.php、.inc、.js、.css文件。
以上三种写法适用于所以WordPress站点,可以在上面任选一段代码保存到“robots.txt”上传到站点根目录即可。下面另外再介绍一种仅适合设置了全站伪静态的方法:
User-agent: *
Disallow: /wp-admin
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-includes
Disallow: /?s= Disallow: /page/ Disallow: /category/*/page/* Disallow: /tag/ Disallow: */trackback/ Disallow: /category/*
Sitemap: http://www.wn789.com/sitemap.xml
解释:“Disallow: /page/”限制抓取Wordpress分页;“Disallow: /category/*/page/*
”限制抓取分类的分页;“Disallow: /tag/”限制抓取标签页;“Disallow: */trackback/”限制抓取Trackback內容;“Disallow: /category/*”限制抓取所有分类清单。