1。为搜索引擎提供,爬行或不抓住。
2。由于某些信息指定, 没有让它,因此,保护一些必要的信息,例如:网站背景,用户信息。
3。保存搜索引擎以抓住资源。
二。机器人。TXT规则
1。用户代理,用来告诉识别蜘蛛类型。例如,用户代理商:Baiduspider意味着百度蜘蛛。
以下列出了所有类型的蜘蛛:
百度蜘蛛:Baiduspider
谷歌机器人:Googlebot
建设企业站360蜘蛛:360平板
Sogou Spider:Sogou新闻蜘蛛
雅虎蜘蛛:“雅虎! Slurp China“或雅虎!
蜘蛛:Youdaobot或Yodaobot
Soso Spider:SoSospider
2。允许,允许蜘蛛抓住指定的目录或文件,默认情况下, 你被允许捕捉所有。
3。不允许,蜘蛛不允许捕获指定的目录或文件。
4.通配符,“*”,匹配0或多个字符。
5。终结者,“$”,您可以匹配字符末尾结尾的字符。
例如:以下是WordPress程序的机器人。TXT
用户代理: *
不喜欢:/ wp-admin /
禁止:/ wp-contudes /
不喜欢:/ WP-Content / Plugins
禁止:/ wp-content /主题
不喜欢:/饲料
禁止:/ * /饲料
禁止:/评论/饲料
不允许: / *。JS $
不喜欢:/ *?*
网站地图:http:// / sitemap。XML.
解释:
用户代理:*:使用规则到所有搜索引擎。
禁止:/ wp-admin /:不允许蜘蛛在根目录下抓住WP-Admin文件夹。
不允许: / *。JS $:不要让蜘蛛在根目录下捕获所有JS文件。
市辖网站建设公司不喜欢:/ *?*:不要抓住所有动态链接。
网站地图:http:// / sitemap。XML:提供蜘蛛图,便捷的蜘蛛抓取网站内容。
三。机器人。TXT预防措施
1。如果您想搜索引擎收集网站上的所有内容,然后不要构建机器人。txt文件。
2。如果有动态和静态链接,然后建议屏蔽动态链接。
3.机器人。TXT只能是屏蔽站中的文件,网站文件上没有屏蔽功能。
4.用户代理,允许,不允许,网站地图的第一个字母是大写的。
5。用户代理,允许,不允许,SiteMap的冒号有空间,在不编写空格的情况下,没有错误才能编写下一个内容。
6。网站通常屏蔽搜索结果页面。因为搜索结果页面和正常显示的内容页面,标题和内容,并且两个页面链接是不同的。哪个内部链是将属于本文的搜索引擎?这将导致内链之间的竞争。内部资源损失。
例如, 上面的例子,那个WordPress程序,没有设置伪静态,或者当它动态链接时,搜索结果页面链接包括/?s =,使用正常显示的动态链接内容页面重复标题和内容。你能通过禁止:/?= *到屏蔽搜索结果页面。
现在WordPress程序已经设置了假静态。不允许: / *?*,不喜欢:/ *?*它包含禁止:/?= *,如此沮丧:/?= *没有写入没有写入这句话
7。建议阻止JS文件。不允许: / *。JS $,经过 。由JS结束的路径被屏蔽。这将阻止JS文件。
8。路径区分大小写。禁止:/ ab / and is禁止:/ ab /是不同的。
小程序开发公司哪家专业
9。机器人。TXT将公开网站相关的目录,写机器人。这应该考虑到TXT时。
10。一些SEO将直接备份文件。文件是。邮编格式,然后在机器人。在txt中掩盖。没有建议个人,这清楚地讲述了备份文件的位置。推荐的文件和数据返回到本地。
11.一些特殊规则比较:
4disallow:/ and disallow:/ ab(落后一个空格,ab)是一样的,/还有更多的空间。蜘蛛的意见出现在它面前,disffoW:/,所以两者都被屏蔽了。
2disallow:/ ab并禁止:/ ab *是一样的。例如, 两者都可以掩盖http://域名/ ab,http:// domain / abc,http://域/ abcd。
3DISALLOW:/ ab / is andallow:/ ab是不同的。很明显,禁止:/ ab有更广泛的范围,包含disliw:/ ab /。因为disllow:/ ab /只能掩盖http://域名/ ab /,http:// domain / ab /。这样的路径,那是, 只有蜘蛛捕获AB目录和AB目录中的文件。
文章
网站开发运营及维护 网站建设制作套餐
请立即点击咨询我们或拨打咨询热线: 13968746378,我们会详细为你一一解答你心中的疑难。项目经理在线