网站路径规范与Robots规则书写

- 编辑:小平SEO -

网站路径规范与Robots规则书写

一、知识要点
1、熟悉Robots规则   
2、Robots文件书写
3、网站目录说明
3、作用:蜘蛛抓取,第一个抓取的文件,就是robots.txt,robots.txt对蜘蛛抓取做出了规定,有些东西不想让蜘蛛抓取(低质量页面、后台、会员。用户信息等),默认是允许抓取网站所有的内容,是相对路径
 
二、Robots文件
1、在网站根目录的一个txt——域名/robots.txt
2、搜索引擎蜘蛛抓取时,抓取的第一个文件
 
3、作用
(1)对搜索引擎蜘蛛做出规定:抓取或不抓取
(2)保护网站隐私(网站后台、用户信息等)
(3)节省搜索引擎抓取资源
(4)统一路径、集中权重
(5)屏蔽抓取网站内无价值的页面
(6)屏蔽不需要收录排名的页面
 
4、写好Robots的前提
(1)了解网站链接
<1>网页链接的组成结构:http:(协议)//www.sina.com.cn(主机名)/web(文件夹名)/index.html(文件名)
<2>网站URL链接设置
<3>网站程序目录(文件夹)
 
WordPress
<1>"wp-admin":后台
<2>“wp-content”:包含你所有的内容,包括插件,主题和您上传的内容
<3>“wp-content/Plugins”:文件夹包含所有插件
<4>“wp-content/theme”:主题文件夹保存你所有的主题
<5>“wp-content/Uploads”:文件夹,所有你上传图片,视频和附件
 
织梦
<1>“data”:系统缓存或其他可写入数据存放目录
<2>“dede”:默认后台管理目录
<3>“image”:系统默认模板图片存放目录
<4>“include”:类库文件目录
<5>“install”:安装程序目录,安装完后可删除
<6>“member”:会员目录
<7>“plus”:插件目录
<8>“special”:专题目录
<9>“templets”:系统默认内核模板目录
<10>"uploads":默认上传目录
<11>“a”:默认HTML文件存放目录

 
(2)熟悉Robots规则
(3)目标:你想屏蔽什么链接
 
三、Robots规则
(1)User Agent:
<1>谷歌蜘蛛:googlebot
<2>百度蜘蛛:Baiduspider
<3>搜搜soso蜘蛛:Sosospider
<4>搜狗(sogou)蜘蛛:sogou spider
<5>360蜘蛛:360Spider
<6>神马蜘蛛:Yisouspider
<7>User Agent: *所有蜘蛛
 
(2)Allow:允许抓取——默认是允许抓取所有,遵循最详细的规则
(3)Disallow:禁止抓取——屏蔽/不允许抓取,屏蔽目录(文件夹),允许抓取图片
(4)*:通配符——所有,如:Disallow: /tag/*
(5)$:终止符——以**结尾,屏蔽抓取JS(Disallow: /*.js$)
 
(6)其他
<1>英文状态的符号——冒号
<2>空格——冒号之后
<3>首个字母大写
<4>/——根目录,网站所有
(7)Sitemap:网站地图——网站地图地址
 
四、常见屏蔽
1、动态路径
(1)规律——(?)
(2)写法——Disallow: /*?*
 
2、搜索结果页
(1)原因:重复页面,质量较低
(2)规律:域名/?s=
(3)写法:Disallow: /?s=*
 
3、js
(1)【官方说法】关于JS使用的建议  https://ziyuan.baidu.com/college/articleinfo?id=1091
(2)规律:.js结尾
(3)写法:Disallow: /*.js$
 
4、tag标签(中文)
(1)中文链接
(2)规律:域名/tag/
(3)写法
 
5、模板目录:Disallow: /templets/
6、插件目录:Disallow: /plus/
7、后台目录:Disallow: /dede/
注:看链接,找规律,写规则,了解自己网站的目录(文件夹)
 
五、注意事项与误区
1、严格区分大小写:看网站链接
 
2、区分
(1)Disallow: / ab  、 Disallow: / 屏蔽网站
(3)Disallow: /ab 和 Disallow: /ab* 规则相同
(5)Disallow: /ab/(屏蔽文件夹)
(6)Disallow: /ab(屏蔽范围更大)
 
3、网站安全
(1)暴露网站程序
(2)后台:Disallow: /*ed
(3)压缩包:Disallow: /*.zip$
 
六、提交与检测Robots
1、百度搜索资源平台
(1)https://ziyuan.baidu.com/robots
(2)Robots工具目前支持48k的文件内容检测
 
2、站长工具
(1)爱站:https://tools.aizhan.com/robots
(2)站长之家:http://tool.chinaz.com/robots/
 

你会喜欢下面的文章? You'll like the following article.