当前位置:首页>Wordpress外贸建站前端开发知识> 如何编写网站robots.txt文件

如何编写网站robots.txt文件

Robots协议全称是网络爬虫排除标准”(Robots Exclusion Protocol),叫爬虫协议或机器人协议,也可戏称萝卜丝协议,用户告诉搜索引擎爬虫网站哪些页面可以被抓取,哪些页面禁止抓取。

Robots协议全称是网络爬虫排除标准”(Robots Exclusion Protocol),叫爬虫协议或机器人协议,也可戏称萝卜丝协议,用户告诉搜索引擎爬虫网站哪些页面可以被抓取,哪些页面禁止抓取。


Robots.txt文件:

 Robots文件是以robots.txt文件形式存在于网站主机服务器上,编辑robots.txt文件可以使用windows系统的txt文本编辑器进行创建和编辑。若网站有制作和上传robots.txt文件,搜索引擎爬虫会第一时间访问这个文件并根据文件内的指令进行工作。请注意,robots.txt是一个协议,而不是一个命令。

Robots写法:

 User-agent:*      *是一个通配符,表示所有的意思,这里指允许所有搜索引擎爬取

Disallow:/123/     禁止爬寻123目录下面的目录

Disallow:/123/*.htm 禁止访问/123/目录下的所有以".htm"为后缀的URL(包含子目录)

Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片

Disallow:/123/123.html禁止爬取123文件夹下面的123.html文件。

Allow:/123/ 这里定义是允许爬寻123目录下面的目录

Allow:/123 这里定义是允许爬寻123的整个目录

Allow:.htm$ 仅允许访问以".htm"为后缀的URL。

Allow:.gif$ 允许抓取网页和gif格式图片

Sitemap:网站地图 告诉爬虫这个页面是网站地图

等等,总体分为allow和disallow两种形式

查看网站robots.txt:

      以我的博客站为例,域名是https://www.yunglobe.com,手动在域名后面输入robots.txt,如:https://www.yunglobe.com/robots.txt,  之后回车即可访问该网站的robots.txt文件


本文标题:如何编写网站robots.txt文件
作者:为主的祥助    转载请保留页面地址: https://www.yunglobe.com/robots.html ‎
更多跨境平台运营技术干货,请关注公众号:跨境E站(GlobalSEO)    
一个有灵魂的公众号,专注更新外贸领域跨境电商平台的运营操盘和数据优化,独立站搭建,Google SEO和SEM Marketing等优质内容
版权声明: 如无特殊标注,本站文章均为原创,转载请务必保留本文链接。

给TA打赏
共{{data.count}}人
人已打赏
windows系统

NSA武器库免疫补丁修复永恒之蓝恶意蠕虫病毒攻击

2017-5-13 15:22:20

前端开发知识

5种优化方法提升HTTP/2下的页面加载速度

2019-9-30 11:05:50

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索