Robots协议全称是网络爬虫排除标准”(Robots Exclusion Protocol),叫爬虫协议或机器人协议,也可戏称萝卜丝协议,用户告诉搜索引擎爬虫网站哪些页面可以被抓取,哪些页面禁止抓取。
Robots.txt文件:
Robots文件是以robots.txt文件形式存在于网站主机服务器上,编辑robots.txt文件可以使用windows系统的txt文本编辑器进行创建和编辑。若网站有制作和上传robots.txt文件,搜索引擎爬虫会第一时间访问这个文件并根据文件内的指令进行工作。请注意,robots.txt是一个协议,而不是一个命令。
Robots写法:
User-agent:* *是一个通配符,表示所有的意思,这里指允许所有搜索引擎爬取
Disallow:/123/ 禁止爬寻123目录下面的目录
Disallow:/123/*.htm 禁止访问/123/目录下的所有以".htm"为后缀的URL(包含子目录)
Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片
Disallow:/123/123.html禁止爬取123文件夹下面的123.html文件。
Allow:/123/ 这里定义是允许爬寻123目录下面的目录
Allow:/123 这里定义是允许爬寻123的整个目录
Allow:.htm$ 仅允许访问以".htm"为后缀的URL。
Allow:.gif$ 允许抓取网页和gif格式图片
Sitemap:网站地图 告诉爬虫这个页面是网站地图
等等,总体分为allow和disallow两种形式
查看网站robots.txt:
以我的博客站为例,域名是https://www.yunglobe.com,手动在域名后面输入robots.txt,如:https://www.yunglobe.com/robots.txt, 之后回车即可访问该网站的robots.txt文件
本文标题:如何编写网站robots.txt文件 作者:为主的祥助 转载请保留页面地址: https://www.yunglobe.com/robots.html 更多跨境平台运营技术干货,请关注公众号:跨境E站(GlobalSEO) 一个有灵魂的公众号,专注更新外贸领域跨境电商平台的运营操盘和数据优化,独立站搭建,Google SEO和SEM Marketing等优质内容