Discuz! Board

查看: 312|回复: 0

因为在该文件中我们指示了

[复制链接]

1

主题

1

帖子

5

积分

新手上路

Rank: 1

积分
5
发表于 2024-3-13 14:53:47 | 显示全部楼层 |阅读模式
因此,robots.txt 文件主要用于避免服务器因请求而超载,并管理网站上机器人的流量,它们应该和不应该在网站上爬行的内容。这里我们必须指出,阻塞或不阻塞页面与“ no-index”标签(稍后解释)有不同的用途。 robots.txt文件位于网站的根目。 如何实现robots.txt文件? robots.txt文件是部署到主域根目录的文本文件,例如:。在这里,我们将包含各种元素来告诉爬虫哪些页面应该被爬行,哪些页面不应该被爬行。 Robots.txt 文件可以在任何 Web 编辑器中创建,只需注意它可以创建标准 UTF-8 文本文件。 如何在WordPress中实现或修改robots.txt文件? 一般来说,默认情况下,robots.txt 文件会在 WordPress 中实现: 机器人默认 txt 谷歌 同样,我们可以选择以多种方式编辑该文件。一方面,直接从我们托管的 FTP或通过您可以在 WordPress 中实现的不同插件(例如 Yoast SEO 或 Rank Math),您可以在其中编辑文件。






但必须记住,错误地编辑此文件可能会极大地影响网站的定位结果,因此充分了解每个参 中国数据 数的含义以及它如何影响我们的网站非常重要。 例如,在 WordPress 中使用 Rank Math 时,要编辑文件,我们必须转到 Rank Math > 常规设置 > 编辑 Robots.txt 文件 编辑 robots.txt 排名数学文件 正确实施应考虑的方面 为了正确实施,重要的是要考虑以下几个方面,正如Google所强调的那样 该文件必须名为robots.txt,并且每个网站只能有一个。 Robots.txt 文件可以单独部署到网站的每个子域。 robots.txt 文件由一组或多组具有特定指令(始终每行一个)的组组成,其中包括: 它们适用于谁(用户代理) 该用户代理可以访问和不能访问的目录或站点 默认情况下,用户代理将能够抓取所有未标记为disallow 的页面。这些组将按照它们在文本中写入的顺序进行处理。因此,包含最具体规则且位于第一个的组将是后面的组。 如果有两条规则发生冲突,对于 Google 和 Bing 来说,字符数最多的指令总是“获胜”。





因此,如果我们禁止 /page/ 并允许 /page,则第一个将具有更大的权重。另一方面,如果它们的长度相同,则以限制最少的为准(通过Ahrefs)。 robots.txt 文件的基本指南。我们应该了解哪些参数? 接下来,我们将定义一些在解释和实现 robots.txt 文件时需要了解的重要元素: 用户代理:它们是识别跟踪器的方式,它们定义不同跟踪器将遵循的策略,并且必须始终包含在每个组中。值得注意的是,每个搜索引擎都有自己的搜索引擎。例如,Google的称为Google Robots或Googlebot,Bing的称为Bingbot,或者百度的称为Baiduspider(机器人数据库)。需要注意的是,支持以下字符( * ) ,用于将策略应用于所有跟踪器。 允许和禁止指令:这些指令用于专门向用户代理页面指示它应该(允许)以及不应该抓取(禁止)的页面或文件。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|DiscuzX

Copyright © 2001-2013 Comsenz Inc.Template by Comsenz Inc.All Rights Reserved.

Powered by Discuz!X3.4

快速回复 返回顶部 返回列表