robots.txt 是一种文本文件,它是由网站管理员创建的,用于指示搜索引擎蜘蛛(机器人)哪些页面是可以被抓取,哪些页面是不能被抓取的。在网站的根目录下创建一个名为 "robots.txt" 的文件,并在其中添加指令,即可指示搜索引擎蜘蛛哪些页面可以抓取,哪些页面不可以抓取。
下面是一些常见的 robots.txt 指令:
User-agent: 搜索引擎蜘蛛的名称,可以指定多个。 Disallow: 指定不允许被抓取的页面或目录。 Allow: 指定允许被抓取的页面或目录。 Sitemap: 指定网站的 XML Sitemap 文件的 URL。 例如,如果你想让所有搜索引擎蜘蛛都可以访问你的整个网站,你可以在 robots.txt 文件中添加以下指令:
User-agent: * Disallow:
如果你想让搜索引擎蜘蛛不要访问某些页面或目录,可以添加如下指令:
User-agent: * Disallow: /private/ Disallow: /temp/
这将禁止搜索引擎蜘蛛抓取 /private/ 和 /temp/ 目录下的页面。
需要注意的是,robots.txt 文件并不是一个安全措施,因为搜索引擎蜘蛛可能会忽略 robots.txt 文件中的指令。此外,robots.txt 文件中指定的页面不会被索引,但它们仍然可以通过其他方式被访问到。因此,如果你有敏感信息需要保护,不应该仅仅依靠 robots.txt 文件。