robots.txt 生成器

根据用户代理、允许与禁止路径、抓取延迟、站点地图网址以及一键屏蔽常见 AI 爬虫的预设,生成 robots.txt 文件。

正在加载工具…

robots.txt 生成器输入想要允许或禁止的路径,设置可选的抓取延迟和站点地图网址,再勾选 AI 爬虫预设,即可得到一份干净、可直接上传的 robots.txt。文件会随你的输入实时生成,可以复制或下载。所有处理都在浏览器中完成——你的路径和规则都不会发送到服务器。

robots.txt 生成器 是什么?

robots.txt 生成器是一款免费的浏览器内工具,用于编写网络爬虫在站点根目录读取、以决定可抓取内容的 robots.txt 文件。你设置 User-agent(默认为 *),在 Disallow 中每行填写一个禁止路径,并在 Allow 中填写例外,可选地添加 Crawl-delay 和 Sitemap 网址,工具会将这些转换为正确的指令。它还包含一组复选框预设,可屏蔽知名的 AI 训练爬虫——GPTBot、ClaudeBot、CCBot 和 Google-Extended——为每个爬虫追加一个独立分组。站点所有者、SEO 专员和开发者在网站上线、对搜索引擎隐藏后台或测试路径,或选择退出 AI 抓取时会用到它。把结果复制到位于域名根目录、名为 robots.txt 的文件中,或使用下载按钮。

如何使用 robots.txt 生成器

  1. 输入规则适用的用户代理,或保留 * 表示所有爬虫。
  2. 在 Disallow 框中每行填写一个要禁止的路径(例如 /admin/ 或 /private/)。
  3. 在 Allow 框中每行填写例外,以重新允许被禁止文件夹中的子路径。
  4. 可选地以秒为单位设置抓取延迟,并粘贴完整的站点地图网址。
  5. 勾选 AI 爬虫复选框(GPTBot、ClaudeBot、CCBot、Google-Extended)以阻止它们抓取你的内容。
  6. 复制生成的 robots.txt 或点击下载,然后将文件放到站点根目录。

示例

屏蔽后台与测试目录

输入

User-agent: *
Disallow: /admin/
Disallow: /staging/
Sitemap: https://example.com/sitemap.xml

输出

User-agent: *
Disallow: /admin/
Disallow: /staging/

Sitemap: https://example.com/sitemap.xml

在禁止文件夹内允许子路径

输入

User-agent: *
Disallow: /downloads/
Allow: /downloads/public/

输出

User-agent: *
Disallow: /downloads/
Allow: /downloads/public/

选择退出 AI 爬虫

输入

屏蔽 GPTBot、ClaudeBot、CCBot、Google-Extended

输出

User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Google-Extended
Disallow: /

常见问题

robots.txt 到底有什么作用?
它是位于站点根目录的纯文本文件,使用按 User-agent 分组的 Allow 与 Disallow 规则,告诉遵循规范的爬虫哪些路径可以或不可以请求。它是一种请求而非强制:像 Googlebot 这样守规矩的机器人会遵守,但它无法阻止忽略它的工具访问,因此切勿用它来隐藏真正敏感的数据。
AI 爬虫屏蔽预设是如何工作的?
每个复选框会追加一个专门的分组,例如 'User-agent: GPTBot' 后接 'Disallow: /',请求该爬虫不要抓取任何页面。GPTBot 是 OpenAI 的爬虫,ClaudeBot 是 Anthropic 的,CCBot 是 Common Crawl,而 Google-Extended 控制你的内容是否用于 Google 的 AI 模型。勾选会添加对应分组,取消勾选则会移除。
Allow 和 Disallow 有什么区别?
Disallow 列出爬虫不应请求的路径前缀,而 Allow 则重新允许被禁止文件夹中更具体的子路径。例如,Disallow: /files/ 配合 Allow: /files/public/ 会屏蔽整个文件夹,但保留 public 子文件夹可被抓取。请在每个框中每行填写一个路径。
生成的文件该放在哪里?
把它保存为一个名字就叫 robots.txt 的文件,并上传到域名根目录,使其可通过 https://yourdomain.com/robots.txt 访问。爬虫只会查看那里;放在子文件夹中的 robots.txt 会被忽略。可使用下载按钮直接保存。
我输入的内容会被发送到服务器吗?
不会。robots.txt 完全在你的浏览器中用 JavaScript 生成。你的路径、用户代理、站点地图网址和选项都不会被上传、存储或传输,因此为私密或未上线的站点起草规则也很安全。

相关工具