Question 1

robots.txt 到底有什么作用？

Accepted Answer

它是位于站点根目录的纯文本文件，使用按 User-agent 分组的 Allow 与 Disallow 规则，告诉遵循规范的爬虫哪些路径可以或不可以请求。它是一种请求而非强制：像 Googlebot 这样守规矩的机器人会遵守，但它无法阻止忽略它的工具访问，因此切勿用它来隐藏真正敏感的数据。

Question 2

AI 爬虫屏蔽预设是如何工作的？

Accepted Answer

每个复选框会追加一个专门的分组，例如 'User-agent: GPTBot' 后接 'Disallow: /'，请求该爬虫不要抓取任何页面。GPTBot 是 OpenAI 的爬虫，ClaudeBot 是 Anthropic 的，CCBot 是 Common Crawl，而 Google-Extended 控制你的内容是否用于 Google 的 AI 模型。勾选会添加对应分组，取消勾选则会移除。

Question 3

Allow 和 Disallow 有什么区别？

Accepted Answer

Disallow 列出爬虫不应请求的路径前缀，而 Allow 则重新允许被禁止文件夹中更具体的子路径。例如，Disallow: /files/ 配合 Allow: /files/public/ 会屏蔽整个文件夹，但保留 public 子文件夹可被抓取。请在每个框中每行填写一个路径。

Question 4

生成的文件该放在哪里？

Accepted Answer

把它保存为一个名字就叫 robots.txt 的文件，并上传到域名根目录，使其可通过 https://yourdomain.com/robots.txt 访问。爬虫只会查看那里；放在子文件夹中的 robots.txt 会被忽略。可使用下载按钮直接保存。

Question 5

我输入的内容会被发送到服务器吗？

Accepted Answer

不会。robots.txt 完全在你的浏览器中用 JavaScript 生成。你的路径、用户代理、站点地图网址和选项都不会被上传、存储或传输，因此为私密或未上线的站点起草规则也很安全。

robots.txt 生成器

robots.txt 生成器是什么？

如何使用 robots.txt 生成器

示例

屏蔽后台与测试目录

在禁止文件夹内允许子路径

选择退出 AI 爬虫

常见问题

相关工具

Hreflang 标签生成器

JSON-LD 生成器

关键词密度检查器

Meta 标签生成器

robots.txt 生成器 是什么？