robots.txt 生成器
根据用户代理、允许与禁止路径、抓取延迟、站点地图网址以及一键屏蔽常见 AI 爬虫的预设,生成 robots.txt 文件。
robots.txt 生成器 — 输入想要允许或禁止的路径,设置可选的抓取延迟和站点地图网址,再勾选 AI 爬虫预设,即可得到一份干净、可直接上传的 robots.txt。文件会随你的输入实时生成,可以复制或下载。所有处理都在浏览器中完成——你的路径和规则都不会发送到服务器。
robots.txt 生成器 是什么?
robots.txt 生成器是一款免费的浏览器内工具,用于编写网络爬虫在站点根目录读取、以决定可抓取内容的 robots.txt 文件。你设置 User-agent(默认为 *),在 Disallow 中每行填写一个禁止路径,并在 Allow 中填写例外,可选地添加 Crawl-delay 和 Sitemap 网址,工具会将这些转换为正确的指令。它还包含一组复选框预设,可屏蔽知名的 AI 训练爬虫——GPTBot、ClaudeBot、CCBot 和 Google-Extended——为每个爬虫追加一个独立分组。站点所有者、SEO 专员和开发者在网站上线、对搜索引擎隐藏后台或测试路径,或选择退出 AI 抓取时会用到它。把结果复制到位于域名根目录、名为 robots.txt 的文件中,或使用下载按钮。
如何使用 robots.txt 生成器
- 输入规则适用的用户代理,或保留 * 表示所有爬虫。
- 在 Disallow 框中每行填写一个要禁止的路径(例如 /admin/ 或 /private/)。
- 在 Allow 框中每行填写例外,以重新允许被禁止文件夹中的子路径。
- 可选地以秒为单位设置抓取延迟,并粘贴完整的站点地图网址。
- 勾选 AI 爬虫复选框(GPTBot、ClaudeBot、CCBot、Google-Extended)以阻止它们抓取你的内容。
- 复制生成的 robots.txt 或点击下载,然后将文件放到站点根目录。
示例
屏蔽后台与测试目录
输入
User-agent: * Disallow: /admin/ Disallow: /staging/ Sitemap: https://example.com/sitemap.xml
输出
User-agent: * Disallow: /admin/ Disallow: /staging/ Sitemap: https://example.com/sitemap.xml
在禁止文件夹内允许子路径
输入
User-agent: * Disallow: /downloads/ Allow: /downloads/public/
输出
User-agent: * Disallow: /downloads/ Allow: /downloads/public/
选择退出 AI 爬虫
输入
屏蔽 GPTBot、ClaudeBot、CCBot、Google-Extended
输出
User-agent: GPTBot Disallow: / User-agent: ClaudeBot Disallow: / User-agent: CCBot Disallow: / User-agent: Google-Extended Disallow: /
常见问题
- robots.txt 到底有什么作用?
- 它是位于站点根目录的纯文本文件,使用按 User-agent 分组的 Allow 与 Disallow 规则,告诉遵循规范的爬虫哪些路径可以或不可以请求。它是一种请求而非强制:像 Googlebot 这样守规矩的机器人会遵守,但它无法阻止忽略它的工具访问,因此切勿用它来隐藏真正敏感的数据。
- AI 爬虫屏蔽预设是如何工作的?
- 每个复选框会追加一个专门的分组,例如 'User-agent: GPTBot' 后接 'Disallow: /',请求该爬虫不要抓取任何页面。GPTBot 是 OpenAI 的爬虫,ClaudeBot 是 Anthropic 的,CCBot 是 Common Crawl,而 Google-Extended 控制你的内容是否用于 Google 的 AI 模型。勾选会添加对应分组,取消勾选则会移除。
- Allow 和 Disallow 有什么区别?
- Disallow 列出爬虫不应请求的路径前缀,而 Allow 则重新允许被禁止文件夹中更具体的子路径。例如,Disallow: /files/ 配合 Allow: /files/public/ 会屏蔽整个文件夹,但保留 public 子文件夹可被抓取。请在每个框中每行填写一个路径。
- 生成的文件该放在哪里?
- 把它保存为一个名字就叫 robots.txt 的文件,并上传到域名根目录,使其可通过 https://yourdomain.com/robots.txt 访问。爬虫只会查看那里;放在子文件夹中的 robots.txt 会被忽略。可使用下载按钮直接保存。
- 我输入的内容会被发送到服务器吗?
- 不会。robots.txt 完全在你的浏览器中用 JavaScript 生成。你的路径、用户代理、站点地图网址和选项都不会被上传、存储或传输,因此为私密或未上线的站点起草规则也很安全。
相关工具
Hreflang 标签生成器
根据一组语言区域与网址的对照,为多语言页面生成 hreflang link 标签,并可选 x-default 和自引用标签。
JSON-LD 生成器
通过简单的表单为 Article、Product、FAQPage、HowTo、LocalBusiness、Event、Recipe、BreadcrumbList 和 Organization 等模式生成有效的 JSON-LD 结构化数据。
关键词密度检查器
分析任意文本,按 1、2 或 3 个词的短语统计词频和关键词密度,并给出过度优化提示。
Meta 标签生成器
根据标题、描述、规范网址、图片和网站名称,为页面生成 SEO、Open Graph 和 Twitter 卡片 Meta 标签。