Trình tạo robots.txt

Tạo tệp robots.txt từ user-agent, các đường dẫn cho phép và chặn, crawl-delay, URL sơ đồ trang web và các thiết lập sẵn một cú nhấp giúp chặn những trình thu thập AI phổ biến.

Đang tải công cụ…

Trình tạo robots.txtNhập các đường dẫn bạn muốn cho phép hoặc chặn, đặt crawl-delay và URL sơ đồ trang web tùy chọn, rồi đánh dấu các thiết lập sẵn về trình thu thập AI để có một tệp robots.txt gọn gàng, sẵn sàng tải lên. Tệp được dựng trực tiếp khi bạn gõ và có thể sao chép hoặc tải xuống. Mọi thứ chạy trong trình duyệt của bạn — không đường dẫn hay quy tắc nào của bạn được gửi đến máy chủ.

Trình tạo robots.txt là gì?

Trình tạo robots.txt là một công cụ miễn phí chạy trong trình duyệt, viết ra tệp robots.txt mà các trình thu thập web đọc ở thư mục gốc của trang để quyết định chúng được phép lấy gì. Bạn đặt User-agent (mặc định *), liệt kê mỗi dòng một đường dẫn Disallow cùng các ngoại lệ Allow, tùy chọn thêm Crawl-delay và URL Sitemap, và công cụ chuyển tất cả thành các chỉ thị đúng. Nó cũng bao gồm một thiết lập sẵn dạng hộp kiểm giúp chặn những trình thu thập huấn luyện AI nổi tiếng — GPTBot, ClaudeBot, CCBot và Google-Extended — bằng cách thêm một nhóm riêng cho mỗi loại. Chủ sở hữu trang web, chuyên gia SEO và nhà phát triển dùng nó khi ra mắt trang, ẩn các đường dẫn quản trị hoặc staging khỏi công cụ tìm kiếm, hoặc từ chối việc thu thập dữ liệu bởi AI. Sao chép kết quả vào một tệp tên là robots.txt ở thư mục gốc miền của bạn, hoặc dùng nút Tải xuống.

Cách sử dụng Trình tạo robots.txt

  1. Nhập user-agent mà các quy tắc áp dụng, hoặc để * cho mọi trình thu thập.
  2. Gõ các đường dẫn cần chặn vào ô Disallow, mỗi dòng một đường dẫn (ví dụ /admin/ hoặc /private/).
  3. Thêm các ngoại lệ Allow, mỗi dòng một đường dẫn, để cho phép lại các đường dẫn con bên trong thư mục bị chặn.
  4. Tùy chọn đặt crawl-delay tính bằng giây và dán URL sơ đồ trang web đầy đủ của bạn.
  5. Đánh dấu các hộp kiểm trình thu thập AI (GPTBot, ClaudeBot, CCBot, Google-Extended) để ngăn chúng thu thập nội dung của bạn.
  6. Sao chép tệp robots.txt đã tạo hoặc nhấp Tải xuống, rồi đặt tệp ở thư mục gốc của trang.

Ví dụ

Chặn quản trị và staging

Đầu vào

User-agent: *
Disallow: /admin/
Disallow: /staging/
Sitemap: https://example.com/sitemap.xml

Đầu ra

User-agent: *
Disallow: /admin/
Disallow: /staging/

Sitemap: https://example.com/sitemap.xml

Cho phép bên trong thư mục bị chặn

Đầu vào

User-agent: *
Disallow: /downloads/
Allow: /downloads/public/

Đầu ra

User-agent: *
Disallow: /downloads/
Allow: /downloads/public/

Từ chối trình thu thập AI

Đầu vào

Chặn GPTBot, ClaudeBot, CCBot, Google-Extended

Đầu ra

User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Google-Extended
Disallow: /

Câu hỏi thường gặp

robots.txt thực sự làm gì?
Đó là một tệp văn bản thuần ở thư mục gốc của trang, dùng các quy tắc Allow và Disallow được nhóm theo User-agent để cho các trình thu thập tuân thủ biết những đường dẫn nào chúng được hoặc không được yêu cầu. Đây là một lời đề nghị, không phải sự cưỡng chế: các bot cư xử tốt như Googlebot tôn trọng nó, nhưng nó không chặn quyền truy cập của những công cụ bỏ qua nó, nên đừng bao giờ dùng nó để ẩn dữ liệu thực sự nhạy cảm.
Các thiết lập sẵn chặn trình thu thập AI hoạt động ra sao?
Mỗi hộp kiểm thêm một nhóm riêng như 'User-agent: GPTBot' theo sau là 'Disallow: /', yêu cầu trình thu thập đó không lấy bất kỳ trang nào. GPTBot là trình thu thập của OpenAI, ClaudeBot của Anthropic, CCBot là Common Crawl, còn Google-Extended kiểm soát việc dùng nội dung của bạn cho các mô hình AI của Google. Đánh dấu một hộp sẽ thêm nhóm của nó; bỏ đánh dấu sẽ xóa nó.
Sự khác biệt giữa Allow và Disallow là gì?
Disallow liệt kê các tiền tố đường dẫn mà trình thu thập không nên yêu cầu, trong khi Allow cho phép lại một đường dẫn con cụ thể hơn bên trong thư mục bị chặn. Ví dụ, Disallow: /files/ với Allow: /files/public/ chặn cả thư mục nhưng giữ cho thư mục con public vẫn thu thập được. Nhập mỗi dòng một đường dẫn trong từng ô.
Tôi đặt tệp đã tạo ở đâu?
Lưu nó dưới dạng tệp có tên đúng là robots.txt và tải lên thư mục gốc của miền để truy cập được tại https://yourdomain.com/robots.txt. Trình thu thập chỉ nhìn ở đó; tệp robots.txt trong thư mục con sẽ bị bỏ qua. Dùng nút Tải xuống để lưu trực tiếp.
Có gì tôi gõ vào được gửi đến máy chủ không?
Không. robots.txt được tạo hoàn toàn trong trình duyệt của bạn bằng JavaScript. Đường dẫn, user-agent, URL sơ đồ trang web và lựa chọn của bạn không bao giờ được tải lên, lưu trữ hay truyền đi, nên việc soạn quy tắc cho các trang riêng tư hoặc chưa ra mắt là an toàn.

Công cụ liên quan