Trình tạo robots.txt
Tạo tệp robots.txt từ user-agent, các đường dẫn cho phép và chặn, crawl-delay, URL sơ đồ trang web và các thiết lập sẵn một cú nhấp giúp chặn những trình thu thập AI phổ biến.
Trình tạo robots.txt — Nhập các đường dẫn bạn muốn cho phép hoặc chặn, đặt crawl-delay và URL sơ đồ trang web tùy chọn, rồi đánh dấu các thiết lập sẵn về trình thu thập AI để có một tệp robots.txt gọn gàng, sẵn sàng tải lên. Tệp được dựng trực tiếp khi bạn gõ và có thể sao chép hoặc tải xuống. Mọi thứ chạy trong trình duyệt của bạn — không đường dẫn hay quy tắc nào của bạn được gửi đến máy chủ.
Trình tạo robots.txt là gì?
Trình tạo robots.txt là một công cụ miễn phí chạy trong trình duyệt, viết ra tệp robots.txt mà các trình thu thập web đọc ở thư mục gốc của trang để quyết định chúng được phép lấy gì. Bạn đặt User-agent (mặc định *), liệt kê mỗi dòng một đường dẫn Disallow cùng các ngoại lệ Allow, tùy chọn thêm Crawl-delay và URL Sitemap, và công cụ chuyển tất cả thành các chỉ thị đúng. Nó cũng bao gồm một thiết lập sẵn dạng hộp kiểm giúp chặn những trình thu thập huấn luyện AI nổi tiếng — GPTBot, ClaudeBot, CCBot và Google-Extended — bằng cách thêm một nhóm riêng cho mỗi loại. Chủ sở hữu trang web, chuyên gia SEO và nhà phát triển dùng nó khi ra mắt trang, ẩn các đường dẫn quản trị hoặc staging khỏi công cụ tìm kiếm, hoặc từ chối việc thu thập dữ liệu bởi AI. Sao chép kết quả vào một tệp tên là robots.txt ở thư mục gốc miền của bạn, hoặc dùng nút Tải xuống.
Cách sử dụng Trình tạo robots.txt
- Nhập user-agent mà các quy tắc áp dụng, hoặc để * cho mọi trình thu thập.
- Gõ các đường dẫn cần chặn vào ô Disallow, mỗi dòng một đường dẫn (ví dụ /admin/ hoặc /private/).
- Thêm các ngoại lệ Allow, mỗi dòng một đường dẫn, để cho phép lại các đường dẫn con bên trong thư mục bị chặn.
- Tùy chọn đặt crawl-delay tính bằng giây và dán URL sơ đồ trang web đầy đủ của bạn.
- Đánh dấu các hộp kiểm trình thu thập AI (GPTBot, ClaudeBot, CCBot, Google-Extended) để ngăn chúng thu thập nội dung của bạn.
- Sao chép tệp robots.txt đã tạo hoặc nhấp Tải xuống, rồi đặt tệp ở thư mục gốc của trang.
Ví dụ
Chặn quản trị và staging
Đầu vào
User-agent: * Disallow: /admin/ Disallow: /staging/ Sitemap: https://example.com/sitemap.xml
Đầu ra
User-agent: * Disallow: /admin/ Disallow: /staging/ Sitemap: https://example.com/sitemap.xml
Cho phép bên trong thư mục bị chặn
Đầu vào
User-agent: * Disallow: /downloads/ Allow: /downloads/public/
Đầu ra
User-agent: * Disallow: /downloads/ Allow: /downloads/public/
Từ chối trình thu thập AI
Đầu vào
Chặn GPTBot, ClaudeBot, CCBot, Google-Extended
Đầu ra
User-agent: GPTBot Disallow: / User-agent: ClaudeBot Disallow: / User-agent: CCBot Disallow: / User-agent: Google-Extended Disallow: /
Câu hỏi thường gặp
- robots.txt thực sự làm gì?
- Đó là một tệp văn bản thuần ở thư mục gốc của trang, dùng các quy tắc Allow và Disallow được nhóm theo User-agent để cho các trình thu thập tuân thủ biết những đường dẫn nào chúng được hoặc không được yêu cầu. Đây là một lời đề nghị, không phải sự cưỡng chế: các bot cư xử tốt như Googlebot tôn trọng nó, nhưng nó không chặn quyền truy cập của những công cụ bỏ qua nó, nên đừng bao giờ dùng nó để ẩn dữ liệu thực sự nhạy cảm.
- Các thiết lập sẵn chặn trình thu thập AI hoạt động ra sao?
- Mỗi hộp kiểm thêm một nhóm riêng như 'User-agent: GPTBot' theo sau là 'Disallow: /', yêu cầu trình thu thập đó không lấy bất kỳ trang nào. GPTBot là trình thu thập của OpenAI, ClaudeBot của Anthropic, CCBot là Common Crawl, còn Google-Extended kiểm soát việc dùng nội dung của bạn cho các mô hình AI của Google. Đánh dấu một hộp sẽ thêm nhóm của nó; bỏ đánh dấu sẽ xóa nó.
- Sự khác biệt giữa Allow và Disallow là gì?
- Disallow liệt kê các tiền tố đường dẫn mà trình thu thập không nên yêu cầu, trong khi Allow cho phép lại một đường dẫn con cụ thể hơn bên trong thư mục bị chặn. Ví dụ, Disallow: /files/ với Allow: /files/public/ chặn cả thư mục nhưng giữ cho thư mục con public vẫn thu thập được. Nhập mỗi dòng một đường dẫn trong từng ô.
- Tôi đặt tệp đã tạo ở đâu?
- Lưu nó dưới dạng tệp có tên đúng là robots.txt và tải lên thư mục gốc của miền để truy cập được tại https://yourdomain.com/robots.txt. Trình thu thập chỉ nhìn ở đó; tệp robots.txt trong thư mục con sẽ bị bỏ qua. Dùng nút Tải xuống để lưu trực tiếp.
- Có gì tôi gõ vào được gửi đến máy chủ không?
- Không. robots.txt được tạo hoàn toàn trong trình duyệt của bạn bằng JavaScript. Đường dẫn, user-agent, URL sơ đồ trang web và lựa chọn của bạn không bao giờ được tải lên, lưu trữ hay truyền đi, nên việc soạn quy tắc cho các trang riêng tư hoặc chưa ra mắt là an toàn.
Công cụ liên quan
Trình tạo thẻ hreflang
Tạo các thẻ link hreflang cho một trang đa ngôn ngữ từ danh sách các cặp ngôn ngữ và URL, kèm x-default tùy chọn và thẻ tự tham chiếu.
Trình tạo JSON-LD
Tạo dữ liệu có cấu trúc JSON-LD hợp lệ cho các schema Article, Product, FAQPage, HowTo, LocalBusiness, Event, Recipe, BreadcrumbList và Organization từ một biểu mẫu đơn giản.
Công cụ kiểm tra mật độ từ khóa
Phân tích bất kỳ văn bản nào để đếm tần suất từ và mật độ từ khóa dưới dạng cụm 1, 2 hoặc 3 từ, kèm cảnh báo tối ưu hóa quá mức.
Trình tạo thẻ Meta
Tạo các thẻ meta SEO, Open Graph và Twitter Card cho trang của bạn từ tiêu đề, mô tả, URL chuẩn, hình ảnh, tên trang và loại thẻ.