robots.txt 能做什麼,不能做什麼
robots.txt 最容易被誤用的地方,在於很多人會把它當成存取控制手段。事實上,它只是面向合規爬蟲的抓取提示,用來說明哪些路徑允許抓取、哪些路徑不建議抓取,並不能真正保護後台、私密檔案或未公開頁面。
寫 robots 規則時,最重要的是規則邊界清楚
robots.txt 寫錯時,後果通常不是「完全無效」,而是「誤傷面太大」。例如一個過寬的 `Disallow` 前綴,可能把原本應該公開的內容一起擋掉;反過來,一個 user-agent 分段寫錯,也可能讓本來只想針對某類爬蟲的規則,落成了全站預設。真正成熟的寫法,往往不是複雜,而是邊界非常清楚。
幾類最核心的 robots 指令
| 指令 | 作用 |
|---|---|
| User-agent | 指定後續規則針對哪類爬蟲 |
| Disallow | 提示哪些路徑不建議抓取 |
| Allow | 在更大範圍封鎖裡單獨放開局部路徑 |
| Sitemap | 把爬蟲引導到網站地圖位址 |
如何使用這個工具
- 先在 Robots.txt 產生器 中准备一份有代表性的User-agent 規則、允许路径、禁止路径、抓取延迟提示和 sitemap 地址,不要一开始就處理最大或最敏感的真实内容。
- 执行處理流程并產生可部署前複核的 robots.txt 檔案内容后,優先檢查路径前缀、規則順序、sitemap URL、特定爬虫代理和是否误挡公开頁面,再判断结果是否真的可用。
- 只有当结果已经適合用于新站上线、保护 staging、排除後台路径、声明站点地圖和 SEO 交接,并且不再触发這条风险提醒时,才複製或下载輸出:robots 規則只是给合规爬虫看的公开提示,不能当作私密内容的访问控制。
Robots.txt 產生器 範例
這個 Robots.txt 產生器 示例使用有代表性的User-agent 規則、允许路径、禁止路径、抓取延迟提示和 sitemap 地址,展示產生后的可部署前複核的 robots.txt 檔案内容,便于你先確認路径前缀、規則順序、sitemap URL、特定爬虫代理和是否误挡公开頁面,再把同样設定用于真实輸入。
範例輸入
Allow /, disallow /admin, sitemap https://codertools.site/sitemap.xml
預期輸出
User-agent: *
Allow: /
Disallow: /admin
Sitemap: https://codertools.site/sitemap.xml關於 staging 和私密路徑,一個非常重要的現實提醒
如果某個路徑真的必須保密,應該用登入驗證、網路限制或伺服器層權限,而不是依賴 robots.txt。因為 robots.txt 本身就是公開檔案,別人不僅能看到你不想讓爬蟲抓什麼,甚至還能順著檔案反查出敏感路徑在哪。對 staging、管理後台和內部預發布頁來說,這一點尤其不能搞錯。
使用注意
- 複用可部署前複核的 robots.txt 檔案内容前,先檢查路径前缀、規則順序、sitemap URL、特定爬虫代理和是否误挡公开頁面。
- robots 規則只是给合规爬虫看的公开提示,不能当作私密内容的访问控制。
- 当结果会影响生产工作或客户可见内容时,應保留原始User-agent 規則、允许路径、禁止路径、抓取延迟提示和 sitemap 地址以便回退和核对。
Robots.txt 產生器 參考說明
Robots.txt 產生器 的参考說明應始终围绕User-agent 規則、允许路径、禁止路径、抓取延迟提示和 sitemap 地址、產生的可部署前複核的 robots.txt 檔案内容,以及用于新站上线、保护 staging、排除後台路径、声明站点地圖和 SEO 交接前必须確認的檢查点。
- 輸入重点:User-agent 規則、允许路径、禁止路径、抓取延迟提示和 sitemap 地址。
- 輸出重点:可部署前複核的 robots.txt 檔案内容。
- 複核重点:路径前缀、規則順序、sitemap URL、特定爬虫代理和是否误挡公开頁面。
參考資料
常見問題
以下問題圍繞 Robots.txt 產生器 的實際用途整理,重點說明輸入要求、輸出結果與常見限制。產生包含 Allow、Disallow 與 Sitemap 規則的 robots.txt。
Robots.txt 產生器 最適合處理什麼樣的User-agent 规则、允许路径、禁止路径、抓取延迟提示和 sitemap 地址?
Robots.txt 產生器 的核心用途是產生 robots.txt 指令。当User-agent 規則、允许路径、禁止路径、抓取延迟提示和 sitemap 地址需要快速变成可部署前複核的 robots.txt 檔案内容,并继续用于新站上线、保护 staging、排除後台路径、声明站点地圖和 SEO 交接时,它最有价值。
複用 Robots.txt 產生器 產生的可部署前复核的 robots.txt 文件内容前,最該檢查什麼?
應優先檢查路径前缀、規則順序、sitemap URL、特定爬虫代理和是否误挡公开頁面。這些细节最能直接判断结果是否已经適合继续交给下游流程。
Robots.txt 產生器 產生的可部署前复核的 robots.txt 文件内容通常會被帶到哪裡繼續使用?
最常见的下一步就是用于新站上线、保护 staging、排除後台路径、声明站点地圖和 SEO 交接。這類輸出是按真实交接場景来组织的,不是泛化占位结果。
什麼時候不應該直接相信 Robots.txt 產生器 的結果,而要人工複核?
robots 規則只是给合规爬虫看的公开提示,不能当作私密内容的访问控制。