最近建立了一個網站,在 Google Search Console 上傳Sitemap時遇到了「擷取失敗」的問題。為了記錄解決過程,我撰寫了這篇文章,並提供了一些可用於排查 Sitemap 問題的測試步驟,希望能幫助其他同樣遇到此問題的網站管理員。
Sitemap 介紹
Sitemap(網站地圖)是一份XML格式的文件,用於列出網站上的所有重要頁面,以便搜尋引擎更全面、快速地理解和索引網站結構。透過提交Sitemap給Google Search Console,網站管理員可以確保所有重要頁面能被搜尋引擎爬蟲發現,即使這些頁面在網站導航中難以找到。這有助於提升網站的搜尋能見度,使內容更容易被目標受眾找到。
這次遇到的問題
2024/11/12 時在 GSC 後台 Sitemap 頁面裡面,提交之後發現出現”無法擷取”的狀態

提供以下方法可以嘗試排除看看
很少遇過這樣的問題,因此找了以下幾種方法做確認、排查
檢查 Sitemap URL 錯誤
確認您在 Search Console 中提交的 Sitemap URL 是否正確無誤。確保 URL 可以被瀏覽器正常打開。
在網址列輸入 https://yourwebsite.com/sitemap.xml 確認是否有這個檔案存在
此網站是透過 Slim SEO 外掛產生的 Sitemap.xml
輸入網址 https://webboost.website/sitemap.xml 確認有此檔案

robots.txt 設定錯誤
檢查您的 robots.txt 文件中有無設置對 Sitemap 的允許或禁止。 robots.txt 應包含 Sitemap: 行,指向 Sitemap 的完整 URL。
在網址列輸入 https://yourwebsite.com/robots.xml 確認是否有這個檔案存在
確認有此檔案,但是也發現了一些問題,檔案裡面只有以下內容
User-agent: *
Crawl-Delay: 20沒有 Disallow、Sitemap,因此先把它補齊,一般 WordPress網站建議要有以下 Disallow
Disallow: /wp-admin/
Disallow: /wp-includes/補上 Sitemap 網址
Sitemap: https://webboost.website/sitemap.xml可以透過此網址 檢查 robots.txt 或是透過 GSC 後台 => 設定查看

伺服器回應錯誤
檢查 Sitemap URL 是否返回正確的 HTTP 狀態碼(200 OK)。如果伺服器回應錯誤,可能是伺服器超載、停機或設定問題。

暫時性問題
暫時性問題:有時候是 Search Console 的暫時性讀取問題。可以稍等幾小時後重新嘗試提交或更新 Sitemap。

2024/11/12 因為網站最近剛開始架設,因此先放著持續架設網站中,後續確認
2024/11/14 昨天有測試手動提交,今天就能被google index;有另一篇文章已公開,目前等等看google自動索引
2024/12/3 發現過這麼久都還沒有索引,所以再次確認問題
