我剛加入環球網校時,他們的網站(www.iwin588.co)在百度的收錄極少,財神娛樂代理已有近一年的時間。 當我應徵時,CEO知道我在SEO方面有一些經驗,因此委託我解決網站不被百度收錄的問題。

最初,我只是聽公司同事和CEO說網站在百度上不被收錄,但具體出了什麼問題,我一無所知。 因此,我開始了整理資料和排查問題的工作。

首先,我將網站依照類型分類,亞洲財神娛樂分為頻道頁、清單頁、專題頁、聚合頁、新聞頁五類。 然後,透過技術人員的協助,我獲得了這五類URL的匯出資料(對於新聞頁,由於其具有時效性,我只匯出了最近30天的資料)。 接著,我開始對不同分類的頁面進行收錄查詢工作。

我發現,網站不被收錄的問題主要出現在新聞頁面。 然而,環球網校的新聞主要是關於考試資訊發布和資料發布等具有一定時效性的文章,理應能夠被百度快速收錄。

因此,我和相關人員取得了網站最近7天的日誌資料。財神娛樂城 技術團隊提供的是原始網站日誌,包含爬蟲資料和使用者資料等。 由於情況緊急,我不得不親自清理這些數據。

以下是我對網站爬蟲日誌進行清理的流程:

首先,我根據user-agent中包含「baiduspider」的資料進行過濾,只保留百度爬蟲的資料。

然而,百度爬蟲資料中也包含許多偽造的爬蟲。 因此,我先提取了所有baiduspider的IP位址,並進行了去重處理。

我得到了大約600個獨特的IP位址。 然後,財神爺娛樂城我使用程式批量識別這些IP位址,最終確定了82個真實的爬蟲IP位址。

接著,我再次過濾爬蟲數據,只保留這82個真實的百度爬蟲IP位址對應的數據。 這樣,我就得到了真實的爬蟲數據。

我在清理後的日誌資料中查詢了最近7天發布的URL。 結果顯示,所有新頁面在發布後的1分鐘內都被百度爬蟲抓取,顯示抓取速度很快,並且第二天、第三天還有繼續抓取的情況。

透過分析爬蟲的行為數據,我得出結論,抓取並沒有出現問題。

在分析日誌之前,我與技術、產品和維運部門同步了一項需求:我需要知道網站一年前突然不被收錄的大致時間節點,以了解各部門當時做了哪些改動。 正當我完成日誌分析後的那個晚上,技術負責人告訴我,他想起了當年網站遭受了攻擊,大量垃圾資料被注入後,網站的收錄出現異常。

雖然我已經意識到問題可能出在這裡,但為了更全面地了解問題,我還是要求他們按規定將之前所做的改動同步給我。

隔天早上,我開始與技術團隊徹底排除網站被攻擊的問題,確認先前註入的垃圾資訊是否已清除乾淨。 最終確認,垃圾訊息已徹底清除,並且正確地返回了404狀態碼和404錯誤頁面。

然後,我開始懷疑是不是百度沒有及時修正我們的狀態,財神娛樂城ptt導致網站開始不被收錄。 畢竟,他們當時可能檢測到了我們網站的風險。 經過一年後,情況依舊,我認為問題出在百度這邊。 我透過百度的回饋中心詳細描述了問題的經過,然後百度的技術團隊也在持續檢視。 我等待了一個星期,沒有得到回應。 其他部門也把之前的調整和改變都給了我,我確認他們的做法沒有問題。

因此,我主動聯繫了百度站長平台的朋友,希望他們能夠盡快處理,並找出問題。

然而,最後的結論是百度也沒有發現問題。 據說,幾個部門的技術人員針對我的問題進行了檢查,但沒有找到問題。 雖然我感激百度的支持,但我還是覺得問題沒有解決。 這是我入職以來CEO交給我的第一個任務,我必須解決。

我還與編輯部聯繫,詢問並檢查文章本身的品質問題。 他們一直按部就班地發布訊息,沒有任何變化。 時效性、可讀性和需求滿足度都得到了保證。 那到底出了什麼問題呢?

我反覆思考後,我認為問題的根源始於網站遭受攻擊。 如果百度確實沒有及時處理我們的狀態,導致收錄異常,那麼我要求百度重新計算我們的新聞頁面,以重新評估這類頁面。

我開始與產品團隊溝通,但他們很忙,我無奈之下,獨自著手繪製原型並開始工作。

透過重新設計頁面、豐富內鏈連結策略,以及增加廣告自訂場景,經過20多天的努力,新頁面上線了。

由於網站每天發布的新聞很多,約數百條,所以我寫了一個自動查詢收錄的程式。 每天,程式會自動查詢收錄情況,並將結果以Excel附件的形式傳送到我的信箱,供我查看。

就在新版新聞頁面上線的第4天,收錄率從之前每天1~5個,突然增加到100多個。 收錄率之前是零點零幾,現在達到了40%多,然後過了一天是82%,再過一天是79%,再過一天是85%,一週後持續在80%左右,直到下週突然 達到了97%,而且是秒收。 然後中間也有個別天數的浮動,但整體保持在95%上下。

至此,我相信收錄問題已徹底解決。 許多編輯同事也早已了解了這個情況。 幾年過去了,我策劃的新聞頁面依然存在,收錄情況一直良好。

綜上所述,解決網站不被收錄的問題思路如下:

確定網站不被收錄的頁面類型,如本案例中最終確定問題出現在新聞頁面。

在思考網站不被收錄的時間點內,網站管理人員所做的任何更改,並評估這些更改是否可能導致網站不被收錄。

分析網站日誌,查看不被收錄的頁面是否已抓取。 若未被抓取,則可能有抓取問題;若已被抓取,則可能不存在問題。

若網站變更和抓取都無異常,可向站長工具回饋特定問題,並同時對相關頁面進行適當調整,如增加連結、提升頁面品質等。

若仍無法解決問題,可考慮對相關頁面進行重構,嘗試改版。

GIF图片        
Floating Ad