完成一次搜索的基本流程(圖片由 Google 提供)
新浪科技訊 3月12日早間消息, Google 完成一次搜索請求,時間不足一秒、平均往返距離卻要約2400公里。每天 Google 都有200多項改進算法的在線實驗,一個想法要通過多道考驗才能付諸執行。而在個性化搜索日益重要的今天, Google 算法改進也面臨著新的挑戰。
來自官方的數據顯示,從2003年到現在 Google 搜索已經接受超過4500億個搜索請求。而用戶每天發出的搜索請求中,有16-20%是全新的關鍵詞。
一個基本的搜索過程分這樣幾步:提交搜索請求->發送->篩選分類->查找索引->選擇網頁->結果排名->結現結果。 Google 給出的解釋說,一個請求會被分發到數千個數據中心,然後根據關鍵詞進行匹配,再根據數百個指標對得到的數據進行排名。
這個複雜的過程通常在一秒內完成,但平均每個 Google 搜索的關鍵詞往返於用戶電腦和數據中心的距離約為2400公里(1500英里)。
“很多人認為 Google 已經解決了搜索的問題,但是在 Google 看來搜索的發展才剛剛起步。如果說搜索是一本書,那 Google 才剛寫完了開篇”, Google 工程總監斯考特-霍夫曼(Scott Huffman)在談到搜索時說,十多年來 Google 搜索的算法一直在不斷改進。
每年 Google 搜索結果都會改變20-30%左右。霍夫曼的主要工作之一,就是對 Google 搜索質量進行評估,在他看來這個過程遠比外界看到的複雜。
以去年為例,在眾多的搜索算法改進構思中,有41831項進行了必要性評估,這其中又有9250項進行了小規模實驗,進而又有7363項進行了在線實驗,最終有520多項改進被付諸實施。霍夫曼總結 Google 改進算法的方式為:數據驅動、實驗評估。
Google 搜索平均每時每刻都有200多項實驗在進行;而在評估的過程中,既會借助基於統計學搭建的模型,還依靠多種語言的獨立評估員。
霍夫曼表示 Google 搜索算法近期的主要改進,可以歸納為三個方面。
‧新鮮度算法調整:在某些情況下, Google 需要為用戶提供最新搜索結果,比如即時新聞、定期發生的重大事件以及內容頻繁更新的話題等。如果搜索“奧運會”,用戶會得到與即將舉辦的倫敦奧運會相關的最新搜索結果,而非關於1984年奧運會的陳舊信息。
‧優質網站算法調整:這對包含原始信息、研究調查、深度報導、精準分析等內容的高質量網站十分有利,提高了它們在搜索結果中的排名。
‧頁面佈局算法調整:這一改進關注用戶在點擊搜索結果後所看到的網頁佈局,提升網頁信息的豐富程度 ,提高信息容易被搜索到的網頁的排名。
除此以外, Google 還計劃將更多社交、流動、位置等信息元素,更好的與搜索進行整合。這一方面會讓搜索結果更加的個性化,但同時也給 Google 帶來新的難題:如何衡量並提升越來越個性化的搜索結果。此前的實驗方式必須有所調整。
霍夫曼對此解釋說,對於受個性化影響較大的因素, Google 會採用更多的在線實驗方式進行考察。例如考察一個用戶的跳轉和停留時間,通過統計模型對相關數據進行分析、判斷。此外,還會在得到允許的情況下獲取評估員的個人信息,並據此改進搜索結果。
“新的算法改進想法往往是在解決問題時產生的”,霍夫曼說,目前 Google 在搜索算法開發上投入的時間,已經超過1000人工年。