![]() 知道Google 街景是如何識別各種千奇百怪的門牌號的嗎?靠的是它搭建的一個瘋狂的神經網絡。 我們知道,在受約束環境下(如文檔處理)的字符識別技術,比方說OCR 技術已經被研究得很透。但是對照片中的多字符文本識別卻是個難題,因為這些照片中的字體、顏色、樣式、方向、排列不一,再加上光照、陰影、鏡像、遮蔽等環境因素影響,還有圖像本身的分辨率、焦點模糊、抖動等問題。而傳統的圖像文字識別,一般要經過字符定位、分割和識別三個步驟,處理效率不高。考慮Google 街景的每天上傳的圖片量,以往的這些方法顯然缺乏實用價值。 為此,Google開發了一套大型的神經網絡來處理海量的Google街景圖片中的門牌號識別問題。這個神經網絡的代號是DistBelief,其學名是深度卷積神經網絡,我們之前曾介紹過這套會思考的深度學習系統。經過DistBelief訓練的這個大型分佈式神經網絡,可以把定位、分割和識別三個步驟集成到一起,直接對每一個像素進行操作。其性能隨著神經網絡的深度增加而提高,在11層的時候達到最高。
|