現在,位於加拿大布法羅市 Hauptman-Woodward Medical Research Institute (HWI) 的科學家們已經對 9400 多種蛋白質進行了超過 8600 萬次的結晶實驗。作為結果,他們獲得了超過 8600 萬張通過 X 射線結晶學高通量拍攝管道的蛋白質的照片。每張照片都需要進行分析,以確定實驗的結果是晶體、沉澱物、相位分離、表面效應還是無變化。
這些研究人員所遇到的難題之一是這些數據集的規模實在太大,存儲容量總計超過了 25 TB(相當於 9000 多張 DVD)。IBM 的「藍色基因」(Blue Gene) 超級計算機為這階段的工作提供了幫助,它通過一種特殊的圖像壓縮算法對這些圖像進行無損壓縮。研究人員還面臨另一個挑戰,即在一台計算機上全面分析一張圖像以確定結晶化結果大約需要 10 個小時。按照這種進度,研究人員幾乎需要 10 萬年才能分析完現有的這些照片。
World Community Grid 與「征服癌症」項目
借助 World Community Grid 強大的計算能力,Ontario Cancer Institute (OCI)、Princess Margaret Hospital 以及 University Health Network 的科學家們能夠對通過 HWI 高通量結晶化管道拍攝的 8600 萬幅現有的蛋白質圖像進行處理。World Community Grid 運行 OCI 的研究人員開發的 CrystalVision 程序,分析每幅圖像的特徵,以確定結晶化拍攝的結果:晶體、微晶體、相位分離、表面效應、沉澱物還是無變化。
如果產生的晶體結構不佳或不夠大,科學家們仍可利用這些信息來幫助他們更好地確定產生結構良好的晶體所必需的條件。舉例來說,他們可能瞭解到蛋白質 X 在條件 A 下產生了微晶體,而蛋白質 A 在條件 Z 下也產生了微晶體。基於這些信息,他們能夠進行其他實驗來推斷出需要最優化哪些條件才能產生更大、結構更好的晶體。
分析這個實驗的結果還能夠幫助研究人員更好地理解蛋白質結晶學的基本原理。利用 World Community Grid,全面的結晶學圖像分析首次得以完成,而由於其計算的複雜性,這在以前是不可能完成的任務。這個實驗又使 CrystalVision 得到改進,從而能夠提供更快更準確的圖像分類。