IBM軟件架構處理天文領域海量數據
IBM最近發布了能夠處理海量數據流的軟件架構原型。IBM 的這款軟件為 SKA(平方公里陣列)望遠鏡項目而建,能夠自動分類天體對象。來自新西蘭惠靈頓維多利亞大學的射電天文學家 Melanie Johnston-Hollitt 與 IBM 合作開發了該系統。
這項 SKA 項目的主要目的是通過遍布在澳大利亞、新西蘭或貫穿南非的雷達和天線網絡,對射電源進行前所未有的精確觀測。一項主要的設計挑戰是如何每天處理 1EB(譯者注:1EB=1024PB)的原始數據。這就是當這個世界上最龐大、最靈敏的射電望遠鏡準備就緒時,需要去處理的數據量;項目預計在 2016 年開始實施。IBM 稱該數據量已經超過了互聯網每天的流量總和。相當于需要 1500 萬多個 64G 的 iPod 才能存儲這些數據。
IBM 于 11 月 10 日宣布原型系統完成。
這一新的自動化數據管理軟件架構,很可能會使研究者更方便的從那些超大規模的數據收集項目中搜集有用信息,比如這個平方公里陣列全球天文望遠鏡,有了它我們可以探索宇宙中那些未解之謎。
在 Melanie Johnston-Hollitt 博士的幫助下,IBM 創建了信息密集框架(IIF)。IBM 提到,該軟件采用國際虛擬天文協會本體論方法把收集到的數據分類為天文學家能夠理解的概念,并且提供智能的“導引搜索”功能。該本體論的技術基礎是網絡本體語言(OWL)。天文學家們希望能夠通過自動分類來提高工作效率和創造性。
雖然 IIF 最初是為 SKA 項目開發,但它也可以在其他領域得以應用。Douglas Watt,IBM 新西蘭首席技術官,解釋道:
雖然一開始為 SKA 項目開發,但最終的項目成果也可以應用到其他面臨“數據洪流”的企業組織。我們已經確定了幾個本地場景,無論從自動化性能數據分析還是到監控趨勢變化、異常識別以及提高決策力等等方面,都能從中受益。潛在的客戶范圍包括從獨立制造廠商以及電信企業到整個運輸網絡和醫療系統。
除了上述主題,IIF 未來的工作還將包括通過利用并行處理來提升性能。
對 SKA 項目感興趣的讀者可以在 Flicker 上觀看圖片,上面詳細解釋了一些令人印象深刻的 SKA 細節。
查看英文原文:IBM’s Software Architecture for Astronomically Big Data