圖數據庫中的高科技和高安全性
這篇文章首先出現在 IEEE IT Professional 雜志上. IEEE IT Professional 對當前戰略性的科技議題提供可靠的同行評議信息。 為了能應對挑戰,可靠、靈活地運行企業,IT管理者和技術領導者在獲得最先進的解決方案時需要依靠IT 專家。
針對網絡安全的措施最好在系統設計時就進行考慮,否則后期的改造成本會非常高。新的技術和應用會使系統的安全和隱私面臨新的挑戰,而且采納新技術 的結果通常很難去預測。圖數據庫就是這樣的情形,它是一個比較新的、關注度持續上升的數據庫技術。這篇文章探討了圖數據庫的價值,并對影響安全和隱私的地 方作了一些研究。
NOSQL的出現
關系型數據庫(RDBMS)起初是為了最大化利用昂貴的存儲而設計的,不過它現在已經真正成為具有高效和穩定事務處理能力的系統。例如,關系型數 據在大規模信用卡事務處理和循環計費操作方面都具有優勢。它在索引數據位置上提供了出眾的性能,但在高度動態的環境下卻表現不佳,比如作為易失性數據 (volatile data)的管理信息系統,或者是有大量多對多關系時所需的系統架構。在這些場景下,關系新數據庫的設計強加了太多的數學和管理開銷。
NoSQL(Not Only Structured Query Language)數據庫的出現表示在數十年之久的關系型數據庫 1 之外有了另一種選擇。多種形式的NoSQL數據庫開啟了一扇扇大門,從而極大地改進了動態數據描述,以及更小的開銷和性能損失。例如,在NoSQL世界中 模式(schemas)的定義不必那么嚴格。NoSQL數據庫的種類包括寬列存儲、文本存儲、鍵值(元組)存儲、多模式數據庫、對象數據庫、網格/云數據 庫和圖數據庫。其中圖數據庫,與NoSQL世界 2 多個技術發展路線交叉,勢必會成為一項成功的技術。
圖數據庫
圖數據庫依賴于熟悉的“節點-弧-節點”網絡關系,或者更簡單一些的“名詞-動詞-名詞”網絡關系(參見圖1)。一個節點可以是任意的對象,而一 個弧則表示了節點間的關系。節點和弧都可以有自己的屬性。這種簡單的節點-弧-節點構成了三元一體,通常稱為三元組(triple),三元組是詳盡描述復 雜網絡行為的基礎構件。
電力網絡、企業供應鏈或整體生態系統這樣的網絡通常由許多的節點組成,這些節點通過它們之間的弧共享大量的多元關系。這些網絡非常適合用圖來表示,圖數據庫利用了這個強大的能力來表示網絡的組成和連接。目前,圖數據庫已經可以很成熟地支持圖發現、知識管理和事件預測。
在互聯網世界中,各種類型的網絡也愈顯重要,而探究網絡的能力正成為其現代化意義中的基本要素。然而和關系新數據庫一樣,圖數據庫只是工具箱中的 一種工具,它可以被正確地利用,或者是相反。所以對這個令人興奮的新技術,至少從最高的設計層次上,大范圍地評估安全性對其影響,是個成熟的做法。
圖發現
圖數據庫通過處理節點屬性和連接,從而可以表示豐富的信息,這些信息通常是被隱藏的,直到它們被挖掘出來。圖發現(Discovery)是一種通過挖掘相關的大數據集,從而提供新的洞察(Insight)的方法,而這些并不需要對洞察的內容具有很強的預判能力。
圖數據庫起初并沒有被認為是一個有用的發現工具。之前人們使用特殊設計的超級計算機家族來實現圖發現的全部能力。盡管這樣可以很直接地表示圖,但當三元組的數量增加到數十億的量級后,快速遍歷多個路徑就成為計算的瓶頸,除了那些最強大的機器。
上述的情況經常在稠密圖時出現,比如編織緊密的蛋白質網絡。此時,詳細的圖查詢可以讓計算能力不足的系統崩潰。當前,為了遍歷圖,在處理圖的超級計算機上 重新進行了設計,克服了時間和容量上的限制。完成這樣工作的設備包括了一些Hadoop平臺的分析工具,以及近期在克雷超級計算機 3 上已經可用的商用高端圖數據庫。
為圖發現而設計的高端圖處理超級計算機帶給人們巨大的期望。比如,它可以支持詳盡創建出海洋和天氣之間的復雜關系,這些就構成了氣候變化的條件。在巨大氣候變化時,進一步發現那些間接的、非線性的原因和影響顯得尤為重要。 同樣的,圖處理超級計算機可以加速發現西非埃博拉疫情的是如何傳播的,這有助于我們阻止這種病情的傳播。圖2描述了用圖數據庫做圖發現的概念。
圖1. 基礎圖理論。這種簡單的節點-弧-節點構成了三元一體,通常稱為三元組(triple),三元組是詳盡描述復雜網絡行為的基礎構件。
圖2. 利用圖處理數據庫實現圖發現。這種發現可以支持詳盡創建出海洋和天氣之間的復雜關系,這些就構成了氣候變化的條件;或者可以加速發現西非埃博拉疫情的是如何傳播的。
圖發現:隱私和安全
圖發現,給解決復雜的相關性問題帶來了很大希望,然而我們要關注隨之而來的隱私和安全性問題。例如,當圖處理超級計算機變成可以挖掘我們社交和金融交易信息以進行監聽、廣告,以及其它公然利用個人信息來侵犯個人隱私的設備時,個人信息就會面臨更多被暴露的風險。
雖然在一個繁榮自由的系統中設置道德約束的想法有點格格不入,然而事使對個人生活的侵犯保持在可接受范圍內卻被證明是很有必要的,如果其不是憲法 所要求的,也是處于財務保密的原因。期望執法機關利用所有必需的手段以消除我們面臨的那些真正的威脅,是完全合理的想法,但這樣的話社會成本會有多高?同 樣的,有些人為了利用每次市場機會從而使用各種方法來快速推出產品,但這個目標的實現又會犧牲多少個體的代價呢?現實中這樣極端的開發模式不過是已有趨勢 的一個投影。
在社會經濟學的研究設計中,當特別涉及大范圍的社會和商業事務關系時,安全門檻就必須設置的非常高。任何對此的惡意侵入,可能比最近一些信用卡發行公司或影片公司遭受的大規模黑客攻擊,更具毀滅性的后果。當考慮萬物互聯( IoA:Internet of Anything )這個概念時,情況會進一步惡化,因為IoA中包含了無數的傳感器、執行器和移動設備,所有這些看起來都可以被優化利用,以泄露個人隱私。 4
圖知識管理
節點-弧-節點的三元組概念非常適合使用資源描述框架(RDF:Resource Description Framework)這種描述性語言來表達“主謂對象(subject predicate-object)”關系。RDF創建了一種正式表達的層次從而可以描述和推理圖數據庫中的數據。并且,RDF很好地滿足了形式本體論 (formal ontology),從而可以定義嚴格語義的術語。這種形式化定義“多少才夠呢”?這個問題和形式化定義在實際中可容許的程度相關,可能要用很多年才能回 答。對W3C來說,RDF和形式化本體論一起提供了網絡關聯數據的視圖,并且致力于在常用的網絡引用格式中提供可重用的結構化知識 5 。但它也有一個缺點,即對于高度結構化的數據,如組織非常好的電子表格數據和數據庫轉換到RDF是相對簡單的,但可靠地轉換非結構化數據到RDF的能力還 只能在一些高端工具中提供,并且還帶有一些限制性的警告。然而并不是所有的圖數據庫都需要用RDF來進行三元組的表達,許多發展很好的商業圖數據庫沒有使 用RDF,而是使用私有的方法來表達三元組。一些圖數據庫還提供了一些有吸引力的特性,比如圖可視化、備份和恢復。預計到2017年 6 ,圖數據庫產業在數據庫市場的份額將從2個百分點增長到25個百分點,在此過程中圖數據庫工具將會逐步獲得企業認可,并且其消費群體會持續增長。當然,其中很多圖數據庫會使用自己的數據管理語言和技術,但也會有對標準化的實際需求,至少是在支持數據的可移植性上。
知識管理:隱私與安全
不得不再次強調安全,特別在那些專有的架構設計中必須有所考慮。如果按現有專家預期的那樣,網絡分享是產生大量表述系統三元組的一個合理渠道,那么設計RDF數據倉庫的安全門戶就變得極其重要。同樣,用戶身份認證和驗證的概念也會變得很重要。
在隱私和安全方面,也許知識管理可能不會像圖發現付出的代價高,但相關數據庫仍會暴露特定的身份屬性,而這些屬性本應得到很好地保護。所以必須制 定前端規定(front-end provisions)來確保防范入侵的安全性,以及圖數據庫中儲存的個人數據的隱私性。不能提供足夠保護的圖形數據庫產品可能會被取消資格,被承諾提供 這種保護的圖數據庫產品取而代之,盡管后者的接口仍會容易受到攻擊。
圖預測
在動態環境中需要揭示其變化過程時,如天氣或經濟的走勢,則非常期望具有預測未來行為的能力。
圖的表述形式有利于這種預測,因為它讓我們可以把一個系統定量定性地描述成一個網絡。可以給節點和弧分配屬性,如位置、時間、重量或數量,這種能力可以使 我們在相似屬性的基礎上去定性地評價圖。更重要的是,量化技術可以使我們評估幾乎所有圖表的內在指標,這可以應用在包括神經科學的許多領域中。 7
將驗證過的指標應用到圖的能力意味著圖的特征可以被量化,從而可以客觀地去評價它。如果圖數據是動態的,比如是一個持續變化的過程,當數據流可以 被訪問時,那么強大的預測能力可能就蘊藏其中。這個方法假定組合圖論和組合數學可以被應用到實時數據流處理中。而且,各種圖配置可以根據指標來分類。通過 每個分類模板,加上一個基于指標的圖簽名,就可以對圖進行識別,也可以作為有相似的圖出現時,預測它們的基線。
預測:安全和隱私
目前網絡安全的最佳實踐建議是對研究的系統進行快照,以確定其安全和隱私中的脆弱關系,這被認為具有重要意義,而系統也可以由此獲得證明其安全性 的認證。這個實踐的謬誤之處在于絕大多數的系統處于永遠變化的環境中,隨著時間的推移,系統的行為會發生改變。因此,認證只能說明在快照的那個時刻系統是 好的。
在復雜性日趨增加的情況下,圖形數據庫提供了讓我們監測近實時動態變化的可能性。通過定量的方法監測數據流中異常節點或關系模式的變化,我們就可以盡早地檢測和調查那些入侵行為和其他安全漏洞,以及迅速起訴識別到的那些罪犯。
從預測的角度來看,數據的完整性必須優先保證。而且因為預測的成本很高,所以數據的來源問題也變得至關重要。預測結果的準確性來自預測工具使用數 據的準確性。錯誤的數據會嚴重影響到結果,甚至嚴重危及到安全性。設想一下將錯誤的預測模型應用于救災時的后果,這時它可能要求將資源分配到沒有受災的區 域而不是相反。就這一點而言,實踐中好的安全性來自于我們再應用科學時所采取的高道德標準。盡管圖數據庫可以在各種網絡構成的世界中被應用,人們也對這些 圖數據庫寄予了很大的期望,但它們仍然會暴露出一些固有的安全風險,人們對這些風險尚未能完全認識,更不要說去領會了。
謹慎的IT專業人員從不建筑空中樓閣,他們必須仔細評估在預期操作環境中的潛在風險,并且進行必要的權衡,最終達到可接受的安全和數據保護級別。 如果對這些新技術,如日益流行的圖數據庫,在設計前期沒有考慮相關的安全和隱私問題,那么在后期實現它們的代價就會變得相當高昂。
References
- A.B.M. Moniruzzaman and S.A. Hossain, “NoSQL Database: New Era of Databases for Big Data Analytics—Classification, Characteristics and Comparison,” Int’l J. Database Theory and Application, vol. 6, no. 4, 2013.
- M. Buerli, “The Current State of Graph Databases,” Dept. of Computer Science, Cal Poly San Luis Obispo, Dec. 2012.
- Real Time Discovery in Big-Data Using the Urika-GD Appliance , white paper, Oct. 2014;
- A. Ukil, S. Bandyopadhyay, and A. Pal, “IoT-Privacy: To be Private or Not to be Private,” IEEE Conf. Computer Communications Workshops (INFOCOM), 2014, pp. 123–124.
- D. Wood et al., Linked Data—Structured Data on the Web, Manning Publications, 2014.
- E. Eifrem, “ Graphs are Eating the World ,” keynote, GraphConnect, Nov. 2014;
- O. Sporns, “ The Nonrandom Brain: Efficiency, Economy, and Complex Dynamics ,” Frontiers in Computational Neuroscience, vol. 5, 2011;
關于作者
George Hurlburt 是STEMCorp公司的首席科學家, STEMCorp是一個非營利性機構,它致力于通過采用網絡科學來促進世界經濟的發展,以及推動可為人類服務的自動化技術工具的應用。可以通過下面這個郵箱來聯系他: ghurlburt@change-index.com 。
這篇文章首先出現在 IEEE IT Professional 雜志上. IEEE IT Professional 對當前戰略性的科技議題提供可靠的同行評議信息。 為了能應對挑戰,可靠、靈活地運行企業,IT管理者和技術領導者在獲得最先進的解決方案時需要依靠IT 專家。
查看英文原文: High Tech, High Sec.: Security Concerns in Graph Databases