大數據正在如何改變數據庫格局?
—————————————從NoSQL到NewSQL的超越,創新洶涌而來。
原文作者:Katherine Noyes,中文翻譯:Juzen 本文由Juzen翻譯向36大數據投稿,并經由36大數據編輯發布,任何不標明譯者和本文鏈接http://www.36dsj.com/archives/37418的均為侵權。
提及“數據庫”,大多數人會想到擁有30多年風光歷史的RDBMS。然而,這可能很快就會發生改變。
一大批新的競爭者都在爭奪這一塊重要市場,他們的方法是多種多樣的,卻都有一個共同點:極其專注于大數據。
推動新的數據迭代衍生品大部分都是基于底層大數據的3V特征:數量,速度和種類。
本質上來講,今天的數據比以往任何時候都要傳輸更快,體積更大, 同時更加多樣化。這是一個新的數據世界,換言之, 傳統的關系數據庫管理系統并沒有真正為此而設計。
“基本上,他們不能擴展到大量,或快速,或不同種類的數據。”一位數據分析、數據科學咨詢機構的總裁格雷戈里認為。
這就是哈特漢克斯最近發現。截至到2013年左右, 營銷服務機構使用不同的數據庫,包括Microsoft SQL Server和Oracle真正應用集群(RAC)的組合。
“我們注意到,數據隨著時間的增長,我們的系統不能足夠快速的處理信息”一位科技發展公司的負責人肖恩說到。“如果你不斷地購買服務器,你只能繼續走到這幺遠,我們希望確保自己有向外擴展的平臺。”
最小化中斷是一個重要的目標,Iannuzzi說到,因此“ 我們不能只是切換到Hadoop。 ”
相反,卻選擇了拼接機器,基本上把完整的SQL數據庫放到目前流行的Hadoop大數據平臺之上,并允許現有的應用程序能夠與它連接,他認為。
哈特漢克斯現在是在執行的初期階段,但它已經看到了好處,Iannuzzi說,包括提高容錯性,高可用性,冗余性,穩定性和“性能全面提升”。
一種完美風暴推動了新的數據庫技術的出現,IDC公司研究副總裁Carl Olofson說到。
首先,“我們正在使用的設備與過去對比,處理大數據集更加快速,靈活性更強”Olofson說。
在過去,這樣的集合“幾乎必須放在旋轉磁盤上”,而且數據必須以特定的方式來結構化,他解釋說。
現在有64位尋址,使得能夠設置更大的存儲空間以及更快的網絡,并能夠串聯多臺計算器充當單個大型數據庫。
“這些東西在不可用之前開辟了可能性”Olofson說。
與此同時,工作負載也發生了變化。10年前的網站主要是靜態的,例如,今天我們享受到的網絡服務環境和互動式購物體驗。反過來,需要新的可擴展性,他說。
公司正在利用新的方式來使用數據。雖然傳統上我們大部分的精力都放在了對事務處理 – 銷售總額的記錄,比如,數據存儲在可以用來分析的地方 – 現在我們做的更多。
應用狀態管理就是一個例子
假設你正在玩一個網絡游戲。該技術會記錄你與系統的每個會話并連接在一起,以呈現出連續的體驗,即使你切換設備或各種移動,不同的服務器都會進行處理,Olofson解釋說。
數據必須保持連續性,這樣企業才可以分析問題,例如“為什么從來沒有人穿過水晶廳”。在網絡購物方面,為什么對方點擊選擇顏色后大多數人不會購買某個特殊品牌的鞋子。
“以前,我們并沒試圖解決這些問題,或者我們試圖扔進盒子也不太合適”Olofson說。
Hadoop是當今新的競爭者中一個重量級的產品。雖然他本身不是一個數據庫,它的成長為企業解決大數據扮演關鍵角色。從本質上講,Hadoop是一個運行高度并行應用程序的數據中心平臺,它有很強的可擴展性。
通過允許企業擴展“走出去”的分布方式,而不是通過額外昂貴的服務器“向上”擴展,“它使得我們可以低成本地把一個大的數據集匯總,然后進行分析研究成果”Olofson說。
其他新的RDBMS的替代品如NoSQL家族產品,其中包括MongoDB -目前第四大流行數據庫管理系統,比照DB引擎和MarkLogic非結構化數據存儲服務。
“關系型數據庫一直是一項偉大的技術持續了30年,但它是建立在不同的時代有不同的技術限制和不同的市場需求,”MarkLogic的執行副總裁喬·產品帕卡說。
大數據是不均勻的,他說。許多傳統的技術,這仍然是一個基本要求。
“想象一下,你的筆記本電腦上唯一的程序是Excel”帕卡說。“設想一下,你要和你的朋友利用網絡保持聯系 – 或者你正在寫一個合約卻不適合放進行和列中。”
拼接數據集是特別棘手的
“關系型,你把所有這些數據集中在一起前,必須先決定如何去組織所有的列,”他補充說。“我們可以采取任何形式或結構,并立即開始使用它。”
NoSQL數據庫沒有使用關系數據模型,并且它們通常不具有SQL接口。盡管許多的NoSQL存儲折中支持速度等其他因素,MarkLogic為企業定身量做,提供更為周全的選擇。
NoSQL儲存市場有相當大的增長,據市場研究媒體,不是每個人都認為這是正確的做法-至少,不是在所有情況下。
NoSQL系統“解決了許多問題,他們橫向擴展架構,但他們卻拋出了SQL,”一位CEO-Monte Zweben說。這反過來,又為現有的代碼構成問題。
Splice Machine是一家基于Hadoop的實時大數據技術公司,支持SQL事務處理,并針對OLAP 和OLAP應用進行實時優化處理。它被稱為替代NewSQL的一個例子,另一類預期會在未來幾年強勁增長。
“我們的理念是保持SQL,但橫向擴展架構”Zweben說。“這是新事物,但我們正在努力試圖使它讓人們不必重寫自己的東西。”
深度信息科學選擇并堅持使用SQL,但需要另一種方法。
公司的DeepSQL數據庫使用相同的應用程序編程接口(API)和關系模型如MySQL,意味著沒有應用變化的需求而使用它。但它以不同的方式處理數據,使用機器學習。
DeepSQL可以自動適應使用任何工作負載組合的物理,虛擬或云主機,該公司表示,從而省去了手動優化數據庫的需要。
該公司的首席戰略官Chad Jones表示,在業績大幅增加的同時,也有能力將“規模化”為上千億的行。
一種來自Algebraix數據完全不同的方式,表示已經開發了數據的第一個真正的數學化基礎。
而計算器硬件需在數學建模前建成,這不是在軟件的情況下,Algebraix首席執行官查爾斯銀說。
“軟件,尤其是數據,從未建立在數學的基礎上”他說,“軟件在很大程度上是語言學的問題。”
經過五年的研發,Algebraix創造了所謂的“數據的代數”集合論,“數據的通用語言”Silver說。
“大數據骯臟的小秘密是數據仍然放在不與其他數據小倉融合的地方”Silver解釋說。“我們已經證明,它都可以用數學方法來表示所有的集成。”
配備一個基礎的平臺,Algebraix現在為企業提供業務分析作為一種服務。改進的性能,容量和速度都符合預期的承諾。
時間會告訴我們哪些新的競爭者取得成功,哪些沒有,但在此期間,長期的領導者如Oracle不會完全停滯不前。
“軟件是一個非常時尚行業”安德魯·門德爾松,甲骨文執行副總裁數據庫服務器技術說。“事情經常去從流行到不受歡迎,回再次到流行。”
今天的許多創業公司“帶回炒冷飯少許拋光或旋轉就可以了”他說。“這是一個新一代孩子走出學校和重塑的東西。”
SQL是“唯一的語言,可以讓業務分析師提出問題并得到答案,他們沒有程序員,”門德爾松說。“大市場將始終是關系型。”
至于新的數據類型,關系型數據庫產品早在上世紀90年代發展為支持非結構化數據,他說。在2013年,甲骨文的同名數據庫版本12C增加了支持JSON(JavaScript對象符號)。
與其說需要一個不同類型的數據庫,它更是一種商業模式的轉變,門德爾松說。
“云,若是每個人都去,這將破壞這些小家伙”他說。“大家都在云上了,所以在這里有沒有地方來放這些小家伙?
“他們會去亞馬遜的云與亞馬遜競爭?” 他補充說。“這將是困難的。”
甲骨文有“最廣泛的云服務”門德爾松說。“在現在的位置,我們感覺良好。”
Gartner公司的研究主任里克·格林沃爾德,傾向于采取了類似的觀點。
“對比傳統強大的RDBMS,新的替代品并非功能齊全”格林沃爾德說。“一些使用案例可以與新的競爭者來解決,但不是全部,并非一種技術”。
展望未來,格林沃爾德預計,傳統的RDBMS供貨商感到價格壓力越來越大,并為他們的產品增加新的功能。“有些人會自由地帶來新的競爭者進入管理自己的整個數據生態系統”他說。
至于新的產品,有幾個會生存下來,他預測“許多人將被收購或資金耗盡”。
今天的新技術并不代表傳統的RDBMS的結束,“正在迅速發展自己”IDC的Olofson。贊成這種說法,“RDBMS是需要明確定義的數據 – 總是會有這樣一個角色。”
但也會有一些新的競爭者的角色,他說,特別是物聯網技術和新興技術如非易失性內存芯片模塊(NVDIMM)占據上風。
會有許多問題需要大量解決方案,Olofson說。“也會伴隨有很多有趣的東西”
原文標題:How big data is changing the database landscape for good
End.