連載:全球最牛的28個大數據可視化應用案例(一)
隨著大數據在人們工作及日常生活中的應用,大數據可視化也改變著人類的對信息的閱讀和理解方式。從百度遷徙到谷歌流感趨勢,再到阿里云推出縣域經濟可視化產品,大數據技術和大數據可視化都是幕后的英雄。今天,我們將連載由Teradata獨家提供的來自全球28個大數據可視化應用案例。文章中不僅有極具藝術美感的可視化炫圖,更有作者為大家解析可視化是如何制作的。
本系列4篇文章為36大數據獨家專稿,任何不表明來源36大數據和Teradata以及本文鏈接http://www.36dsj.com/archives/41214的轉載均為侵權。公眾號也是如此。
一、航線星云
作者:Karthik Guruswamy
關于洞察
截止到2012年1月,開源網站OPENFLIGHTS.ORG上記載了大約6萬條直飛航班信息,這些航班穿梭在3000多個機場間,覆蓋了500多條航線。
通過高級分析技術,我們可以看到世界上各家不同的航空公司看起來就像是一個美麗的星云(國際星云的組成部分)。同種顏色的圓點和粗線提供了見解,它們代表提供相同航線的航空公司,顯示出它們之間的競爭以及在不同區域間的潛在合作。
這張基于數據可視化的Sigma圖表顯示了服務城市相似的不同航空公司。圖中的圓點或圓圈代表航空公司,連線的粗細和遠近則反映兩個航空公司之間的相似性;連線越粗或越短則代表兩家航司服務的城市越相似。圖表中有幾組航空公司,直觀地表現了它們所服務的地理區域。
這張圖表中的關鍵洞察當然地是航空公司之間的相似性甚至是重疊,它們是中國的南航和東航、阿聯酋航空和卡塔爾航空、英航和漢莎航空、美航和達美航空;我們可以從中看出這些公司之間的競爭關系。瑞安航空則通過服務與漢莎航空和英航存在潛在協力的城市占據了一個利基市場;比起意大利或漢莎等其他的歐洲航司,法國航空則與美國聯航等美國航空公司更為相似,這也許可以解釋為聯合品牌效應。本質上說,這是一張多維的韋恩圖,用一種簡明扼要的方式揭示了不同主體間的復雜關系。
總的來說,這張圖表揭示了不同航司之間的相似性和競爭情況,有利于發掘潛在的合作關系、增加市場份額和市場覆蓋面。這項技術可以通過不同參與者之間的相同變量,用于分析任何生態系統。
分析技術
這張可視化圖表通過Aster App中心生成,運用到了關聯挖掘的分析技術,研究上下文中各條目的共現關系。其中關聯挖掘的算法是協同過濾,它作用于航線和城市數據,并將數據當做零售籃子數據。也就是說,籃子代表城市,而航空公司則是條目。兩個航司之間的相似性由相似性得分確定,計分的原則是比較各個航司獨有的航線以及同時運營的航線。之后再將這些成對的相似性得分當做連線的權重,再把各個航司當做節點,共同輸入可視化儀器當中,運用具有模塊上色技術的force-atlas算法,最終生成出這張美麗的圖表。
二、Calling Circles
作者:Christopher Hillman
關于洞察
我們無論何時何地都在使用手機并且產生出非常大量的資料,這些資料代表了我們每天的行為及活動。我們與其他人的每通電話及簡訊都對應到我們的社會關系、商業活動以及更廣泛的社群互動并且形成了許多復雜互相聯結的通話圈。
這個資料視覺化圖表是從行動電話使用者的通話模式資料所制作的。每個點都代表一個使用者撥出的手機號碼,愈大的點就代表這個號碼被撥打愈多次。每條兩點之間的線都代表著從一個號碼撥打到另一個號碼。
每個行動電話使用者都會有一種獨特的通話模式,這種模式可以用來發展適合的話費方案并且可以用來定義或預測他/她的行為。舉例來說,當一個使用者正要從現在的行動電話服務商轉換到另一個服務商時,我們可以從網內及網外發現兩個類似的通話模式。
這張特別的圖表是在前期由一連串的分析產生用來過濾第一層的通話模式。這里使用到的資料只從在幾秒鐘的時間取得。從圖表的左上角可以看到許多大回圈,這些回圈表示短時間內這些號碼被撥打了許多次。可以推測這些號碼有可能是機器,像是自動答錄機、互動式語音應答(IVR) 系統、安全系統或警報。人類不可能在短時間撥出這么多電話。這些電話會先放置在一個分開的群組,后續的分析就可以集中在個人使用者的通話模式上。
分析技術
我們利用圖表來達成資料視覺化,雖然在調整版面格式的參數與傳統展示圖表不同。有一個常見的問題就是這些互連的圖表通常在短時間就會變成非常巨大且因為龐大的互動次數導致幾乎不可能被視覺化。從一個高度連結的圖表里選出一段范例是一個困難的問題,因為我們需要決定忽略哪些連結。在這個例子里,我們取用來自非常短的時間的資料來達到一個可以呈現的資料范圍。
資料格式就相對簡單,撥話號碼、收話號碼、撥話時間、通話時間。我們先利用機器學習(machine-learning) 來對資料作分群然后再利用Aster Lens 來展示圖表。
Calling Circles作者介紹
Christopher Hillman
Christopher Hillman 跟他的妻子及兩個小孩住在英國倫敦,在Teradata 的進階分析團隊(Advanced Analytics team) 擔任首席資料科學家在全世界旅行工作。
他鐘情于分析工作且有二十年的經驗于商業智慧(business intelligence) 及進階的分析產業。在Teradata 之前,Chris在Retail 和CPGN vertical作為一位解決方案架構師(solution architect)、首席顧問及技術總監。 Chris 現在與Teradata Aster 專家一同工作且參與大數據的分析專案,他幫助客戶洞察資料中的價值并且了解MapReduce 或SQL 作為合適的技術。
在Teradata 工作的期間,Christopher 也同時攻讀在Dundee 大學的資料科學博士并運用大數據分析在人類蛋白類的實驗資料上。他的研究領域包含利用平行化演算法即時分析質譜儀的資料。他也在大學開課教授Hadoop 及MapReduce 程式設計。
三、信號風暴騎士
作者:桑德拉.拉曼 (Sundara Raman)
關于洞察
此可視化捕捉了桑德拉.拉曼在澳大利亞悉尼通勤列車廊道的旅程。桑德拉攜帶其手機和專用軟件乘坐列車穿行于悉尼, 由于列車快速穿過城市, 我們可以通過其手機與信號發射塔的連接來跟蹤, 用彩點(或節點)描繪在圖表上。
利用手機數據對運動中的、聚集大量人群的交通模式進行研究是新分析形式的一部分。其主要目的在于優化發射塔網絡、避免性能問題、改善客戶體驗。但它還能支持新興數據貨幣化發展,詳細的交通流量信息可用于城市規劃、零售商店位置分析和市場營銷供應。
桑德拉在分析中探尋能擊垮發射塔、影響手機性能的信號“風暴”。當擁擠的通勤列車奔跑于軌道線上,后停于車站,列車發出的100-1000個信號快速移動于各發射塔之間,就足以擊垮它們。該可視化是一系列圖表的一部分,覆蓋了發射塔性能數據、通勤交通流量以及塔切換的信息,準確表現出手機信號的“風暴潮”,從而據此提出詳細的建議來優化網絡。
圖表中還能突顯出特定客戶體驗時由于在4G發射塔(暗點)和低速3G發射塔(亮點)間切換而出現的問題—-信號在發射塔之間來回反復切換,塔信號強度劇烈變化,產生“乒乓效應”。典型代表是位于林菲爾德、可萊雅、懷塔拉、北悉尼以及查茨伍德各車站附近的相連的封閉式發射塔群。
分析方法
該可視化是通過Teradata Aster和Aster Lens實現的。智能手機的遙信數據是從同時使用的3G和4G手機中收集的, 收集在擁擠的公共交通路線上使用專用軟件的數據, 地點是沿著澳大利亞悉尼北岸線和史卓菲市交通線一帶。分析還包括了對火車站和信號發射塔位置數據的地理空間分析, 從而將位于火車站方圓1公里內的發射塔隔離出來。這個方法有助于衡量確定小范圍內,車站周圍各發射塔之間信號傳播的影響。另外GEXF西格瑪圖表中還添加了顏色代碼, 利用可視化語言統一地區分4G和3G信號發射塔的區域。每種顏色代表一組發射塔的網絡覆蓋區域。悉尼城市鐵路公布的統計數據涉及峰值時間每個車站火車的交通負荷, 分析則利用這一數據關聯了手機站點的性能。
作者介紹
桑德拉.拉曼 (Sundara Raman)
桑德拉白天是一位高級電信行業咨詢師, 夜間則是一位胸懷大志的數據科學家。他在新西蘭梅西大學獲得商業管理碩士學位, 現在與妻子及2個孩子住在澳大利亞的悉尼。
桑德拉還是一名發明家, 他曾與他的妻子共同應用“認知行為療法”(CBT)原則, 設計出“計算機輔助心理評估與治療”, 獲得了澳大利亞一項專利權。
所以, 如果你在下一個日常通勤時碰巧瞥見桑德拉在把玩多個手機, 你就會明白他不是瘋了。他只是在利用分析獲得深入見解, 從而幫助電信客戶改善移動網絡的客戶體驗。
四、互聯網絡
作者:Yasmeen Ahmad
關于洞察
這一匿名可視化報告用于支持一家Telco運營商分析住宅Telco線路。該項目旨在確定線路與網絡硬件性能之間的關聯,此類關聯可能影響到客戶體驗。
點(節點)代表Telco網絡上的DSLAM(數字用戶線接入復用器)。DSLAM提供了一項重要服務,能夠影響客戶呼叫體驗;它們可將客戶線路連接到主網絡。
DSLAM服務級別有多項測量指標,例如衰減、比特率、噪聲容限和輸出功率,并可針對每條線路整合至三個性能類別。紫色節點顯示具備卓越性能的DSLAM,橙色顯示具備出色性能的DSLAM,白色顯示性能較差的DSLAM。
在圖表中,僅少數DSLAM體驗到了高質量服務(紫色)。這些 DSLAM 在同一建筑中與主網絡基礎設施共置,由于靠近中央網絡中樞,從而帶來了優質服務。大多數客戶實現了出色體驗(橙色),同時我們發現城市郊區存在服務較差(白色)的DSLAM。
當客戶獲得可變網絡質量時,客戶體驗和滿意度會受到很大影響。Telco的主要目標是確保客戶獲得一致的體驗,即使是那些身處主城市外部的用戶也不例外。此圖表確定了每個提供可變服務級別的 DSALM;以出色(橙色)和較差(白色)簇之間共享的節點表示。借助這一數據,Telco現在能夠調查和優化可變DSLAM。
分析方法
這一西格瑪可視化報告使用內建分析和在Teradata Aster平臺內發現的可視化創建而成。
收到的數據來自整個城市的住宅線路,其屬性包括衰減、比特率等。我們對這些屬性進行了整合,以確定表明客戶網絡體驗的性能等級。
這些簇構成了相關性和回歸分析的基礎,以確定在不同因素下網絡性能的變化,這些因素包括:線路技術和長度、調制解調器類型和配置、DSLAM、卡技術、地理位置等。
該西格馬可視化圖表僅顯示了整體分析的一部分,即DSLAM與網絡性能間的聯系。
作者介紹
Yasmeen Ahmad
Yasmeen是Teradata的最有創意和有見地的數據科學家之一。 Yasmeen在蘇格蘭長大,她喜歡戶外活動,尤其是在蘇格蘭Munros山和在海上劃皮艇。
她在許多國家工作過,包括英國、愛爾蘭、荷蘭土耳其、比利時和丹麥,她涵蓋了金融,電信,零售和公用事業等行業。 Yasmeen專精與企業合作以確定他們的挑戰,并將其轉化為分析背景。她專注于企業如何利用新的或尚未開發的數據來源,沿著新技術以提高自身的競爭能力的獨特能力。
Yasmeen已經與許多分析團隊工作,提供領導,培訓,指導和實踐的支持,提供可操作的見解和經營成果。她使用各種分析方法,包括文本分析,預測建模,歸屬策略和時間序列分析的發展。她堅信可視化的力量使的在企業用戶可以容易進行復雜的溝通。
在Teradata之前,Yasmeen在生命科學行業工作作為數據科學家,建設復雜、多維數據分析管線。 Yasmeen還持有數據管理,挖掘和可視化,這是進行在威康信托中心的基因調控和表達的博士學位。她在國際上發表了多篇論文并在國際會議和活動中演講。此外,她還在MSc教有關科學數據和商業智能碩士課程。
Yasmeen對于數據分析和可視化有敏銳的熱情,通過她的研究中一直好奇地問問題并了解更多信息。這些技能已經允許Yasmeen探索多學科的機會,為她提供了新的無盡的挑戰!
五、連續性集裝箱修理
作者:Frances Luk
關于洞察
物流集裝箱在運輸過程中常常會受到損傷,而這些集裝箱的修理則依靠世界各地數以百計的供應商來處理。在通常情況下,如果狀況不好無法繼續使用,受損的集裝箱會在被運往下個目的地之前就近修理。我們的客戶是全世界最大的一家物流公司,他們希望了解集裝箱的修理質量以及各個提供修理的供應商。在進行這項分析之前,客戶無法獲知集裝箱使用壽命當中所發生事件的整體概覽。而通過重現每個集裝箱使用壽命當中發生的所有事件,我們成功地分析出了集裝箱的修理模式。
通過這項分析,客戶希望找出因為同一種損傷原因而發生的連續的修理活動,規定這兩次修理發生在某一段時間內,或者說第二次修理比預期的時間提前了。這種活動表示早期修理的質量較差,從而造成了第二次的修理。這張桑基圖中第一列的方框代表負責第一次修理的國家。
第二列的方框則代表負責第二次修理的國家。從第一列方框直接連到‘結束’框的則代表在第一次修理之后沒有再發生修理行為,這是理想的狀況;連到第二欄方框的則是意外情況。這張可視化圖表讓我們的客戶得以按地域查看提供修理的供應商,未來還可能在工廠層級繼續深鉆。
分析技術
集裝箱修理活動通過內建的數據裝載器從Teradata數據庫牽引到了Aster數據庫中。我們利用事件序列和模式匹配技術來鑒別連續性修理活動。我們利用這張桑基圖來比較不同國家修理工廠的質量,圖中的線越粗則表示兩個國家共同出現的次數越多。這張圖表提供了極佳的整合信息,顯示出應該關注于哪個國家,接下去可以利用數據來計算重點關注國家發生第二次修理的相對頻率。這張桑基圖通過Aster平臺中的Aster Lens生成。
作者介紹
Frances Luk
Frances Luk是丹麥哥本哈根團隊的一名數據科學家。她從小在香港長大,但某天卻決定要去做一些不一樣的事情,現在和她的丈夫還有兩只可愛的小貓一起在丹麥生活,還擁有哥本哈根大學的碩士學位。在成為數據科學家之前,她曾經用五年時間來開發企業Java應用,并有七年從事銀行和物流行業的數據倉庫和數據分析的經驗,現在負責丹麥和其他北歐國家的跨行業售前和大數據管理PS服務。
Frances對數據科學的熱情來源于她強大的技術背景以及她對商業強烈的好奇心。每一比特的數據對她來說都像是一個謎,她喜歡拼湊細節并享受美麗圖像產生的那一刻,喜歡看到客戶發現未知的洞察時臉上驚嘆的表情,這就是她每天工作的功力。
六、集裝箱修理波浪
作者:Frances Luk
關于洞察
在通過遍布世界的船舶、卡車、火車進行運輸的時候,集裝箱時時會受到損傷。損傷情況發生時,集裝箱會被運到最近的修理鋪里,而這些成百上千個的修理鋪散布在世界的各個角落。
我們的客戶馬士基航運公司希望加強他們對不同修理鋪修理質量的了解。過去他們無法在每一個集裝箱的層級上對這些數據進行分析,但Teradata Aster平臺讓馬士基航運能夠在這個層級調查并分析修理結果,獲取有趣的發現、了解它們的模式和趨勢,而這是前所未有的。
這張可視化圖表中右下方的點代表不同的修理活動,曲線上方的點則表示不同的商品,商品和修理活動之間的連線則代表運輸某種商品之后馬上發生某種修理活動的頻率;連線越粗表示運過某種商品后集裝箱發生修理的頻率越高。從圖中可以看到,最粗的線連接著廢金屬和底板損傷,也就是說最經常出現的商品和修理類型配對是廢金屬和集裝箱底板修理。
對于馬士基航運來說,知道廢金屬最經常導致破損當然不是什么新鮮事,但采集到的這些數據為將來的分析奠定了強大的基礎,(自然可以延伸到考慮比如比起其他貨品,是不是更經常要運送廢金屬)。我們不能完全肯定廢金屬和底板破損之間的因果關系,但這張可視化圖表卻突出了問題的規模,建立了馬士基航運公司的高級分析團隊未來進行更細致的分析時的好的起點。將來的分析工作完成時,最終得到的結果可能就是更差異化的貨運定價模型,抵減預計的運后修理成本。
分析技術
集裝箱運輸和修理活動通過內建的數據加載器從Teradata牽引到Aster當中。通過和馬士基航運的ADL(敏捷數據實驗室)和AA(高級分析)團隊緊密合作,我們確定了適合的途徑,用來分析貨物和修理之間的關系,并應用模式匹配技術調查連續性運輸和修理的模式。
之后我們用sigma可視化工具來展現貨物和修理類型之間的關系,這兩者在圖中表示為實心點,連線的粗細表示共現的次數。初始sigma圖通過Aster平臺中的Aster Lens生成,現在展現的是優化版本。
作者介紹
Frances Luk,同連續性集裝箱修理是一個作者。
七、Terror Report
作者:Kailash Purang
關于洞察
這份資料視覺化是Kailash Purang兩部分CIA 報告的第一部分。它展示了進階分析可以快速地客觀地從復雜的文件精煉成簡單易懂的視覺化圖表。這份圖表應該與第兩部分的報告(Crown Of Thorns) 一起被檢視。
Kailash 刻意挑選了一個具高度政治及情緒相關的主題,這份報告是美國參議院特別委員會研究院針對2001 到2006 年CIA(Central Intelligence Agency) 拘留和審訊程序及審訊拷打的研究。
這是一份相當長的報告,總共從6000 頁中有525 頁被公開,其中包含特定的政府用詞以及在技術文件上會有的專有名詞。這是份極端重要的文件以至于少數人可以第一手閱讀到并且提供自己的意見,大部分人只能從其他人寫的摘要報告接觸到。然而像這樣泛政治化及情緒性的主題,我們如何確定我們讀到的摘要是完全正確且沒有其他人的主觀意見呢?
簡短地來說,這是一個對于測試分析工作是否可以提供一個簡單客觀的方法來檢視報告內容的理想主題。
Kaliash 的第一個視覺化圖表”恐怖攻擊” 是簡單的文字云(word cloud),報告里愈常出現的特定文字在圖表上呈現愈大的圖形。文字云這樣的圖表可以很快速被制作,也可以輕易客觀被吸收。然而,太粗淺的呈現是它的限制,我們從中可看到關鍵字,但是并無法從圖表中得知任何的細節也無法知道各個主題中間的關聯。文字云提供我們一個快速且非常簡單的方式來了解報告里的內容。請接著閱讀第二部分“Crown Of Thorrns” 。
分析方法
這份視覺化使用525 頁的中央情報局委員拘留及審訊計劃報告,這份報告是于2014 年12月9號由美國參議院情報委員會公開發表。
這份圖表是使用Wordle 制作的,Wordle 是一個由Jonathon Feinberg發表的文字云制作程式且可以從網站上免費取得。我們可以利用英文里的剔除字(stop word) 來移除低資訊價值的字像”的”跟”了”。制作的圖表留下最常出現的字詞,讀者可以簡單地從字詞出現的頻率得到結論。
作者介紹
Kailash Purang
Kailash 是在Teradata新加坡資料科學家領導人。他也在整個東南亞工作,大部分在印尼支援及領導Teradata在銀行及通訊產業客戶的服務。
Kailash 有新加坡國立大學經濟碩士經濟跟統計學學士、新加坡國立大學經濟碩士、倫敦大學管理學學士。他在分析領域有長達15年跟產業的經驗。
盡管是”出賣靈魂” 投身商業領域,他仍然認為所有這一切的學習和技術的目的是為了讓人們的生活更輕松更有趣。為了引進一個有趣的無痛的分析方式,他在業余時間作資料視覺化讓每個人都可以從簡單的分析應用過程中獲益。
作為Teradata資料科學家,他努力使自己的客戶實現大數據的全部潛力,使他們的客戶可以通過更好的服務和產品受益。
——————
未完待續,明天我們將連載全球最牛的28個大數據可視化應用案例(二)
End.
來自: http://www.36dsj.com/archives/41214