數據如何變成知識,第 1 部分: 從數據到知識
從數據到知識
2018 年 4 月 04 日發布
系列內容:
此內容是該系列 # 部分中的第 # 部分: 數據如何變成知識,第 1 部分
https://www.ibm.com/developerworks/cn/library/?series_title_by=**auto**
敬請期待該系列的后續內容。
此內容是該系列的一部分: 數據如何變成知識,第 1 部分
敬請期待該系列的后續內容。
過去幾年,信息科學取得了重大進展。隨著本地服務器給云服務讓道,SQL 數據庫和數據表開始朝 NoSQL 和鍵值對數據存儲遷移。隨后,為了處理大量的、品種繁多的、快速生成的數據,大數據和相關的擴展技術應運而生。
DIKW 模型
- 數據: 數據 是事實、信號或符號的集合。在這種形式下,數據可能是原始、不一致或雜亂的。因此,這種數據沒有用。
- 信息: 信息 是按一致的方式整理和排序的數據集合。信息形式的數據變得更有用,因為它很容易存儲和檢索。
- 知識: 知識 是信息及其相關上下文的集合。上下文表現為不斷收集的信息集之間的關系。知識是處理一些信息的經驗結果。
- 智慧: 智慧 是根據知識來選擇達到目標結果的最佳方式的能力。智慧是對達到某個成功結果的早期嘗試的經驗結果或知識。
硬件和軟件的重大進步使這一切成為可能。數據存儲并不昂貴;因此,可以很便宜地存儲大量數據。
數據分析理解所有這些數據并從中生成信息。根據此信息,您可以制定決策并采取行動。結果是數據分析領域得到了相應的發展。諸如機器學習和深度學習之類的認知處理,現在增強了分析能力。
分析師需要清理輸入數據并檢查其有效性,然后才能將數據用于分析。結構化數據可以輕松進行檢索,所以在開始執行數據分析之前,必須準備好原始數據并將其格式化。數據-信息-知識-智慧 (DIKW) 模型有助于理解如何將原始數據變成為有用的信息,然后變成為知識,最后變成為智慧。
數據源
原始數據來自各種不同的來源。傳統的關系數據庫一直都是一個重要的數據來源。另一個主要的數據來源是機器生成的實時數據,比如來自物聯網 (IoT) 設備的數據。數據挖掘工具爬取網站或社交媒體并生成數據。機器還會生成事務或日志文件形式的數據。
人類在數字媒體上的互動生成了文本、電子郵件、圖像和視頻形式的數據。人腦善于從這些各種各樣的媒體格式中提取信息。相比之下,讀取這類數據對計算機而言是一大挑戰。機器傾向于生成結構化數據,而人類傾向于生成非結構化數據。
結構化和非結構化數據
結構化數據具有嚴格的組織結構,這使它可以輕松地存儲在關系數據庫中。簡單的查詢和搜索算法可以高效地檢索此數據,這使計算機能夠輕松高效地處理結構化數據。
相反,非結構化數據缺乏一種機器可讀的結構。人類目前能比機器更好更高效地讀取和提取這些數據,但這項工作既耗時間又耗精力。以人類為中心的流程也很容易出錯。那么,是什么使得數據具有價值,您又如何應用 DIKW 模型呢?
是什么使得數據具有價值?
數據通常是一堆原始事實,用戶需要對它進行篩選,才能準確地解釋和組織數據。直到那時,數據才變得有用。數據也有多種格式。例如,圖像和視頻可能包含大量數據,需要解釋這些數據才能從中提取信息。審查數據并從中過濾出相關事實的過程需要花費大量的時間和資源。此過程也是主觀、不一致且容易出錯的。
相較而言,信息是一個采用一致方式進行組織的結構化事實的集合。用戶花費更少的時間和精力就能找到相關事實。他們可以輕松地在信息中找到相關的或重要的類別。所有這些讓信息變得比原始數據更有價值。
知識來源于如何應用信息來回答或解決問題。換言之,具有上下文或含義的信息就是知識。之前的成功成果充當著將此上下文分配給信息的基礎。因此,知識依賴于對成功結果的記憶(或學習),所以將信息轉換為知識的過程是決定性的。同樣地,此過程需要花費大量的時間和資源;因此,知識比簡單信息更有價值。
在經過數據分析后,數據會變得更相關、更有用和更有價值。實際問題沒有簡單的解決方案:要解決問題,必須應用來自多種上下文的信息。通過組合數據源,有助于提供在解決實際問題和制定決策時很有用的各種上下文。簡言之,數據在滿足以下條件時就具有價值:
- 可以迅速獲得。
- 簡潔、經過很好的組織,而且是相關的。
- 具有基于經驗的含義和上下文。
- 是多個數據源的一種聚合。
當數據能夠減少解決問題所需的時間、精力和資源,幫助用戶制定合理決策時,數據就是一種有價值的商品。
DIKW 模型變體
DIKW 模型存在許多變體。一種變體是 Milan Zeleny 在 1987 年提出的 DIKWE,它添加了一個頂點層來表示 啟發 。另一種變體是 Russell Ackoff 在 1989 年提出的 DIKUW,它添加了一個中間層來表示 理解 。一些專家將此變體建模為 DIKIW ,其中第二個 I 代表 洞察 或 情報 。
DIKW 模型有助于我們描述解決問題或制定決策的方法。盡管該模型是在機器學習出現之前開發的,但它仍對數據科學和機器學習中使用的許多概念進行了建模。
知識是數據中最有價值的精華,盡管知識提供了解決問題的途徑,但它不一定會告訴你最好的問題解決方式。挑選達到目標結果的最佳方式的能力,源于從對實現成功解決方案的早期嘗試中獲得的經驗。
智慧是為了獲得某種成功結果選擇最佳實現方式的能力。人類通過經驗和知識來獲取智慧,一些智慧來自:
- 培養對問題解決方法的理解
- 通過分析給定上下文的數據和信息來開發洞察
- 從解決相同問題的其他人那里收集情報
DIKW 模型的許多變體現在都開始變得有意義。
在數據科學和機器學習中的應用
您已看到,在人們執行重復性任務時,這些任務是容易出錯、不一致和主觀的。您還注意到,機器無法很好地處理非結構化數據。人類善于解釋非結構化數據,評估選項和風險,并在分秒內決定一連串操作。
運行傳統算法的機器很難實時完成相同任務,主要是因為編程變得越來越復雜。按順序評估許多選項和導航決策樹非常耗時。并行算法是一種替代方案,但它們需要很高的處理能力。不過,即使提高了這項能力,這些算法也無法輕松地適應和應對實際問題的不確定性,尤其是在數據是非結構化數據時。
根據人腦細胞建立的神經網絡幾十年前就已出現,但缺乏合適的計算機處理器架構來發揮它們的效力。面向通用計算的圖形處理單元架構的發展,使神經網絡得以盛行。這一發展導致使用機器學習來處理非結構化數據的案例的激增,而且取得了巨大的成功。
展示了如何針對數據科學來調節 DIKW 模型。淺色層顯示了傳統的 DIKW 模型;深色層顯示了將數據提煉到上一層的流程。
圖 1. 應用于數據科學的 DIKW 模型
傳統數據科學方法能處理第一個流程層:將原始數據轉換為信息。機器學習現在能幫助用戶從信息中提取知識。機器學習算法通過識別模式、對信息進行分組或分類,從信息中尋找上下文。數據科學家創建機器學習模型的方式是:使用手動優化和調節來實現最佳結果,并選擇最適合特定任務的模型。但是,深度學習的出現意味著機器也可以自主執行這些任務。
深度學習
深度學習是機器學習中的一個專門的子集,靈感來源于神經科學和人腦的工作原理。深度學習算法不同于其他機器學習算法,因為它們使用了許多層的多種類型的神經網絡。這些層形成一個結構化分層,就像人腦一樣,將前一層的輸出傳遞給下一層。
各層的這種級聯方式,使得深度學習網絡能學習抽象概念,執行比簡單的、單任務的模式識別和分類更復雜的任務。深度學習算法可以同時使用監督學習和無監督學習,通常會混合使用這些學習方法,這使得它們在用于實際應用中時具有自適應能力。
用于實時語音、圖像和視頻處理應用時,深度學習算法可以處理通常由嘈雜的環境因素導致的不確定或不完整輸入。因此,它們具有的準確率比簡單的機器學習算法要高得多。
結束語
當數據能夠能減少解決問題所需的時間、精力和資源,幫助我們制定合理決策時 — 它就是一種具有價值的商品。機器可以高效地處理結構化數據,但在所有數據中,90% 的數據是非結構化數據,包括文本、電子郵件、圖像和視頻。
人類比機器更適合處理非結構化數據,但人類在執行重復性任務時容易出錯、不一致且具有主觀性,這些重復性任務包括從非結構化數據中提取信息和將它存儲為結構化數據。此過程也需要消耗大量的時間、資源和精力。
DIKW 模型可以幫助我們理解將數據轉換為信息和知識的背后流程。機器學習技術有助于更輕松地提取知識,甚至通過調節和優化成功結果來自主提取知識。因此,深度學習使增強數據分析成為可能,顯著減少了解決問題所需的時間、精力和資源,還能幫助我們制定合理決策。本系列的第 2 部分將展示數據湖如何允許存儲大量多格式數據,從而幫助加速數據攝入和降低攝入成本。
來自:http://www.ibm.com/developerworks/cn/analytics/library/ba-data-becomes-knowledge-1/index.html?ca=drs-