數據清洗工具OpenRefine

jopen 10年前發布 | 79K 次閱讀 數據挖掘 OpenRefine

數據經常被稱為一座金礦,尤其是在當今數據驅動的經濟環境下更是如此。
怎樣把數據集在OpenRefine中進行轉換,優化數據的質量以便于在真實場景下重用它們。

一、介紹OpenRefine


我們來看一個殘酷的現實:你的數據是雜亂無章的。錯誤會散步到你的大數據集中,無論你有多么細心,錯誤總是存在。數據量越大,錯誤越多。

正確且清晰地認識以上的現狀,是我們開始使用OpenRefine的前提。于是有了數據質量的說法。
下面先熟悉三個基礎概念。

數據剖析Data Profiling:也叫做數據考古(Data Archeology),是數據集(Data Set)內部為達一致性、單值性和邏輯性而進行的數值質量的統計分析及評估。數據剖析是Olson于2003年提出的概念,使用分析技術來發現正確的、結構化的、有內容、有質量的數據。換句話說,它是評估你的數據和信息的當前狀態以及包含了多少錯誤的方法。

數據清洗Data Cleaning:是嘗試通過移除空的數據行或重復的數據行、過濾數據行、聚集或轉換數據值、分開多值單元等,以半自動化的方式修復錯誤數據的過程。數據清洗是一個反復的過程,不可能在幾天內完成,只有不斷的發現問題,解決問題。對于是否過濾,是否修正一般要求客戶確認。

IDTs:Interactive Data Transformation tools,交互數據轉換工具,它可以對大數據進行快速、廉價的操作,使用單個的集成接口。

OpenRefine 就是這樣的IDT工具,可以觀察和操縱數據的工具。它類似于傳統Excel的表格處理軟件,但是工作方式更像是數據庫,以列和字段的方式工作,而不是以單元格的方式工作。這意味著OpenRefine不僅適合對新的行數據進行編碼,而且功能還極為強大。

二、安裝OpenRefine

要學習OpenRefine,首先需要下載最新版本的OpenRefine。
下載地址:http://openrefine.org/
OpenRefine最早是眾所周知的Freebase Gridworks,隨后又變成Google Refine,幾年后又被社區接管,在2012年10月變成了徹底開源的OpenRefine。
OpenRefine 2.6版是它改名為OpenRefine的第一個發行版本。
如果你對OpenRefine的開發版感興趣,可以訪問:https://github.com/OpenRefine.OpenRefine
OpenRefine基于Java環境,因此是跨平臺的。

OpenRefine 2.6版目前還處于Beta1版,也是所謂的開發版,不適合在生產環境中使用。如果要選擇穩定版,那么還是該下載Google Refine 2.5版。

1、OpenRefine在Windows的安裝
1)下載ZIP包,地址:https://github.com/OpenRefine/OpenRefine/releases/download/2.5/google-refine-2.5-r2407.zip
2)解壓到某個目錄;
3)要運行OpenRefine,雙擊openrefine.exe文件。

d1.jpg

2、OpenRefine在Mac的安裝

1)下載DMG文件:https://github.com/OpenRefine/OpenRefine/releases/download/2.5/google-refine-2.5-r2407.dmg
2)打開磁盤鏡像,拖動OpenRefine的圖標到Applications目錄;
3)雙擊圖標以啟動OpenRefine。

3、OpenRefine在Linux的安裝
1)下載gzipped包:https://github.com/OpenRefine/OpenRefine/releases/download/2.5/google-refine-2.5-r2407.tar.gz
2)解壓到當前用戶的home目錄;
3)在終端命令行環境,鍵入./refine以啟動OpenRefine。
d2.jpg

來自:http://blog.csdn.net/chszs/article/details/20046083

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!