詞云可視化——中文分詞與詞云制作
近日在微博上大家都在問《個性化詞云》制作方法。
下面簡單介紹實現步驟和思路:
隨著微博研究的深入,社會網絡分析和可視化技術的需要,面臨中文處理問題,開始鉆研文本挖掘的問題,過去的傳統的數據挖掘一直研究的是結構化數據,文本挖掘和意見挖掘涉及內容更多,特別是中文處理是不可逾越的障礙!
注:俺的中文不好,甚至想過把中文google translate成中文進行研究,英文的文本挖掘技術基本了解!哈哈
從網絡分析、文本挖掘和意見挖掘角度看,主要解決以下內容:網絡抓數據—MySql和Hadoop存儲—API接口—創建網絡數據 —Knime和R語言挖掘-KOL意見領袖和網絡分析—中文語料和文本語義—R語言與分詞—用戶詞典構建—情感詞典建設和情感分析—文本聚類分類—歸并文 本挖掘與網絡分析—規則建模推薦算法—PMML模型與云端部署—API插件和接口程序——網絡cytoscape可視化分析—Gephi動態可視化分析— Xcelsius儀表盤與Tableau可視化分析—RoambiAPP移動應用等;
在學習的過程中,我們成立了數藝智庫和中國傳媒大學數據可視化興趣小組,每周活動一次。同學們都是80、90后的年輕人更有創新意識,學習也快,特 別是小技巧和工具的掌握。我特別強調工具的應用,因為同學們都是文科背景,coding的能力不是我們的強項,學會和掌握最好最適合的現成軟件工具是我的 指導思想。
數據可視化興趣小組的參與同學熱情很高,特別是高年級同學傳幫帶,象談和、德凱、若晨等同學成為小組的主要指導教師。這個工具也是同學們先找到了,在談和同學講解的過程中,我提出了創意要求。
特別是在數據可視化領域,根據興趣不同學習了:PS、AI、PREZI、PPT、Xcelsius、Excel、D3js、Processing、Tableau、Romabi等,詞云的制作也是大家感興趣的。
下面來說說詞云制作,個性化詞云制作:
首先:個性化詞云制作非常簡單,瞬間就可以完成,甚至可以說是一種雕蟲小技,在線制作。當然,我還是希望把研究和創作思路告訴大家:
第一:主題和意義
你為什么需要制作個性化詞云,是藝術品還是研究分析內容的一種表現方式,是文本挖掘技術的可視化,還是為了傳播更方便。形式大于內容,在有內容的前 提下,可視化也是一種分析!當然我更傾向文本挖掘后的內容可視化。當然,我也不反對純粹為了表現或者玩玩的可視化,玩也是一種學習。
因此選擇什么主題,什么主題適合用個性化詞云表現就更為重要了。比如:為大人物明星打標簽,品牌logo打標簽,SUV汽車打標簽,電視臺臺標打標簽都是好的創意和選擇。
第二:語料收集
個性化詞云是依賴語料和抽取語料關鍵詞呈現的,如果你有了要表現的詞云標簽,就可以直接制作詞云了。記住這里要有兩個數據:1)標簽關鍵詞 2)關鍵詞詞頻,詞頻決定關鍵詞的顯示大小。語料的收集依賴你的主題和想法,從應用的角度我們主要是為了分析微博,所有微博是最好的語料來源,也是文本挖 掘的結果。當然你可以從任何途徑和資源活動要表現的語料。
第三:分詞和關鍵詞抽取
當你獲得語料后,如果需要抽取關鍵詞,就需要學習中文分詞。中文分詞對一些人是技術和障礙,但是現在中文分詞是一個簡單而通用的技術,很多軟件和在 線工具都可以完成一般意義下的分詞,例如:Rweibo、weiRbo、中科院張華平老師ICTCLAS2012、武大沈陽老師的ROST CM等,這里推薦初學者考慮用ROST-CM工具入手,分詞主要考慮是否可以用戶自定義詞典和剔除、詞性標注等。少量語料的分詞比較簡單,但海量語料的分 詞要有一定難度和數據處理能力。
特別強調:任何中文分詞如果能夠加入人工干涉和主觀判斷都會提升準確性和有效性;下面介紹的在線個性化分詞本身也可完成分詞(包括中文分詞,體驗效果:不同語料和多少,時好時壞)
第四:主題圖片和個性化調整
分詞和抽取關鍵詞、詞頻完成后就可以制作個性化詞云了,但有個前提,你需要收集與主題相關的個性化主題圖片。這是一個藝術和技術融合的過程,原則上 可以不用任何修飾就可以完成詞云,但是如果圖片不理想或者找不到你需要的構圖,就需要自己摳圖和PS一下了。當然軟件自帶有很多預設模板可以選擇,比如: 高跟鞋、煙斗、雞鴨魚動物、形狀等。
第五:開始制作個性化詞云
你已經看到了制作軟件,Tagxedo詞云 http://www.tagxedo.com 這是一個在線制作詞云的工具,不用license。其實我不用講,你應該能夠學會的,操作非常簡單,這里只是稍微介紹些中文詞云要點:
裝載詞和詞頻:load——可以直接提交語料自帶分詞和詞頻,也可以提交分詞后的關鍵詞和詞頻,用分隔符兩列。
選擇形狀或自定義圖形:shape——從內置形狀菜單選擇或add Image選擇自己的圖形,這里主要選擇自己的圖形,就可以隨心所欲了。圖形可以直接用彩色jpg圖片,可選擇設定黑或白呈現詞頻;
美好和調整色彩:Theme——根據自己的愛好,選擇配色方案和突出強調,完全個性化愛好了;
調整參數(重要):Layout Options——這步對中文很重要,主要是兩個選項:1)Word選擇Apply Nonlatin Heuristic設定No,這樣就不會把中文分詞(否則都是單詞和內容分詞了),2)Skip選擇不需要的詞或標簽
完成保存:Save——確認滿意后就可以把個性化詞云保存了,選擇jpg或png格式和大小保存即可
第六:完成和傳播
上面基本就完成了個性化詞云操作,但往往有些細節要注意,比如把軟件的水印剪裁掉,如何將一組詞云拼接,增加必要的說明和意義解讀,當然別忘了說是@沈浩老師 教的。哈哈
注意:我更愿意看到用詞云制作的產品與原來有沖擊力的圖片進行PS拼接,一個人像的真實頭像與詞云的融合一體,可能更藝術。
下面是同學們的作品:(感謝同學們的作品,不一一提及了)
via:沈浩老師的博客