Sidney的IWOM監測與分析:理解和實踐
<SPAN class=Apple-style-span style="FONT-SIZE: 12px; COLOR: rgb(85,85,85); LINE-HEIGHT: 20px; FONT-FAMILY: Verdana, Geneva, sans-serif">
所謂IWOM,可能大家還有點兒陌生,是英語“Internet Word of Mouth”的簡稱,Word of Mouth的意思是“口碑”,因此IWOM監測聽起來搞得挺玄乎,實際上就是為客戶研究互聯網上的口碑。
雖說說起來很簡單,但如何監測這個IWOM,如何為客戶提出好的建議,卻是一件相當復雜的工作。互聯網上的口碑載體本就很多,但更麻煩的是口碑這東西永遠沒有標準,而且隨著老百姓語言和網友們情緒的發展不斷變化著——這不是加入一個Tracking Code(監測代碼)就能搞定的事情,這需要一個完整的方法論。
我知道目前最好的IWOM研究公司是CIC(SeeISee),在與他們的高級總監交流及自己做項目的實踐過程中,我逐漸形成了一些自己的理解,并放入為客戶服務的實踐中,現在跟朋友們進行分享,內容還遠不成熟,大家自備避雷針。
IWOM的3A層次
在實踐中,IWOM被分為三個層次,與客戶的需求緊密相連。三個層次分別是:Alert(報警),Analytics(分析)和Architecture(構建)。
- Alert層次指幫助客戶及時發現負面口碑。不要小看了那些該死的“Gossip”,負面口碑往往會演變成危機。“三株口服液”和“秦池古酒”的案例大家已經耳熟能詳了,甚至寫入了吳曉波的“大敗局教科書”,而互聯網上的反面案例則來自于DELL(HELL)以及“家樂福”。所以,你要永遠相信“天有不測風云”,即使你不能防患于未然,也不能完全消除負面口碑,早點兒發現它們并且早做準備也是好的。
- Analytics是比Alert更高一級的層次。Alert是以發現負面口碑為中心,而Analytics則是全面分析口碑內容及趨勢。前者如同雷達,后者則是衛星全局掃描(糟糕,有人丟磚——你以為你是嫦娥一號?!)。簡單說來,Analytics要實現的目標是:
- 1. 分析互聯網上關于品牌/產品/企業有哪些主要的口碑;
- 2. 口碑的趨勢;
- 3. 更重要的,是發現這些口碑發生的原因。第3點可是一個稱職的分析師應該做的哦!:) </UL>
- Architecture則是最高層次。所謂構建,就是能夠消除口碑對抗,營造口碑氛圍,甚至控制口碑走勢。哇,偶地個媽呀,這已經不是人工降雨了,這簡直是控制天氣!沒錯,這……的確是高科技啊,要做的就是要讓輿論不知不覺走向有利于客戶的方向,甚至是走向客戶預先定位的方向。嘗試用專業的語言來說則是:
- 1. 消弭負面情緒
- 2. 擴大正面聲音
- 3. 引導(甚至左右)輿論內容 </UL></LI></UL>
- 沒有Tracking Code可加,也沒有Log file能分析。原因很簡單,就不羅嗦了。
- 即使技術上能加,面對浩如煙海的BBS,Blog以及層出不窮的Web2.0網站,技術人員也會加的吐血。
- 加了Code又有什么用呢?你要分析的是內容,而不僅僅是點擊量。 </OL>
- 定性數據
- 主貼的內容
- 回復的內容
- 標題
- 作者
- 發帖時間/回帖時間
- 所在BBS及板塊的名稱,以及它們的URL
- 以及其他數據(如是否置頂,是否加精等等) </OL>
- 定量數據
- 發帖數
- 每個帖子的回復數
- 每個帖子的閱讀數(點擊數) </OL></LI></UL>
- 機器參與的:
- 排水/掃水(就別讓水帖占用我們的空間了)
- 關鍵詞抽取和統計(初步的主題分析)
- 調性分析(所謂調性,就是這個帖子是正面的還是負面的還是中性的還是扯淡的) </OL>
- 人參與的:
- 主題分析(也就是說,這個帖子最主要是關于什么的,其他談到了哪些方面)
- 調性分析(帖子整個主題表現出的調性,以及談到的各個方面的調性) </OL></LI></UL>
- Negative(負面) vs. Postive(正面)
- Negative分析:Negative輿論是什么,為什么,以及產品/品牌/企業的短板
- Positive分析,Positive輿論是什么,產品/品牌/企業的長項
- 分類主題分析,以細分產品/品牌/企業的不同特征,這個必須基于初步分析中的“主題分析”
- 競爭對手分析(內容跟上面4個一樣)
- 產品/品牌口碑對比分析
- 趨勢分析
- 總結分析的發現,并且提出建議
- 最恐怖的是——上面的所有分析應該基于不同細分用戶群體。 </OL>
這其中,最關鍵的是調性分析和主題分析。調性分析能夠幫我們實現本文最初所講的第一個層次:Alert,而且更重要的是幫助我們進行進一步的分析;而主題分析則是為了深入挖掘口碑的內涵。
本來,我們是希望機器能把這些事情都做了,很可惜,中文是世界上第一復雜的語言,不僅詞匯繁多,俚語已經不少,還非要成天兩頭的蹦出來一些網絡語言,醬紫搞得機器很不知所措,處理的結果常常“雷倒眾生”。其實不是我們的技術不行,微軟和Google現在也做不好自然語言的分析,僅僅一個“分詞”技術就夠申請數個專利的了。所以,沒轍,還是要靠大腦。
不過,就算是靠大腦,還是會有誤差,因為人的背景不同,比如分析討論電腦的帖子,沒有一點兒DIY的背景很容易分析錯誤。不僅如此,有時候帖子的標題似乎是“負面的”,但仔細一看帖子,很可能是“正面的”,這個時候,粗心一點兒就會出錯。但是人不可靠的最關鍵原因是,人是會疲勞的,尤其是面對這種枯燥的工作。而且,如果我問你,你愿意每天60元坐在電腦面前兼職做這個工作嗎?你的答案一定是——No,并且給我一記悶棍。
所以,漢語口碑的調性分析對于機器而言,還是一座不可逾越的大山,必須要人來完成,但人力資源是可貴的,而且服務的質量也難以保證。這是IWOM監測如此困難和痛苦的原因,也是需要攻克的最難的難題。
初步分析的數據具有極為重要的意義,它是后面所有分析的基礎,但是質量讓我十分傷心。我們需要一個高質量的服務,如果誰知道,請告訴我。
深入分析和提出建議——分析師的工作來了
前三步實際上等于網站分析中利用WA工具獲得的初步數據報告,可是已經讓人精疲力盡了。終于輪到分析師上場了,他們需要做的事情實際上就是解答IWOM的第二個層次——Analytics。其實,也是我在這個客戶項目中最主要負責的部分。
我主要從下面的各個方面入手:
紛繁無雜,千頭萬緒,我希望我再不用做這個東西。不過最終當報告形成,看到拿出來的一些結果和建議,還是有點兒成就感。但是,我對初步分析的基礎數據一直不滿意,因此我竭盡所能,仍不能確保這是一個100%可信的報告,我也相信在中國可能還沒有這樣的一個報告。
控制天氣——仍然非常困難
現在報告形成了,我們知道了口碑背后的原因,我們開始形成一些行動,比如,用官方的正確輿論引導,或者強烈抗議競爭對手的惡意破壞(這種行為實際上就是反面軟文)。但是我不打算在這個領域寫太多,我相信有很多專家,但是我相信這是一個很難解決的問題。我還在實踐,我還沒有結論。我希望大家的建議。
最后,把整個流程做一個圖形化的總結,見下圖。
</SPAN>
這些數據構成了IWOM分析的基礎。其中,定量數據容易獲得,而定性數據則很難完全抓取(比如第7個,現在技術上面臨的困難還很大),這正是IWOM分析在全球都仍然是需要攻克的難題的第一個原因,但相比第二個難題,這個簡直就是小兒科。
初步分析——你知道漢語有多么可怕嗎?
為什么說是初步分析呢?原因在于這一部分的分析是最基礎的,本來應該由機器完成,但是現在卻需要大量的人力來完成。機器程序編的越好,人力需要參與的就越少,但想要讓人在旁邊睡大覺是不可能的。
相信你已經猜到初步分析的內容了:
這3個層次都不簡單,尤其是第2和第3個。口碑這東西,今天平安無事,明天就滿城風雨,如何實現上面的三個目標層次呢?
相信28分布,別信長尾
大家都知道網絡有非常明顯的長尾特征,但是口碑這東西,卻有明顯的聚合性。因此我說,在進行IWOM研究的時候,一定要相信二八分布,千萬不要試圖把長尾都一網打盡,原因很簡單——你做不到。
我在這方面吃過虧,因為客戶永遠都希望什么都要,但他們其實很多時候并不清楚什么是他們最應該要的。不知道大家是否有同感——客戶拿到了所有,但忽視了精華,他們擁有,但他們不消化。這常常讓我回憶起《奪寶奇兵——圣杯》的最后場景。在監測IWOM的時候,我發現,在絕大多數情況(我這么說你要相信是100%的情況)下,20%(甚至是10%不到)的口碑聚合地已經聚集了80%(其實我更相信是90%)的口碑了。
大家用雙手就能數清楚各個行業的互聯網口碑聚集地。
博客常常是負面聲音的發起者(雖然絕大多數情況不是由它放大的),但請你還是相信我堅持的二八分布規律,20%的blogger已經覆蓋了80%的聲音——鬼才相信有那么多的有價值的原創呢!
不過,請不要誤解我,長尾在很多地方是有效的,只是在這里,我們先忽略它吧!
搞定IWOM的所有數據?
在分析網站的時候,我們使用Tracking Code,或者可以通過Log file來直接獲得數據。但是IWOM則不能如此。有幾個難處。
所以,不需要用網站分析的方法來分析IWOM了,我們需要其他的幫助。這個幫助是網頁抓取技術,或者更精確的說,是BBS(或者Blog)的頁面內容抓取技術。
這個技術并不復雜,但是想要做好卻是相當困難。我沒有發現哪個服務提供商能真正做好的,原因在于BBS(或者Blog)系統的多樣化,雖然Discuz系統(或是Wordpress系統)已經占據相當份額,但是還是有數以千記的各種系統以及自行開發的系統存在著。所以我可以肯定的告訴大家,中國沒有哪一家技術提供商能夠做到抓取哪怕50%的BBS(Blog)內容(請注意,我所說的內容是包括首貼和回復的)。這一點上,我很篤定,但我希望我是錯的,我希望我的讀者告訴我,在這一點上我錯了,有一家公司能做到!
現在大多數都只能抓取部分BBS或者BBS的部分數據。一種是能夠搜索到相當多的BBS,但是很可惜只能抓取主貼,但是抓不到回復(大旗網就是如此),另外一種則是能夠抓取論壇上的所有主貼和回復,但是要為每個BBS做專門的抓取定制開發,所以抓取的BBS數量是有限度的(印象中CIC是這樣,但我希望我是錯的,請CIC的朋友指正)。因此,這就是為什么我前面說,千萬不要相信長尾的原因。能夠把20%一網打盡我看已經是救民于水火了。
在我的實踐中,我們需要抓取的數據包括: