Spss K-means聚類分析案例——某移動公司客戶細分模型
原文 http://www.i#cn/article/020441052015.html
聚類分析在各行各業應用十分常見,而顧客細分是其最常見的分析需求,顧客細分總是和聚類分析掛在一起。
顧客細分,關鍵問題是找出顧客的特征,一般可從顧客自然特征和消費行為入手,在大型統計分析工具出現之前,主要是通過兩種方式進行“分群別類”, 第一種,用單一變量進行劃段分組,比如,以消費頻率變量細分,即將該變量劃分為幾個段,高頻客戶、中頻客戶、低頻客戶,這樣的狀況;第二種,用多個變量交 叉分組,比如用性別和收入兩個變量,進行交叉細分。
事實是,我們總是希望考慮多方面特征進行聚類,這樣基于多方面綜合特征的客戶細分比單個特征的細分更有意義,這正是 spss 聚類分析可以做到的,以下通過k-means聚類分析做一個小小案例來展示。
【數據來源及分析內容】
《SPSS統計分析高級教程》telco.sav,是反映移動電話用戶使用手機情況的數據集。包含7個變量:用戶編號、工作日上班時間電話時長、 工作日下班時間電話時長、周末電話時長、國際電話時長、總通話時長、平均每次通話時長,現希望對移動用戶細分,了解他們不同的手機消費習慣。根據研究調研 及經驗,認為移動用戶應分為5個主要消費群體。數據分析工具:spss,參考教程:張文彤,《 SPSS12 統計分析高級教程》。
【數據分析流程】
【獲取數據】
【數據預處理】
現在存儲于后臺的數據太多了,以前做項目擔心沒有真實可靠的數據,現在這個問題沒有那么復雜,但數據太多卻引發了其他問題。辛苦采集到的數據口徑不一致,存儲格式不同,不符合數據分析要求還有待派生新的變量。
這些過程看似簡單卻非常有必要!
僅僅預處理以上這些問題還不夠,當數據分析方法復雜時,我們還需對采集的數據進行篩選構成小的數據集,對于數據集中變量的分布、缺失、描述統計指標進行一定程度的分析。
【數據分析】
K-means聚類也稱快速聚類,可以用于大量數據進行聚類的情形。在開始聚類之前,需要分析者自己制定類數目,并不是一次指定,可以經過多輪反 復分析,根據實際情況最終判定最優類的數目。 K-means聚類是采用計算距離的方式測度變量間的親疏程度,距離直接影響最終的結果,因此慎重審核數據 質量。
【分析結論】
做一個數據分析的項目,不能不下結論!
雷聲大,雨點小的事情,作為數據分析師千萬要避免發生。提交數據分析報告,對分析下結論,對業務問題進行及時解決,養成這個良好的習慣。
(責任編輯:king)