大數據挖掘與分析
內容概要
1.介紹SPSS Modeler數據挖掘軟件的功能和基本操作;
2.學習如何使用SPSS Modeler完成數據挖掘過程;
3.學習機器學習的常見技術,例如神經網絡、決策樹、聚類、關聯分析、回歸分析和社會網絡用戶情感分析等,并學習如何將它們應用到業務數據。
4.結合實際案例以及上機操作講解
培訓內容
1. 數據挖掘簡介
數據挖掘的概念
CRISP-DM方法論
SPSS Modeler 18簡介
2. 數據理解
數據理解
缺失值定義
數據審核節點介紹
分布圖節點----初步理解字符型字段的分
直方圖/統計節點----初步理解數值型字段的分布
常用數據分析圖畫法
3. SPSS Modeler分類技術
決策樹技術
Logistics回歸
神經網絡
貝葉斯分類器
4. SPSS Modeler細分技術
Kohonen網絡/兩步聚類/K-means
5. SPSS Modeler關聯分析技術
常見的回歸分析Carma/Apriori
序列節點
6. SPSS Modeler自動建模技術
自動聚類節點
自動分類節點
自動數值節點
7. SPSS Modeler其他技術
線性回歸
特征選擇
支持向量機(SVM)
主成分/因子分析
8. SPSS Modeler模型評估技術
評估圖
分析節點
案例1:銀行客戶數據分析
以客戶信用記錄、消費歷史記錄數據為基礎,使用IBM SPSS Modeler,分析決定用戶信用等級的主要因素是什么?并給與解釋。信用額度和信用評分有何關系?給出欺詐的判斷模型。分析客戶人口屬性對銀行信貸和信用評分有無影響。分析逾期還款的客戶有什么特征?根據消費歷史分析各類客戶的特征。
案例2:大眾點評網的用戶偏好分析
到大眾點評網抓取多家火鍋店的店名、位置、點評條數、人均消費額、口味評分(均分)、環境評分(均分)、服務評分(均分)、點評的均分、有無團購、有無送外賣、有無訂座等數據(還可以采集標簽等數據),對火鍋店進行分類、找出每類火鍋店的特征,并分析點評均分與其他變量之間的關系。為新開設火鍋店選址提供指導;為用戶推薦火鍋店。
案例3:制造企業質量數據挖掘
本項目在中天耐熱導線工廠最近2年的質量管理數據的基礎上,分析了這些數據存在的問題,進行了大量的預處理,利用統計學、多維度分析、數據挖掘以及可視化等多種數據分析方法,以優化耐熱導線的制造過程。
案例4:電商客戶情感分析
通過抓取對典型電商客戶的評論,分析客戶對于某個商品多個維度的態度和情感傾向,以及客戶注重商品屬性所在,商品的賣點、不足以及同類商品競爭力對比。
- 上一個:大數據在人力資源領域的應用
- 下一個:保險大數據