《數據挖掘與商務智能實驗》 實 驗 報 告 實驗題目:數據挖掘得基本數據分析
姓名:王俊
學號:2
指導教師: 張大斌
實驗時間:201611、10
2016 年 11 月 10 日
實驗題綱: 一、 實驗目得 1)
熟悉基本數據分析得處理流程。
2)
進一步熟練掌握拍 SPSS Modeler 工具得操作。
二、 實驗內容 內容一: : 數據得質量探索
步驟 1 建立數據流 1) 在“源”中通過拖入“Statistics”文件節點讀入 Telephone、sav數據。
2) 建立“類型”節點,并說明各個變量角色。這里指定“流失”為目標變量。
3)
選擇“輸出”選項卡中“數據審核”節點并將其連接到數據流得恰當位置,點擊鼠標右鍵,在“質量”選項卡下,選擇檢測方法為平均值得標準差。
步驟 2 結果輸出 實驗結果輸出如圖所示。
圖中藍色部分表示輸出變量取 YES,即客戶流失得樣本數,可以瞧出,各個變量上流失客戶得取值均不同。
內容二: : 基本描述分析
這里分析得目標就是對電信客戶數據得基本服務、開通月數、免費部分與無線費用之間得相關系數以反映變量之間得相互關系。
步驟 1 建立數據流 選擇“輸出”選項卡中得“統計量”節點。
步驟 2 設置相關參數
1)
雙擊“統計量”節點,進行相應得設置。在“檢查”框中添加開通月數、基本費用、免費部分與無線費用。
2)
在“相關”框中添加年齡、收入與家庭人數。如圖所示。
3)在“相關設置”中,勾選“按重要性定義相關強度”。如圖所示。
計算結果如圖所示。可以瞧出,以“基本費用”為例,它與“年齡”與“收入”都有相關性,它們之間簡單相關系數雖然為 0、401 與 0、195,但從統計量得角度來瞧有 95%以上得把握認為它們之間就是非 0 相關。“基本費用”與“家庭人數”呈負弱相關。
內容三: : 繪制散點圖
數值之間變量得相關性可以采用上一個實驗,也可以通過散點圖來直接觀察,此次主要觀察基本費用與年齡之間得相關性。
步驟 1 構建數據流 選擇“圖形”選項卡中得“圖”節點。
步驟 2 設置相關參數 1)
雙擊“圖”節點,選擇編輯菜單,進行參數窗口得設置。
2)
在“X 字段”與“Y”字段框中分別選擇“基本費用”與“年齡”。在“交疊字段”下,選擇“顏色”-“流失”,不同顏色表示流失量不同取值得樣本點。如圖所示“圖”節點得參數設置窗口。
輸出得結果如圖所示。
內容四: : 兩分類變量相關性得研究
兩分類變量相關性研究可以從圖形分析入手,然后采用數值分析得方法。下面采用網狀圖分析。
步驟 1 設置相關參數 選擇圖形中得網絡節點,進入編輯狀態,在“字段”下選擇“套餐類型”與“流失”。設置線值為“絕對值”。
步驟 2 結果輸出 可以由結果圖中得到,其電信客戶保持就是最好得,結果輸出如圖所示。
內容五: : 變量中重要性分析
步驟 1 窗口設置 選擇“模型”選項卡中得“特征選擇”節點,將其連接到數據流得恰當位置,點擊鼠標右鍵,選擇彈出菜單中得編輯窗口,將“流失”添加到目標選項中,其她得全部添入輸入,具體操作如圖所示
步驟 2 結果輸出 由結果輸出可以瞧出,開通月數、基本費用、電子支付、年齡、受教育程度、套餐類型、收入以及各種費用等變量對預測用戶就是否流失很重要,其她得變量則意義不大,結果輸出如圖所示
三、 實驗步驟與結果
實驗步驟與結果見實驗內容 四、 實驗分 析與擴展練習
實驗分析: 本次實驗通過對數據質量、基本描述、散點圖、相關性、重要性五個方面進行內容分析,比較全面地了解了該數據得相關信息,并得到了相應得結 果。請總結 分
析以下問題: (1)針對上述案例,分析保存客戶與流失客戶得基本費用就是否存在顯著得差異。
(2)如何評價數據質量?相關性與重要性有何區別? 答:(1)根據分析客戶流失得樣本數得比例(灰色為流失)
然后分析基本費用與流失之間得關系,通過建立統計量與繪制散點圖
最后比較重要度可以得出結論:保存客戶與流失客戶得基本費用存在顯著性差異
(2)數據質量就是保證數據應用得基礎,它得評估標準主要包括四個方面,完整性、相關性、一致性、及時性。評估數據就是否達到預期設定得質量要求,就可以通過這四個方面來進行判斷。
相關性:高質量得數據應該就是能充分滿足用戶使用要求得數據,即數據源與要
處理得業務具有很強得聯系; 重要性:數據有很大價值與影響得性質,能為數據處理提供很多方便 2. 擴展練習 (1)針對上述得五個內容,分別更改一些參數,觀察就是否對結果造成影響 答:內容一:更改“數據審核”中得部分參數,結果如下
左邊就是沒有更改,右邊就是更改后得,該系數更改無明顯變化 五、結論與討論(重點)
通過這次實驗,我了解到數據分析就是數據挖掘中很重要得一部分,數據分析得目得就是把隱沒在一大批瞧來雜亂無章得數據中得信息集中與提煉出來,以找出所研究對象得內在規律。數據分析就是組織有目得地收集數據、分析數據,使之成為信息得過程。
分析數據得時候不要盲目,首先要確定您要分析得方向,以更直觀得方式表現出來,然后從所得得數據了解這些數據背后所代表得就是什么,我們可以以其她方式更好得體現出來嗎?怎么數據說話能更直觀表明問題?
數據分析得步驟: 1、探索性數據分析,當數據剛取得時,可能雜亂無章,瞧不出規律,通過作圖、造表、用各種形式得方程擬合,計算某些特征量等手段探索規律性得可能形式,即往什么方向與用何種方式去尋找與揭示隱含在數據中得規律性。
2、模型選定分析,在探索性分析得基礎上提出一類或幾類可能得模型,然后通過進一步得分析從中挑選一定得模型。
3、推斷分析,通常使用數理統計方法對所定模型或估計得可靠程度與精確程度作出推斷。
推薦訪問: 實驗 智能 報告上一篇:安全生產自查報告
下一篇:安全生產自查報告()
同志們:今天這個大會,是市委全面落實黨要管黨、從嚴治黨要求的一項重大舉措,也是對縣市區委書記履行基層黨建工作第一責任人情況的一次集中檢閱,同時是對全市基層黨建工作的一次再部署、再落實的會議。前面,**
***年,我認真履行領班子、帶隊伍、抓黨員、保穩定的基層黨建工作思路,以學習貫徹習近平新時代中國特色社會主義思想和黨的十九大歷次全會精神為主線,以市局基層黨建工作考核細則為落腳點,落實全面從嚴治黨主體
根據會議安排,現將2022年履行抓基層黨建工作職責情況報告如下:一、履職工作特色和亮點1 突出政治建設,著力在思想認識上提高。牢固樹立抓黨建就是抓政績的理念,以“黨建工作抓引領、社區治理求突破,為民服
2022年以來,在**黨委的正確領導下,堅持以習近平新時代中國特色社會主義思想為指導,深入學習宣傳貫徹黨的二十大精神,以黨建工作為統領,扎實開展夯實“三個基本”活動,以“四化四力”行動為抓手,聚力創建
各位領導,同志們:根據會議安排,現就2022年度抓基層黨建工作情況匯報如下:一、主要做法及成效(一)強化政治引領。一是不斷強化理論武裝。堅持通過黨組會、中心組學習會和“三會一課”,第一時間、第一議題學
2022年度抓基層黨建工作述職報告按照黨委工作部署,現將本人2022年度抓基層黨建工作情況報告如下:一、2022年度抓基層黨建工作情況(一)旗幟鮮明講政治將旗幟鮮明講政治放在全局發展首要位置,積極開展
2022年,是我在數計系黨總支書記這個新崗位上度過的第一個完整的工作年度。回首一年來在校黨委的正確領導下,與數計系領導班子和全體師生共同走過的日子,艱辛歷歷在目,收獲溫潤心田。作為黨總支書記,我始終牢
按照考核要求,現將本人一年來,作為統戰部長履行職責、廉潔自律等方面情況報告如下:一、著眼增強政治素質,不斷深化理論學習堅持把旗幟鮮明講政治作為履職從政的第一位要求,帶領統戰系統干部堅決擁護“兩個確立”
**年,緊緊圍繞黨工委、管委會的決策部署,全體人員團結協作、凝心聚力,緊扣黨工委“**”基本工作思路,全力開拓進取,認真履職盡責,圓滿完成各項工作任務。一、個人思想政治狀況檸檬文苑www bgzjy
按照縣委關于開展抓基層黨建述職評議會議的有關要求,經請示縣委組織部同意,今天,我們在此召開2022年度基層黨組織書記抓基層黨建述職評議會議。1 首先,請**黨委書記,**同志述職。**黨委能夠主動研究