狠狠干影院/欧美午夜电影在线观看/高黄文/国产精品一区二区在线观看完整版

模式識別實驗報告

| 瀏覽次數:

  河海大學

 物聯網工程 學院

  《 模式識別 》

 課程 實驗 報告

  學

 號

 _____ __________

 專

 業

 ____ 計算機 科學 與 技術_ __ __ __ __ _

 授課班號

 _________________________ _

 學生姓名

 _______ ____________

 指導教師

 _______ ____________

 完成時間

 ______ _________

 河海大學物聯網工程學院

 《模式識別》課程實驗報告

 第 2 頁,共 20 頁 實驗報告格式如下(必要任務必須寫上,可選的課后實驗任務是加分項,不是必要任務,可不寫):

 實驗一、r Fisher 分類器實驗

 1. 實驗原理 如果在二維空間中一條直線能將兩類樣本分開,或者錯分類很少,則同一類別樣本數據在該直線的單位法向量上的投影的絕大多數都應該超過某一值。而另一類數據的投影都應該小于(或絕大多數都小于)該值,則這條直線就有可能將兩類分開。

 準則:向量 W 的方向選擇應能使兩類樣本投影的均值之差盡可能大些,而使類內樣本的離散程度盡可能小。

 2. 實驗任務 (1)

 兩類各有多少組訓練數據?(易)

 (2)

 試著用 MATLAB 畫出分類線,用紅色點劃線表示(中)

 (3)

 畫出在投影軸線上的投影點(較難)

 3. 實驗結果 (1)第一類數據有 200 組訓練數據,第二類數據有 100 組訓練數據。

 (2)如圖所示,先得出投影線的斜率,后求其投影線的垂直線的斜率,即分類線的斜率,再求分類線的過的中垂點,加上即可得出。

 畫出紅線代碼:m = (-40:0.1:80); kw = w(2)/w(1); b = classify(w1, w2, w, 0); disp(b);

 河海大學物聯網工程學院

 《模式識別》課程實驗報告

 第 3 頁,共 20 頁 n = (-1/kw).* m + b; plot(m,n,"r-", "LineWidth", 3); (3)畫出投影上的投影點 如圖,點用 X 表示。

 代碼:

 u = w/sqrt(sum(w.^2)); p1 = w1*u*u"; plot(p1(:,1),p1(:,2),"r+") p2 = w2*u*u"; plot(p2(:,1),p2(:,2),"b+") 實驗二、 感知器實驗

 1. 實驗原理 (1)訓練數據必須是線性可分的 (2)最小化能量,懲罰函數法-錯分樣本的分類函數值之和(小于零)作為懲罰值 (3)方法:梯度下降法,對權值向量的修正值-錯分樣本的特征向量

 2.實驗任務 (1)

 訓練樣本不線性可分時,分類結果如何?

 河海大學物聯網工程學院

 《模式識別》課程實驗報告

 第 4 頁,共 20 頁 (2)

 程序 33-35 行完成什么功能?用 MATLAB 輸出 x1、x2、x 的值,進行觀察(中)

 (3)修改程序,輸出梯度下降法迭代的次數(易); 3.實驗結果 (1)在創建樣本時,故意將兩組數據靠近,實現訓練樣本非線性。

 訓練樣本 由于訓練樣本不是非線性的,所以無法保證收斂,得不出結果,在運行非線性樣本時,無法得到收斂,所以我的程序也經常卡住,只能重啟 matlab。

 (2)程序 33-35 行在計算得出訓練樣本,x1 加上全為 1 的一維矩陣得到新的 x1,x2 也如此,只不過 x2 全部取煩,取負。

 最后得到 X = [x1;x2],為下面應用于感知器算法做準備。

 (3)

 通過增加一些代碼可得,梯度下降法迭代次數為 1244 次。

  實驗 三 、P BP 網絡預測實驗

 1. 實驗原理 學習過程中由信號的正向傳播與誤差的逆向傳播兩個過程組成。

 正向傳播時, 模式作用于輸入層, 經隱層處理后, 傳入誤差的逆向傳播階段, 將輸出誤差按某種子形式, 通過隱層向輸入層逐層返回,

 并“分攤”給各層的所有單元, 從而獲得各層單元的參考誤差或稱誤差信號, 以作為修改各單元權值的依據. 權值不斷修改的過程,

 也就是網絡學習過程. 此過程一直進行到網絡輸出的誤差準逐漸減少到可接受的程度或達到設定的學習次數為止. BP 網絡模型包括其輸入輸出模型, 作用函數模型, 誤差計算模型和自學習模型。

 BP 網絡由輸入層, 輸出層以及一個或多個隱層節點互連而成的一種多層網, 這種結構使多層前饋網絡可在輸入和輸出間建立合適的線性或非線性關系, 又不致使網絡輸出限制在-1 和 1 之間. 見圖 1。

 河海大學物聯網工程學院

 《模式識別》課程實驗報告

 第 5 頁,共 20 頁

 2. 實驗任務 (1)將 net = newff(inputn,output, [5,5]),均方誤差,運行時間如何變化,與 net = newff(inputn,output, 5)進行對比 (2)net = newff(inputn,output, 5)中的 5,設置為 6,7,8,9,10,分別觀察均方誤差,運行時間的變化 3.實驗結果 (1)任務 1 當 net = newff(inputn,output, 5)時,結果如圖:

 河海大學物聯網工程學院

 《模式識別》課程實驗報告

 第 6 頁,共 20 頁 當 net = newff(inputn,output, [5,5])時,結果如圖:

  前者為一個隱藏層,中有 5 個隱藏節點,第二個為有兩個隱藏層,各有 5 個隱藏節點。

 兩者從實驗結果中,均方誤差后者更小,運行時間上后者需要時間長,因為其隱藏層多一層,迭代次數增加。結論為,利用兩層隱藏節點比一層誤差小,效果更好。

 (2)任務 2 當 net = newff(inputn,output, 6)時如下圖,

 河海大學物聯網工程學院

 《模式識別》課程實驗報告

 第 7 頁,共 20 頁 當 net = newff(inputn,output, 7)時如下圖,

 下面為隱藏節點為 8 和 9 的結果:

 結論:隨著隱藏節點的增加,運行時間逐漸變長,但是均方誤差不一定越來越小,而且可能出現誤差越來越大的情況,說明隱藏節點數不是越多越好,而是有一個最佳值,在最佳值往上或往下,誤差都會變大,例如此實驗中 5 便是最佳隱藏節點數。

  實驗 四 、M SVM 實驗

 1. 實驗原理 支持向量機(support vector machines, SVM)是一種二分類模型,它的基本模型是定義在特征空間上的間隔最大的線性分類器,間隔最大使它有別于感知機;SVM 還包括核技巧,這使它成為實質上的非線性分類器。SVM 的的學習策略就是間隔最大化,可形式化為一個求解凸二次規劃的問題,也等價于正則化的合頁損失函數的最小化問題。SVM 的的學習算法就是求解凸二次規劃的最優化算法。

 svm 是一個二分器,只能用于 2 類樣本的分類,現在我們將它推廣到多類問題。本文是 對 svm 進 行 推 廣 到 能 夠 處 理 多 類 問 題 。

 采 用 一 對 一 的 投 票 策 略 。

 將 a 、

 b、c、d 4 類樣本兩類兩類的分成訓練集,即(a,b)、(a,c)、(a,d)、(b,c)、(b,d)、(c,d),

 河海大學物聯網工程學院

 《模式識別》課程實驗報告

 第 8 頁,共 20 頁 得到 6 個(對于 n 類問題,為 n(n-1)/2 個)svm 二分器。在測試的時候,把測試樣本 x 依次送入這 6 個二分器,采取投票形式,最后得到一組結果。投票是以如下方式進行。

  初始化:vote(a)=vote(b)=vote(c)=vote(d)=0.

 投票過程:如果使用訓練集(a,b)得到的分類器將 x 判定為 a 類,則 vote(a)=vote(a)+1,否則 vote(b)=vote(b)+1;如果使用(a,c)訓練的分類器將x判定為a類,則vote(a)=vote(a)+1,否則vote(c)=vote(c)+1;...; 如果使用(c,d)訓練的分類器將 x 判定為 c 類,則 vote(c)=vote(c)+1,否則vote(d)=vote(d)+1。最終判決:max(vote(a),vote(b),vote(c),vote(d))。如有兩個以上的最大值,則一般可以簡單地取第一個最大值所對應的類別。

 2. 實驗任務 為什么一定要進行數據歸一化處理,如果不歸一化,程序錯誤率如何呢?請修改程序進行觀察。

 3.實驗結果 因為歸一化很有可能提高精度,,例如一共特征值域范圍非常大,那么距離計算就主要取決于這個特征,從而于實際情況相悖。而且歸一化還可以提高求解最優解速度,更快地收斂。

 如果不進行歸一化處理,程序錯誤率較高,最后進行分類的時候也出現了大量的錯誤歸類現象。

 如下兩圖中,左圖是進行歸一化處理的,右圖則沒有進行歸一化處理,右邊在執行的時候,收斂較慢,且分類結果有較大的誤差,遠遠沒有歸一化的好 。

 實驗 五 、 決策樹分類器 實驗

 1. 實驗原理 決策樹是通過一系列規則對數據進行分類的過程。它提供一種在什么條件下會得到什么值的類似規則的方法。決策樹分為分類樹和回歸樹兩種,分類樹對離散變量做決策樹,回歸樹對連續變量做決策樹。

 一棵決策樹的生成過程主要分為以下 3 個部分: 特征選擇:特征選擇是指從訓練數據中眾多的特征中選擇一個特征作為當前節點的分裂標準,如何選擇特征有著很多不同量化評估標準標準,從而衍生出不同的決策樹算法。

 決策樹生成:

 根據選擇的特征評估標準,從上至下遞歸地生成子節點,直到數據集不可分則停止決策樹停止生長。

 樹結構來說,遞歸結構是最容易理解的方式。

 剪枝:決策樹容易過擬合,一般來需要剪枝,縮小樹結構規模、緩解過擬合。剪枝技術有預剪枝和后剪枝兩種。

 決策樹的基本構造方法有 ID#算法 ,理論基礎為熵。如果一個時間有 k 中可能的結果,每種結果對應的概率為 Pi,i = 1,2,…,k,則用 I 表示該事件的不純度:計算如下:

 河海大學物聯網工程學院

 《模式識別》課程實驗報告

 第 9 頁,共 20 頁 ??? ? ? ? ? ? ?kii i k kP P P P P P P P I12 2 2 2 2 1 2 1log ) log log log ( ? 這反映了節點的熵不純度。

 2. 實驗任務 利用決策樹的程序,編寫一個隨機森林分類器,采用決策樹,通過投票的方法,得到最終的分類結果,試比較決策樹與隨機森林的分類錯誤率。(中)

 提示:隨機森林的實現步驟:

 重采樣、決策樹分類、投票決策。

 3. 實驗結果 隨機森林算法我利用 python 實現,具體步驟如下:

 (1)從樣本集中用 Bootstrap 采樣選出 n 個樣本; (2)從所有屬性中隨機選擇 K 個屬性,選擇出最佳分割屬性作為節點創建決策樹; (3)重復以上兩步 m 次,即建立 m 棵決策樹; (4)這 m 個決策樹形成隨機森林,通過投票表決結果決定數據屬于那一類 具體關鍵步驟代碼:

 ####################### 隨機森林模型 ### n_estimators :迭代次數,每次迭代為 Y 產生一個模型 t = RandomForestClassifier(n_estimators=100, criterion="gini", max_depth=1, random_state=0) forest.fit(x_train, y_train)#max_depth 一般不宜設置過大,把每個模型作為一個弱分類器

 # 模型效果評估 score = forest.score(x_test, y_test) print (" 準確率:%.2f%%" % (score * 100)) forest_y_score = forest.predict_proba(x_test)# prodict_proba 輸出概率

  下圖一為決策樹分類器,圖 2 為隨機森林分類

 由此可見,多個決策樹形成的隨機森林效果要好于決策樹分類。

 并且隨機森林通過調參等方法可以使得正確性進一步提升。

 河海大學物聯網工程學院

 《模式識別》課程實驗報告

 第 10 頁,共 20 頁 我還計算出了隨機森林中樹數目、深度和錯誤率的關系如圖:

  當樹深度越深,數目越大,錯誤率也就越小。

 實驗 六 、t AdaBoost 分類器 實驗

 1. 實驗原理 AdaBoost 的基本原理是將多個弱分類器進行合理的結合,使其成為一個強分類器。

 AdaBoost 采用的是迭代的思想,每次迭代只會訓練一個弱分類器,然后計算好的弱分類器將會參與下次迭代的使用。也就是說 N 次迭代就有 N 個弱分類器,其中 N-1 是訓練好的,參數不會變,第 N 個迭代器是對前 N-1 個迭代器沒分對的數據,進行分類。最終的效果要看著N 個弱分類器的綜合效果。

 AdaBoost 的兩種權重一種為數據權重、一種為分類器權重 (1)數據權重:用于確定分類器權重(弱分類器尋找其分類最小的決策點,找到之后用這個最小的誤差計算出弱分類器的權重)

 最開始每個店的權重都相同,錯誤就會增加權重。

 每訓練一個弱分類器就會調整每個店的權重,上一輪訓練中被錯誤分類點的權重增加,促使下一輪著分析錯誤分類點,達到“你分不對我來分的”效果。

 由于每個分類器都會關注上個分錯的點,那么也就是說每個分類器都有側重。

 (2)分類器權重:說明了弱分類器在最終決策中擁有發言權的大小 每個分類器都有可能分對其上一個分類器美分對的數據,同時針對上一個分類器分隊的數據也可能沒有分隊。這就導致了分類器中都有各自最關注的點,這就說明每一個分類器都只關注訓練數據中的一部分數據,全部分類器組合起來才能發揮作用,那么最終的結果是通過加權“投票“決定的,權重的大小是根據弱分類器的分類錯誤率計算出來的。

 河海大學物聯網工程學院

 《模式識別》課程實驗報告

 第 11 頁,共 20 頁 AdaBoost 算法流程

 2. 實驗任務 1.程序 Bp_Ada_Sort.m 中,45-46 行程序中有何作用? 2. AdaBoost 弱分類器你認為此程序中弱分類器設計多少最合適?請結合強分類器錯誤率、弱分類器錯誤率、程序運行時間,并通過實驗結果說明。

 3.實驗結果 (1)程序 Bp_Ada_Sort.m 中,45-46 行程序中 找到訓練數據預測得出的 test_simu1(i,:)中大于 0 的數值和小于 0 的數值,這一步的目的是為了下一步將 aa 根據所得到的 kk1 和 kk2 取 1 或者-1,通過正負 1 來統計錯誤樣本。

 (2)

 當弱分類器分類的為 5 個時:

 強分類器分類誤差率= 0.0486 弱分類器分類誤差率= 0.0586

 當弱分類器分類的為 10 個時:

 強分類器分類誤差率= 0.0400 弱分類器分類誤差率= 0.0571

 當弱分類器分類的為 20 個時:

 強分類器分類誤差率= 0.0429 弱分類器分類誤差率= 0.0560

 河海大學物聯網工程學院

 《模式識別》課程實驗報告

 第 12 頁,共 20 頁

 當弱分類器分類的為 30 個時:

 強分類器分類誤差率=0.0400 弱分類器分類誤差率=0.0541

 通過多次改參數,最后得出結論,當弱分類器個數較少時(<5),強分類器和弱分類器的分類誤差率較大,當增加至 10 個時候,出現好轉的情況,強分類器分類誤差率穩定在 0.4 左右,弱分類器分類誤差率穩定在 0.55 左右,時間上則是個數越多,程序運行時間越長。

 所以當個數超過 10 時,運行時間增加,繼續提高弱分類器的數量,錯誤率并沒有明顯改進。

 所以選擇弱分類器個數為 10 則是最佳選擇。

  實驗 七 、 主成分分析 實驗

 1.實驗原理 PCA(Principal Component Analysis),即主成分分析方法,是一種使用最廣泛的數據降維算法。PCA 的主要思想是將 n 維特征映射到 k 維上,這 k 維是全新的正交特征也被稱為主成分,是在原有 n 維特征的基礎上重新構造出來的 k 維特征。PCA 的工作就是從原始的空間中順序地找一組相互正交的坐標軸,新的坐標軸的選擇與數據本身是密切相關的。其中,第一個新坐標軸選擇是原始數據中方差最大的方向,第二個新坐標軸選取是與第一個坐標軸正交的平面中使得方差最大的,第三個軸是與第 1,2 個軸正交的平面中方差最大的。依次類推,可以得到 n 個這樣的坐標軸。通過這種方式獲得的新的坐標軸,我們發現,大部分方差都包含在前面 k 個坐標軸中,后面的坐標軸所含的方差幾乎為 0。于是,我們可以忽略余下的坐標軸,只保留前面 k 個含有絕大部分方差的坐標軸。事實上,這相當于只保留包含絕大部分方差的維度特征,而忽略包含方差幾乎為 0 的特征維度,實現對數據特征的降維處理。

 基于特征值分解協方差矩陣實現 PCA 算法:

 輸入:數據集 ,需要降到 k 維。

 1) 去平均值(即去中心化),即每一位特征減去各自的平均值。

 2) 計算協方差矩陣 ,注:這里除或不除樣本數量 n 或 n-1,其實對求出的特征向量沒有影響。

 3) 用特征值分解方法求協方差矩陣 的特征值與特征向量。

 4) 對特征值從大到小排序,選擇其中最大的 k 個。然后將其對應的 k 個特征向量分別作為行向量組成特征向量矩陣 P。

 5) 將數據轉換到 k 個特征向量構建的新空間中,即 Y=PX。

 2.實驗任務 (1)程序的運行結果分別是什么?這兩個實驗結果分別說明什么問題? (2)

 分別畫出第一和第二主特征向量對應的直線,類似于上頁中紅色和藍色的直線(直線的法向量就是第一第二主特征向量)

 河海大學物聯網工程學院

 《模式識別》課程實驗報告

 第 13 頁,共 20 頁 3.實驗結果 (1)公司財務數據進行降維的主成分分析程序結果

  (2)乳腺癌數據進行降維的主成分分析程序結果

  兩個實驗都實現了數據降維,但分布比較分散,不集中。

  實驗 八 、 基于本征臉方法的人臉識別 實驗

 1.實驗原理 K-L 變換( Karhunen-Loeve Transform)是建立在統計特性基礎上的一種變換,有的文獻也稱為霍特林(Hotelling)變換,因他在 1933 年最先給出將離散信號變換成一串不相關系數的方法。K-L 變換的突出優點是去相關性好,是均方誤差(MSE,Mean Square Error)意義下的最佳變換,它在數據壓縮技術中占有重要地位。

 K-L(Karhunen-Loeve)變換形式 設 X=(X1,X2,…,XN)T 為 N 維隨機矢量,mX=E(X)和 CX=E{(X-mX)(X-mX)T}分別為其平均值向量和協方差矩陣,ei 和λi 分別為 CX 的特征向量和對應的特征值,其中 i=1,…,N,并設特征值已按降序排列,即λ1≥λ2≥…≥λN,則 K-L 變換式為:

 [1]

 Y=A(X-mx) (1.1) 其中變換矩陣 A 的行為 CX 的特征值,即:

 河海大學物聯網工程學院

 《模式識別》課程實驗報告

 第 14 頁,共 20 頁

 K-L 變換的性質 ①Y 的均值向量為零向量 0。即:

 mY=E{Y} =E{A(X-mX)}=0 (1.2) ②K-L 變換使矢量信號各分量不相關,即變換域信號的協方差為對角矩陣。

 ③K-L 反變換式為:

 X=A-1Y+mX=ATY+mx (1.3) ④K-L 變換是在均方誤差準則下失真最小的一種變換,故又稱作最佳變換。

 這條性質與壓縮編碼有關。其意義是,如果在數據傳輸中只傳送變換后的前 n 個系數組成的矢量,則根據這 n 個系數得到的恢復值可以得到最小的均方誤差,其值為:

 上式表明,在 K-L 變換下,最小均方誤差值等于變換域中矢量信號的最小的 N-n 個方差的和。特別有意義的是,如果這些分量的均值為零,則在恢復時只要把這些分量置零,便可以使均方誤差最小。

 K-L 變換雖然具有 MSE 意義下的最佳性能,但需要先知道信源的協方差矩陣并求出特征值。求特征值與特征向量并不是一件容易的事,維數較高時甚至求不出來。即使能借助計算機求解,也很難滿足實時處理的要求,而且從編碼應用看還需要將這些信息傳輸給接收端。這些因素造成了 K-L 變換在工程實踐中不能廣泛使用。人們一方面繼續尋求解特征值與特征向量的快速算法,另一方面則尋找一些雖不是“最佳”、但也有較好的去相關與能量集中的性能且容易實現的一些變換方法。而 K-L 變換就常常作為對這些變換性能的評價標準。

 K-L 變換法在人臉識別中的應用:

  2.實驗任務 選擇兩人臉,每個人臉錄制兩張不同表情的圖片,這四張圖片作為訓練樣本,現將其中一張人臉作為測試樣本。

 運行程序 eigenFace.m; (1)

 請利用 eigenFace.m 正確識別測試樣本,顯示三張本征臉(請將這三張本征臉圖像復

 河海大學物聯網工程學院

 《模式識別》課程實驗報告

 第 15 頁,共 20 頁 制到報告中); (2)程序實現分利用一種簡化方法,具體分類的原理是什么? (3)如果是一張本征臉或兩張本征臉,還能正確識別嗎?請修改程序,利用運行結果說明以上問題; 3.實驗結果 (1)本征臉

 (2)首先是將訓練樣本形成特征臉的投影,再讀入的測試樣本,計算測試樣本在三個特征臉上的投影,在經過計算得出真正檢測出臉的索引,得出結果。

 (3)不能正確識別,識別誤差較大。

 實驗結果表明,在輸入特征臉后,識別誤差達到 34%,誤差較大,識別正確率下降。

 實驗 九 、 混合高斯模型實驗

 1.實驗原理 (1)GMM 由 K 個 Gaussian 分布組成 (2)每個 Gaussian 稱為一個“Component” (3)這些 Component 線性加成在一起就組成了 GMM 的概率密度函數 p(x):

  2.實驗任務 (1)給定 GMM 的程序和數據 X(用 MATLAB 程序生成),共有三類,每類都成正態分布;

  X = [randn(100,2)+ones(100,2);randn(100,2)-ones(100,2);randn(100,2)+[ones(100,1),-ones(100,1)]]; 使用 GMM 的程序 gmm.m 對這個樣本集分類,(提示新建一個腳本如 testGMM.m,然后調用 gmm函數對 X 進行聚類)用不同顏色標識聚類。(用 MATLAB 畫出圖示的效果)

 (2)GMM 程序中返回的 PX 中存放的是什么?根據實驗結果說明。

 用顏色顯示 PX 的值,請實驗顯示出來。從實驗看出,GMM 是軟聚類還是硬聚類? 3.實驗結果 (1)實驗結果:

 河海大學物聯網工程學院

 《模式識別》課程實驗報告

 第 16 頁,共 20 頁

 (2)Px 存放了每個點屬于每個聚類的概率的大小,此分類為軟分類,把數據以一定概率分到各類中,又被稱為模糊分類,下面為部分點的概率。

  實驗 十 、k k 均值聚類算法 實驗

 1.實驗原理 多次迭代,逐步調整類別劃分,最終使某準則達到最優。

 三個要點:

 ① 選某種距離作為樣本相似性度量 ② 定義某個準則函數,用于評價聚類質量。

 ③ 初始分類方法及迭代算法

 河海大學物聯網工程學院

 《模式識別》課程實驗報告

 第 17 頁,共 20 頁

 2.實驗任務 (1)通過實驗說明,最合適的聚類數量是什么?(提示:比較平方誤差和) (2)

 比較kmeans算法和混合高斯模型,哪個模型的聚類效果更好?混合高斯模型比kmeans算法能獲得更多的信息量,這多出來的信息量是什么? 3.實驗結果 (1)下面利用兩種方法來得到最佳的聚類數量 ①手肘法 手肘法的核心指標是 SSE(sum of the squared errors,誤差平方和),隨著聚類數 k 的增大,樣本劃分會更加精細,每個簇的聚合程度會逐漸提高,那么誤差平方和 SSE 自然會逐漸變小。并且,當 k 小于真實聚類數時,由于 k 的增大會大幅增加每個簇的聚合程度,故 SSE的下降幅度會很大,而當 k 到達真實聚類數時,再增加 k 所得到的聚合程度回報會迅速變小,所以 SSE 的下降幅度會驟減,然后隨著 k 值的繼續增大而趨于平緩,也就是說 SSE 和 k 的關系圖是一個手肘的形狀,而這個肘部對應的 k 值就是數據的真實聚類數。

 關鍵代碼(python):利用循環,計算不同的 k 值得誤差平方和。

 可以看到在 k=2 后,k=3 時下降幅度會很大,k=4 時有放緩。

 河海大學物聯網工程學院

 《模式識別》課程實驗報告

 第 18 頁,共 20 頁

 ②輪廓系數法 該方法的核心指標是輪廓系數(Silhouette Coefficient),某個樣本點 Xi 的輪廓系數定義如下:

 求出所有樣本的輪廓系數后再求平均值就得到了平均輪廓系數。平均輪廓系數的取值范圍為[-1,1],且簇內樣本的距離越近,簇間樣本距離越遠,平均輪廓系數越大,聚類效果越好。那么,很自然地,平均輪廓系數最大的 k 便是最佳聚類數。

 關鍵代碼:

 可以看到在 k=3 時輪廓系數最大,那么 k=3 便是最佳聚類數。

 河海大學物聯網工程學院

 《模式識別》課程實驗報告

 第 19 頁,共 20 頁 下面展示各個不用聚類數的效果:

 聚類數量為 2 的時候

 聚類數量為 3 的時候

 聚類數量為 4 的時候

  聚類數量為 5 的時候 最后根據實驗得聚類數量為 3 得時候聚類效果更佳。

 (2)kmeans 算法和混合高斯模型,混合高斯模型聚類效果更好,因為混合高斯模型為軟聚類,把數據以一定概率分到各類中,而不是像 kmeans 這樣的硬聚類,把數據確切的分到哪一類中,是 1 類就不會是 2 類。多出來的信息量就是對于每一個數據的概率分布。

 實驗總結

 通過《模式識別》這門課程,對模式識別實際的數值計算有了更多的了解,同時更加深了對模式識別課程的理解,在上網課的時候對一些概念比較模糊,通過這次實驗,把上課學的東西應用于實驗,用代碼敲出來程序來,比光看 PPT 有用的多,同時,我的 matlab 水平也有提升,可以比較靈活應用矩陣數組等。

  在這次模式識別實驗中,學到很多有用的算法,對以后機器學習的研究也會有更好的基礎,例如監督學習,非監督學習,以及線性分類器,非線性分類器,還學會了如何從數據中選擇和提取特征,以及相關的一系列算法。

  在實驗中有幾個實驗感覺還是比較難的,例如主成分分析,需要弄清楚它具體分析步驟,如何實現降維等等,要真正把算法弄透徹才能把實驗做好。最后在老師和同學的幫助下完成了本次課程的所有實驗,謝謝大家。

 實驗報告要求

 河海大學物聯網工程學院

 《模式識別》課程實驗報告

 第 20 頁,共 20 頁 1. 書寫格式:標題采用“宋體小四號”,正文使用“宋體五號”,打印頁碼,頁眉頁腳使用第 3 頁參考格式。

 2. 內容: 每個實驗不要超過 3 頁,最后一頁總結,正反面打印。一份實驗報告不要超過 15 張紙(即 30 頁)。

 3. 裝訂和 打印:封面為第一頁,無需打印封底。按照上面的格式采用 A4 紙打印。裝訂時:訂書釘在報告左邊沿裝訂三個,上中下各一個(對齊)。

 4. 交實驗報告 :

 一人一份。先交至班長或學習委員處,收齊交至卓越樓 1112 辦公室。截止時間:19 周周一下午五點以前(過期不收)。

推薦訪問: 實驗 報告 模式識別

【模式識別實驗報告】相關推薦

工作總結最新推薦

NEW
  • 同志們:今天這個大會,是市委全面落實黨要管黨、從嚴治黨要求的一項重大舉措,也是對縣市區委書記履行基層黨建工作第一責任人情況的一次集中檢閱,同時是對全市基層黨建工作的一次再部署、再落實的會議。前面,**

  • ***年,我認真履行領班子、帶隊伍、抓黨員、保穩定的基層黨建工作思路,以學習貫徹習近平新時代中國特色社會主義思想和黨的十九大歷次全會精神為主線,以市局基層黨建工作考核細則為落腳點,落實全面從嚴治黨主體

  • 根據會議安排,現將2022年履行抓基層黨建工作職責情況報告如下:一、履職工作特色和亮點1 突出政治建設,著力在思想認識上提高。牢固樹立抓黨建就是抓政績的理念,以“黨建工作抓引領、社區治理求突破,為民服

  • 2022年以來,在**黨委的正確領導下,堅持以習近平新時代中國特色社會主義思想為指導,深入學習宣傳貫徹黨的二十大精神,以黨建工作為統領,扎實開展夯實“三個基本”活動,以“四化四力”行動為抓手,聚力創建

  • 各位領導,同志們:根據會議安排,現就2022年度抓基層黨建工作情況匯報如下:一、主要做法及成效(一)強化政治引領。一是不斷強化理論武裝。堅持通過黨組會、中心組學習會和“三會一課”,第一時間、第一議題學

  • 2022年度抓基層黨建工作述職報告按照黨委工作部署,現將本人2022年度抓基層黨建工作情況報告如下:一、2022年度抓基層黨建工作情況(一)旗幟鮮明講政治將旗幟鮮明講政治放在全局發展首要位置,積極開展

  • 2022年,是我在數計系黨總支書記這個新崗位上度過的第一個完整的工作年度。回首一年來在校黨委的正確領導下,與數計系領導班子和全體師生共同走過的日子,艱辛歷歷在目,收獲溫潤心田。作為黨總支書記,我始終牢

  • 按照考核要求,現將本人一年來,作為統戰部長履行職責、廉潔自律等方面情況報告如下:一、著眼增強政治素質,不斷深化理論學習堅持把旗幟鮮明講政治作為履職從政的第一位要求,帶領統戰系統干部堅決擁護“兩個確立”

  • **年,緊緊圍繞黨工委、管委會的決策部署,全體人員團結協作、凝心聚力,緊扣黨工委“**”基本工作思路,全力開拓進取,認真履職盡責,圓滿完成各項工作任務。一、個人思想政治狀況檸檬文苑www bgzjy

  • 按照縣委關于開展抓基層黨建述職評議會議的有關要求,經請示縣委組織部同意,今天,我們在此召開2022年度基層黨組織書記抓基層黨建述職評議會議。1 首先,請**黨委書記,**同志述職。**黨委能夠主動研究