有學過6
sigma的同學, 一定知道 Minitab這套軟體, 因為它把6 sigma實用化了. 過去 Minitab 並沒有中文版, 但對岸有人將它漢化後, 官方也出簡體中文版, 使用簡體中文版會比英文版更friendly, 但畢竟兩岸語文還是有差異, 尤其專有名詞上的差異更讓人難以適從, 例如常態分配 v.s. 正态分布; 品質 v.s. 质量; 巨集 v.s. 宏; 變異數分析
v.s.方差分析; 進階 v.s. 高级…
官方目前沒有繁體中文版.~可惜! 希望 Minitab TWN公司能早日完成繁體中文版的 Minitab. ~期待!
先前談到 Tutorials 教學課程, 了解如何使用 Minitab 各項功能。而在Help 協助 > StatGuide 統計指南中, 則對於輸出的結果有詳細的解釋說明:
Regression > Best Subsets Regression
最佳子集迴歸 > 匯總
最佳子集迴歸使用最大 R 標準產生迴歸模型,具體方法是首先檢查全部單預測變數模型,然後選擇兩個得到最大 R 的模型。Minitab 顯示這些模型的資訊,檢查全部雙預測變數模型,選擇兩個 R 最大的模型,並顯示這兩個模型的資訊。此製程將持續到模型中包含全部預測變數為止。
資料描述
為研究有關水流特徵對漁業資源的影響,進行了一項實驗。獨立變數為:
· 50 個單元的平均深度(深度)
· 棲息地覆蓋保護性植被的區域(區域 1)
· 樹蔭覆蓋百分比(覆蓋)
· 深度
> 25 公分的區域(區域 2)
反應為漁業資源(生物量)。在此實驗中得到包含十個案例的資料集。
資料來源:R. H. Meyers(1990 年)。《經典和現代迴歸分析及其應用》。
資料:
漁業資源.MTW (在樣本資料檔案夾中)
最佳子集迴歸 > 迴歸表 - 預測變數
對於分析,將適配包含預測變數的全部子集的模型。對於每個固定數量的預測變數,都為模型選擇顯示兩個最佳模型。最佳子集迴歸表由下列欄構成:
· 變數欄出每個模型中的預測變數數。
· 預測變數欄(每個預測變數一欄),它們是表中的最後幾欄。這些列表明模型中是否包含相應的預測變數。以 X 記號模型中所包含的預測變數。
用於檢查模型與資料的適合度的統計量位於第一欄和最後一組欄之間。
· R 平方描述反應資料中由模型中預測變數解釋的變異的比例。
· 調整的R 平方是已根據模型中的預測變數數調整的改善 R。
· Mallows Cp 是另一個用於評估模型與資料的適合度的統計量。Mallows Cp 應該接近於模型中包含的預測變數加上常數所得的數值。使用
Mallows Cp 比較迴歸模型僅在以同一組變數啟動時有效。
· s 是誤差標準差。
良好的模型應該具有較高的 R 和調整的 R、較小的 s,並且 Mallows Cp 接近於模型中所包含的預測變數數加上常數數所得的數值。
但是,要做出最終結論,應該用 Minitab 的常規迴歸指令適配這個三預測變數模型,並檢定模型假設。
輸出範例
反應為
生物量
區 區
域 域
R-Sq(調 Mallows 深 表
變數 R-Sq 整) Cp
S 度 1 層 2
1 88.9
87.5 8.8 138.46 X
1 44.7
37.8 67.9 309.15
X
2 94.6
93.1 3.2 102.85
X X
2 89.0
85.9 10.6 147.07
X X
3 96.0
94.0 3.3 95.649
X X X
3 94.6
92.0 5.2 111.09
X X X
4 96.3
93.3 5.0 101.69
X X X X
解釋
對於漁業資源資料,第一欄(模型)中有 1 個預測變數,即區域 2。透過使用以上標準,具有深度、區域 1 和區域 2 這三個預測變數的模型(第 5 欄)可能是全部候選模型中的最佳模型。
Regression > Best Subsets Regression > more
使用最佳子集迴歸
最佳子集迴歸製程可用於選擇一組合適的模型以便進行進一步分析。一般方法是選擇滿足某種統計標準的最小子集。使用變數的子集而不使用全集的原因在於:子集模型可以實際估計迴歸係數,且預測未來反應時的變異數比使用全部預測變數的全集模型小。
統計量 R、調整的 R、Mallows Cp 和 s(MSE 的平方根)由最佳子集製程進行計算,並可用作比較標準。
通常,只要考慮提供最大 R 值的子集即可。但是,R 幾乎始終隨子集的大小而增大。範例,最佳的五預測變數模型的 R 始終比最佳的四預測變數模型的高。因此,比較相同大小的模型時 R 最有效。比較預測變數數相同的模型時,選擇 R 最高的模型等價於選擇 SSE 最小的模型。
使用調整的 R 和 Cp 比較預測變數數不同的各個模型。這種情況下,選擇調整的 R 最高的模型等價於選擇均方誤 (MSE) 最小的模型。如果調整的 R 為負(通常發生在預測變數較多和 R 較小時),則 Minitab 會將調整的 R 設定為零。
Mallows Cp 統計量得自下列公式:
Cp = (SSEp / MSEm) - (n-2p)
其中 SSEp 是包含 p 個參數(方程式中包含截距時其中也包含截距)的最佳模型的 SSE,MSEm 是包含全部 m 個預測變數的模型的均方誤。
如果模型適當(即可以良好地適配資料),則 Mallows Cp 的期望值約等於 p(模型中參數的個數)。較小的 Mallows Cp 值表明模型在估計實際迴歸係數和預測未來反應時相對比較精確(變異數較小)。增加更多預測變數不會提高太多精確度。顯著缺適性的模型的 Mallows Cp 值大於 p。
使用變數選擇製程(如最佳子集和逐步迴歸)時需要謹慎。這些製程都是自動的,因此不會考慮任何預測變數的實際重要性。此外,任何將模型與資料相適配的時候,良好的適配主要來自下列兩個來源:
· 適配資料的基礎結構(會出現在以相同方式收集的其他資料集中的結構)
· 適配所分析的一個特定資料集的特殊性
遺憾的是,就像在最佳子集迴歸中那樣搜尋大量模型以尋找「最佳模型」時,通常主要根據第二個原因來選擇良好的適配。研究人員通常驗證由對新資料集進行的變數選擇製程(如最佳子集迴歸)所發現的模型。或者他們採用原始的資料集,隨機將其分成兩部分,對一部分使用最佳子集來選擇模型,然後對另一部分驗證適配。
逐步和最佳子集模型選擇
最佳子集迴歸提供有關多個不同模型的適配資訊,從而使您可以根據四個不同的統計量來選擇模型。逐步迴歸根據個別值統計量產生個別值模型。由於每個模型中使用了不同的選擇標準,因此有可能最佳子集迴歸和逐步迴歸將得出不同的模型。選擇使用何種方法的一般原則如下:
· 對於預測變數較少的資料集,由於最佳子集迴歸提供較多模型的資訊,因此最佳子集迴歸比逐步迴歸更可取。
· 對於預測變數較多的資料集(Minitab 的標準是 > 32 個),由於最佳子集迴歸需要大量的計算資源(可能無法達到),因此逐步迴歸比最佳子集迴歸更可取。對預測變數較多的資料集使用逐步迴歸時,請選擇較大的入選用 Alpha 和刪除用 Alpha 水準(0.25 到 0.50)。這樣使您可以進一步瞭解每個入選的預測變數對反應和已經包含在模型中的預測變數的影響。
詳細資訊請到官方網站進一步了解: http://www.minitab.com.tw/
和 http://www.minitab.com/
聲明: 本文純粹學術性研討, 內容所提及任何關於 Minitab 專有創作文字, 圖像與架構…等皆屬Minitab Inc. 版權所有, 嚴禁商業上轉貼使用.
沒有留言:
張貼留言