2012年9月6日 星期四

Minitab: 6 sigma 專業軟體 繁體中文討論-83



有學過6 sigma的同學, 一定知道 Minitab這套軟體, 因為它把6 sigma實用化了. 過去 Minitab 並沒有中文版, 但對岸有人將它漢化後, 官方也出簡體中文版, 使用簡體中文版會比英文版更friendly, 但畢竟兩岸語文還是有差異, 尤其專有名詞上的差異更讓人難以適從, 例如常態分配 v.s. 正态分布; 品質 v.s. 质量; 巨集 v.s. ; 變異數分析 v.s.方差分析; 進階 v.s. 高级
官方目前沒有繁體中文版.~可惜! 希望 Minitab TWN公司能早日完成繁體中文版的 Minitab. ~期待!

        先前談到 Tutorials 教學課程, 了解如何使用 Minitab 各項功能。而在Help 協助 > StatGuide 統計指南中, 則對於輸出的結果有詳細的解釋說明:
Regression > Stepwise Regression

逐步迴歸 > 匯總   
出於認定預測變數的有用子集的目的,逐步迴歸從迴歸模型中刪除和向其中增加變數。Minitab 提供三個常用製程:
·    標準逐步迴歸(增加和刪除變數)
·    前向選擇(增加變數)
·    後向消除(刪除變數)
資料描述
為研究有關水流特徵對漁業資源的影響,進行了一項實驗。獨立變數為:
·    50 個單元的平均深度(深度)
·    棲息地覆蓋保護性植被的區域(區域 1
·    樹蔭覆蓋百分比(覆蓋)
·    深度 > 25 公分的區域(區域 2
反應為漁業資源(生物量)。在此實驗中得到包含十個案例的資料集。
資料來源:R. H. Meyers1990 年)。《經典和現代迴歸分析及其應用》。
資料: 漁業資源.MTW (在樣本資料檔案夾中)

逐步迴歸 > 逐步法 - 逐步資訊  
逐步迴歸是透過根據指定的入選用 Alpha 和刪除用 Alpha 值在模型中包含或排除變數來產生模型的製程。逐步資訊表包含:
·    入選用 Alpha,此值用於確定是否應將模型中當前所沒有的預測變數增加到模型。
·    刪除用 Alpha,此值用於確定是否應將模型中的預測變數從模型中刪除。
·    匯總欄,其中包含分析中的反應名稱、所考慮的獨立變數或預測變數數以及所使用的觀測值數。
輸出範例
  入選用 Alpha: 0.15  刪除用 Alpha: 0.15
反應為 4 個自變數上的 生物量,N = 10
解釋
以漁業資源為例,入選用 Alpha 和刪除用 Alpha 都是 0.15。因此,在製程的每一步,如果在 p 值小於 0.15 的預測變數中,某預測變數的 p 值最小,則將該預測變數增加到模型中。同樣地,在製程接下來的每步,如果預測變數在 p 值大於 0.15 的預測變數中具有最大的 p 值,則只從模型中刪除該預測變數。
對於漁業資源資料,反應是生物量,並且有 4 個預測變數和 10 個案例。

逐步迴歸 > 逐步法 - 逐步表  
此表基於入選用 alpha 值顯示逐步模型選擇在每一步的結果。逐步表還包含所包含的預測變數的係數、t 值和 p 值。p 值用於確定是將預測變數入選到模型中,還是從模型中刪除預測變數。
輸出範例
步驟                  1          2
常數              48.09     197.91
區域 2             2.12       2.96
T                8.01       8.08
P               0.000      0.000
深度                         -13.1
T                          -2.74
P                          0.029
解釋
對於漁業資源資料,選擇預測變數只要使用兩步:
·    在第一步,區域 2 擁有小於 0.15(入選用 Alpha 值)的最小 p 值。因此,區域 2 是入選到模型中的第一個預測變數。
·    在第二步,深度具有小於 0.15 的最小 p 值,因此深度是入選到模型中的第二個預測變數。在本模型中,區域 2 的係數是 2.96t 值是 8.08p 值是 0.000
·    第二步之後,模型外就沒有 p 值小於 0.15 的預測變數了,而模型中也沒有 p 值大於 0.15 的預測變數。因此,任何預測變數都不能入選到模型中或從模型中刪除。最終模型包含兩個預測變數:區域 2 和深度。

逐步迴歸 > 逐步法 - 模型選擇統計量  
逐步表包含可以用於模型選擇的統計量。這些統計量包含:
·    S 用於估計模型中誤差項的標準差。一般而言,S 越小,模型與資料適配得越好。
·    R 平方是由模型解釋的反應資料中變異的比例。R 值越高,模型適配資料的優度越高。
·    R 平方(調整的) 表示已根據模型中項數調整的改善 R
·    Mallows Cp 是另一個用於評估模型與資料的適合度的統計量。Mallows Cp 應該接近於模型中包含的預測變數加上常數所得的數值。使用 Mallows Cp 比較迴歸模型僅在以同一組變數啟動時有效。
·    PRESS 是預測誤差的平方和。一般而言,PRESS 越小,模型預測的資料越準確。
·    R 平方(預測的)是與 R 相似的另一個統計量,反映模型預測未來資料的準確程度。
使用這些統計量來比較每步模型與資料的適合度。
輸出範例
S                   138        103
R-Sq              88.90      94.64
R-Sq(調整)      87.52      93.11
Mallows Cp          8.8        3.2
PRESS            453305     488929
R-Sq(預測)      67.20      64.63
解釋
對於漁業資源資料,S 從第一步到第二步減少,R R(調整的)從第一步到第二步增加,而 Mallows Cp 變得更接近於模型中的預測變數數。總的來說,這些統計量描述第 2 步的模型與資料適配得更好,其中包含區域 2 和深度這兩個預測變數。請注意,PRESS 增加且預測 R 減少,這描述此模型可能無法很好地預測未來資料。如果要對預測使用模型,則有不同預測變數的模型可能更合適。

逐步迴歸 > 逐步法 - 最佳備擇預測變數表格  
備擇預測變數是在每步未入選到模型中的那些預測變數。最佳備擇預測變數是模型中未包含的全部預測變數中 p 值最小的備擇預測變數。可以選擇對每步顯示的最佳備擇預測變數數。
最佳備擇預測變數的 p 值大於入選的預測變數的 p 值,但在模型中未包含的預測變數中是最小的。在每個最佳備擇預測變數取代模型中入選的預測變數時,其 p 值都表示該預測變數的顯著程度。
輸出範例
最佳備擇:
變數               深度     區域 1
T                2.54       0.30
P               0.035      0.772
變數             區域 1       表層
T                0.77      -0.23
P               0.462      0.825
解釋
對於漁業資源資料,要求兩個備擇預測變數:
·    在第一步,在三個未包含在模型中的預測變數中,深度和區域 1 是兩個最佳備擇預測變數,p 值分別為 0.035 0.462
·    在第二步,只有兩個預測變數(區域 1 和覆蓋)不包含在模型中。因此,將區域 1 和覆蓋作為兩個最佳備擇預測變數欄出。

逐步迴歸 > 前向選擇法 - 前向選擇資訊  
使用前向選擇法的逐步迴歸透過在模型中包含基於指定的入選用 Alpha 的變數來產生模型。在前向選擇中,預測變數入選到模型中後,將再也不會將其從模型中刪除。逐步資訊表包含:
·    入選用 Alpha,此值用於確定是否應將模型中當前所沒有的預測變數增加到模型。
·    匯總欄,其中包含分析中的反應名稱、所考慮的獨立變數或預測變數數以及所使用的觀測值數。
輸出範例
前進法。  入選用 Alpha: 0.15
反應為 4 個自變數上的 生物量,N = 10
解釋
對於漁業資源資料,入選用 Alpha 0.15。因此,在製程的每一步,如果在 p 值小於 0.15 的預測變數中,某預測變數的 p 值最小,則將該預測變數增加到模型中。
對於漁業資源資料,反應是生物量,並且有 4 個預測變數和 10 個案例。

逐步迴歸 > 前向選擇法 - 前向選擇表  
此表基於入選用 alpha 值顯示前向模型選擇在每一步的結果。前向選擇逐步表包含每步所包含的預測變數的係數、t 值和 p 值。p 值用於確定預測變數是否入選到模型中。
輸出範例
步驟                  1          2
常數              48.09     197.91
區域 2             2.12       2.96
T                8.01       8.08
P               0.000      0.000
深度                         -13.1
T                          -2.74
P                          0.029
解釋
對於漁業資源資料,選擇預測變數只要使用兩步:
·    在第一步,區域 2 擁有小於 0.15(入選用 Alpha 值)的最小 p 值。因此,區域 2 入選到模型中。
·    在第二步,深度具有小於 0.15 的最小 p 值,因此深度是入選到模型中的第二個預測變數。在本模型中,區域 2 的係數是 2.96t 值是 8.08p 值是 0.000
·    第二步之後,模型外就沒有 p 值小於 0.15 的預測變數了。因此,任何預測變數都不能入選到模型中。最終模型包含兩個預測變數:區域 2 和深度。

逐步迴歸 > 前向選擇法 - 模型選擇統計量  
前向選擇法的逐步表還包含可以用於模型選擇的統計量。這些統計量包含:
·    S,它是對模型中誤差項的標準差的評估。一般而言,S 越小,模型與資料適配得越好。
·    R 平方,它是由模型解釋的反應資料中變異的比例。R 值越高,模型適配資料的優度越高。
·    R 平方(調整的),它是已根據模型中的預測變數數調整的改善 RR(調整的)值越高,模型適配資料的優度越高。
·    Mallows Cp 是另一個用於評估模型與資料的適合度的統計量。Mallows Cp 應該接近於模型中包含的預測變數加上常數所得的數值。使用 Mallows Cp 比較迴歸模型僅在以同一組變數啟動時有效。
·    PRESS,它是預測誤差的平方和。一般而言,PRESS 越小,模型預測的資料越準確。
·    R 平方(預測的),它是與 R 相似的另一個統計量,反映模型預測未來資料的準確程度。
使用這些統計量來比較每步模型與資料的適合度。
輸出範例
S                   138        103
R-Sq              88.90      94.64
R-Sq(調整)      87.52      93.11
Mallows Cp          8.8        3.2
PRESS            453305     488929
R-Sq(預測)      67.20      64.63
解釋
對於漁業資源資料,S 從第一步到第二步減少,R R(調整的)從第一步到第二步增加,而 Mallows Cp 變得更接近於模型中的預測變數數。總的來說,這些統計量描述第 2 步的模型與資料適配得更好,其中包含區域 2 和深度這兩個預測變數。

逐步迴歸 > 前向選擇法 - 最佳備擇預測變數表  
備擇預測變數是在每步未入選到模型中的那些預測變數。最佳備擇預測變數是模型中未包含的全部預測變數中 p 值最小的備擇預測變數。可以選擇對每步顯示的最佳備擇預測變數數。
最佳備擇預測變數的 p 值大於入選的預測變數的 p 值,但在模型中未包含的預測變數中是最小的。在每個最佳備擇預測變數取代模型中入選的預測變數時,其 p 值都表示該預測變數的顯著程度。
輸出範例
最佳備擇:
變數               深度     區域 1
T                2.54       0.30
P               0.035      0.772
變數             區域 1       表層
T                0.77      -0.23
P               0.462      0.825
解釋
對於漁業資源資料,要求兩個最佳備擇預測變數:
·    在第一步,在三個未包含在模型中的預測變數中,深度和區域 1 是兩個最佳備擇預測變數,p 值分別為 0.035 0.462
·    在第二步,只有兩個預測變數(區域 1 和覆蓋)不包含在模型中。因此,將區域 1 和覆蓋作為兩個最佳備擇預測變數欄出。

逐步迴歸 > 後向消除法 - 後向消除資訊  
逐步迴歸的後向消除法以包含全部預測變數的模型開始。根據指定的刪除用 Alpha 一次一個地刪除預測變數。對於後向消除法,將預測變數從模型中刪除後,它就無法再次入選。後向消除表包含:
·    刪除用 Alpha,此值用於確定是否應將模型中的預測變數從模型中刪除。
·    匯總欄,其中包含分析中的反應名稱、所考慮的獨立變數或預測變數數以及所使用的觀測值數。
輸出範例
後退法。  刪除用 Alpha: 0.15
反應為 4 個自變數上的 生物量,N = 10
解釋
對於漁業資源資料,刪除用 Alpha 0.15。因此,在製程的每一步,如果在 p 值大於 0.15 的預測變數中,某預測變數的 p 值最大,則將該預測變數從模型中刪除。
對於漁業資源資料,反應是生物量,並且有 4 個預測變數和 10 個案例。

逐步迴歸 > 後向消除法 - 後向消除表  
此表基於刪除用 alpha 值顯示後向模型消除在每一步的結果。後向消除表還包含每步模型中所包含的預測變數的係數、t 值和 p 值。p 值用於確定是否從模型中刪除預測變數。
輸出範例
步驟               1       2       3
常數           85.75  137.53  197.91
深度           -15.9   -15.2   -13.1
T            -3.10   -3.25   -2.74
P            0.027   0.018   0.029
區域 1           2.4     2.1
T             1.47    1.45
P            0.202   0.198
表層             1.8
T             0.56
P            0.603
區域 2          3.07    3.03    2.96
T             8.22    8.80    8.08
P            0.000   0.000   0.000
解釋
對於漁業資源資料,選擇預測變數要使用三步:
·    在第一步,適配包含全部預測變數的模型。
·    在第二步,覆蓋擁有大於 0.15(刪除用 Alpha 值)的最大 p (0.603)。因此,將覆蓋從模型中刪除,並且按反應迴歸其餘的預測變數。在本模型中,區域 2 的係數是 3.03t 值是 8.80p 值是 0.000
·    在第三步,區域 1 擁有大於 0.15 的最大 p (0.198)。因此,將區域 1 從模型中刪除,並且按反應迴歸其餘的預測變數。
·    第三步之後,模型中剩餘的全部預測變數的 p 值就都小於 0.15 了。最終模型包含兩個預測變數:區域 2 和深度。

逐步迴歸 > 後向消除法 - 模型選擇統計量  
後向消除法的逐步表還包含可以用於模型選擇的統計量。這些統計量包含:
·    S,它是對模型中誤差項的標準差的評估。一般而言,S 越小,模型與資料適配得越好。
·    R 平方,它是由模型解釋的反應資料中變異的比例。R 值越高,模型適配資料的優度越高。
·    R 平方(調整的),它是已根據模型中的預測變數數調整的改善 RR(調整的)值越高,模型適配資料的優度越高。
·    Mallows Cp 是另一個用於評估模型與資料的適合度的統計量。Mallows Cp 應該接近於模型中包含的預測變數加上常數所得的數值。使用 Mallows Cp 比較迴歸模型僅在以同一組變數啟動時有效。
·    PRESS,它是預測誤差的平方和。一般而言,PRESS 越小,模型預測的資料越準確。
·    R 平方(預測的),它是與 R 相似的另一個統計量,反映模型是否與資料適配良好。一般而言,R(預測的)越大,模型與資料適配得越好。
使用這些統計量來比較每步模型與資料的適合度。
輸出範例
S                102    95.6     103
R-Sq           96.26   96.03   94.64
R-Sq(調整)   93.27   94.04   93.11
Mallows Cp       5.0     3.3     3.2
PRESS         482211  447884  488929
R-Sq(預測)   65.11   67.59   64.63
解釋
對於漁業資源資料,S 從第二步到第三步增加但在第一步和第三步幾乎相同,R R(調整的)從第一步到第三步略有不同,而 Mallows Cp 變得更接近於模型中的預測變數數。由於各種模型中這些統計量都很相似,所以很難根據此表確定與資料適配程度最好的模型。

Regression > Stepwise Regression > more

預測變數選擇製程的使用
在模型構建的早期階段,預測變數選擇製程可以作為一種很有價值的工具。但同時,這些製程也表現出一定的危險。下列是一些注意事項:
·    由於這些製程自動「監聽」多種模型,因此所選的模型可能會與資料「過度」適配。也就是說,製程可以檢視許多變量,並完全出於偶然地選擇了恰好適配良好的變數。
·    三個自動製程都是啟髮式算法,通常試驗很好,但可能所選模型的 R 值(對於給定的預測變數數)並非最高。
自動製程無法考慮到分析人員可能具有的有關資料的特殊知識。因此,從實際觀點來看,所選模型可能不是最佳模型。

詳細資訊請到官方網站進一步了解: http://www.minitab.com.tw/ http://www.minitab.com/
聲明: 本文純粹學術性研討, 內容所提及任何關於 Minitab 專有創作文字, 圖像與架構等皆屬Minitab Inc. 版權所有, 嚴禁商業上轉貼使用.

沒有留言:

張貼留言