有學過6
sigma的同學, 一定知道 Minitab這套軟體, 因為它把6 sigma實用化了. 過去 Minitab 並沒有中文版, 但對岸有人將它漢化後, 官方也出簡體中文版, 使用簡體中文版會比英文版更friendly, 但畢竟兩岸語文還是有差異, 尤其專有名詞上的差異更讓人難以適從, 例如常態分配 v.s. 正态分布; 品質 v.s. 质量; 巨集 v.s. 宏; 變異數分析
v.s.方差分析; 進階 v.s. 高级…
官方目前沒有繁體中文版.~可惜! 希望 Minitab TWN公司能早日完成繁體中文版的 Minitab. ~期待!
先前談到 Tutorials 教學課程, 了解如何使用 Minitab 各項功能。而在Help 協助 > StatGuide 統計指南中, 則對於輸出的結果有詳細的解釋說明:
ANOVA > General MANOVA
廣義多變量分析 > 匯總
使用廣義多變量分析可對平衡和不平衡設計進行多變量分析 (MANOVA),如果有共變異數,也可以使用它進行此分析。此製程利用資料共變異數結構來同時檢定不同反應中平均值的等同性。
使用多個單因子變異數分析來分析資料時,類型 I 錯誤的機率將會增加。多變量分析將控制全族誤差率,從而最大程度地減少整組比較發生一個或多個類型 I 錯誤的機率。
使用迴歸進行計算。因子和共變異數形成「滿秩」設計矩陣,每個反應變數在設計矩陣的欄中迴歸。
因子可以為交叉因子、套疊因子,但不能使用隨機因子。儘管可以透過指定檢定模型項的誤差項這一方式來克服這一限制,但仍必須使用固定因子。共變異數可以彼此交叉,也可以與因子交叉,或者將共變異數套疊在因子內。一次最多可以分析 50 個反應變數、31 個因子以及
50 個共變異數。
資料描述
某家汽車製造公司十分關心三個工廠中使用兩種不同方法生產的模型車門鎖的可使用性和品質。他們需要確定生產方法和工廠是否影響最終的產品。每個工廠使用每種方法生產的產品都需經過一系列測試,以獲得最終的可使用性和品質記分。
資料: 門鎖.MTW (在樣本資料檔案夾中)
廣義多變量分析 > 因子表
因子表顯示下列資訊:
·
該模型中包含多個因子
·
每個因子的類型(固定因子或隨機因子)
·
每個因子的水準數
·
因子水準的值
輸出範例
因子
類型 水準數 值
方法
固定
2 1, 2
工廠
固定
3 1, 2, 3
解釋
對於門鎖資料,該表顯示下列內容:
·
此次分析中包含兩個因子:方法和工廠。
·
這兩個因子都是固定因子。
·
方法因子具有兩個水準,其值為:1、2。
·
工廠因子具有三個水準,其值為:1、2、3。
廣義多變量分析 > 單變數統計量 - 可使用性的變異數分析表
執行廣義多變量分析時,可以選擇計算單變數統計量來檢定個別值反應。
變異數分析表中最重要的統計量是 p 值 (P),模型中的每項都有 p 值(但誤差項除外)。項的 p 值表明對該項的效應是否顯著:
·
如果 P 小於或等於已選的 a 水準,則描述效應顯著。
·
如果 P 大於已選的 a 水準,則描述效應不顯著。
如果因子的效應顯著,那麼該因子的水準平均值之間存在顯著差異。
如果交互作用項的效應顯著,那麼每個因子的效應在其他因子的不同水準之中有所不同。因此,沒有必要分析顯著高次交互作用中所包含項的個別值效應。
輸出範例
可列性 的變異數分析,在檢定中使用調整的 SS
來源 自由度 Seq SS
Adj SS Adj MS F
P
方法 1
31.2644 29.0738 29.0738
32.72 0.000
工廠 2
1.3664 1.4989 0.7495
0.84 0.436
方法*工廠 2
7.0987 7.0987 3.5494
3.99 0.024
誤差 56
49.7543 49.7543 0.8885
合計 61
89.4839
解釋
在門鎖分析中,您已對門鎖的可使用性反應評估了方法的效應、工廠的效應以及方法*工廠交互作用的效應。假定為該檢定檢定選擇了的 0.05 的 a 水準,那麼結果表明交互作用項的 p 值 (0.024) 小於 0.05。因此,交互作用十分顯著,這表明該方法的效應在不同工廠之中不同。由於此交互作用的存在,所以不應解釋方法和工廠的主要效應。
廣義多變量分析 > 單變數統計量 - 可使用性的
S、R 平方和 R 平方(調整的)值
S、R 和調整的 R 是模型對資料的適合度的量測。這些值有助於您選擇具有最佳適配的模型。
·
S 以反應變數的單位進行量測,它表示資料值與適配得標準距離。對於給定研究,模型預測反應的效果越好,S 越小。
·
R(R 平方)描述在觀測的反應值中由預測變數解釋的變異量。R 始終隨預測變數的增加而增大。範例,最佳的五預測變數模型的 R 始終比最佳的四預測變數模型的高。因此,比較相同大小的模型時 R 最有效。
·
調整的 R 表示已根據模型中的項數調整的修正 R。如果包含了不必要的項,R 會人為地變得很高。與 R 不同,調整的 R 在您向模型中增加項時可能變小。使用調整的 R 比較預測變數數不同的各個模型。
輸出範例
S = 0.942587
R-Sq = 44.40% R-Sq(調整) = 39.43%
解釋
對於門鎖資料,S 為
0.942587,R 為 44.40%,調整的 R 為 39.43%。如果要比較不同的門鎖可列性模型,則通常要尋找可使 S 最小化並使兩個 R 值最大化的模型。
廣義多變量分析 > 單變數統計量 - 品質的變異數分析表
執行廣義多變量分析時,可以選擇計算單變數統計量來檢定個別值反應。
變異數分析表中最重要的統計量是 p 值 (P),模型中的每項都有 p 值(但誤差項除外)。項的 p 值表明對該項的效應是否顯著:
·
如果 P 小於或等於已選的 a 水準,則描述效應顯著。
·
如果 P 大於已選的 a 水準,則描述效應不顯著。
如果因子的效應顯著,那麼該因子的水準平均值之間存在顯著差異。
如果交互作用項的效應顯著,那麼每個因子的效應在其他因子的不同水準之中有所不同。因此,沒有必要分析顯著高次交互作用中所包含項的個別值效應。
輸出範例
品質 的變異數分析,在檢定中使用調整的 SS
來源 自由度 Seq SS
Adj SS Adj MS F
P
方法 1
8.859 9.220 9.220
7.53 0.008
工廠 2
6.763 7.057 3.529
2.88 0.064
方法*工廠 2
0.707 0.707 0.354
0.29 0.750
誤差 56
68.590 68.590 1.225
合計 61
84.919
解釋
在門鎖分析中,您已對品質反應評估方法的效應、工廠的效應以及方法*工廠交互作用的效應。假定為該檢定選擇了 0.05 的常用 a 水準,則結果表明:
·
交互作用項的 p 值 (0.750) 大於 0.05。因此,交互作用不顯著,可以分別考慮方法和品質的效應。
·
方法因子的 p 值是 0.008。由於此值小於所選 a 水準 0.05,所以方法對品質的效應十分顯著。換句話說,兩種生產方法的品質平均記分不同。
·
程度的 p 值大於 0.05 (0.064),這表明工廠位置對品質不存在顯著效應。
廣義多變量分析 > 單變數統計量 - 品質的 S、R 平方和 R 平方(調整的)值
S、R 和調整的 R 是模型對資料的適合度的量測。這些值有助於您選擇具有最佳適配的模型。
·
S 以反應變數的單位進行量測,它表示資料值與適配得標準距離。對於給定研究,模型預測反應的效果越好,S 越小。
·
R(R 平方)描述在觀測的反應值中由預測變數解釋的變異量。R 始終隨預測變數的增加而增大。範例,最佳的五預測變數模型的 R 始終比最佳的四預測變數模型的高。因此,比較相同大小的模型時 R 最有效。
·
調整的 R 表示已根據模型中的項數調整的修正 R。如果包含了不必要的項,R 會人為地變得很高。與 R 不同,調整的 R 在您向模型中增加項時可能變小。使用調整的 R 比較預測變數數不同的各個模型。
輸出範例
S = 1.10672
R-Sq = 19.23% R-Sq(調整) = 12.02%
解釋
對於門鎖資料,S 為
1.10672,R 為 19.23%,調整的 R 為 12.02%。如果調整的 R 值較小,則表明品質的單變數模型與資料適配效果很差。
如果要比較不同的門鎖品質模型,則通常要尋找可使 S 最小化並使兩個 R 值最大化的模型。
廣義多變量分析 > 單變數統計量 - 平均值
最小平方平均值表為每個反應的每個因子水準顯示平均反應值以及標準誤差。使用此表比較因子水準的平均值。
輸出範例
最小平方平均值
------可列性----- -------品質------
方法
平均值 平均值標準誤差 平均值 平均值標準誤差
1
4.819 0.1645 5.242
0.1932
2
6.212 0.1794 6.026
0.2107
工廠
1
5.708 0.1924 5.833
0.2259
2
5.493 0.2323 5.914
0.2727
3
5.345 0.2059 5.155
0.2418
解釋
可使用性(4.819 和 6.212)和品質(5.242 和
6.026)的方法平均值差異顯著。三個工廠的可使用性和品質平均值十分類似。
廣義多變量分析 > 方法的多變量分析 - 檢定
預設情況下,Minitab 為模型中的每一項顯示四種多變量檢定表:
·
Wilk 檢定 - 這是一種最常用的檢定,原因是它起源最早並且具有眾所周知的 F 近似
·
Lawley-Hotelling - 也叫做 Hotelling 廣義 T 統計量
·
Pillai 檢定 - 與 Wilks 檢定和 Lawley-Hotelling 檢定的結果類似
·
Roy 檢定 - 僅當平均值向量共線時使用;不能得到一個滿意的 F 近似
儘管 Wilks 檢定是使用最為廣泛的一種方法,但在大多數情況下,Pillai 檢定才是真正要使用的最佳方法。
檢查 Wilks、Lawley-Hotelling
和 Pillai 檢定統計量的 p 值,確定是否有顯著證據表明存在模型效應。如果 p 值大於已選的 a 水準,則描述效應不顯著。通常,可以使用任意一種檢定得出相同的結論。如果結論不同,那麼由您本人來確定哪一種檢定對資料最適合。
輸出範例
方法 的多變量分析
s = 1 m = 0.0 n = 26.5
自由度
標準 檢定統計量 F
分子 分母 P
Wilks' 0.63099 16.082
2 55 0.000
Lawley-Hotelling 0.58482
16.082 2 55
0.000
Pillai's 0.36901 16.082
2 55 0.000
Roy's
0.58482
解釋
對於門鎖資料,全部 p 值都小於 0.05,這表明方法不存在模型效應。
廣義多變量分析 > 方法的多變量分析 - 矩陣
Minitab 顯示了三個矩陣來檢查變異性、誤差以及偏相關。
使用 SSCP 矩陣、以檢視單變數平方和的相同方式評估變異性的分割。對於含有指定模型項的反應而言,該模型的矩陣(記號為 SSCP 矩陣)是假設的平方和以及交叉產品的矩陣(或者為 H)。對於每個反應而言,對角線元素是指模型項的單變數變異數分析的平方和。此矩陣的非對角線元素是交叉產品。
記號為 SSCP 誤差矩陣的矩陣是指誤差平方和以及交叉產品的矩陣(或者 E)。此矩陣的對角線元素是反應變數的單變數變異數分析的誤差平方和。此矩陣的非對角線元素是交叉產品。此矩陣僅顯示一次,位於第一個模型項的 SSCP 矩陣之後。
使用偏相關矩陣(即記號為「SSCP 誤差矩陣的偏相關」的矩陣)來評估反應變數如何相關。非對角線元素是指殘差中的相關性或者等同於適用於模型中反應中的相關性。如果反應之間的相關性較小,那麼可能需要為個別值反應執行單變數變異數分析檢定。此矩陣僅顯示一次,位於在 SSCP 誤差矩陣之後。
輸出範例
方法 的 SSCP 矩陣(調整)
可列性 品質
可列性 29.07
16.372
品質 16.37
9.220
誤差的 SSCP 矩陣(調整)
可列性 品質
可列性 49.75
29.45
品質 29.45
68.59
誤差 SSCP 矩陣的偏相關
可列性 品質
可列性
1.00000 0.50413
品質 0.50413
1.00000
解釋
對於門鎖資料,29.07 和 9.220 是指方法的可使用性和品質的單變數平方和。可使用性和品質的單變數誤差平方和分別為 49.75 和 68.59。可使用性和品質之間的偏相關為 0.50413,這表明反應變數中等相關。
廣義多變量分析 > 方法的多變量分析 - 特性分析
使用特性分析來評估反應平均值在不同模型項水準之中如何不同。特性分析等於
E-1 H,其中 E 是指誤差的 SSCP 矩陣,而 H 則是指反應變數的 SSCP 矩陣。這些固有值用來計算多變量變異數分析檢定。請將最高重要性放在高固有值對應的特徵向量中。
輸出範例
方法 的特性分析
固有值
0.5848 0.00000
比例 1.0000
0.00000
累積 1.0000
1.00000
特徵向量 1 2
可列性 0.144062
-0.07870
品質 -0.003968 0.13976
解釋
對於門鎖資料,方法的第一個固有值 (0.5848) 大於第二個固有值 (0.00000),因此將較高重要性放在第一個特徵向量中。方法的第一個固有值為
0.144062,-0.003968。此向量內的最高絕對值用於反應可使用性,這表明可使用的平均值在方法的因子水準之中的差異最大。
廣義多變量分析 > 工廠的多變量分析 - 檢定
預設情況下,Minitab 為模型中的每一項顯示四種多變量檢定表:
·
Wilk 檢定 - 這是一種最常用的檢定,原因是它起源最早並且具有眾所周知的 F 近似
·
Lawley-Hotelling - 也叫做 Hotelling 廣義 T 統計量
·
Pillai 檢定 - 與 Wilks 檢定和 Lawley-Hotelling 檢定的結果類似
·
Roy 檢定 - 僅當平均值向量共線時使用;不能得到一個滿意的 F 近似
儘管 Wilks 檢定是使用最為廣泛的一種方法,但在大多數情況下,Pillai 檢定才是真正要使用的最佳方法。
檢查 Wilks、Lawley-Hotelling
和 Pillai 檢定統計量的 p 值,確定是否有顯著證據表明存在模型效應。如果 p 值大於已選的 a 水準,則描述效應不顯著。通常,可以使用任意一種檢定得出相同的結論。如果結論不同,那麼由您本人來確定哪一種檢定對資料最適合。
輸出範例
工廠 的多變量分析
s = 2 m = -0.5 n = 26.5
自由度
標準 檢定統計量 F 分子 分母 P
Wilks' 0.89178 1.621
4 110 0.174
Lawley-Hotelling 0.11972
1.616 4 108
0.175
Pillai's 0.10967 1.625
4 112 0.173
Roy's 0.10400
解釋
對於門鎖資料,工廠的全部 p 值都大於 0.05,這表明工廠不存在模型效應。
廣義多變量分析 > 工廠的多變量分析 - SSCP 矩陣
使用 SSCP 矩陣、以檢視單變數平方和的相同方式評估變異性的分割。對於含有指定模型項的反應而言,該模型的矩陣(記號為 SSCP 矩陣)是假設的平方和以及交叉產品的矩陣(或者為 H)。對於每個反應而言,對角線元素是指模型項的單變數變異數分析的平方和。此矩陣的非對角線元素是交叉產品。
輸出範例
工廠 的 SSCP 矩陣(調整)
可列性 品質
可列性 1.499
2.533
品質 2.533
7.057
解釋
對於門鎖資料,1.499 和 7.057 是指工廠可使用性和品質的單變數平方和。
廣義多變量分析 > 工廠的多變量分析 - 特性分析
使用特性分析來評估反應平均值在不同模型項水準之中如何不同。特性分析等於
E-1 H,其中 E 是指誤差的 SSCP 矩陣,而 H 則是指反應變數的 SSCP 矩陣。這些固有值用來計算多變量變異數分析檢定。請將最高重要性放在高固有值對應的特徵向量中。
輸出範例
工廠 的特性分析
固有值
0.1040 0.01571
比例 0.8687
0.13126
累積 0.8687
1.00000
特徵向量 1 2
可列性 -0.01842
0.16312
品質 0.12789
-0.05649
解釋
對於門鎖資料,工廠的第一個固有值 (0.1040) 大於第二個固有值 (0.01571),因此將較高重要性放在第一個特徵向量中。工廠的第一個固有值為
-0.01842,0.12789。此向量內的最高絕對值用於反應品質,這表明品質的平均值在工廠的因子水準之中的差異最大。
廣義多變量分析 > 方法*工廠交互作用的多元變異數分析 - 檢定
預設情況下,Minitab 為模型中的每一項顯示四種多變量檢定表:
·
Wilk 檢定 - 這是一種最常用的檢定,原因是它起源最早並且具有眾所周知的 F 近似
·
Lawley-Hotelling - 也叫做 Hotelling 廣義 T 統計量
·
Pillai 檢定 - 與 Wilks 檢定和 Lawley-Hotelling 檢定的結果類似
·
Roy 檢定 - 僅當平均值向量共線時使用;不能得到一個滿意的 F 近似
儘管 Wilks 檢定是使用最為廣泛的一種方法,但在大多數情況下,Pillai 檢定才是真正要使用的最佳方法。
檢查 Wilks、Lawley-Hotelling
和 Pillai 檢定統計量的 p 值,確定是否有顯著證據表明存在模型效應。如果 p 值大於已選的 a 水準,則描述效應不顯著。通常,可以使用任意一種檢定得出相同的結論。如果結論不同,那麼由您本人來確定哪一種檢定對資料最適合。
輸出範例
方法*工廠 的多變量分析
s = 2 m = -0.5 n = 26.5
自由度
標準 檢定統計量 F 分子 分母 P
Wilks' 0.85826 2.184
4 110 0.075
Lawley-Hotelling 0.16439
2.219 4 108
0.072
Pillai's 0.14239 2.146
4 112 0.080
Roy's 0.15966
解釋
對於門鎖資料,方法*工廠交互作用工廠的全部 p 值都大於 0.05,這表明方法和工廠之間不存在交互作用。
廣義多變量分析 > 方法*工廠交互作用的多元變異數分析 - SSCP 矩陣
使用 SSCP 矩陣、以檢視單變數平方和的類似方式評估變異性的分割。對於含有指定模型項的反應而言,該模型的矩陣(記號為 SSCP 矩陣)是假設的平方和以及交叉產品的矩陣(或者為 H)。對於每個反應而言,對角線元素是指模型項的單變數變異數分析的平方和。此矩陣的非對角線元素是交叉產品。
輸出範例
方法*工廠 的
SSCP 矩陣(調整)
可列性 品質
可列性 7.099
1.7600
品質 1.760
0.7074
解釋
對於門鎖資料,7.099 和 0.7074 是指方法*工廠的可使用性和品質的單變數平方和。
廣義多變量分析 > 方法*工廠交互作用的多元變異數分析 - 特性分析
使用特性分析來評估反應平均值在不同模型項水準之中如何不同。特性分析等於
E-1 H,其中 E 是指誤差的 SSCP 矩陣,而 H 則是指反應變數的 SSCP 矩陣。這些固有值用來計算多變量變異數分析檢定。請將最高重要性放在高固有值對應的特徵向量中。
輸出範例
方法*工廠 的特性分析
固有值
0.1597 0.00473
比例 0.9712
0.02879
累積 0.9712
1.00000
特徵向量 1 2
可列性 0.16117 -0.03115
品質 -0.04629
0.13193
解釋
對於門鎖資料,方法*工廠的第一個固有值 (0.1597) 大於第二個固有值 (0.00473),因此將較高重要性放在第一個特徵向量中。方法*工廠的第一個固有值為 0.16117,-0.04629。此向量內的最高絕對值用於反應可使用性,這表明可使用的平均值在方法*工廠的因子水準之間的差異最大。
廣義多變量分析 > 圖表 - 殘差的直方圖
殘差的直方圖顯示全部觀測值的殘差異布。使用直方圖作為研究工具來瞭解資料的下列特徵:
·
典型值、波動或變異以及形狀
·
資料中的異常值
殘差的直方圖應該為鍾形。使用此圖尋找下列資訊:
此圖表趨勢... 表明...
長尾 偏斜度
遠離其他長條的長條 異常值
由於直方圖的外觀會根據用於對資料進行分組的區間數而變更,因此請使用常態機率圖和適合度檢定來評定殘差是否為常態。
輸出範例
解釋
對於門鎖資料,沒有證據表明存在偏斜度或異常值。
廣義多變量分析 > 圖表 - 殘差的常態機率圖
此圖表圖示當分布為常態時的殘差及其期望值。根據分析得出的殘差應該是常態分布的。實際上,對於平衡或接近平衡的設計,或者對於具有大量觀測值的資料,略微偏離常態性不會嚴重影響結果。
殘差的常態機率圖應該大致為一條直線。使用此圖尋找下列資訊:
此圖表趨勢... 表明...
非直線 非常態性
尾部為曲線 偏斜度
遠離直線的點 異常值
斜率不斷變化 未確定的變數
如果資料的觀測值不足 50 個,則即使殘差是常態分布的,圖也可能在尾部顯示曲率。隨著觀測值數的減少,機率圖甚至可能會顯示更大的變異和非線性。使用常態機率圖和適合度檢定來評定小資料集中殘差的常態性。
輸出範例
解釋
對於門鎖資料,可使用性和品質的殘差未顯示為直線。存在證據表明資料未呈常態分布。
廣義多變量分析 > 圖表 - 殘差與適配
此圖表圖示殘差與適配。殘差應該在 0 附近隨機分散。殘差中應不存在特殊的特徵或圖表趨勢,範例:
·
異常值 - 異常值通常是異常大或異常小的值。殘差圖中的異常值可以表明資料集中的異常值。通常,與在資料圖中相比,在殘差圖中可以更容易地標出異常值。
·
異變異數 - 變異數分析假定每個水準的殘差都有相同的總體變異數。因此,每個適配的殘差在 0 附近分散應當類似。
輸出範例
解釋
對於門鎖資料,適配可使用性和品質的殘差在 0 附近隨機分散。
廣義多變量分析 > 圖表 - 殘差與順序
此圖表以工作表中記號對應觀測值的順序顯示殘差。因此,(範例)如果工作表中的觀測值是按照收集時間組織排欄的,那麼您可以使用此圖來尋找時間或收集順序對反應變數的任何系統化影響。
輸出範例
解釋
對於門鎖資料,順序對可使用性和品質的資料不存在系統化影響。
廣義多變量分析 > 圖表 - 殘差與變數
每個殘差與變數圖都顯示根據另一變數(比如位置或溫度)記號的殘差。此圖有助於確定另一變數是否以系統化方式影響反應資料。如果變數對反應沒有影響,那麼該因子每個水準中的點應隨機分散在 0 附近。應進一步調查分析任何明顯的圖表趨勢。
輸出範例
解釋
對於門鎖資料,除了其他資訊以外,還收集了生產時間資料。您需要瞭解生產時間是否是影響纖維可使用性和品質的共變異數。可使用性和品質的殘差*生產時間圖未顯示出圖表趨勢,這表明生產時間未以系統化方式影響纖維的可使用性或品質。
廣義多變量分析 > 圖表 - 四合一殘差圖
四合一殘差圖在一個圖表視窗中同時顯示四種不同的殘差圖。此版面有助於比較這些圖以確定模型是否符合分析的假設。此圖表中的殘差圖包含:
·
直方圖 - 表明資料是否偏斜或資料中是否存在異常值
·
常態機率圖 - 表明資料是否為常態分布的、其他變數是否影響反應或資料中是否存在異常值
·
殘差與適配 - 表明變異數是否恆定、是否存在非線性關係或資料中是否存在異常值
·
殘差與資料順序 - 表明資料中是否存在因時間或資料採集順序而產生的系統化影響
輸出範例
解釋
要檢視四合一圖中每個殘差圖的解釋,請參考本主題之前每種殘差圖的個別值主題。
ANOVA > General MANOVA > more
平衡與廣義多變量分析
Minitab 提供了兩個多變量分析製程來分析多變量資料:
·
使用平衡多變量分析為平衡設計執行多變量分析。除單因子設計外,設計必須是平衡的。
·
使用廣義多變量分析來分析平衡以及不平衡的多變量分析,或者來分析是否具有共變異數。儘管可以透過提供檢定模型項所依據的誤差項這一方式來克服這一限制,但不能使用廣義多變量分析指定隨機因子。
對於上述兩個製程,因子可以為交叉因子或套疊因子。在廣義多變量分析中,可以將共變異數彼此交叉,也可以將共變異數與因子交叉,或者將共變異數套疊在因子內。一次最多可以分析 50 個反應變數、31 個因子以及
50 個共變異數。
對於平衡多變量分析,因子可以為固定因子或隨機因子。對於廣義多變量分析,儘管可以透過指定檢定模型項的誤差項這一方式來克服這一限制,但因子不能為隨機因子。
多反應變數
由於多變量分析將多反應變數適配在個別值模型中,因此適配結果可能與單獨為反應變數計算得出的結果存在顯著差異。僅當多反應協相關時,才應將它們包含在多變量分析模型中。關於反應之間偏相關的誤差 SSCP 矩陣內容,請參閱「偏相關」。
假設檢定
假設檢定是統計決策中最常用的方法之一。廣義而言,假設檢定是一種假定初始聲明為真,然後使用樣本資料檢定該聲明的製程。通常,初始聲明是指相關的總體參數,如總體平均值 (m)。
假設檢定包含兩個假設:原假設(以 H0 表示)和備擇假設(以 H1 表示)。原假設是初始聲明,且通常使用先前的研究或常識進行指定。備擇假設是可以相信為真實或有望證明為真實的內容。備擇假設有時是指研究假設,並且可以是定向的或非定向的。
假設檢定的決策製程可以基於給定檢定的機率值(p 值)。
·
如果 p 值小於或等於預先確定的顯著性水準(a 水準),則否定原假設,轉而支援另一個假設。
·
如果 p 值大於 a 水準,則不能否定原假設,且不聲明支援備擇假設。
執行假設檢定時,有四種可能的結果。結果取決於原假設的真假以及能否否定原假設。下表中匯總了這些結果:
如果原假設為真,但否定了原假設,則發生類型 I 錯誤。發生類型 I 錯誤的機率稱為阿爾法 (a),有時也稱為顯著性水準。
如果原假設為假,但未能否定它,則發生類型 II 錯誤。發生類型 II 錯誤的機率稱為 b。
原假設為假時,否定它的機率等於 1 - b。此值也稱為檢定的檢定力。
選擇 a 水準
對 a 的選擇決定類型
I 錯誤的機率。此值越小,錯誤地否定原假設 (H0) 的幾率就越小。但是,a 值越小就意味著檢定力越低,並因此降低了檢測到效應(如果存在)的幾率。
按照慣例,最常用的 a 水準為 0.05。a = 0.05 表示發現實際並不存在的效應的幾率僅為 5%。大多數情況下,認為這種出現錯誤的機率可允收。但是,對特定檢定選擇 a 時,可能需要考慮何種錯誤更嚴重:發現實際不存在的效應,或未發現實際存在的效應。
選擇較小的 a。有時選擇較小、較保守的 a 值更好。範例,假設要檢定新銑床中的樣本,並嘗試決定是否購買並在加工車間中安裝一批這種機器。如果新機器比當前使用的機器更精確,則會節省大量資金,因為生產的殘次品將會減少。但是,購買和安裝一批機器的成本非常高。購買前需要確信新機器更加精確。這種情況下,可能需要選擇較低的 a 值,如 0.001。這樣,如果實際上並非如此,將斷定新機器更精確的幾率也僅為 0.1%。
選擇較大的 a。另一方面,有時選擇較大、較寬鬆的 a 值更好。範例,假設噴氣發動機製造商要檢定一種價格較低的新滾珠軸承的穩定性。很明顯,如果滾珠不合格,則節省的少量滾珠成本沒有潛在災難性後果的代價值得重視。因此,可能需要選擇較高的 a 值,如 0.1。儘管這意味著在不存在差異的情況下將更可能錯誤地斷定存在差異,但更重要的是更可能檢測到軸承穩定性中的差異(如果存在)。
什麼是交互作用?
顯著的交互作用對其他因子的不同水準之中的個別值因子具有不同的效應。下表對汽車銷售量中色彩和季節效應之間的交互作用進行圖解:
季節
色彩 夏季 冬季
黑色 600
200
白色 300 300
該表表明:黑車在夏季的銷量超過冬季,而白車的銷量在夏季和冬季相同。您可以得出如下結論:
·
色彩對汽車銷售量的效應取決於季節。
·
季節對汽車銷售量的效應與色彩相關。
預測反應變數值時,兩個(或多個因子)的這種相互依賴性叫做交互作用。
解釋交互作用之中個別值因子的效應(主要效應)並無用處。範例,您可以得出汽車銷售數量的一些結論,比如:
·
夏季,汽車的銷售量更高(反映了季節的主要效應)。
·
黑色汽車比白色汽車的銷量更高(反映了色彩的主要效應)。
但類似的結論僅可傳達一部分資訊。如果經銷商需要確定每種色彩的汽車庫存數量,那麼他需要瞭解全部狀況。
多變量檢定
Minitab 針對模型中的每項以及特殊請求項自動執行四種多變量檢定:
·
Wilks 檢定
·
Lawley-Hotelling 檢定
·
Pillai 檢定
·
Roy 最大根檢定
上述四種檢定都以兩個 SSCP(平方和和交叉產品)矩陣為基礎:
·
與每項相關聯的 H(假設)矩陣;也稱為樣本平方和之間的矩陣。
·
與檢定誤差相關聯的 E(假設)矩陣;也稱為樣本平方和之內的矩陣。
請求假設時,系統將顯示 SSCP 矩陣。
可以將檢定統計量表達為 H、E 或 H 和 E,或者表達為 E**-1 H 固有值。可以請求顯示這些固有值。如果重複這些固有值,則對應的特徵向量不是唯一的,在此情況下,Minitab 顯示的固有值以及書籍或其他軟件中的固有值可能不一致。但多變量變異數分析始終是唯一的。
Hotelling 的 T 檢定使用一個具有兩個水準的因子將兩組的平均值向量進行比較,是多變量分析的特殊形式。常用 T 檢定統計量可以使用 T = (N - 2) U 這一關係從 Minitab 的輸出中計算得出,其中 N 為觀測值總數,U 為 Lawley-Hotelling 軌跡。合併共變異數矩陣 S 等於 E / (N - 2),其中
E 是指誤差矩陣。
什麼是殘差
Minitab 提供三種類型的殘差:
·
常規殘差:觀測值 - 預測值。
·
標準化殘差:常規殘差 / 常規殘差的標準差。
標準化消除了資料點位置對於預測值或因子的影響。
·
學習化已刪除殘差:對於 ith 資料點,公式遵循與標準化殘差相同的表達方式。但是,計算第i個 學習化已刪除殘差時適配和標準差都是在刪除第i個觀測後得到的。與標準化殘差相比,學習化已刪除殘差在出現異常資料點時會變大。
模型假設
迴歸和變異數分析製程關於誤差做出下列假設:
·
誤差為常態分布,且平均值為 0。
·
誤差變異數不會為不同因子水準或根據預測反應的值而發生變更。
·
每種誤差都獨立於全部其他誤差。在所設計的實驗中,獲得獨立誤差的最好方式是隨機化實驗的實驗順序。
在分析中檢定這些假設的有效性。殘差是誤差的最佳估計值。因此,可以使用殘差圖以圖表方式檢查每個假設。
如果模型違反這些假設,則分析的結果可能有誤導性。範例,如果誤差相互關聯,則可能會錯誤地估計係數的標準誤差,從而導致錯誤的 t 值和 p 值。
直方圖和常態性
下列是從常態分布中抽取的九個資料集樣本。這些樣本沒有問題;但是,這些直方圖中大多數看起來不是鍾形,這描述了為什麼不應該使用直方圖來判斷資料的常態性。判斷資料是否為常態分布需要使用常態機率圖。
隨機產生樣本的直方圖
每個樣本包含常態分布中的 24 個觀測值。
轉換反應變數
殘差表示異變異數或非常態性時,必須進行轉換。
您可能還會發現在模型表現出顯著缺適性時資料轉換非常有用,而且這種轉換在反應曲面實驗的分析中尤為重要。假設在模型中包含全部顯著的交互作用和二次項,但缺適性檢定表明需要高次項。轉換可以消除缺適性。
如果資料轉換修正了此問題,使用迴歸分析比用其他可能更複雜的分析方法要好一些。迴歸分析或實驗設計分析的結果可以指導我們選擇合適的資料轉換方法解決不同的問題。
Box-Cox 轉換是最常用的變異數穩定轉換。在下面第一個圖表中,殘差表示異變異數。第二個圖表顯示變異數穩定轉換之後的殘差。適配的刻度(x 軸)變更,而變異數變為恆定。
常態機率圖中的圖表趨勢
下列圖表趨勢違反了誤差為常態分布這一假設。
非常態性的效應
迴歸和變異數分析的一個假設為殘差來自常態分布。但是,如果設計僅有固定因子,設計為平衡或接近平衡,且具有相當多的觀測值,則略微偏離常態性不會嚴重影響結果。
發現非常態圖表有趨勢時該怎麼做
可能難以正確指出常態機率圖中明顯偏離常態性的原因。可能的原因包含:
·
齊次變異數假設失敗
·
殘差異常大(異常值)
·
模型中缺少重要變數
·
資料來自非常態總體
對於完整分析,請將常態機率圖與其他診斷圖以及適合度統計量結合使用。
如果發現非常態圖表趨勢:
1 使用其他診斷圖檢視非常態性是否由非常態總體中的資料之外的因素所導致。
2 使用統計 > 基本統計 > 常態性檢定來執行常態性檢定。
3 如果確定資料來自非常態總體,則可以在繼續分析之前轉換資料。請參見轉換反應變數。
注意
修復不等變異數問題的轉換通常也修復常態性問題。
殘差與適配圖中的圖表趨勢
下列圖表趨勢顯示異常值和對誤差為恆定這一假設的衝突。
異常值圖
右上角的殘差比圖中其他全部都大很多,因此為異常值。如果異常值過多,則模型可能不妥當。異常值可能是由於量測錯誤所導致。應該調查異常值以確定其原因。
異變異數圖
殘差的變異數隨適配增加。請注意,隨著適配的增加,殘差在零殘差線周圍分散得更廣,指明不等的(非恆定)變異數。此圖表趨勢表明誤差變異數隨平均值的增加而增加。資料的轉換會有助於穩定這些變異數。
殘差與順序圖中的圖表趨勢
下列圖表趨勢違反了誤差彼此獨立這一假設。
隨著觀測值的順序從左到右提高,殘差系統地降低。
殘差的值從低(左)到高(右)急劇變化。
詳細資訊請到官方網站進一步了解: http://www.minitab.com.tw/
和 http://www.minitab.com/
聲明: 本文純粹學術性研討, 內容所提及任何關於 Minitab 專有創作文字, 圖像與架構…等皆屬Minitab Inc. 版權所有, 嚴禁商業上轉貼使用.
沒有留言:
張貼留言