有學過6
sigma的同學, 一定知道 Minitab這套軟體, 因為它把6 sigma實用化了. 過去 Minitab 並沒有中文版, 但對岸有人將它漢化後, 官方也出簡體中文版, 使用簡體中文版會比英文版更friendly, 但畢竟兩岸語文還是有差異, 尤其專有名詞上的差異更讓人難以適從, 例如常態分配 v.s. 正态分布; 品質 v.s. 质量; 巨集 v.s. 宏; 變異數分析
v.s.方差分析; 進階 v.s. 高级…
官方目前沒有繁體中文版.~可惜! 希望 Minitab TWN公司能早日完成繁體中文版的 Minitab. ~期待!
先前談到 Tutorials 教學課程, 了解如何使用 Minitab 各項功能。而在Help 協助 > StatGuide 統計指南中, 則對於輸出的結果有詳細的解釋說明:
ANOVA > Balanced MANOVA
平衡多變量分析 > 匯總
如果有多個相關變數,那麼請使用平衡多變量分析為平衡設計執行多變量分析 (MANOVA)。可以利用數量共變異數結構對來自不同反應中的平均值等同性同時進行檢定。
使用多個單因子變異數分析來分析資料時,類型 I 錯誤的機率將會增加。多變量分析將控制全族誤差率,從而最大程度地減少整組比較發生一個或多個類型 I 錯誤的機率。
若要執行平衡多變量分析,則設計必須平衡(個別值因子的設計除外)。平衡表示全部處理組合(單元)都必須具有相同數量的觀測值。使用一般多變量分析可分析平衡或不平衡的多變量分析設計,或者分析具有共變異數的多變量分析設計。與平衡多變量分析不同,儘管可以透過提供檢定模型項所依據的誤差項這一方式來克服這一限制,但您不能在一般多變量分析中指定隨機因子。
因子可以是交叉或套疊的,也可以是固定或隨機的。
資料描述
一家紡織品製造商想要確定影響合成纖維品質的因子。該公司的研究人員隨機抽取了四台機器生產的產品作為樣品,並隨機抽取了三名作業員,希望確定這些變數是否影響纖維強度和彈性。三名作業員在四台機器上都進行過工作,研究人員從每位作業員處獲得兩個觀測值。
資料:
紡織品.MTW (在樣本資料檔案夾中)
平衡多變量分析 > 因子表
因子表顯示下列資訊:
· 該模型中包含多個因子
· 每個因子的類型(固定因子或隨機因子)
· 每個因子的水準數
· 因子水準的值
輸出範例
因子 類型 水準數 值
機器 固定 4
1, 2, 3, 4
作業員 固定 3
1, 2, 3
解釋
對於纖維資料,該表顯示下列內容:
· 此次分析中包含兩個因子:機器和作業員。
· 這兩個因子都是固定因子。
· 機器因子具有四個水準,其值為:1、2、3、4。
· 作業員因子具有三個水準,其值為:1、2、3。
平衡多變量分析 > 單變數統計量
- 強度的變異數分析表
執行平衡多變量分析時,可以選擇計算單變數統計量來檢查個別值反應。
變異數分析表中最重要的統計量是 p 值 (P),模型中的每項都有 p 值(但誤差項除外)。項的 p 值表明對該項的效應是否顯著:
· 如果
P 小於或等於已選的 a 水準,則描述該因子的效應顯著。
· 如果
P 大於已選的 a 水準,則描述效應不顯著。
如果固定因子的效應顯著,那麼該因子的水準平均值之間存在顯著差異。
如果隨機因子的效應顯著,那麼該因子的變異數不為 0。
如果交互作用項的效應顯著,那麼每個因子的效應在其他因子的不同水準之中有所不同。因此,沒有必要分析顯著高次交互作用中所包含項的個別值效應。
輸出範例
強度
的變異數分析
來源 自由度 SS MS
F P
機器 3 12.458
4.153 1.10 0.389
作業員 2 160.333
80.167 21.14 0.000
機器*作業員
6 44.667 7.444
1.96 0.151
誤差 12 45.500
3.792
合計 23 262.958
解釋
在纖維分析中,機器、作業員以及機器*作業員交互作用對纖維強度的效應都已進行過評估。假定為該檢定選擇了 0.05 的 a 水準,則結果表明:
· 交互作用項的 p 值 (0.151) 大於 0.05。因此,機器和作業員因子的交互作用不顯著,可以分別考慮個別值因子的效應。
· 機器的 p 值 (0.389) 也大於
0.05,這表明機器因子與纖維強度中變異的顯著數量不相關。
· 作業員因子的 P 值為 0.000。由於此值小於
0.05,所以作業員對強度的效應十分顯著。換句話說,纖維強度中變異的顯著數量與操作機器的作業員變異相關。
平衡多變量分析 > 單變數統計量
- 強度的 S、R 平方和 R 平方(調整的)值
S、R 和調整的 R 是模型對資料的適合度的量測。這些值有助於您選擇具有最佳適配的模型。
· S 以反應變數的單位進行量測,它表示資料值與適配得標準距離。對於給定研究,模型預測反應的效果越好,S 越小。
· R(R
平方)描述在觀測的反應值中由預測變數解釋的變異量。R 始終隨預測變數的增加而增大。範例,最佳的五預測變數模型的 R 始終比最佳的四預測變數模型的高。因此,比較相同大小的模型時 R 最有效。
· 調整的 R 表示已根據模型中的項數調整的修正 R。如果包含了不必要的項,R 會人為地變得很高。與 R 不同,調整的 R 在您向模型中增加項時可能變小。使用調整的 R 比較預測變數數不同的各個模型。
輸出範例
S = 1.94722 R-Sq = 82.70% R-Sq(調整) = 66.84%
解釋
對於纖維資料,S 為 1.94722,R 為 82.70%,調整的 R 為
66.84%。與 R 不同,調整 R 可能大幅度地變小,以表明模型中存在不必要的項。
如果要比較不同的纖維強度模型,則通常要尋找可使 S 最小化並使兩個 R 值最大化的模型。
平衡多變量分析 > 單變數統計量
- 彈性的變異數分析表
使用平衡多變量分析時,可以計算單變數統計量來檢查個別值反應。
變異數分析表中最重要的統計量是 p 值 (P),模型中的每項都有 p 值(但誤差項除外)。項的 p 值表明對該項的效應是否顯著:
· 如果
P 小於或等於已選的 a 水準,則描述該因子的效應顯著。
· 如果
P 大於已選的 a 水準,則描述效應不顯著。
如果固定因子的效應顯著,那麼該因子的水準平均值之間存在顯著差異。
如果隨機因子的效應顯著,那麼該因子的變異數不為 0。
如果交互作用項的效應顯著,那麼每個因子的效應在其他因子的不同水準之中有所不同。因此,沒有必要分析顯著高次交互作用中所包含項的個別值效應。
輸出範例
彈性
的變異數分析
來源 自由度 SS MS
F P
機器 3 0.833
0.278 0.09 0.965
作業員 2 14.583
7.292 2.30 0.142
機器*作業員
6 30.417 5.069
1.60 0.230
誤差 12 38.000
3.167
合計 23 83.833
解釋
在纖維分析中,機器、作業員以及機器*作業員交互作用對纖維彈性的效應都已進行過評估。假定為該檢定選了 0.05 的常用 a 水準,則結果表明 p 值都大於
0.05。這些較大的 p 值表明:
· 機器和作業員的交互作用 (P = 0.230) 不顯著,可以分別考慮機器和作業員的效應。
· 機器因子 (P = 0.965) 與纖維彈性中變異的顯著數量不相關。
· 作業員因子 (P = 0.142) 與纖維彈性中變異的顯著數量不相關。
平衡多變量分析 > 單變數統計量
- 彈性的 S、R 平方和 R 平方(調整的)值
S、R 和調整的 R 是模型對資料的適合度的量測。這些值有助於您選擇具有最佳適配的模型。
· S 以反應變數的單位進行量測,它表示資料值與適配得標準距離。對於給定研究,模型預測反應的效果越好,S 越小。
· R(R
平方)描述在觀測的反應值中由預測變數解釋的變異量。R 始終隨預測變數的增加而增大。範例,最佳的五預測變數模型的 R 始終比最佳的四預測變數模型的高。因此,比較相同大小的模型時 R 最有效。
· 調整的 R 表示已根據模型中的項數調整的修正 R。如果包含了不必要的項,R 會人為地變得很高。與 R 不同,調整的 R 在您向模型中增加項時可能變小。使用調整的 R 比較預測變數數不同的各個模型。
輸出範例
S = 1.77951 R-Sq = 54.67% R-Sq(調整) = 13.12%
解釋
對於纖維資料,S 為 1.77951,R 為 54.67%,調整的 R 為
13.12%。與 R 不同,調整 R 可能大幅度地變小,以表明模型中存在不必要的項。
如果要比較不同的纖維彈性模型,則通常要尋找可使 S 最小化並使兩個 R 值最大化的模型。
平衡多變量分析 > 單變數統計量
- 平均值
平均值表為每個反應的因子的每個水準顯示平均反應值以及觀測值數。使用此表可檢視如何比較因子水準的平均值。
輸出範例
平均值
機器 N 強度 彈性
1 6 111.83
83.833
2 6 112.17
84.000
3 6 111.67
84.167
4 6 113.50
84.333
作業員 N 強度 彈性
1 8 109.88
83.875
2 8 111.13
83.250
3 8 115.88
85.125
解釋
對於纖維資料,儘管機器 4 的強度平均值 (113.50) 略高於其他平均值,但每台機器的強度和彈性平均值仍相似。而每位作業員的強度和彈性平均值變化較大。作業員 1 至作業員 3 的強度平均值分別為
109.88、111.13、115.88。作業員 3 的彈性平均值 (85.125) 略高於其他作業員。
平衡多變量分析 > 機器的多變量分析 - 檢定
預設情況下,Minitab 為模型中的每一項顯示四種多變量檢定表:
· Wilk 檢定 - 這是一種最常用的檢定,原因是它起源最早並且具有眾所周知的 F 近似。
· Lawley-Hotelling - 也叫做
Hotelling 廣義 T 統計量
· Pillai 檢定 - 與 Wilks 檢定和
Lawley-Hotelling 檢定的結果類似
· Roy 檢定 - 僅當平均值向量共線時使用;不能得到一個滿意的 F 近似
儘管 Wilks 檢定是使用最為廣泛的一種方法,但在大多數情況下,Pillai 檢定才是真正要使用的最佳方法。
檢查 Wilks、Lawley-Hotelling 和 Pillai 檢定統計量的 p 值,確定是否有顯著證據表明存在模型效應。如果 p 值大於已選的 a 水準,則描述效應不顯著。通常,可以使用任意一種檢定得出相同的結論。如果結論不同,那麼由您本人來確定哪一種檢定對資料最適合。
輸出範例
機器
的多變量分析
s = 2
m = 0.0 n = 4.5
自由度
標準 檢定統計量 F 分子 分母 P
Wilks' 0.75104 0.564
6 22 0.754
Lawley-Hotelling 0.32728 0.545
6 20 0.768
Pillai's 0.25211 0.577
6 24 0.745
Roy's 0.31390
解釋對於纖維資料,全部 p 值都大於 0.05,這表明機器不存在模型效應。
平衡多變量分析 > 機器的多變量分析 - 矩陣
Minitab 顯示了三個矩陣來檢查變異性、誤差以及偏相關。
使用 SSCP 矩陣、以檢視單變數平方和的相同方式評估變異性的分割。對於含有指定模型項的反應而言,該模型的矩陣(記號為 SSCP 矩陣)是假設的平方和以及交叉產品的矩陣(或者為 H)。對於每個反應而言,對角線元素是指模型項的單變數變異數分析的平方和。此矩陣的非對角線元素是交叉產品。
記號為 SSCP 誤差矩陣的矩陣是指誤差平方和以及交叉產品的矩陣(或者 E)。此矩陣的對角線元素是反應變數的單變數變異數分析的誤差平方和。此矩陣的非對角線元素是交叉產品。此矩陣僅顯示一次,位於第一個模型項的 SSCP 矩陣之後。
使用偏相關矩陣(即記號為「SSCP 誤差矩陣的偏相關」的矩陣)來評估反應變數如何相關。非對角線元素是指殘差中的相關性或者等同於適用於模型中反應中的相關性。如果反應之間的相關性較小,那麼可能需要為個別值反應執行單變數變異數分析檢定。此矩陣僅顯示一次,位於在 SSCP 誤差矩陣之後。
輸出範例
機器
的 SSCP 矩陣
強度 彈性
強度 12.458 2.2500
彈性 2.250 0.8333
誤差的 SSCP 矩陣
強度 彈性
強度 45.50 21.50
彈性 21.50 38.00
誤差 SSCP 矩陣的偏相關
強度 彈性
強度 1.00000 0.51706
彈性 0.51706 1.00000
解釋
對於纖維資料,機器強度和彈性的單變數平方和分別為 12.458 和 0.8333。強度和彈性的單變數誤差平方和分別為 45.50 和 38.00。強度和彈性之間的偏相關為 0.51706,這表明反應變數中等相關。
平衡多變量分析 > 機器的多變量分析 - 特性分析
使用特性分析來評估反應平均值在不同模型項水準之中如何不同。特性分析等於 E-1 H,其中 E 是指誤差的 SSCP
矩陣,而 H 則是指反應變數的 SSCP 矩陣。這些固有值用來計算多變量變異數分析檢定。請將最高重要性放在高固有值對應的特徵向量中。
輸出範例
機器
的特性分析
固有值 0.3139 0.01338
比例 0.9591 0.04088
累積 0.9591 1.00000
特徵向量 1 2
強度 0.17072 -0.02922
彈性 -0.06922 0.17643
解釋
對於纖維資料,機器的第一個固有值 (0.3139) 大於第二個固有值 (0.01338),因此將較高重要性放在第一個特徵向量中。機器的第一個特徵向量為 0.17072,-0.06922。此向量內的最高絕對值用於反應強度,這表明強度平均值在機器的因子水準之中的差異最大。
平衡多變量分析 > 作業員的多變量分析 - 檢定
預設情況下,Minitab 為模型中的每一項顯示四種多變量檢定表:
· Wilk 檢定 - 這是一種最常用的檢定,原因是它起源最早並且具有眾所周知的 F 近似
· Lawley-Hotelling - 也叫做 Hotelling 廣義 T 統計量
· Pillai 檢定 - 與 Wilks 檢定和
Lawley-Hotelling 檢定的結果類似
· Roy 檢定 - 僅當平均值向量共線時使用;不能得到一個滿意的 F 近似
儘管 Wilks 檢定是使用最為廣泛的一種方法,但在大多數情況下,Pillai 檢定才是真正要使用的最佳方法。
檢查 Wilks、Lawley-Hotelling 和 Pillai 檢定統計量的 p 值,確定是否有顯著證據表明存在模型效應。如果 p 值大於已選的 a 水準,則描述效應不顯著。通常,可以使用任意一種檢定得出相同的結論。如果結論不同,那麼由您本人來確定哪一種檢定對資料最適合。
輸出範例
作業員
的多變量分析
s = 2
m = -0.5 n =
4.5
自由度
標準 檢定統計量 F 分子 分母 P
Wilks' 0.18538 7.274
4 22 0.001
Lawley-Hotelling 3.91912 9.798
4 20 0.000
Pillai's 0.90273 4.936
4 24 0.005
Roy's 3.79384
解釋
對於纖維資料,全部 p 值都小於 0.05,這表明作業員不存在模型效應。
平衡多變量分析 > 作業員的多變量分析 - SSCP 矩陣
使用 SSCP 矩陣、以檢視單變數平方和的相同方式評估變異性的分割。對於含有指定模型項的反應而言,該模型的矩陣(記號為 SSCP 矩陣)是假設的平方和以及交叉產品的矩陣(或者為 H)。對於每個反應而言,對角線元素是指模型項的單變數變異數分析的平方和。此矩陣的非對角線元素是交叉產品。
輸出範例
作業員
的 SSCP 矩陣
強度 彈性
強度 160.33 41.67
彈性 41.67 14.58
解釋
對於纖維資料,160.33 和 14.58 是指作業員的強度和彈性的單變數平方和。
平衡多變量分析 > 作業員的多變量分析 - 特性分析
使用特性分析來評估反應平均值在不同模型項水準之中如何不同。特性分析等於 E-1 H,其中 E 是指誤差的
SSCP 矩陣,而 H 則是指反應變數的 SSCP 矩陣。這些固有值用來計算多變量變異數分析檢定。請將最高重要性放在高固有值對應的特徵向量中。
輸出範例
作業員
的特性分析
固有值 3.7938 0.12528
比例 0.9680 0.03197
累積 0.9680 1.00000
特徵向量 1 2
強度 0.16699 -0.04597
彈性 -0.05142 0.18241
解釋
對於纖維資料,作業員的第一個固有值 (3.7938) 大於第二個固有值 (0.12528),因此將較高重要性放在第一個特徵向量中。作業員的第一個特徵向量為 0.16699,-0.05142。此向量內的最高絕對值用於反應強度,這表明強度平均值在作業員的因子水準之中的差異最大。
平衡多變量分析 > 機器*作業員的多變量分析 - 檢定
預設情況下,Minitab 為模型中的每一項顯示四種多變量檢定表:
· Wilk 檢定 - 這是一種最常用的檢定,原因是它起源最早並且具有眾所周知的 F 近似
· Lawley-Hotelling - 也叫做 Hotelling 廣義 T 統計量
· Pillai 檢定 - 與 Wilks 檢定和
Lawley-Hotelling 檢定的結果類似
· Roy 檢定 - 僅當平均值向量共線時使用;不能得到一個滿意的 F 近似
儘管 Wilks 檢定是使用最為廣泛的一種方法,但在大多數情況下,Pillai 檢定才是真正要使用的最佳方法。
檢查 Wilks、Lawley-Hotelling 和 Pillai 檢定統計量的 p 值,確定是否有顯著證據表明存在模型效應。如果 p 值大於已選的 a 水準,則描述效應不顯著。通常,可以使用任意一種檢定得出相同的結論。如果結論不同,那麼由您本人來確定哪一種檢定對資料最適合。
輸出範例
機器*作業員 的多變量分析
s = 2
m = 1.5 n = 4.5
自由度
標準 檢定統計量 F 分子 分母 P
Wilks' 0.36021 1.221
12 22 0.329
Lawley-Hotelling 1.41408 1.178
12 20 0.360
Pillai's 0.77020 1.253
12 24 0.307
Roy's 1.07835
解釋
對於纖維資料,全部 p 值都大於 0.05,這表明機器*作業員不存在交互作用。
平衡多變量分析 > 機器*作業員的多變量分析 - SSCP 矩陣
使用 SSCP 矩陣、以檢視單變數平方和的相同方式評估變異性的分割。對於含有指定模型項的反應而言,該模型的矩陣(記號為 SSCP 矩陣)是假設的平方和以及交叉產品的矩陣(或者為 H)。對於每個反應而言,對角線元素是指模型項的單變數變異數分析的平方和。此矩陣的非對角線元素是交叉產品。
輸出範例
機器*作業員 的 SSCP 矩陣
強度 彈性
強度 44.67 30.00
彈性 30.00 30.42
解釋
對於纖維資料,44.67 和 30.42 是指機器*作業員交互作用的強度和彈性的單變數平方和。
平衡多變量分析 > 機器*作業員的多變量分析 - 特性分析
使用特性分析來評估反應平均值在不同模型項水準之中如何不同。特性分析等於 E-1 H,其中 E 是指誤差的
SSCP 矩陣,而 H 則是指反應變數的 SSCP 矩陣。這些固有值用來計算多變量變異數分析檢定。請將最高重要性放在高固有值對應的特徵向量中。
輸出範例
機器*作業員 的特性分析
固有值 1.0784 0.3357
比例 0.7626 0.2374
累積 0.7626 1.0000
特徵向量 1 2
強度 0.10595 -0.1370
彈性 0.06838 0.1768
解釋
對於纖維資料,機器*作業員的第一個固有值 (1.0784) 大於第二個固有值 (0.3357),因此將較高重要性放在第一個特徵向量中。作業員的第一個特徵向量為
0.10595,0.06838。此向量內的最高絕對值用於反應強度,這表明強度平均值在機器*作業員的因子水準之中的差異最大。
平衡多變量分析 > 圖表 - 殘差的直方圖
殘差的直方圖顯示全部觀測值的殘差異布。使用直方圖作為研究工具來瞭解資料的下列特徵:
· 典型值、波動或變異以及形狀
· 資料中的異常值
殘差的直方圖應該為鍾形。使用此圖尋找下列資訊:
此圖表趨勢... 表明...
長尾 偏斜度
遠離其他長條的長條 異常值
由於直方圖的外觀會根據用於對資料進行分組的區間數而變更,因此請使用常態機率圖和適合度檢定來評定殘差是否為常態。
輸出範例
解釋
對於纖維資料,沒有證據表明存在偏斜度或異常值。
平衡多變量分析 > 圖表 - 殘差的常態機率圖
此圖表圖示當分布為常態時的殘差及其期望值。根據分析得出的殘差應該是常態分布的。實際上,對於平衡或接近平衡的設計,或者對於具有大量觀測值的資料,略微偏離常態性不會嚴重影響結果。
殘差的常態機率圖應該大致為一條直線。使用此圖尋找下列資訊:
此圖表趨勢... 表明...
非直線 非常態性
尾部為曲線 偏斜度
遠離直線的點 異常值
斜率不斷變化 未確定的變數
如果資料的觀測值不足 50 個,則即使殘差是常態分布的,圖也可能在尾部顯示曲率。隨著觀測值數的減少,機率圖甚至可能會顯示更大的變異和非線性。使用常態機率圖和適合度檢定來評定小資料集中殘差的常態性。
輸出範例
解釋
對於纖維資料,強度和彈性的殘差顯示為直線。沒有證據表明存在非常態性、偏斜度、異常值或未確定的變數。
平衡多變量分析 > 圖表 - 殘差與適配
此圖表圖示殘差與適配。殘差應該在 0 附近隨機分散。使用此圖尋找下列資訊:
此圖表趨勢... 表明...
殘差相對適配呈扇形或不均勻分散 異變異數
曲線 缺少高次項
遠離 0 的點 異常值
輸出範例
解釋
從此強度圖中可以看出,殘差並非隨機分散在 0 附近。大於 112.5 的適配強度值的殘差看來具有較大的變異數。為了從分析上檢查這一點,已使用統計 > 變異數分析 > 變異數相等檢定來檢定等變異數假定。檢定結果表明沒有足夠的證據證明存在不等變異數。該圖中顯示的變異可能是由於隨機波動引起的。
從此彈性圖中可以看出,殘差並非隨機分散在 0 附近。小於 84 的適配彈性值的殘差看來具有較大的變異數。為了從分析上檢查這一點,已使用統計 > 變異數分析 > 變異數相等檢定來檢定等變異數假定。檢定結果表明沒有足夠的證據證明存在不等變異數。該圖中顯示的變異可能是由於隨機波動引起的。
平衡多變量分析 > 圖表 - 殘差與順序
此圖表以相應觀測值的順序圖示殘差。觀測值的順序可能影響結果時此圖會很有用,以時間順序或以某些其他順序(如地理區域)採集資料時可能影響結果。此圖在試驗未被隨機化的設計實驗中尤其有協助。
圖中的殘差應該在中心線附近隨機波動。檢查此圖以檢視相鄰誤差項之間是否存在任何相關性。殘差之間的相關性可以表示為:
· 殘差中的上升或下降趨勢
· 相鄰殘差的符號快速變化
輸出範例
解釋
對於纖維資料,強度殘差隨機分散在 0 附近。沒有證據表明誤差項彼此相關。
彈性殘差並未隨機分散在 0 附近。隨著觀測值順序的增加,殘差更加分散,這表明在資料收集的中後期,生產流程中具有更大的變異性。
平衡多變量分析 > 圖表 - 殘差與變數
此圖表圖示殘差與其他變數。殘差應該在中心線附近隨機波動。如果變數已經包含在模型中,則請使用此圖確定是否應該增加該變數的高次項。如果變數尚未包含在模型中,則請使用此圖確定變數是否系統地影響反應。
使用此圖尋找下列資訊:
此圖表趨勢... 表明...
殘差排欄成圖表趨勢 變數正在系統地影響反應
點的排欄有曲率 應該在模型中包含變數的高次項
輸出範例
解釋
對於纖維資料,強度和彈性的殘差都隨機分散在 0 附近。沒有證據表明殘差中存在模式或資料中存在曲率。此圖表明溫度似乎沒有對資料產生系統化影響。
平衡多變量分析 > 圖表 - 四合一殘差圖
四合一殘差圖在一個圖表視窗中同時顯示四種不同的殘差圖。此版面有助於比較這些圖以確定模型是否符合分析的假設。此圖表中的殘差圖包含:
· 直方圖 - 表明資料是否偏斜或資料中是否存在異常值
· 常態機率圖 - 表明資料是否為常態分布的、其他變數是否影響反應或資料中是否存在異常值
· 殘差與適配 - 表明變異數是否恆定、是否存在非線性關係或資料中是否存在異常值
· 殘差與資料順序 - 表明資料中是否存在因時間或資料採集順序而產生的系統化影響
輸出範例
解釋
要檢視四合一圖中每個殘差圖的解釋,請參考本主題之前每種殘差圖的個別值主題。
ANOVA > Balanced MANOVA > more
平衡與一般多變量分析
Minitab 提供了兩個多變量分析製程來分析多變量資料:
· 使用平衡多變量分析為平衡設計執行多變量分析。除單因子設計外,設計必須是平衡的。
· 使用一般多變量分析來分析平衡以及不平衡的多變量分析,或者來分析是否具有共變異數。儘管可以透過提供檢定模型項所依據的誤差項這一方式來克服這一限制,但不能使用一般多變量分析指定隨機因子。
對於上述兩個製程,因子可以為交叉因子或套疊因子。在一般多變量分析中,可以將共變異數彼此交叉,也可以將共變異數與因子交叉,或者將共變異數套疊在因子內。一次最多可以分析 50 個反應變數、31 個因子以及
50 個共變異數。
對於平衡多變量分析,因子可以為固定因子或隨機因子。對於一般多變量分析,儘管可以透過指定檢定模型項的誤差項這一方式來克服這一限制,但因子不能為隨機因子。
多反應變數
由於多變量分析將多反應變數適配在個別值模型中,因此適配結果可能與單獨為反應變數計算得出的結果存在顯著差異。僅當多反應協相關時,才應將它們包含在多變量分析模型中。關於反應之間偏相關的誤差 SSCP 矩陣內容,請參閱「偏相關」。
假設檢定
假設檢定是統計決策中最常用的方法之一。一般而言,假設檢定是一種假定初始聲明為真,然後使用樣本資料檢定該聲明的製程。通常,初始聲明是指相關的總體參數,如總體平均值 (m)。
假設檢定包含兩個假設:原假設(以 H0 表示)和備擇假設(以 H1 表示)。原假設是初始聲明,且通常使用先前的研究或常識進行指定。備擇假設是可以相信為真實或有望證明為真實的內容。備擇假設有時是指研究假設,並且可以是定向的或非定向的。
假設檢定的決策製程可以基於給定檢定的機率值(p 值)。
· 如果
p 值小於或等於預先確定的顯著性水準(a 水準),則否定原假設,轉而支援另一個假設。
· 如果
p 值大於 a 水準,則不能否定原假設,且不聲明支援備擇假設。
執行假設檢定時,有四種可能的結果。結果取決於原假設的真假以及能否否定原假設。下表中匯總了這些結果:
如果原假設為真,但否定了原假設,則發生類型 I 錯誤。發生類型 I 錯誤的機率稱為阿爾法 (a),有時也稱為顯著性水準。
如果原假設為假,但未能否定它,則發生類型 II 錯誤。發生類型 II 錯誤的機率稱為 b。
原假設為假時,否定它的機率等於 1 - b。此值也稱為檢定的檢定力。
選擇 a 水準
對 a 的選擇決定類型 I 錯誤的機率。此值越小,錯誤地否定原假設 (H0) 的幾率就越小。但是,a 值越小就意味著檢定力越低,並因此降低了檢測到效應(如果存在)的幾率。
按照慣例,最常用的 a 水準為 0.05。a = 0.05
表示發現實際並不存在的效應的幾率僅為 5%。大多數情況下,認為這種出現錯誤的機率可允收。但是,對特定檢定選擇 a 時,可能需要考慮何種錯誤更嚴重:發現實際不存在的效應,或未發現實際存在的效應。
選擇較小的 a。有時選擇較小、較保守的 a 值更好。範例,假設要檢定新銑床中的樣本,並嘗試決定是否購買並在加工車間中安裝一批這種機器。如果新機器比當前使用的機器更精確,則會節省大量資金,因為生產的殘次品將會減少。但是,購買和安裝一批機器的成本非常高。購買前需要確信新機器更加精確。這種情況下,可能需要選擇較低的 a 值,如 0.001。這樣,如果實際上並非如此,將斷定新機器更精確的幾率也僅為 0.1%。
選擇較大的 a。另一方面,有時選擇較大、較寬鬆的 a 值更好。範例,假設噴氣發動機製造商要檢定一種價格較低的新滾珠軸承的穩定性。很明顯,如果滾珠不合格,則節省的少量滾珠成本沒有潛在災難性後果的代價值得重視。因此,可能需要選擇較高的 a 值,如 0.1。儘管這意味著在不存在差異的情況下將更可能錯誤地斷定存在差異,但更重要的是更可能檢測到軸承穩定性中的差異(如果存在)。
什麼是交互作用?
顯著的交互作用對其他因子的不同水準之中的個別值因子具有不同的效應。下表對汽車銷售量中色彩和季節效應之間的交互作用進行圖解:
季節
色彩 夏季 冬季
黑色 600 200
白色 300 300
該表表明:黑車在夏季的銷量超過冬季,而白車的銷量在夏季和冬季相同。您可以得出如下結論:
· 色彩對汽車銷售量的效應取決於季節。
· 季節對汽車銷售量的效應與色彩相關。
預測反應變數值時,兩個(或多個因子)的這種相互依賴性叫做交互作用。
解釋交互作用之中個別值因子的效應(主要效應)並無用處。範例,您可以得出汽車銷售數量的一些結論,比如:
· 夏季,汽車的銷售量更高(反映了季節的主要效應)。
· 黑色汽車比白色汽車的銷量更高(反映了色彩的主要效應)。
但類似的結論僅可傳達一部分資訊。如果經銷商需要確定每種色彩的汽車庫存數量,那麼他需要瞭解全部狀況。
多變量檢定
Minitab 針對模型中的每項以及特殊請求項自動執行四種多變量檢定:
· Wilks 檢定
· Lawley-Hotelling 檢定
· Pillai 檢定
· Roy 最大根檢定
上述四種檢定都以兩個 SSCP(平方和和交叉產品)矩陣為基礎:
· 與每項相關聯的 H(假設)矩陣;也稱為樣本平方和之間的矩陣。
· 與檢定誤差相關聯的 E(假設)矩陣;也稱為樣本平方和之內的矩陣。
請求假設時,系統將顯示 SSCP 矩陣。
可以將檢定統計量表達為 H、E 或 H 和 E,或者表達為 E**-1 H 固有值。可以請求顯示這些固有值。如果重複這些固有值,則對應的特徵向量不是唯一的,在此情況下,Minitab 顯示的固有值以及書籍或其他軟件中的固有值可能不一致。但多變量變異數分析始終是唯一的。
Hotelling 的 T 檢定使用一個具有兩個水準的因子將兩組的平均值向量進行比較,是多變量分析的特殊形式。常用 T 檢定統計量可以使用 T = (N - 2) U 這一關係從 Minitab 的輸出中計算得出,其中 N 為觀測值總數,U 為 Lawley-Hotelling 軌跡。合併共變異數矩陣 S 等於 E / (N - 2),其中
E 是指誤差矩陣。
什麼是殘差
Minitab 提供三種類型的殘差:
· 常規殘差:觀測值 - 預測值。
· 標準化殘差:常規殘差 / 常規殘差的標準差。
標準化消除了資料點位置對於預測值或因子的影響。
· 學習化已刪除殘差:對於 ith 資料點,公式遵循與標準化殘差相同的表達方式。但是,計算第i個 學習化已刪除殘差時適配和標準差都是在刪除第i個觀測後得到的。與標準化殘差相比,學習化已刪除殘差在出現異常資料點時會變大。
模型假設
迴歸和變異數分析製程關於誤差做出下列假設:
· 誤差為常態分布,且平均值為 0。
· 誤差變異數不會為不同因子水準或根據預測反應的值而發生變更。
· 每種誤差都獨立於全部其他誤差。在所設計的實驗中,獲得獨立誤差的最好方式是隨機化實驗的實驗順序。
在分析中檢定這些假設的有效性。殘差是誤差的最佳估計值。因此,可以使用殘差圖以圖表方式檢查每個假設。
如果模型違反這些假設,則分析的結果可能有誤導性。範例,如果誤差相互關聯,則可能會錯誤地估計係數的標準誤差,從而導致錯誤的 t 值和 p 值。
直方圖和常態性
下列是從常態分布中抽取的九個資料集樣本。這些樣本沒有問題;但是,這些直方圖中大多數看起來不是鐘形,這描述了為什麼不應該使用直方圖來判斷資料的常態性。判斷資料是否為常態分布需要使用常態機率圖。
隨機產生樣本的直方圖
每個樣本包含常態分布中的 24 個觀測值。
轉換反應變數
殘差表示異變異數或非常態性時,必須進行轉換。
您可能還會發現在模型表現出顯著缺適性時資料轉換非常有用,而且這種轉換在反應曲面實驗的分析中尤為重要。假設在模型中包含全部顯著的交互作用和二次項,但缺適性檢定表明需要高次項。轉換可以消除缺適性。
如果資料轉換修正了此問題,使用迴歸分析比用其他可能更複雜的分析方法要好一些。迴歸分析或實驗設計分析的結果可以指導我們選擇合適的資料轉換方法解決不同的問題。
Box-Cox 轉換是最常用的變異數穩定轉換。在下面第一個圖表中,殘差表示異變異數。第二個圖表顯示變異數穩定轉換之後的殘差。適配的刻度(x 軸)變更,而變異數變為恆定。
常態機率圖中的圖表趨勢
下列圖表趨勢違反了誤差為常態分布這一假設。
非常態性的效應
迴歸和變異數分析的一個假設為殘差來自常態分布。但是,如果設計僅有固定因子,設計為平衡或接近平衡,且具有相當多的觀測值,則略微偏離常態性不會嚴重影響結果。
發現非常態圖表有趨勢時該怎麼做
可能難以正確指出常態機率圖中明顯偏離常態性的原因。可能的原因包含:
· 齊次變異數假設失敗
· 殘差異常大(異常值)
· 模型中缺少重要變數
· 資料來自非常態總體
對於完整分析,請將常態機率圖與其他診斷圖以及適合度統計量結合使用。
如果發現非常態圖表趨勢:
1 使用其他診斷圖檢視非常態性是否由非常態總體中的資料之外的因素所導致。
2 使用統計 > 基本統計 > 常態性檢定來執行常態性檢定。
3 如果確定資料來自非常態總體,則可以在繼續分析之前轉換資料。請參見轉換反應變數。
注意
修復不等變異數問題的轉換通常也修復常態性問題。
殘差與適配圖中的圖表趨勢
下列圖表趨勢顯示異常值和對誤差為恆定這一假設的衝突。
異常值圖
右上角的殘差比圖中其他全部都大很多,因此為異常值。如果異常值過多,則模型可能不妥當。異常值可能是由於量測錯誤所導致。應該調查異常值以確定其原因。
異變異數圖
殘差的變異數隨適配增加。請注意,隨著適配的增加,殘差在零殘差線周圍分散得更廣,指明不等的(非恆定)變異數。此圖表趨勢表明誤差變異數隨平均值的增加而增加。資料的轉換會有助於穩定這些變異數。
發現圖表有趨勢時該怎麼做
如果圖顯示... 執行此操作...
異變異數 1 使用統計 > 變異數分析 > 變異數相等檢定來檢定相等變異數的假設。
2 如果圖或檢定表明變異數不等,則考慮轉換反應變數。
異常值或有影響的點 1 驗證觀測值不是量測或資料錄入錯誤。
2 考慮執行分析時不包含此觀測值來檢視它是否影響結果。
缺少高次項 增加此項並重新適配模型。
殘差與順序圖中的圖表趨勢
下列圖表趨勢違反了誤差彼此獨立這一假設。
隨著觀測值的順序從左到右提高,殘差系統地降低。
殘差的值從低(左)到高(右)急劇變化。
發現圖表有趨勢時該怎麼做
殘差與資料順序圖中的圖表趨勢表明誤差不是獨立的。此指示可能嚴重影響分析的結論,因此應該至少考慮下列一種補救措施:
· 由於誤差的非獨立性往往難以修正,因此如果要進行設計的實驗,應該盡量透過隨機化試驗以防止出現這種問題。
· 向模型中增加時間效應以消除誤差項的相關。範例,正在檢視幾個月期間的日收入。增加表示一周中某天的因子會消除誤差項中的非獨立性。
· 考慮時間序列製程(如 ARIMA)以解決誤差項中的自相關。
發現圖表有趨勢時該怎麼做
殘差與變數圖中的圖表趨勢表明可能未在模型中包含重要變數或未包含變數的高次項。
· 如果該變數在模型中,請為該變數增加高次項並重新適配模型。範例,曲線圖表趨勢表明應該增加平方項。
· 如果該變數不在模型中,請為該變數增加一項並重新適配模型。
詳細資訊請到官方網站進一步了解: http://www.minitab.com.tw/
和 http://www.minitab.com/
聲明: 本文純粹學術性研討, 內容所提及任何關於 Minitab 專有創作文字, 圖像與架構…等皆屬Minitab Inc. 版權所有, 嚴禁商業上轉貼使用.
沒有留言:
張貼留言