有學過6
sigma的同學, 一定知道 Minitab這套軟體, 因為它把6 sigma實用化了. 過去 Minitab 並沒有中文版, 但對岸有人將它漢化後, 官方也出簡體中文版, 使用簡體中文版會比英文版更friendly, 但畢竟兩岸語文還是有差異, 尤其專有名詞上的差異更讓人難以適從, 例如常態分配 v.s. 正态分布; 品質 v.s. 质量; 巨集 v.s. 宏; 變異數分析
v.s.方差分析; 進階 v.s. 高级…
官方目前沒有繁體中文版.~可惜! 希望 Minitab TWN公司能早日完成繁體中文版的 Minitab. ~期待!
先前談到 Tutorials 教學課程, 了解如何使用 Minitab 各項功能。而在Help 協助 > StatGuide 統計指南中, 則對於輸出的結果有詳細的解釋說明:
Regression > Orthogonal Regression
正交迴歸 > 匯總
正交迴歸(Deming 迴歸)用於調查反應 (Y) 與個別值預測值 (X) 之間的關係並對其建模。反應和預測變數都是連續變數。簡單線性迴歸與正交迴歸之間的差異在於,正交迴歸中的預測值包含量測誤差。
希望瞭解兩個工具或兩種方法是否量測同一個事物時,則經常要在臨床化學設定和實驗室設定中使用正交迴歸。
資料描述
實驗室需要確定兩種用於量測葡萄糖水準的方法是否等效。由於新方法的費用要低很多,因此若此方法可提供與現有技術相同的量測值,則實驗室可能會使用新的技術。.從夜間禁食的參與者體內抽血,實驗室使用兩種方法來檢定每個人的葡萄糖水準。
資料:
葡萄糖.MTW (在樣本資料檔案夾中)
正交迴歸 > 誤差變異數比例表
- 誤差變異數比例
誤差變異數比例是將反應誤差變異數除以預測值誤差變異數所得的結果。此值由使用者在分析之前指定。一種用於取得誤差變異數估計值的方式是對 X 和 Y 執行單獨的量具
R&R 研究。
輸出範例
誤差變異數比例 (新/標準): 1
解釋
在以前的研究中,實驗室技術人員獲知兩個工具中的誤差變異數大致相同。因此,誤差變異數比例為 1。
正交迴歸 > 迴歸表 - 迴歸方程式
正交迴歸方程式是迴歸線的一種代數表示形式,用於描述反應和預測變數之間的關係。正交迴歸方程式採取的形式為:
反應 = 截距 + 斜率(預測值)
或 y = b0 + b1x
其中:
· 反應
(y) 表示實際的未知反應值。
· b0 是迴歸線與 Y 軸相交處的y值。
· 預測值 (x) 表示實際未知的預測值。
· b1 表示每個單位變化 (x) 所對應的斜率或估計變化 (y)。
輸出範例
迴歸方程式
新 = - 0.632 + 1.007 標準
解釋
對於葡萄糖資料,反應變數為「新值」,預測值為「標準」。估計迴歸方程式為:
新值 = -0.632 + 1.007 標準
對該迴歸方程式的解釋如下:
· 斜率
(b1 = 1.007) 是標準增加 1 時新值的變化。也就是說,當標準增加一個單位時,新值增加 1.007 個單位。
· 截距
(b0 = -0.632) 是預測值標準為零時新值的預測值。也就是說,當預測值為零時,新值為 -0.632。
正交迴歸 > 迴歸表 - 係數
係數表顯示截距(常數)和斜率的估計值。這些值用在正交迴歸方程式中。
輸出範例
係數
自變數 係數 係數標準誤差 Z P
近似 95% 信賴區間
常數 -0.63177 1.74010
-0.3631 0.717 (-4.04231, 2.77877)
標準 1.00689 0.01870
53.8518 0.000 ( 0.97024, 1.04353)
解釋
對於葡萄糖資料,截距的估計值為 -0.63177。斜率的估計值為 1.00689。在正交迴歸中,如果截距接近於 0,斜率接近於 1,則這兩種方法很可能會提供等效量測值。
正交迴歸 > 迴歸表 - 信賴區間
對係數使用信賴區間的目的是確定反應和預測值量測的事物是否相同。如果截距的信賴區間包含 0,斜率的信賴區間包含 1,沒有證據表明兩個工具或方法不是等效的。
輸出範例
係數
自變數 係數 係數標準誤差 Z P
近似 95% 信賴區間
常數 -0.63177 1.74010
-0.3631 0.717 (-4.04231, 2.77877)
標準 1.00689 0.01870
53.8518 0.000 ( 0.97024, 1.04353)
解釋
0 包含於截距的信賴區間 (-4.04231, 2.77877) 中,1 包含於斜率的信賴區間 (0.97024, 1.04353) 中。因此,沒有證據表明兩個工具量測的是不同的事務。
正交迴歸 > 迴歸表 - 誤差變異數
Minitab 將顯示反應和預測值的預計誤差變異數。
輸出範例
誤差變異數
變數 變異數
新 1.50821
標準 1.50821
解釋
由於已將誤差變異數比例指定為 1,則反應和預測值的誤差變異數為同一值:1.5081。
正交迴歸 > 預測 - 預測值
當您按預測變數特定設定請求新反應值的預測時,Minitab 將顯示預測值表。
輸出範例
新觀測值的預測值
新觀 預測
測值 標準 新 標準差
1 80
79.9883 1.74021
解釋
對於葡萄糖資料,當標準方法給出讀數 80 時,研究人員需要預測新方法的葡萄糖讀數。預測值為 79.9883,該值與使用標準方法時的讀數基本相同。
正交迴歸 > 圖表 - 配適線圖
Minitab 顯示資料的圖,上面有一條線描述最佳適配正交方程式。此外,您還可以選擇顯示用於比較的普通最小平方配適線。
輸出範例
解釋
葡萄糖資料圖表明正交方程式對該資料是很不錯的適配。這些點比較接近於線。最小平方迴歸線接近這些資料的正交配適線。
正交迴歸 > 圖表 - 殘差的直方圖
殘差的直方圖顯示全部觀測值的殘差異布。使用直方圖作為研究工具來瞭解資料的下列特徵:
· 典型值、波動或變異以及形狀
· 資料中的異常值
殘差的直方圖應該為鍾形。使用此圖尋找下列資訊:
此圖表趨勢... 表明...
長尾 偏斜度
遠離其他長條的長條 異常值
由於直方圖的外觀會根據用於對資料進行分組的區間數而變更,因此請使用常態機率圖和適合度檢定來評定殘差是否為常態。
輸出範例
解釋
對於葡萄糖資料,沒有證據表明存在偏斜度或異常值。
正交迴歸 > 圖表 - 殘差的常態機率圖
此圖表圖示當分布為常態時的殘差及其期望值。根據分析得出的殘差應該大致上呈常態分布。實際上,對於具有大量觀測值的資料,略微偏離常態性不會嚴重影響結果。
殘差的常態機率圖應該大致為一條直線。使用此圖尋找下列資訊:
此圖表趨勢... 表明...
非直線 非常態性
尾部為曲線 偏斜度
遠離直線的點 異常值
如果資料的觀測值不足 50 個,則即使殘差是常態分布的,圖也可能在尾部顯示曲率。隨著觀測值數的減少,機率圖甚至可能會顯示更大的變異和非線性。
輸出範例
解釋
對於葡萄糖資料,殘差表示尾部的一些曲率。但是,資料中的觀測值數目小於 50,因此該圖不一定表明非常態性。
正交迴歸 > 圖表 - 殘差與適配
此圖表圖示殘差與適配。殘差應該在 0 附近隨機分散。使用此圖尋找下列資訊:
此圖表趨勢... 表明...
殘差相對適配呈扇形或不均勻分散 異變異數
遠離 0 的點 異常值
在 x 方向遠離其他點的點 有影響的點
輸出範例
解釋
對於葡萄糖資料,殘差隨機分散在 0 附近。沒有證據表明存在異變異數、異常值或有影響的點。
正交迴歸 > 圖表 - 殘差與順序
此圖表以相應觀測值的順序圖示殘差。觀測值的順序可能影響結果時此圖會很有用,以時間順序或以某些其他順序(如地理區域)採集資料時可能影響結果。此圖在試驗未被隨機化的設計實驗中尤其有協助。
圖中的殘差應該在中心線附近隨機波動。在正交迴歸中,殘差彼此相關。但是,您可以檢查此圖,以檢視彼此靠近的殘差之間是否存在相關性,表明觀測值的順序可能影響結果。殘差之間的相關性可以表示為:
· 殘差中的上升或下降趨勢
· 相鄰殘差的符號快速變化
輸出範例
解釋
對於葡萄糖資料,殘差隨機分散在 0 附近。沒有證據表明存在順序影響。
正交迴歸 > 圖表 - 殘差與變數
此圖表圖示殘差與其他變數。殘差應該在中心線附近隨機波動。使用該圖可以尋找殘差量值中的非線性或差異。
輸出範例
解釋
研究人員希望標出殘差與預測值標準。殘差模式是隨機的,表明殘差呈線性,殘差的量值相對與標準值是一致的。
正交迴歸 > 圖表 - 四合一殘差圖
四合一殘差圖在一個圖表視窗中同時顯示四種不同的殘差圖。此版面有助於比較這些圖以確定模型是否符合分析的假設。此圖表中的殘差圖包含:
· 直方圖 - 表明資料是否偏斜或資料中是否存在異常值
· 常態機率圖 - 表明殘差是否大致呈常態分布、其他變數是否影響反應或資料中是否存在異常值
· 殘差與適配 - 表明變異數是否恆定、是否存在非線性關係或資料中是否存在異常值
· 殘差與資料順序 - 表明資料中是否存在因時間或資料採集順序而產生的系統化影響
輸出範例
解釋
要檢視四合一圖中每個殘差圖的解釋,請參考本主題之前每種殘差圖的個別值主題。
Regression > Orthogonal Regression > more
什麼是正交迴歸?
正交迴歸檢查兩個連續變數之間的線性關係:一個反應 (Y) 和一個預測變數 (X)。希望瞭解兩個工具或兩種方法是否量測同一個事物時,則經常要在臨床化學設定和實驗室設定中使用正交迴歸。與簡單線性迴歸不同,正交迴歸中的反應和預測變數包含量測誤差。在簡單迴歸中,只有反應變數包含量測誤差。
如果在 x 和 y 包含量測誤差時使用最小平方迴歸來分析資料,則可能會偏置斜率,因而影響結果的有效性。
正交迴歸提供「最佳」適配資料的線。然後可以使用此直線來:
· 確定兩種量測方法是否等效
· 檢查反應變數如何隨預測變數的變化而變化
· 預測任一預測變數 (X) 的的反應變數值 (Y)
在正交迴歸中,最佳配適線是用於將描繪點到線條之間的加權正交距離降至最低的線條。如果誤差變異數比例為 1,則加權距離為 Euclidean 距離。
在正交迴歸中,必須滿足下列假設:
· 預測變數和反應包含分別表示為 x 和 y 的固定未知數量,以及一個誤差異量。
· 誤差項彼此獨立。
· 誤差項的平均值為零且變異數為常數。
· 預測值和反應線性相關。
什麼是簡單線性迴歸?
簡單線性迴歸檢查兩個連續變數之間的線性關係:一個反應 (y) 和一個預測變數 (x)。當這兩個變數相關時,可以從幾率準確性更好的預測變數值預測出反應值。
迴歸提供「最佳」適配資料的線。然後可以使用此直線來:
· 檢查反應變數如何隨預測變數的變化而變化
· 預測任一預測變數 (x) 的反應變數值 (y)
用於繪製此「最佳線」的方法稱為最小平方標準。最小平方標準要求最佳適配迴歸線是一條誤差項(點到線的距離)平方和最小的線。
信賴區間和範圍
信賴區間 (CI) 是用於從樣本資料中估計總體參數的區間。如果備擇假設 (H1) 是非定向的,則 Minitab 同時顯示區間的上下限,如果 H1 是定向的,則只顯示一個邊界。
信賴區間由兩個基本部分構成:
· 點估計 - 從樣本資料中計算的個別值值。此值被認為是相關參數的估計值,但點估計不可能與參數相等。因此,為了考慮估計錯誤的機率,在信賴區間中包含了錯誤邊際,以提供可能的參數值的範圍。
· 錯誤邊際-透過使用機率來確定信賴區間的寬度。為了構造信賴區間,只需從點估計中加上和/或減去錯誤邊際。
對於 a 0.05,構造 95% 的信賴區間。這意味著,用於構造區間的方法產生包含相關參數的區間的機率為 0.95(即 1 - a)。因此,如果構造 100 個 95% 的信賴區間,則大約有 95 個區間包含該參數。換句話說,參數值位於該區間內的機率為 95%。
如果備擇假設有方向,則信賴區間會在一個方向無限延伸。在此情況下,只顯示一個邊界。範例,如果執行 a 為 0.05 單樣本 t 檢定,並且 H1 為 m < 5,將顯示
95% 上限。m 的真實值小於或等於上限的信賴度為 95%。
直方圖和常態性
下列是從常態分布中抽取的九個資料集樣本。這些樣本沒有問題;但是,這些直方圖中大多數看起來不是鍾形,這描述了為什麼不應該使用直方圖來判斷資料的常態性。判斷資料是否為常態分布需要使用常態機率圖。
隨機產生樣本的直方圖
每個樣本包含常態分布中的 24 個觀測值。
非常態性的效應
迴歸和變異數分析的一個假設為殘差來自常態分布。但是,如果設計僅有固定因子,設計為平衡或接近平衡,且具有相當多的觀測值,則略微偏離常態性不會嚴重影響結果。
發現非常態圖表有趨勢時該怎麼做
可能難以正確指出常態機率圖中明顯偏離常態性的原因。可能的原因包含:
· 齊次變異數假設失敗
· 殘差異常大(異常值)
· 模型中缺少重要變數
· 資料來自非常態總體
對於完整分析,請將常態機率圖與其他診斷圖以及適合度統計量結合使用。
如果發現非常態圖表趨勢:
1 使用其他診斷圖檢視非常態性是否由非常態總體中的資料之外的因素所導致。
2 使用統計 > 基本統計 > 常態性檢定來執行常態性檢定。
3 如果確定資料來自非常態總體,則可以在繼續分析之前轉換資料。請參見轉換反應變數。
注意
修復不等變異數問題的轉換通常也修復常態性問題。
轉換反應變數
殘差表示異變異數或非常態性時,必須進行轉換。
您可能還會發現在模型表現出顯著缺適性時資料轉換非常有用,而且這種轉換在反應曲面實驗的分析中尤為重要。假設在模型中包含全部顯著的交互作用和二次項,但缺適性檢定表明需要高次項。轉換可以消除缺適性。
如果資料轉換修正了此問題,使用迴歸分析比用其他可能更複雜的分析方法要好一些。迴歸分析或實驗設計分析的結果可以指導我們選擇合適的資料轉換方法解決不同的問題。
Box-Cox 轉換是最常用的變異數穩定轉換。在下面第一個圖表中,殘差表示異變異數。第二個圖表顯示變異數穩定轉換之後的殘差。適配的刻度(x 軸)變更,而變異數變為恆定。
殘差與適配圖中的圖表趨勢
下列圖表趨勢顯示異常值和對誤差為恆定這一假設的衝突。
異常值圖
右上角的殘差比圖中其他全部都大很多,因此為異常值。如果異常值過多,則模型可能不妥當。異常值可能是由於量測錯誤所導致。應該調查異常值以確定其原因。
異變異數圖
殘差的變異數隨適配增加。請注意,隨著適配的增加,殘差在零殘差線周圍分散得更廣,指明不等的(非恆定)變異數。此圖表趨勢表明誤差變異數隨平均值的增加而增加。資料的轉換會有助於穩定這些變異數。
發現圖表有趨勢時該怎麼做
如果圖顯示... 執行此操作...
異變異數 1 使用統計 > 變異數分析 > 變異數相等檢定來檢定相等變異數的假設。
2 如果圖或檢定表明變異數不等,則考慮轉換反應變數。
異常值或有影響的點 1 驗證觀測值不是量測或資料錄入錯誤。
2 考慮執行分析時不包含此觀測值來檢視它是否影響結果。
缺少高次項 增加此項並重新適配模型。
殘差與順序圖中的圖表趨勢
下列圖表趨勢違反了誤差彼此獨立這一假設。
隨著觀測值的順序從左到右提高,殘差系統地降低。
殘差的值從低(左)到高(右)急劇變化。
發現圖表有趨勢時該怎麼做
殘差與資料順序圖中的圖表趨勢表明誤差不是獨立的。此指示可能嚴重影響分析的結論,因此應該至少考慮下列一種補救措施:
· 由於誤差的非獨立性往往難以修正,因此如果要進行設計的實驗,應該盡量透過隨機化試驗以防止出現這種問題。
· 向模型中增加時間效應以消除誤差項的相關。範例,正在檢視幾個月期間的日收入。增加表示一周中某天的因子會消除誤差項中的非獨立性。
· 考慮時間序列製程(如 ARIMA)以解決誤差項中的自相關。
發現圖表有趨勢時該怎麼做
殘差與變數圖中的圖表趨勢表明可能未在模型中包含重要變數或未包含變數的高次項。
· 如果該變數在模型中,請為該變數增加高次項並重新適配模型。範例,曲線圖表趨勢表明應該增加平方項。
· 如果該變數不在模型中,請為該變數增加一項並重新適配模型。
詳細資訊請到官方網站進一步了解: http://www.minitab.com.tw/
和 http://www.minitab.com/
聲明: 本文純粹學術性研討, 內容所提及任何關於 Minitab 專有創作文字, 圖像與架構…等皆屬Minitab Inc. 版權所有, 嚴禁商業上轉貼使用.
沒有留言:
張貼留言