有學過6
sigma的同學, 一定知道 Minitab這套軟體, 因為它把6 sigma實用化了. 過去 Minitab 並沒有中文版, 但對岸有人將它漢化後, 官方也出簡體中文版, 使用簡體中文版會比英文版更friendly, 但畢竟兩岸語文還是有差異, 尤其專有名詞上的差異更讓人難以適從, 例如常態分配 v.s. 正态分布; 品質 v.s. 质量; 巨集 v.s. 宏; 變異數分析
v.s.方差分析; 進階 v.s. 高级…
官方目前沒有繁體中文版.~可惜! 希望 Minitab TWN公司能早日完成繁體中文版的 Minitab. ~期待!
先前談到 Tutorials 教學課程, 了解如何使用 Minitab 各項功能。而在Help 協助 > StatGuide 統計指南中, 則對於輸出的結果有詳細的解釋說明:
Regression > Binary Logistic Regression
二元邏輯斯迴歸 > 匯總
二元邏輯斯迴歸檢查一個或多個預測變數和一個二元反應之間的關係。二元反應變數有兩個可能結果,如患有或沒患有某種疾病。
因子和共變異數可用作二元邏輯斯模型中的預測變數。有時,適配二元邏輯斯模型用於將觀測值劃分到兩個類別中的某一類。
資料描述
一家穀類食品公司正在調查一種名為 Cocoa Crunch 的新產品的電視廣告效應。廣告在某一社區播出一周後,他們在一家當地超市的出口處隨機訪問了七十一位成年人作為樣本。
調查問題是:
· 是否購買了 Cocoa Crunch(購買)
· 家庭收入(以千美元計)(收入)
· 是否有子女(子女)
· 是否觀看過廣告(觀看廣告)
資料:
穀類廣告.MTW (在樣本資料檔案夾中)
二元邏輯斯迴歸 > 連結函數
Minitab 提供了三個連結函數,使用這些函數,您可以適配二元反應模型的主要類。它們是逆累積邏輯斯分布函數 (logit)、逆累積標準常態分布函數 (normit) 和逆 Gompertz 分布函數 (gompit)。
您需要選擇一個與資料適配良好的連結函數。可以使用適合度統計量比較使用不同連結函數適配。可能會因為歷史原因或因為它們具有特殊的學科意義而使用特定的連結函數。
Logit 連結函數的一個優勢就是它可以提供模型中的每個預測變數的優勢比的估計值。
輸出範例
連結函數:Logit
反應資訊
變數 值 計數
購買 1 22
(事件)
0 49
合計 71
解釋
對於穀類食品資料,調查人員選擇使用 Logit 連結函數。
二元邏輯斯迴歸 > 反應資訊
Minitab 顯示了反應的下列資訊:
· 變數:反應變數的名稱。
· 值:二元反應的兩個水準。
· 計數:每個反應水準上的觀測值數。
· 事件:參考事件。
· 合計:非遺失觀測值數。
輸出範例
連結函數:Logit
反應資訊
變數 值 計數
購買 1 22
(事件)
0 49
合計 71
解釋
對於穀類食品資料,反應名為 Bought,二元反應的值為 1(購買了穀類食品)和 0(未購買穀類食品),22 個成年人購買了穀類食品 (1),49 個成年人未購買穀類食品
(0),購買穀類食品 (1) 被視為參考事件,有 71 個觀測值。
二元邏輯斯迴歸 > 迴歸表 -
P 值
P 值檢定觀測的關係是否統計意義顯著。您需要:
1 找到位於迴歸表下的 p 值。透過檢定是否全部的斜率都等於 0,此 p 值描述是否至少有一個預測變數和反應之間存在顯著相關性。
2 將此 p 值與您的 a 水準進行比較。如果 p 值小於或等於所選擇的 a 水準,那麼相關性顯著。常用的 a 水準為 0.05。
· 如果
p 值小於或等於 a 水準,那麼相關性顯著,並且可以斷定至少一個預測變數與反應顯著關聯。
· 如果
p 值大於 a 水準,那麼可以斷定不存在顯著關聯,並且解釋結束。
3 如果在步階 2 中斷定至少有一個顯著的預測變數,請識別出模型中每一項的 p 值。這些 p 值描述特定的預測變數和二項反應之間是否存在統計意義顯著的相關性。
4 將這些 p 值逐個與您的 a 水準進行比較:如果 p 值小於或等於所選擇的 a 水準,那麼關聯是顯著的。
輸出範例
邏輯斯
迴歸表
95% 信賴區
間
自變數 係數 係數標準誤差 Z P 優勢比 下限 上限
常數 -3.01593 0.939357
-3.21 0.001
收看廣告
是 1.03419 0.571803
1.81 0.071 2.81
0.92 8.63
兒童
是 1.43275 0.856498
1.67 0.094 4.19
0.78 22.45
收入 0.0137436 0.0194916
0.71 0.481 1.01
0.98 1.05
對數概度 = -38.383
檢定全部斜率是否為零:G = 11.130,DF = 3,P
值 = 0.011
解釋
對於穀類食品資料,檢定全部斜率都為 0 的 p 值是 0.011。假定 a 水準為 0.05。由於 0.011
小於 0.05,因此可以斷定反應至少與一個預測變數之間存在顯著相關性。
現在檢視每個預測變數的 p 值。如果 a 水準為 0.10,那麼在 90% 的信賴水準上「收看廣告」(P = 0.071) 和「子女」(P = 0.094) 都是顯著的。還可以斷定家庭收入和穀類食品支出之間不存在顯著相關性。
二元邏輯斯迴歸 > 迴歸表 -邏輯斯模型
二元邏輯斯迴歸檢查一個或多個預測變數和一個二元反應之間的關係。邏輯斯方程式可用於檢查事件隨著預測變數的變更而變更的機率。
估計係數的解釋相對於預測變數的參考水準。正係數描述預測變數的水準影響二元反應的可能性比參考水準大。負係數描述預測變數的水準影響二元反應的可能性比參考水準小。係數接近於零描述預測變數和二元反應之間的相關性可能不顯著。
輸出範例
邏輯斯
迴歸表
95% 信賴區
間
自變數 係數 係數標準誤差 Z P 優勢比 下限 上限
常數 -3.01593 0.939357
-3.21 0.001
收看廣告
是 1.03419 0.571803
1.81 0.071 2.81
0.92 8.63
兒童
是 1.43275 0.856498
1.67 0.094 4.19
0.78 22.45
收入 0.0137436 0.0194916
0.71 0.481 1.01
0.98 1.05
對數概度 = -38.383
檢定全部斜率是否為零:G = 11.130,DF = 3,P
值 = 0.011
解釋
對於穀類食品資料,
· 「收看廣告」的正係數 (1.03419) 描述收看過廣告的成年人購買該穀類食品的可能性比沒看過廣告的成年人大。請注意,「收看廣告」的參考水準為否。
· 同樣,「子女」的正係數 (1.43275) 描述有子女的成年人購買該穀類食品的可能性比沒有子女的成年人大。請注意,「子女」的參考水準為否。
· 「收入」的正係數 (0.0137436) 描述家庭收入越高購買該穀類產品的可能性越大。這種說法只適用於樣本中的家庭收入範圍,即低於 75,000 美元。(p 值相對較大描述相關性不顯著。您可能會剔除此預測變數並重新適配模型。)
二元邏輯斯迴歸 > 迴歸表 - 優勢比
Logit 連結函數的一個優勢就是它可以提供模型中的每個預測變數的優勢比的估計值。優勢比越大,預測變數相對於參考水準影響二元反應的幾率越大。優勢比 1 描述預測變數和反應之間不存在相關性。
輸出範例
邏輯斯
迴歸表
95% 信賴區
間
自變數 係數 係數標準誤差 Z P 優勢比 下限 上限
常數 -3.01593 0.939357
-3.21 0.001
收看廣告
是 1.03419 0.571803
1.81 0.071 2.81
0.92 8.63
兒童
是 1.43275 0.856498
1.67 0.094 4.19
0.78 22.45
收入 0.0137436 0.0194916
0.71 0.481 1.01
0.98 1.05
對數概度 = -38.383
檢定全部斜率是否為零:G = 11.130,DF = 3,P
值 = 0.011
解釋
對於穀類食品資料,使用了 logit 連結,因此優勢比可以解釋為:
· 收看過廣告的成年人購買 Cocoa Crunch 的幾率是沒看過廣告的成年人的 2.81 倍(假設其他變數為公共值)。請注意,「收看廣告」的參考水準是否。
· 有子女的成年人購買 Cocoa Crunch 的機會是沒有子女的成年人的 4.19 倍(假設其他變數為公共值)。請注意,「子女」的參考水準是否。
· 家庭收入比另一個研究對象高 1000 美元(一個單位)的成年人購買 Cocoa Crunch 的幾率是另一個研究對象的 1.01 倍。(假設其他變數為公共值)。透過比較家庭收入差異更大的研究對象可以得出一個更有意義的優勢比。如果以 10,000 美元的增量來量測家庭收入,優勢比變為 1.15,這表明家庭收入比另一個研究對象高 10,000 美元的成年人購買該產品的幾率是另一個研究對象的 1.15 倍。(但是,相對較大的 p 值表明此相關性不顯著。您可能會剔除此預測變數並重新適配模型。)
二元邏輯斯迴歸 > 適合度檢定
- Pearson 和 Deviance 檢定
適配邏輯斯模型時,您想要選擇一個可以良好適配資料的模型(連結函數和預測變數)。可以使用適合度統計量來比較不同模型的適配。較低的 p 值表示預測機率以二項分布無法預測的方式偏離觀測機率。
預設情況下,Minitab 提供三種適合度檢定:Pearson、Deviance 和 Hosmer-Lemeshow。
Pearson 和 Deviance 是邏輯斯模型的兩種類型的殘差。它們是評估所選模型適配資料的優度的有用量測。P 值越高,模型適配資料的優度越高。您可能想要檢查其他的模型並選擇一個產生最大適合度 p
值的模型(除非某個模型在您的學科中具有特殊意義)。
輸出範例
適合度檢定
方法 卡方 自由度 P
Pearson 61.0629 49
0.116
標準差 57.8995 49
0.180
Hosmer-Lemeshow 5.5788 8
0.694
觀測和期望頻率表:
(有關 Pearson 卡方統計量,請參閱 Hosmer-Lemeshow 檢定)
組
值 1 2
3 4 5
6 7 8
9 10 合計
1
觀測值 1
1 1 0
2 1 4
4 5 3
22
期望值 0.4
0.7 1.1 1.5
1.7 2.0 2.8
3.5 4.3 4.0
0
觀測值 6
6 6 7
5 6 3
3 3 4
49
期望值 6.6
6.3 5.9 5.5
5.3 5.0 4.2
3.5 3.7 3.0
合計 7 7
7 7 7
7 7 7
8 7 71
解釋
對於穀類食品資料,Pearson 和 Deviance 檢定的 p 值都大於 0.10,表明 a 水準小於或等於 0.10 時沒有足夠的證據表明模型不足以適配資料。
二元邏輯斯迴歸 > 適合度檢定
- Hosmer-Lemeshow 檢定
適配邏輯斯模型時,您想要選擇一個可以良好適配資料的模型(連結函數和預測變數)。可以使用適合度統計量來比較不同模型的適配。較低的 p 值表示預測機率以二項分布無法預測的方式偏離觀測機率。
預設情況下,Minitab 提供三種適合度檢定:Pearson、Deviance 和 Hosmer-Lemeshow。
Hosmer-Lemeshow 檢定透過比較觀測和預期頻率來評定模型適配。檢定按估計的機率從低到高對資料進行分組,然後執行卡方檢定來確定觀測和預期頻率之間是否存在顯著差異。
輸出範例
適合度檢定
方法 卡方 自由度 P
Pearson 61.0629 49
0.116
標準差 57.8995 49
0.180
Hosmer-Lemeshow 5.5788 8
0.694
觀測和期望頻率表:
(有關 Pearson 卡方統計量,請參閱 Hosmer-Lemeshow 檢定)
組
值 1 2
3 4 5
6 7 8
9 10 合計
1
觀測值 1
1 1 0
2 1 4
4 5 3
22
期望值 0.4
0.7 1.1 1.5
1.7 2.0 2.8
3.5 4.3 4.0
0
觀測值 6
6 6 7
5 6 3
3 3 4
49
期望值 6.6
6.3 5.9 5.5
5.3 5.0 4.2
3.5 3.7 3.0
合計 7 7
7 7 7
7 7 7
8 7 71
解釋
對於穀類食品資料,檢定中相對較大的 p 值 (0.694) 表明觀測
(Obs) 和預期 (Exp) 頻率是一致的。
組 = 4 時,這些值之間的差異最大:
· 值
= 1 時,觀測頻率是 0,但是預期為 1.5 個觀測值。
· 值
= 0 時,觀測頻率是 7,但是預期只有 5.5 個觀測值。
如果瀏覽一下觀測和預期頻率表,您可以發現 Obs 和 Exp 值一般非常接近。
二元邏輯斯迴歸 > 相關性量測
相關性量測表包含下列內容:
· 對資訊,包含具有不同反應值的觀測值對的數量和百分比,它們是一致對、不一致對和結對。
· Somers 的 D 顯示存在的比不一致對一致的對數除以總對數。
· Goodman-Kruskal Gamma 顯示存在的比不一致對一致的對數除以剔除結對的總對數。
· Kendall 的 Tau-a 顯示存在的比不一致對一致的對數除以包含具有相同反應值的對在內的總觀測值對數。
要建立用於這些統計量的對,每個觀測到的「成功」都要和每個「失敗」配對。然後注意,根據模型預測的實際「成功」的成功機率是否較高。
· 如果對應於「成功」的觀測值的預測成功機率較高,該對應視為一致對。
· 如果對應於「失敗」的觀測值的預測成功機率較高,該對應視為不一致對。
· 如果觀測的「成功」和「失敗」的預測成功機率相同,該對應視為結對。
Somers 的 D、Goodman-Kruskal Gamma 和 Kendall 的 Tau-a 的值越大,表明模型的預測能力越強。
輸出範例
相關性量測:
(反應變數與預測機率之間)
配對 數量 百分比 量測結果綜述
一致 786 72.9
Somer 的 D 0.47
不一致 283 26.3
Goodman-Kruskal Gamma 0.47
結 9 0.8
Kendall 的 Tau-a 0.20
合計 1078 100.0
解釋
對於穀類食品資料,72.9% 的對是一致對,26.3% 的對是不一致對。因此,某個對一致的幾率比不一致的幾率高 50%。
因為結對特別少,所以 Somers 的 D (0.47) 和
Goodman-Kruskal Gamma (0.47) 非常接近。它們以總對數百分比的形式描述存在的比較一致的對數。在此計算中,Somers 的 D 包含結對,Goodman-Kruskal
Gamma 不包含。
二元邏輯斯迴歸 > 圖表 -
Delta 卡方與事件機率圖
此圖用於識別模型未能良好適配的因子/共變異數模式。Delta 卡方量測由於刪除特殊因子/共變異數模式而產生的 Pearson 適合度統計量中的變更。
輸出範例
解釋
對於穀類食品資料,具有較大的 delta 卡方值(遠離其他點的點)的因子/共變異數模式都對應於較低的預測機率。這些點對應於沒有子女和沒有看過廣告但購買了該商品的研究對象。(要識別出圖表點,可以使用 Minitab 的圖表筆刷功能。)不能良好適配觀測值的機率和預測變數值表明模型不能良好適配資料的位置。
二元邏輯斯迴歸 > 圖表 -
Delta 標準差與事件機率圖
此圖用於識別模型未能良好適配的因子/共變異數模式。Delta 標準差量測由於刪除特殊因子/共變異數模式而產生的標準差適合度統計量中的變更。
輸出範例
解釋
對於穀類食品資料,具有較大的 delta 標準差異(遠離其他點的點)的因子/共變異數模式都對應於較低的預測機率。這些點對應於沒有子女和沒有看過廣告但購買了該商品的研究對象。(要識別出圖表點,可以使用
Minitab 的圖表筆刷功能。)不能良好適配觀測值的機率和預測變數值表明模型不能良好適配資料的位置。
二元邏輯斯迴歸 > 圖表 -
Delta Beta(標準化)與事件機率圖
此圖用於識別出對估計的迴歸係數具有較大影響的因子/共變異數模式。Delta beta(標準化)量測由於刪除特殊因子/共變異數模式類型而產生的迴歸係數(使用 Pearson 標準化殘差)的變更。
較大的 delta beta(標準化)通常對應於具有較大的槓桿效率和/或較大的殘差的因子/共變異數模式。
輸出範例
解釋
對於穀類食品資料,較大的 delta beta(標準化)對應於較高的預測機率。該點對應於有子女和看過廣告但是沒有購買該產品的研究對象(較大的殘差)。(要識別出圖表點,可以使用 Minitab 的圖表筆刷功能。)機率和預測變數值表明顯著影響迴歸係數的位置。
二元邏輯斯迴歸 > 圖表 -
Delta Beta 與事件機率圖
此圖用於識別出對估計的迴歸係數具有較大影響的因子/共變異數模式。Delta beta(標準化)量測由於刪除特殊因子/共變異數模式而導致的迴歸係數(使用 Pearson 殘差)的變更。
較大的 delta beta 通常對應於具有較大的槓桿效率和/或較大的殘差的因子/共變異數模式。
輸出範例
解釋
對於穀類食品資料,較大的 delta beta 對應於較高的預測機率。該點對應於有子女和看過廣告但是沒有購買該產品的研究對象。(要識別出圖表點,可以使用 Minitab 的圖表筆刷功能。)機率和預測變數值表明顯著影響迴歸係數的位置。
二元邏輯斯迴歸 > 圖表 -
Delta 卡方與槓桿效率圖
此圖用於識別模型未能良好適配的因子/共變異數模式。Delta 卡方量測由於刪除特殊因子/共變異數模式而產生的 Pearson 適合度統計量中的變更。
輸出範例
解釋
對於穀類食品資料,具有較大的 delta 卡方值(遠離其他點的點)的因子/共變異數模式都對應於較低的槓桿效率。這些點對應於沒有子女和沒有看過廣告但購買了該商品的研究對象。(要識別出圖表點,可以使用 Minitab 的圖表筆刷功能。)Delta 卡方可能會由於較大的殘差和/或較大的槓桿效率而很大。由於存在較大的 Pearson 殘差和較低的槓桿效率,可以斷定這些點不能被模型良好地適配。
二元邏輯斯迴歸 > 圖表 -
Delta 標準差與槓桿效率圖
此圖用於識別模型未能良好適配的因子/共變異數模式。Delta 標準差量測由於刪除特殊因子/共變異數模式而產生的標準差適合度統計量中的變更。
輸出範例
解釋
對於穀類食品資料,具有較大的 delta 卡方值(遠離其他點的點)的因子/共變異數模式都對應於較低的槓桿效率。這些點對應於沒有子女和沒有看過廣告但購買了該商品的研究對象。(要識別出圖表點,可以使用 Minitab 的圖表筆刷功能。)Delta 標準差可能會由於較大的殘差(標準差或 Pearson)和/或較大的槓桿效率而很大。由於存在較大的 Pearson 殘差和較低的槓桿效率,可以斷定這些點不能被模型良好地適配。
二元邏輯斯迴歸 > 圖表 -
Delta Beta(標準化)與槓桿效率圖
此圖用於識別出對估計的迴歸係數具有較大影響的因子/共變異數模式。Delta beta(標準化)量測由於刪除特殊因子/共變異數模式類型而產生的迴歸係數(使用 Pearson 標準化殘差)的變更。
較大的 delta beta(標準化)通常對應於具有較大的槓桿效率和/或較大的殘差的因子/共變異數模式。
輸出範例
解釋
對於穀類食品資料,最大的 delta beta(標準化)對應於一個高槓桿效率。該點對應於有子女和看過廣告但是沒有購買該產品的研究對象。(要識別出圖表點,可以使用 Minitab 的圖表筆刷功能。)該點具有較高的 delta 卡方和 delta 標準差以及較大的槓桿效率,較大的槓桿效率會導致 delta beta(標準化)很大。
二元邏輯斯迴歸 > 圖表 -
Delta Beta 與槓桿效率圖
此圖用於識別出對估計的迴歸係數具有較大影響的因子/共變異數模式。Delta beta(標準化)量測由於刪除特殊因子/共變異數模式而導致的迴歸係數(使用 Pearson 殘差)的變更。
較大的 delta beta 通常對應於具有較大的槓桿效率和/或較大的殘差的因子/共變異數模式。
輸出範例
解釋
對於穀類食品資料,最大的 delta beta 對應於較高的預測槓桿效率。該點對應於有子女和看過廣告但是沒有購買該產品的研究對象。(要識別出圖表點,可以使用 Minitab 的圖表筆刷功能。)該點具有較高的 delta 卡方、較高的 delta 標準差和較大的槓桿效率,較大的槓桿效率會導致 delta beta 很大。
詳細資訊請到官方網站進一步了解: http://www.minitab.com.tw/
和 http://www.minitab.com/
聲明: 本文純粹學術性研討, 內容所提及任何關於 Minitab 專有創作文字, 圖像與架構…等皆屬Minitab Inc. 版權所有, 嚴禁商業上轉貼使用.
沒有留言:
張貼留言