有學過6
sigma的同學, 一定知道 Minitab這套軟體, 因為它把6 sigma實用化了. 過去 Minitab 並沒有中文版, 但對岸有人將它漢化後, 官方也出簡體中文版, 使用簡體中文版會比英文版更friendly, 但畢竟兩岸語文還是有差異, 尤其專有名詞上的差異更讓人難以適從, 例如常態分配 v.s. 正态分布; 品質 v.s. 质量; 巨集 v.s. 宏; 變異數分析
v.s.方差分析; 進階 v.s. 高级…
官方目前沒有繁體中文版.~可惜! 希望 Minitab TWN公司能早日完成繁體中文版的 Minitab. ~期待!
先前談到 Tutorials 教學課程, 了解如何使用 Minitab 各項功能。而在Help 協助 > StatGuide 統計指南中, 則對於輸出的結果有詳細的解釋說明:
Basic Statistics > Graphical Summary
圖表化匯總 > 匯總
圖表化匯總提供了可對資料匯總的多個圖表以及統計量匯總,這些都顯示在同一視窗中。
資料描述
一位積極的年輕氣象學者收集了她的家鄉在一年內的氣象資料。這些值顯示了每個月中具有明顯降雨的天數。她在一月份之後開始該專案,因此一月份沒有觀測值:
月份
一月 二月 三月 四月 五月 六月 七月 八月 九月
十月 十一月 十二月
降雨天數 *
2 3 10
5 4 4
3 3 1 2
3
資料:
降雨天數.MTW (在樣本資料檔案夾中)
圖表化匯總 > 包含常態曲線的資料直方圖
可以使用與常態曲線重疊的資料直方圖來評估資料的常態性。常態分布是對稱的,並且呈鍾形,如曲線所示。(請注意,在曲線擴展到圖表邊界之外的位置,將曲線截斷。)通常很難評估小樣本的常態性。
輸出範例
解釋
降雨量資料不服從常態曲線。這在很大程度上是因為圖表右側很遠處存在異常值。如果沒有此異常值,資料看上去更服從常態分布,如下圖所示:
圖表化匯總 > 箱形圖
箱形圖匯總了有關資料的形狀、離差和中心的資訊。這有助於發現異常值。
· 箱的左邊緣表示下四分位數 (Q1),而右邊緣表示上四分位數 (Q3)。因此,圖表的箱部分表示四分位數範圍 (IQR) 或觀測值的中間 50% 部分。
· 所繪製的透過該箱的線表示資料的中位數。
· 從箱擴展出去的直線稱為須。須向外擴展,表示資料集中(不包含異常值)的最低值和最高值。
· 極端值或異常值由點表示。如果某個值位於框之外的部分比 IQR 的 1.5 倍還多,則將該值視為異常值(大於 Q3 或小於 Q1)。
使用箱形圖可以評估資料的對稱性:
· 如果資料剛好對稱,中位線將大致位於 IQR 箱的中間,並且須的長度相近。
· 如果資料偏斜,中位線可能不在 IQR 框的中間,而且一條須可能顯著長於另一條。
輸出範例
解釋
在降雨量資料的箱形圖中,中位線位於 IQR 箱中心,須長度相同。這表明除了異常值(星號)之外,資料對稱。這恰好表明,異常值與樣本資料的其餘值可能不是來自同一總體。
圖表化匯總 > 平均值、標準差和中位數的信賴區間
信賴區間是用於從樣本資料中估計總體參數的區間。圖表化匯總中顯示了 m (mu)、s(標準差)和中位數的信賴區間的上下邊界。此外,還以圖表化方式顯示了 m 和中位數的信賴區間。
信賴區間由兩個基本部分構成:
· 點估計 - 從樣本資料中計算的個別值值。此值被認為是相關參數的估計值,但點估計不可能與參數相等。因此,為了考慮估計錯誤的機率,在信賴區間中包含了錯誤邊際,以提供可能的參數值的範圍。
· 錯誤邊際-透過使用機率來確定信賴區間的寬度。為了構造信賴區間,只需從點估計中加上或減去錯誤邊際。
如果選擇 95% 的信賴區間,則用於構造該區間的方法產生包含相關參數的區間的機率為 0.95。換句話說,參數值位於該區間內的機率為 95%。因此,如果構造 100 個
95% 的信賴區間,則大約有 95 個區間包含該參數。
輸出範例
95% 平均值信賴區間
2.0388 5.2339
95% 中位數信賴區間
2.0000 4.0822
95% 標準差信賴區間
1.6615 4.1731
信賴區間圖示於圖表化匯總的左下角。對應的統計量位於圖表右側。
解釋
降雨量資料的信賴區間表明,下列事實的信賴度為 95%:
· m(平均值)介於 2.0388 與 5.2339 之間。
· s(標準差)介於 1.6615 與 4.1731 之間。
· 中位數介於 2.0000 與 4.0822 之間。
圖表化匯總 > 統計量表 -
Anderson-Darling 常態性檢定
Anderson-Darling 常態性檢定可以協助您確定資料是否服從常態分布。該檢定提供的 A 統計量本身不能提供很多資訊,但可用於確定 p 值。p 值介於 0 與 1 之間,它指示資料服從常態分布的可能性。
首先,您需要確定為了計算出資料為非常態,p 值必須達到的低值。(通常選擇值 0.1。)然後,如果 p 值小於您的標準,則必須計算出資料不服從常態分布。否則,沒有足夠的證據可計算出資料不服從常態分布。
輸出範例
Anderson-Darling 常態性檢定
A 平方 0.99
P 值 0.008
平均值 3.6364
標準差 2.3779
變異數 5.6545
偏斜度 2.11078
峰態 5.61936
N 11
最小值 1.0000
下四分位數 2.0000
中位數 3.0000
上四分位數 4.0000
最大值 10.0000
Anderson-Darling 常態性檢定統計量位於圖表化匯總的右上角。
解釋
對於降雨量資料,A 平方的值為 0.99,關聯的 p 值為 0.008。假定您選擇 0.1 作為顯著性水準,則由於 0.008 小於 0.1,因此必須計算出資料不服從常態分布。
圖表化匯總 > 統計量表 - 平均值和 N
平均值
平均值(也稱為平均數)是對分布中心所在位置的量測。只需用全部觀測值的和除以觀測值個數。極端值會對平均值產生極大的影響。
N
N 是資料集中非遺失值的數量
輸出範例
Anderson-Darling 常態性檢定
A 平方 0.99
P 值 0.008
平均值 3.6364
標準差 2.3779
變異數 5.6545
偏斜度 2.11078
峰態 5.61936
N 11
最小值 1.0000
下四分位數 2.0000
中位數 3.0000
上四分位數 4.0000
最大值 10.0000
圖表化匯總中間的右側欄出了平均值和 N 值。
解釋
對於降雨量資料,N = 11,平均值為:
(2 + 3 + 10 + 5 + 4 + 4 + 3 + 3 + 1 + 2 + 3) / 11 = 3.6364.
儘管多數月份(11 個月中的 7 個月)中降雨天數為
3 天或更少,平均值仍接近於 4。4 月份降雨天數為 10 天這一極端值對平均值產生了很大影響。如果沒有此觀測值,平均值正好為 3。另一方面,如果在計算中將 4 月的降雨天數計為 30 天而非
10 天,那麼平均值將為 5.455,除一個觀測值外,該值比全部觀測值都大!
圖表化匯總 > 統計量表 - 標準差 (Stdev) 和變異數
標準差和變異數量測離差,或樣本中的觀測值偏離平均值的程度。標準差類似於到平均值的平均距離(與方向無關)。變異數就是標準差的平方。
和平均值一樣,標準差(以及變異數)對極端值也很敏感。
輸出範例
Anderson-Darling 常態性檢定
A 平方 0.99
P 值 0.008
平均值 3.6364
標準差 2.3779
變異數 5.6545
偏斜度 2.11078
峰態 5.61936
N 11
最小值 1.0000
下四分位數 2.0000
中位數 3.0000
上四分位數 4.0000
最大值 10.0000
圖表化匯總中間的右側欄出了標準差和變異數。
解釋
降雨量資料的標準差是 2.3779。這表明從平均的角度而言,資料集中的值傾向於偏離平均值 + 2.3779。
降雨量資料的變異數為 5.6545。
4 月份的降雨天數為 10 天這個大值將會大幅度增大標準差。如果沒有此值,標準差將為 1.155,而不是 2.3779。相反,如果 4 月份的降雨天數為 30 天,則標準差將為 8.210!
圖表化匯總 > 統計量表 - 偏斜度和峰態
偏斜度
偏斜度指缺乏對稱性。如果一端比另一端長,則分布就是偏斜的。圖表化匯總中提供偏斜度統計量:
· 接近於 0 的值表示對稱資料。
· 負值表示偏斜方向為負向/向左。
· 正值表示偏斜方向為正向/向右。
峰態
峰態指分布的尖峰程度。圖表化匯總中提供峰態統計量:
接近於 0 的值表示常態峰值資料。
· 負值表示分布比常態平穩。
· 正值表示分布的波峰比常態波峰更尖銳。
輸出範例
Anderson-Darling 常態性檢定
A 平方 0.99
P 值 0.008
平均值 3.6364
標準差 2.3779
變異數 5.6545
偏斜度 2.11078
峰態 5.61936
N 11
最小值 1.0000
下四分位數 2.0000
中位數 3.0000
上四分位數 4.0000
最大值 10.0000
圖表化匯總中間的右側欄出了偏斜度和峰態值。
解釋
降雨量資料的偏斜度值為 2.11078,表明分布向右偏斜。這是因為直方圖右側很遠處存在異常值。
降雨量資料的峰值為 5.61936,表明與常態分布相比,該分布的波峰更為尖銳。直方圖中演示了這一情況,其中顯示資料的峰值在常態曲線(藍色)之上。
圖表化匯總 > 統計量表 - 最小值和最大值
評估資料中離差的最簡單的方法之一是比較最小值和最大值。最小值是資料集中最小的值,最大值是資料集中最大的值。
最小值和最大值用於計算範圍,範圍是常用於描述資料集中離差的一個統計量。範圍就是最大值 - 最小值。請注意,範圍對於極端值非常敏感。
輸出範例
Anderson-Darling 常態性檢定
A 平方 0.99
P 值 0.008
平均值 3.6364
標準差 2.3779
變異數 5.6545
偏斜度 2.11078
峰態 5.61936
N 11
最小值 1.0000
下四分位數 2.0000
中位數 3.0000
上四分位數 4.0000
最大值 10.0000
圖表化匯總中間部分欄出了最小值和最大值。
解釋
對於降雨量資料,最小值為 1,最大值為 10,範圍為: 10 -
1 = 9.
即使多數資料都介於值 1 和 5 之間(範圍為 4),極端值 10 也會使樣本的範圍為 9。
圖表化匯總 > 統計量表 - 下四分位數和上四分位數(Q1 和 Q3)
剛好有 25% 的資料小於下四分位數(Q1,也稱為第 25 個百分位數)。它等於位置 (N + 1) / 4 的資料值。如果此位置編號不是整數,Minitab 將在該位置兩側的兩個觀測值之間進行推斷。
剛好有 75% 的資料小於上四分位數(Q3,也稱為第 75 個百分位數)。它等於位置 3(N + 1) / 4 的資料值。如果此位置編號不是整數,Minitab 將在該位置兩側的兩個觀測值之間進行推斷。
Q1 和 Q3 通常用於計算四分位數範圍(IQR),四分位數範圍是用於描述離差的另一個統計量。IQR 是中間 50% 的值的範圍,計算公式為 Q3 - Q1。相對而言,IQR 對極端值不敏感。
輸出範例
Anderson-Darling 常態性檢定
A 平方 0.99
P 值 0.008
平均值 3.6364
標準差 2.3779
變異數 5.6545
偏斜度 2.11078
峰態 5.61936
N 11
最小值 1.0000
下四分位數 2.0000
中位數 3.0000
上四分位數 4.0000
最大值 10.0000
圖表化匯總中間部分欄出了下四分位數和上四分位數。
解釋
對於降雨量資料,Q1 為 2,Q3 為 4,IQR 為 4 - 2 = 2。
注意,即使 4 月份的降雨天數是 30 天而不是
10 天,IQR 仍將保持不變。
圖表化匯總 > 統計量表 - 中位數
中位數(也稱為第 2 個四分位數或第 50 個百分位數)是資料集中的中間觀測值。它透過對資料排序並找出觀測值編號 [N + 1] / 2 來確定。
如果有偶數個觀測值,中位數表示為觀測值編號 N / 2 和 [N / 2] + 1 之間的值。
中位數不像平均值那樣對極端值敏感。因此,當資料包含異常值或偏斜時,通常使用中位數而非平均值。
輸出範例
Anderson-Darling 常態性檢定
A 平方 0.99
P 值 0.008
平均值 3.6364
標準差 2.3779
變異數 5.6545
偏斜度 2.11078
峰態 5.61936
N 11
最小值 1.0000
下四分位數 2.0000
中位數 3.0000
上四分位數 4.0000
最大值 10.0000
圖表化匯總的中間部分欄出了中位數。
解釋
在降雨量資料集中,有 11 個(非遺失)觀測值。因此,中位數是編號為 [11 + 1] / 2 的觀測值的值,或第 6 個最高的觀測值,該值為 3:
1 2 2 3
3 3 3
4 4 5 10
注意,即使 4 月份的降雨天數是 30 天而不是
10 天,此資料集的中位數仍將為 3。
Basic Statistics > Graphical Summary > More
訓練判斷力
要判斷一幅圖片,產生大量常態性沒有問題的資料集來訓練判斷力通常很有用。下列是從常態分布中抽取的九個資料集樣本。這些樣本沒有問題;但是,對於未經訓練的人來說,這些直方圖中的大多數可能看起來並非鍾形。
隨機產生樣本的直方圖
每個樣本包含常態分布中的 24 個觀測值。
比較中心趨勢的量測
如果資料對稱,則中心趨勢(平均值和中位數)的量測大致相同。如果資料非對稱,則量測可能會朝向更極端的觀測值。在量測中,平均值受極端值的影響最大,中位數受到的影響最小。
範例,下面的分布正向偏斜。請注意,平均值朝向偏斜方向的右側。中位數位於左側較遠處,更接近於大多數觀測值。這種情況下,中位數可能是描述資料中心的最佳方式。
比較標準差
標準差是對離差的量測。資料集中的離差越多,其標準差越高。
下面顯示的三個分布都是常態分布。它們還具有相同的平均值
(參考線),並包含相同數量的觀測值。這些分布之間的主要差別在於資料中的離差量不同。
範例,處於高分布的值都相對接近於平均值。該分布的標準差為 1。相反,處於最短分布的值變化很大。此分布的標準差為 3。中間分布的標準差為 2。
常態分布和標準差
至此已經介紹了有關常態分布中值分布的很多知識。這些知識是 Z 檢定和 t 檢定等許多假設檢定的基礎。
下圖是假設的常態分布的直方圖。此分布的平均值為 0,標準差為 1。因為該分布為常態分布,可以精確地確定位於特定區間的值的百分比。範例:
· 68.26% 的值將位於平均值的 + 1 標準差內(介於 -1 和 1 之間)
· 95.44% 的值將位於平均值的 + 2 標準差內(介於 -2 和 2 之間)
· 95.00% 的值將位於平均值的 + 1.96 標準差內(介於 -1.96 和 +1.96 之間)。因此,將有不到 5% (0.05) 的觀測值位於此範圍之外。對於許多假設檢定而言,此事實是 0.05 a 水準的基礎。
計算標準差和標準誤差
1 計算每個值與平均值的標準差並求平方:
2 對平變異數求和。(請注意,在對離差進行平方之前,其和始終為 0。因此,需要先對離差進行平方。)上述資料的平變異數的和為 56.546。
3 透過將平變異數的和除以 N-1 可以求得變異數:
變異數 = (平變異數的和) / (N - 1)
= 56.546 / 10
= 5.655
4 取變異數的平方根,以計算標準差:
標準差 = 變異數的平方根
= 2.378
5 然後,用標準差除以 N 的平方根,以計算平均值的標準誤差:
平均值的標準誤 = StDev/N 的平方根
= 2.378 / 3.317
= 0.717
計算四分位數
下四分位數(Q1,也稱為第 25 個百分位數)指定觀測值中最低 25% 的部分。如果按從最低值到最高值的順序排欄觀測值,則 Q1 是編號為 (N + 1) / 4 的觀測值的值。25% 的觀測值的值小於或等於 Q1。(如果 (N + 1) / 4 不是整數,則推斷出 Q1 的值。)
在降雨量資料集中,有 11 個觀測值,因此 Q1 是編號為
(11 + 1) / 4 的觀測值或第 3 個觀測值的值,此值為 2:
1 2
2 3 3
3 3 4
4 5 10
上四分位數(Q3,也稱為第 75 個百分位數)指定觀測值中最低 75% 的部分。如果對觀測值排序,則 Q3 是編號為 3 (N + 1) / 4 的觀測值的值。觀測值中 75% 的值等於或小於 Q3。(如果 3 (N + 1) / 4 不是整數,則推斷出 Q3 的值。)
在降雨量資料集中,有 11 個觀測值,因此 Q3 是編號為
3 (11 + 1) / 4 的觀測值或第 9 個觀測值的值,此值為 4:
1 2
2 3 3 3 3
4 4 5 10
Q1 和 Q3 通常用於計算四分位數範圍 (IQR),四分位數範圍是用於描述離差的另一個統計量。IQR 是中間 50% 的值的範圍,計算公式為 Q3 - Q1。降雨量資料集的 IQR 是 4 - 2 = 2。
相對而言,IQR 對極端值不敏感。範例,即使 4 月份的降雨天數是 30 天而不是 10 天,IQR 仍將保持不變。
詳細資訊請到官方網站進一步了解: http://www.minitab.com.tw/
和 http://www.minitab.com/
聲明: 本文純粹學術性研討, 內容所提及任何關於 Minitab 專有創作文字, 圖像與架構…等皆屬Minitab Inc. 版權所有, 嚴禁商業上轉貼使用.
沒有留言:
張貼留言