有學過6
sigma的同學, 一定知道 Minitab這套軟體, 因為它把6 sigma實用化了. 過去 Minitab 並沒有中文版, 但對岸有人將它漢化後, 官方也出簡體中文版, 使用簡體中文版會比英文版更friendly, 但畢竟兩岸語文還是有差異, 尤其專有名詞上的差異更讓人難以適從, 例如常態分配 v.s. 正态分布; 品質 v.s. 质量; 巨集 v.s. 宏; 變異數分析
v.s.方差分析; 進階 v.s. 高级…
官方目前沒有繁體中文版.~可惜! 希望 Minitab TWN公司能早日完成繁體中文版的 Minitab. ~期待!
先前談到 Tutorials 教學課程, 了解如何使用 Minitab 各項功能。而在Help 協助 > StatGuide 統計指南中, 則對於輸出的結果有詳細的解釋說明:
Basic Statistics > Display Descriptive Statistics
顯示敘述性統計 >
匯總
使用此資訊可以評估資料分布的基本計數值:
· 觀測值個數
· 中心趨勢 - 資料集的中心或大多數典型值所在的位置
· 離差
- 資料集的變異量或展開
顯示敘述性統計”可以提供整欄資料或欄中資料子集的匯總資訊。
資料描述
一位積極的年輕氣象學者收集了她的家鄉在一年內的氣象資料。這些值顯示了每個月中具有明顯降雨的天數。她在一月份之後開始該專案,因此一月份沒有觀測值:
月份
一月 二月 三月 四月 五月 六月 七月 八月 九月
十月 十一月 十二月
降雨天數 *
2 3 10
5 4 4
3 3 1
2 3
資料:
降雨天數.MTW (在樣本資料檔案夾中)
顯示敘述性統計 > 觀測值個數
- N 和 N*
N 和 N* 提供有關資料集中觀測值個數的資訊:
· N 是非遺失值的數量。
· N* 是遺失值的數量。如果沒有遺失值,則不顯示此統計量。
顯示的全部其他統計量都只基於非遺失值。
輸出範例
平均值標
變數 N N* 平均值 準誤 標準差 最小值
降雨天數 11 1
3.636 0.717 2.378
1.000
下四分 上四分
變數 位數 中位數 位數 最大值
降雨天數 2.000 3.000
4.000 10.000
解釋
對於降雨量資料,N = 11,N* = 1。
顯示敘述性統計 > 中心趨勢 -
平均值
平均值(也稱為平均數)是對分布中心所在位置的量測。只需用全部觀測值的和除以觀測值個數。
極端值會對平均值產生極大的影響。
輸出範例
平均值標
變數 N N* 平均值 準誤 標準差 最小值
降雨天數 11 1
3.636 0.717 2.378
1.000
下四分 上四分
變數 位數 中位數 位數 最大值
降雨天數 2.000 3.000
4.000 10.000
解釋
對於降雨量資料,平均值為:
(2 + 3 + 10 + 5 + 4 + 4 + 3 + 3 + 1 + 2 + 3) / 11 = 3.636.
儘管多數月份(11 個月中的 7 個月)中降雨天數為
3 天或更少,平均值仍接近於 4。4 月份降雨天數為 10 天這一極端值對平均值產生了很大影響。如果沒有此觀測值,平均值正好為 3。另一方面,如果在計算中將 4 月的降雨天數計為 30 天而非
10 天,那麼平均值將為 5.455,除一個觀測值外,該值比全部觀測值都大!
顯示敘述性統計 > 中心趨勢 -
中位數
中位數(也稱為第 2 個四分位數或第 50 個百分位數)是資料集中的中點:有一半觀測值位於其上,一半觀測值位於其下。它透過對資料排序並找出觀測值編號 [N + 1] / 2 來確定。如果有偶數個觀測值,中位數表示為觀測值編號 N / 2
和 [N / 2] + 1 之間的值。
中位數不像平均值那樣對極端值敏感。因此,當資料包含異常值或偏斜時,通常使用中位數而非平均值。
輸出範例
平均值標
變數 N
N* 平均值 準誤 標準差 最小值
降雨天數 11 1
3.636 0.717 2.378
1.000
下四分 上四分
變數 位數 中位數 位數 最大值
降雨天數 2.000 3.000
4.000 10.000
解釋
在降雨量資料集中,有 11 個(非遺失)觀測值。因此,中位數是第 6 個最高(或第 6 個最低)觀測值的值,該值為 3:
1 2
2 3 3 3 3 4
4 5 10
注意,即使 4 月份的降雨天數是 30 天而不是
10 天,此資料集的中位數仍將為 3。
顯示敘述性統計 > 離差 - 標準差 (Stdev)
標準差 (StDev) 量測樣本中的觀測值偏離平均值的程度。它類似於到平均值的平均距離(與方向無關)。標準差是最常報告的離差的量度。在樣本取自的更廣泛總體中,標準差也用作離差的估計值。與平均值相似,標準差對極端值也很敏感。
如果資料呈常態分布,則標準差和平均值可用來確定觀測值處於給定值範圍內的比例。範例,常態分布中 95% 的值處於平均值的 + 1.96 標準差之內。
輸出範例
平均值標
變數 N N* 平均值 準誤 標準差 最小值
降雨天數 11 1
3.636 0.717 2.378
1.000
下四分 上四分
變數 位數 中位數 位數 最大值
降雨天數 2.000 3.000
4.000 10.000
解釋
降雨量資料的標準差是 2.378。這表明從平均的角度而言,資料集中的值傾向於偏離平均值 + 2.378。
4 月份的降雨天數為 10 天這個大值將會大幅度增大標準差。如果沒有此值,標準差將為 1.155,而不是 2.378。相反,如果 4 月份的降雨天數為 30 天,則標準差將為 8.210!
顯示敘述性統計 > 離差 - 平均值的標準誤差 (SE Mean)
平均值的標準誤差 (SE Mean) 通常不用作敘述性統計,但它在假設檢定中非常重要。如果您繼續從總體中提取相同數量的樣本,則平均值的標準誤差是您要從樣本平均值的分布中觀測的離差的估計值。
平均值的標準誤差為標準差除以
。
輸出範例
平均值標
變數 N N* 平均值 準誤 標準差 最小值
降雨天數 11 1
3.636 0.717 2.378
1.000
下四分 上四分
變數 位數 中位數 位數 最大值
降雨天數 2.000 3.000
4.000 10.000
解釋
對於降雨量資料,平均值的標準誤差為 0.717。
顯示敘述性統計 > 離差 - 最小值和最大值
評估資料中離差的最簡單的方法之一是比較最小值和最大值。最小值是資料集中最小的值,最大值是資料集中最大的值。
最小值和最大值用於計算範圍,範圍是常用於描述資料集中離差的一個統計量。範圍就是最大值 - 最小值。請注意,範圍對於極端值非常敏感。
輸出範例
平均值標
變數 N N* 平均值 準誤 標準差 最小值
降雨天數 11 1
3.636 0.717 2.378
1.000
下四分 上四分
變數 位數 中位數 位數 最大值
降雨天數 2.000 3.000
4.000 10.000
解釋
對於降雨量資料,最小值為 1,最大值為 10。
對於降雨量資料,範圍為: 10 - 1 = 9
即使多數資料都介於值 1 和 5 之間(範圍為 4),極端值 10 也會使樣本的範圍為 9。
顯示敘述性統計 > 離差 - 下四分位數和上四分位數(Q1 和 Q3)
剛好有 25% 的資料小於下四分位數(Q1,也稱為第 25 個百分位數)。它等於位置 (N + 1) / 4 的資料值。如果此位置編號不是整數,Minitab 將在該位置兩側的兩個觀測值之間進行推斷。
剛好有 75% 的資料小於上四分位數(Q3,也稱為第 75 個百分位數)。它等於位置 3(N + 1) / 4 的資料值。如果此位置編號不是整數,Minitab 將在該位置兩側的兩個觀測值之間進行推斷。
Q1 和 Q3 通常用於計算四分位數範圍(IQR),四分位數範圍是用於描述離差的另一個統計量。IQR 是中間 50% 的值的範圍,計算公式為 Q3 - Q1。相對而言,IQR 對極端值不敏感。
輸出範例
平均值標
變數 N N* 平均值 準誤 標準差 最小值
降雨天數 11 1
3.636 0.717 2.378
1.000
下四分 上四分
變數 位數 中位數 位數 最大值
降雨天數 2.000 3.000
4.000 10.000
解釋
對於降雨量資料,Q1 為 2,Q3 為 4,IQR 為 4 - 2 = 2。
注意,即使 4 月份的降雨天數是 30 天而不是
10 天,IQR 仍將保持不變。
顯示敘述性統計 > 圖表 - 資料直方圖
直方圖顯示已匯總到區間中的資料。直方圖可用來評估資料的對稱性或偏斜度。為了構造直方圖,將水準軸劃分為相等的區間,並在每個區間內繪製表示頻率(屬於此區間的值的數量)的垂直條。
輸出範例
解釋
在降雨量資料的直方圖中,請注意區間 9.5 到 10.5 中的個別值極值。如果沒有此異常值,分布將完全對稱,並且正好為常態。
顯示敘述性統計 > 圖表 - 包含常態曲線的資料直方圖
可以使用與常態曲線重疊的資料直方圖來評估資料的常態性。常態分布是對稱的,並且呈鍾形,如曲線所示。(請注意,在曲線擴展到圖表邊界之外的位置,將曲線截斷。)通常很難評估小樣本的常態性。
輸出範例
解釋
降雨量資料不服從常態曲線。這在很大程度上是因為圖表右側很遠處存在異常值。如果沒有此異常值,資料看上去更服從常態分布,如下圖所示。
顯示敘述性統計 > 圖表 - 個別值圖
使用個別值圖可以檢查資料的離差和集中度。每個圓形表示一個觀測值。
如果選擇依計量值對資料分組,Minitab 將使圖表以垂直方向顯示。否則,圖表以水準方向顯示。
輸出範例
解釋
在降雨量資料集的個別值圖中,請注意除了一個點之外,其餘點都介於 1 和 5 之間。
顯示敘述性統計 > 圖表 - 資料箱形圖
箱形圖匯總了有關資料的形狀、離差和中心的資訊。這有助於發現異常值。
箱的下邊緣表示下四分位數 (Q1),而上邊緣表示上四分位數 (Q3)。因此,圖表的箱部分表示四分位數範圍 (IQR) 或觀測值的中間 50% 部分。
所繪製的透過該箱的水準線表示資料的中位數。
從箱擴展出去的直線稱為須。須向外擴展,表示資料集中(不包含異常值)的最低值和最高值。
極端值或異常值由星號 (*) 表示。
使用箱形圖可以評估資料的對稱性:
· 如果資料剛好對稱,中位線將大致位於 IQR 箱的中間,並且須的長度相近。
· 如果資料偏斜,中位線可能不在 IQR 框的中間,而且一條須可能顯著長於另一條。
輸出範例
解釋
在降雨量資料的箱形圖中,中位線位於 IQR 箱中心,須長度相同。這表明除了異常值(星號)之外,資料對稱。這恰好表明,異常值與樣本資料的其餘值可能不是來自同一總體。
Basic Statistics > Display Descriptive Statistics > More
比較中心趨勢的量測
如果資料對稱,則中心趨勢(平均值和中位數)的量測大致相同。如果資料非對稱,則量測可能會朝向更極端的觀測值。在量測中,平均值受極端值的影響最大,中位數受到的影響最小。
範例,下面的分布正向偏斜。請注意,平均值朝向偏斜方向的右側。中位數位於左側較遠處,更接近於大多數觀測值。這種情況下,中位數可能是描述資料中心的最佳方式。
比較標準差
標準差是對離差的量測。資料集中的離差越多,其標準差越高。
下面顯示的三個分布都是常態分布。它們還具有相同的平均值
(參考線),並包含相同數量的觀測值。這些分布之間的主要差別在於資料中的離差量不同。
範例,處於高分布的值都相對接近於平均值。該分布的標準差為 1。相反,處於最短分布的值變化很大。此分布的標準差為 3。中間分布的標準差為 2。
常態分布和標準差
至此已經介紹了有關常態分布中值分布的很多知識。這些知識是 Z 檢定和 t 檢定等許多假設檢定的基礎。
下圖是假設的常態分布的直方圖。此分布的平均值為 0,標準差為 1。因為該分布為常態分布,可以精確地確定位於特定區間的值的百分比。範例:
· 68.26% 的值將位於平均值的 + 1 標準差內(介於 -1 和 1 之間)
· 95.44% 的值將位於平均值的 + 2 標準差內(介於 -2 和 2 之間)
· 95.00% 的值將位於平均值的 + 1.96 標準差內(介於 -1.96 和 +1.96 之間)。因此,將有不到 5% (0.05) 的觀測值位於此範圍之外。對於許多假設檢定而言,此事實是 0.05 a 水準的基礎。
計算標準差和標準誤差
1
計算每個值與平均值的標準差並求平方:
2 對平變異數求和。(請注意,在對離差進行平方之前,其和始終為 0。因此,需要先對離差進行平方。)上述資料的平變異數的和為 56.546。
3 透過將平變異數的和除以 N-1 可以求得變異數:
變異數 = (平變異數的和) / (N - 1)
= 56.546 / 10 = 5.655
4 取變異數的平方根,以計算標準差:
標準差 = 變異數的平方根
= 2.378
5 然後,用標準差除以 N 的平方根,以計算平均值的標準誤差:
平均值的標準誤 = StDev/N 的平方根
= 2.378 / 3.317 =
0.717
計算四分位數
下四分位數(Q1,也稱為第 25 個百分位數)指定觀測值中最低 25% 的部分。如果按從最低值到最高值的順序排欄觀測值,則 Q1 是編號為 (N + 1) / 4 的觀測值的值。25% 的觀測值的值小於或等於 Q1。(如果 (N + 1) / 4 不是整數,則推斷出 Q1 的值。)
在降雨量資料集中,有 11 個觀測值,因此 Q1 是編號為
(11 + 1) / 4 的觀測值或第 3 個觀測值的值,此值為 2:
1 2
2 3 3 3 3
4 4 5 10
上四分位數(Q3,也稱為第 75 個百分位數)指定觀測值中最低 75% 的部分。如果對觀測值排序,則 Q3 是編號為 3 (N + 1) / 4 的觀測值的值。觀測值中 75% 的值等於或小於 Q3。(如果 3 (N + 1) / 4 不是整數,則推斷出 Q3 的值。)
在降雨量資料集中,有 11 個觀測值,因此 Q3 是編號為
3 (11 + 1) / 4 的觀測值或第 9 個觀測值的值,此值為 4:
1 2
2 3 3 3 3
4 4 5 10
Q1 和 Q3 通常用於計算四分位數範圍 (IQR),四分位數範圍是用於描述離差的另一個統計量。IQR 是中間 50% 的值的範圍,計算公式為 Q3 - Q1。降雨量資料集的 IQR 是 4 - 2 = 2。
相對而言,IQR 對極端值不敏感。範例,即使 4 月份的降雨天數是 30 天而不是 10 天,IQR 仍將保持不變。
訓練判斷力
要判斷一幅圖片,產生大量常態性沒有問題的資料集來訓練判斷力通常很有用。下列是從常態分布中抽取的九個資料集樣本。這些樣本沒有問題;但是,對於未經訓練的人來說,這些直方圖中的大多數可能看起來並非鍾形。
隨機產生樣本的直方圖
每個樣本包含常態分布中的 24 個觀測值。
詳細資訊請到官方網站進一步了解: http://www.minitab.com.tw/
和 http://www.minitab.com/
聲明: 本文純粹學術性研討, 內容所提及任何關於 Minitab 專有創作文字, 圖像與架構…等皆屬Minitab Inc. 版權所有, 嚴禁商業上轉貼使用.
沒有留言:
張貼留言