創意ing- 關於 6 sigma 專業軟體: minitab 繁體中文討論, 無關軟體下載...: Minitab: 6 sigma 專業軟體繁體中文討論-66

有學過6 sigma的同學, 一定知道 Minitab這套軟體, 因為它把6 sigma實用化了. 過去 Minitab 並沒有中文版, 但對岸有人將它漢化後, 官方也出簡體中文版, 使用簡體中文版會比英文版更friendly, 但畢竟兩岸語文還是有差異, 尤其專有名詞上的差異更讓人難以適從, 例如常態分配 v.s. 正态分布; 品質 v.s. 质量; 巨集 v.s. 宏; 變異數分析 v.s.方差分析; 進階 v.s. 高级…

官方目前沒有繁體中文版.~可惜! 希望 Minitab TWN公司能早日完成繁體中文版的 Minitab. ~期待!

先前談到 Tutorials 教學課程, 了解如何使用 Minitab 各項功能。而在Help 協助 > StatGuide 統計指南中, 則對於輸出的結果有詳細的解釋說明:

Basic Statistics > Graphical Summary

圖表化匯總 > 匯總

圖表化匯總提供了可對資料匯總的多個圖表以及統計量匯總，這些都顯示在同一視窗中。

資料描述

一位積極的年輕氣象學者收集了她的家鄉在一年內的氣象資料。這些值顯示了每個月中具有明顯降雨的天數。她在一月份之後開始該專案，因此一月份沒有觀測值：

月份

一月二月三月四月五月六月七月八月九月十月十一月十二月

降雨天數 * 2 3 10 5 4 4 3 3 1 2 3

資料：降雨天數.MTW （在樣本資料檔案夾中）

圖表化匯總 > 包含常態曲線的資料直方圖

可以使用與常態曲線重疊的資料直方圖來評估資料的常態性。常態分布是對稱的，並且呈鍾形，如曲線所示。（請注意，在曲線擴展到圖表邊界之外的位置，將曲線截斷。）通常很難評估小樣本的常態性。

輸出範例

解釋

降雨量資料不服從常態曲線。這在很大程度上是因為圖表右側很遠處存在異常值。如果沒有此異常值，資料看上去更服從常態分布，如下圖所示：

圖表化匯總 > 箱形圖

箱形圖匯總了有關資料的形狀、離差和中心的資訊。這有助於發現異常值。

· 箱的左邊緣表示下四分位數 (Q1)，而右邊緣表示上四分位數 (Q3)。因此，圖表的箱部分表示四分位數範圍 (IQR) 或觀測值的中間 50% 部分。

· 所繪製的透過該箱的線表示資料的中位數。

· 從箱擴展出去的直線稱為須。須向外擴展，表示資料集中（不包含異常值）的最低值和最高值。

· 極端值或異常值由點表示。如果某個值位於框之外的部分比 IQR 的 1.5 倍還多，則將該值視為異常值（大於 Q3 或小於 Q1）。

使用箱形圖可以評估資料的對稱性：

· 如果資料剛好對稱，中位線將大致位於 IQR 箱的中間，並且須的長度相近。

· 如果資料偏斜，中位線可能不在 IQR 框的中間，而且一條須可能顯著長於另一條。

輸出範例

解釋

在降雨量資料的箱形圖中，中位線位於 IQR 箱中心，須長度相同。這表明除了異常值（星號）之外，資料對稱。這恰好表明，異常值與樣本資料的其餘值可能不是來自同一總體。

圖表化匯總 > 平均值、標準差和中位數的信賴區間

信賴區間是用於從樣本資料中估計總體參數的區間。圖表化匯總中顯示了 m (mu)、s（標準差）和中位數的信賴區間的上下邊界。此外，還以圖表化方式顯示了 m 和中位數的信賴區間。

信賴區間由兩個基本部分構成：

· 點估計 - 從樣本資料中計算的個別值值。此值被認為是相關參數的估計值，但點估計不可能與參數相等。因此，為了考慮估計錯誤的機率，在信賴區間中包含了錯誤邊際，以提供可能的參數值的範圍。

· 錯誤邊際-透過使用機率來確定信賴區間的寬度。為了構造信賴區間，只需從點估計中加上或減去錯誤邊際。

如果選擇 95% 的信賴區間，則用於構造該區間的方法產生包含相關參數的區間的機率為 0.95。換句話說，參數值位於該區間內的機率為 95%。因此，如果構造 100 個 95% 的信賴區間，則大約有 95 個區間包含該參數。

輸出範例

95% 平均值信賴區間

2.0388 5.2339

95% 中位數信賴區間

2.0000 4.0822

95% 標準差信賴區間

1.6615 4.1731

信賴區間圖示於圖表化匯總的左下角。對應的統計量位於圖表右側。

解釋

降雨量資料的信賴區間表明，下列事實的信賴度為 95%：

· m（平均值）介於 2.0388 與 5.2339 之間。

· s（標準差）介於 1.6615 與 4.1731 之間。

· 中位數介於 2.0000 與 4.0822 之間。

圖表化匯總 > 統計量表 - Anderson-Darling 常態性檢定

Anderson-Darling 常態性檢定可以協助您確定資料是否服從常態分布。該檢定提供的 A 統計量本身不能提供很多資訊，但可用於確定 p 值。p 值介於 0 與 1 之間，它指示資料服從常態分布的可能性。

首先，您需要確定為了計算出資料為非常態，p 值必須達到的低值。（通常選擇值 0.1。）然後，如果 p 值小於您的標準，則必須計算出資料不服從常態分布。否則，沒有足夠的證據可計算出資料不服從常態分布。

輸出範例

Anderson-Darling 常態性檢定

A 平方 0.99

P 值 0.008

平均值 3.6364

標準差 2.3779

變異數 5.6545

偏斜度 2.11078

峰態 5.61936

N 11

最小值 1.0000

下四分位數 2.0000

中位數 3.0000

上四分位數 4.0000

最大值 10.0000

Anderson-Darling 常態性檢定統計量位於圖表化匯總的右上角。

解釋

對於降雨量資料，A 平方的值為 0.99，關聯的 p 值為 0.008。假定您選擇 0.1 作為顯著性水準，則由於 0.008 小於 0.1，因此必須計算出資料不服從常態分布。

圖表化匯總 > 統計量表 - 平均值和 N

平均值

平均值（也稱為平均數）是對分布中心所在位置的量測。只需用全部觀測值的和除以觀測值個數。極端值會對平均值產生極大的影響。

N 是資料集中非遺失值的數量

輸出範例

Anderson-Darling 常態性檢定

A 平方 0.99

P 值 0.008

平均值 3.6364

標準差 2.3779

變異數 5.6545

偏斜度 2.11078

峰態 5.61936

N 11

最小值 1.0000

下四分位數 2.0000

中位數 3.0000

上四分位數 4.0000

最大值 10.0000

圖表化匯總中間的右側欄出了平均值和 N 值。

解釋

對於降雨量資料，N = 11，平均值為：

(2 + 3 + 10 + 5 + 4 + 4 + 3 + 3 + 1 + 2 + 3) / 11 = 3.6364.

儘管多數月份（11 個月中的 7 個月）中降雨天數為 3 天或更少，平均值仍接近於 4。4 月份降雨天數為 10 天這一極端值對平均值產生了很大影響。如果沒有此觀測值，平均值正好為 3。另一方面，如果在計算中將 4 月的降雨天數計為 30 天而非 10 天，那麼平均值將為 5.455，除一個觀測值外，該值比全部觀測值都大！

圖表化匯總 > 統計量表 - 標準差 (Stdev) 和變異數

標準差和變異數量測離差，或樣本中的觀測值偏離平均值的程度。標準差類似於到平均值的平均距離（與方向無關）。變異數就是標準差的平方。

和平均值一樣，標準差（以及變異數）對極端值也很敏感。

輸出範例

Anderson-Darling 常態性檢定

A 平方 0.99

P 值 0.008

平均值 3.6364

標準差 2.3779

變異數 5.6545

偏斜度 2.11078

峰態 5.61936

N 11

最小值 1.0000

下四分位數 2.0000

中位數 3.0000

上四分位數 4.0000

最大值 10.0000

圖表化匯總中間的右側欄出了標準差和變異數。

解釋

降雨量資料的標準差是 2.3779。這表明從平均的角度而言，資料集中的值傾向於偏離平均值 + 2.3779。

降雨量資料的變異數為 5.6545。

4 月份的降雨天數為 10 天這個大值將會大幅度增大標準差。如果沒有此值，標準差將為 1.155，而不是 2.3779。相反，如果 4 月份的降雨天數為 30 天，則標準差將為 8.210！

圖表化匯總 > 統計量表 - 偏斜度和峰態

偏斜度

偏斜度指缺乏對稱性。如果一端比另一端長，則分布就是偏斜的。圖表化匯總中提供偏斜度統計量：

· 接近於 0 的值表示對稱資料。

· 負值表示偏斜方向為負向/向左。

· 正值表示偏斜方向為正向/向右。

峰態

峰態指分布的尖峰程度。圖表化匯總中提供峰態統計量：

接近於 0 的值表示常態峰值資料。

· 負值表示分布比常態平穩。

· 正值表示分布的波峰比常態波峰更尖銳。

輸出範例

Anderson-Darling 常態性檢定

A 平方 0.99

P 值 0.008

平均值 3.6364

標準差 2.3779

變異數 5.6545

偏斜度 2.11078

峰態 5.61936

N 11

最小值 1.0000

下四分位數 2.0000

中位數 3.0000

上四分位數 4.0000

最大值 10.0000

圖表化匯總中間的右側欄出了偏斜度和峰態值。

解釋

降雨量資料的偏斜度值為 2.11078，表明分布向右偏斜。這是因為直方圖右側很遠處存在異常值。

降雨量資料的峰值為 5.61936，表明與常態分布相比，該分布的波峰更為尖銳。直方圖中演示了這一情況，其中顯示資料的峰值在常態曲線（藍色）之上。

圖表化匯總 > 統計量表 - 最小值和最大值

評估資料中離差的最簡單的方法之一是比較最小值和最大值。最小值是資料集中最小的值，最大值是資料集中最大的值。

最小值和最大值用於計算範圍，範圍是常用於描述資料集中離差的一個統計量。範圍就是最大值 - 最小值。請注意，範圍對於極端值非常敏感。

輸出範例

Anderson-Darling 常態性檢定

A 平方 0.99

P 值 0.008

平均值 3.6364

標準差 2.3779

變異數 5.6545

偏斜度 2.11078

峰態 5.61936

N 11

最小值 1.0000

下四分位數 2.0000

中位數 3.0000

上四分位數 4.0000

最大值 10.0000

圖表化匯總中間部分欄出了最小值和最大值。

解釋

對於降雨量資料，最小值為 1，最大值為 10，範圍為： 10 - 1 = 9.

即使多數資料都介於值 1 和 5 之間（範圍為 4），極端值 10 也會使樣本的範圍為 9。

圖表化匯總 > 統計量表 - 下四分位數和上四分位數（Q1 和 Q3）

剛好有 25% 的資料小於下四分位數（Q1，也稱為第 25 個百分位數）。它等於位置 (N + 1) / 4 的資料值。如果此位置編號不是整數，Minitab 將在該位置兩側的兩個觀測值之間進行推斷。

剛好有 75% 的資料小於上四分位數（Q3，也稱為第 75 個百分位數）。它等於位置 3(N + 1) / 4 的資料值。如果此位置編號不是整數，Minitab 將在該位置兩側的兩個觀測值之間進行推斷。

Q1 和 Q3 通常用於計算四分位數範圍(IQR)，四分位數範圍是用於描述離差的另一個統計量。IQR 是中間 50% 的值的範圍，計算公式為 Q3 - Q1。相對而言，IQR 對極端值不敏感。

輸出範例

Anderson-Darling 常態性檢定

A 平方 0.99

P 值 0.008

平均值 3.6364

標準差 2.3779

變異數 5.6545

偏斜度 2.11078

峰態 5.61936

N 11

最小值 1.0000

下四分位數 2.0000

中位數 3.0000

上四分位數 4.0000

最大值 10.0000

圖表化匯總中間部分欄出了下四分位數和上四分位數。

解釋

對於降雨量資料，Q1 為 2，Q3 為 4，IQR 為 4 - 2 = 2。

注意，即使 4 月份的降雨天數是 30 天而不是 10 天，IQR 仍將保持不變。

圖表化匯總 > 統計量表 - 中位數

中位數（也稱為第 2 個四分位數或第 50 個百分位數）是資料集中的中間觀測值。它透過對資料排序並找出觀測值編號 [N + 1] / 2 來確定。

如果有偶數個觀測值，中位數表示為觀測值編號 N / 2 和 [N / 2] + 1 之間的值。

中位數不像平均值那樣對極端值敏感。因此，當資料包含異常值或偏斜時，通常使用中位數而非平均值。

輸出範例

Anderson-Darling 常態性檢定

A 平方 0.99

P 值 0.008

平均值 3.6364

標準差 2.3779

變異數 5.6545

偏斜度 2.11078

峰態 5.61936

N 11

最小值 1.0000

下四分位數 2.0000

中位數 3.0000

上四分位數 4.0000

最大值 10.0000

圖表化匯總的中間部分欄出了中位數。

解釋

在降雨量資料集中，有 11 個（非遺失）觀測值。因此，中位數是編號為 [11 + 1] / 2 的觀測值的值，或第 6 個最高的觀測值，該值為 3：

1 2 2 3 3 3 3 4 4 5 10

注意，即使 4 月份的降雨天數是 30 天而不是 10 天，此資料集的中位數仍將為 3。

Basic Statistics > Graphical Summary > More

訓練判斷力

要判斷一幅圖片，產生大量常態性沒有問題的資料集來訓練判斷力通常很有用。下列是從常態分布中抽取的九個資料集樣本。這些樣本沒有問題；但是，對於未經訓練的人來說，這些直方圖中的大多數可能看起來並非鍾形。

隨機產生樣本的直方圖

每個樣本包含常態分布中的 24 個觀測值。

比較中心趨勢的量測

如果資料對稱，則中心趨勢（平均值和中位數）的量測大致相同。如果資料非對稱，則量測可能會朝向更極端的觀測值。在量測中，平均值受極端值的影響最大，中位數受到的影響最小。

範例，下面的分布正向偏斜。請注意，平均值朝向偏斜方向的右側。中位數位於左側較遠處，更接近於大多數觀測值。這種情況下，中位數可能是描述資料中心的最佳方式。

比較標準差

標準差是對離差的量測。資料集中的離差越多，其標準差越高。

下面顯示的三個分布都是常態分布。它們還具有相同的平均值（參考線），並包含相同數量的觀測值。這些分布之間的主要差別在於資料中的離差量不同。

範例，處於高分布的值都相對接近於平均值。該分布的標準差為 1。相反，處於最短分布的值變化很大。此分布的標準差為 3。中間分布的標準差為 2。

常態分布和標準差

至此已經介紹了有關常態分布中值分布的很多知識。這些知識是 Z 檢定和 t 檢定等許多假設檢定的基礎。

下圖是假設的常態分布的直方圖。此分布的平均值為 0，標準差為 1。因為該分布為常態分布，可以精確地確定位於特定區間的值的百分比。範例：

· 68.26% 的值將位於平均值的 + 1 標準差內（介於 -1 和 1 之間）

· 95.44% 的值將位於平均值的 + 2 標準差內（介於 -2 和 2 之間）

· 95.00% 的值將位於平均值的 + 1.96 標準差內（介於 -1.96 和 +1.96 之間）。因此，將有不到 5% (0.05) 的觀測值位於此範圍之外。對於許多假設檢定而言，此事實是 0.05 a 水準的基礎。

計算標準差和標準誤差

1 計算每個值與平均值的標準差並求平方：

2 對平變異數求和。（請注意，在對離差進行平方之前，其和始終為 0。因此，需要先對離差進行平方。）上述資料的平變異數的和為 56.546。

3 透過將平變異數的和除以 N-1 可以求得變異數：

變異數 = (平變異數的和) / (N - 1)

= 56.546 / 10

= 5.655

4 取變異數的平方根，以計算標準差：

標準差 = 變異數的平方根

= 2.378

5 然後，用標準差除以 N 的平方根，以計算平均值的標準誤差：

平均值的標準誤 = StDev/N 的平方根

= 2.378 / 3.317

= 0.717

計算四分位數

下四分位數（Q1，也稱為第 25 個百分位數）指定觀測值中最低 25% 的部分。如果按從最低值到最高值的順序排欄觀測值，則 Q1 是編號為 (N + 1) / 4 的觀測值的值。25% 的觀測值的值小於或等於 Q1。（如果 (N + 1) / 4 不是整數，則推斷出 Q1 的值。）

在降雨量資料集中，有 11 個觀測值，因此 Q1 是編號為 (11 + 1) / 4 的觀測值或第 3 個觀測值的值，此值為 2：

1 2 2 3 3 3 3 4 4 5 10

上四分位數（Q3，也稱為第 75 個百分位數）指定觀測值中最低 75% 的部分。如果對觀測值排序，則 Q3 是編號為 3 (N + 1) / 4 的觀測值的值。觀測值中 75% 的值等於或小於 Q3。（如果 3 (N + 1) / 4 不是整數，則推斷出 Q3 的值。）

在降雨量資料集中，有 11 個觀測值，因此 Q3 是編號為 3 (11 + 1) / 4 的觀測值或第 9 個觀測值的值，此值為 4：

1 2 2 3 3 3 3 4 4 5 10

Q1 和 Q3 通常用於計算四分位數範圍 (IQR)，四分位數範圍是用於描述離差的另一個統計量。IQR 是中間 50% 的值的範圍，計算公式為 Q3 - Q1。降雨量資料集的 IQR 是 4 - 2 = 2。

相對而言，IQR 對極端值不敏感。範例，即使 4 月份的降雨天數是 30 天而不是 10 天，IQR 仍將保持不變。

詳細資訊請到官方網站進一步了解: http://www.minitab.com.tw/ 和 http://www.minitab.com/

創意ing- 關於 6 sigma 專業軟體: minitab 繁體中文討論, 無關軟體下載...

2012年8月10日星期五

Minitab: 6 sigma 專業軟體繁體中文討論-66

沒有留言:

張貼留言

標籤

2012年8月10日 星期五

Minitab: 6 sigma 專業軟體 繁體中文討論-66

沒有留言:

張貼留言

2012年8月10日星期五

Minitab: 6 sigma 專業軟體繁體中文討論-66