Science Focus (Issue 31)

5 作為見習釀酒師,Gosset 的工作是評估大麥和啤酒 花的品質如何影響啤酒品質。農產品的品質會隨氣候和土 壤條件等因素而有所波動,因此 Gosset 的目標是在確保 成本效益的同時,將啤酒品質維持在高水平,這就需要從 小量樣本推論出大規模的釀造過程是否合乎標準。 20 世紀初已經存在中心極限定理,許多人已經熟悉在 樣本數量足夠大時使用正態分佈進行統計推論。Gosset 透過量度在不同條件下(例如使用不同批次的發芽大麥) 釀造出來啤酒的酸度值,以判斷不同批次啤酒是否在平均 酸度上存在顯著差異。 透過計算,Gosset 發現當樣本量較小時,樣本平均值 的抽樣分佈會明顯偏離正態分佈。這個發現促使他開始尋 找類似正態分佈,但適合小樣本量的新型分佈。 雖然 Gosset 曾在牛津大學的數學考試中取得優秀成 績,但他顯然並非專業數學家,因此學生t 分佈的誕生其 實有賴他與當時多位頂尖統計學家的緊密聯繫。 其中,Karl Pearson(註二)對Gosset的職業生涯 影響深遠。Pearson 向 Gosset 介紹了幾乎所有當時已知 的統計方法,並邀請他於 1906 至 1907 年訪問 Pearson 於倫敦大學學院所在的學系。在此期間,Gosset專注 研究小樣本問題,並於 1908 年在Pearson主編的 《Biometrika》期刊上發表了一篇劃時代的論文〈平均值 的可能誤差〉(The Probable Error of a Mean)[4]。 細心的讀者或許會注意到,這篇論文的作者署名是 「Student」(學生),而非 Gosset 的本名。這是因為健 圖一 正態分佈(粉紅)和自由度為1時的t分佈(藍)。與正態分 佈相比,t分佈的峰部較矮,尾部較「粗」。 力士啤酒廠有一項規定,禁止員工以本名或使用任何公 司數據發表論文。為了遵守這項政策,Gosset 選擇使用 筆名「Student」發表論文,據說靈感來自他當時使用的 筆記本封面標題《學生的科學筆記本》(The Student’s Science Notebook)[5]。 然而,「t 分佈」這個名稱並非出自 Gosset 本人。在 1908 年的論文中,Gosset 仍然使用符號z來推導樣本 量為4到10時樣本平均值的抽樣分佈。符號t 稍後由 傳奇統計學家兼Gosset好友Ronald Fisher(註三)於 1925 年的論文引入 [6]。Fisher在這篇著作中完整推導 出學生t 分佈的值,並證明了它是一種經轉換後的正態分 佈。t 分佈的形狀會隨樣本量n改變,而技術上樣本量會 以自由度(degree of freedom,即n – 1)表示。在樣 本量較小的情況下,相比起正態分佈,t 分佈的峰部會較 矮,尾部也較「粗」(圖一)。隨著樣本量增加,尤其當n 大於 30 時,t 分佈會開始變得接近正態分佈。

RkJQdWJsaXNoZXIy NDk5Njg=