Science Focus (issue 25)

上年網上遊戲 Wordle 的風潮席捲全球,大家的社交 媒體好一陣子都被綠色、黃色和灰色的方格佔據。你可能 見過朋友誇耀自己只猜了三次就已解開當天謎題,也有時 會沮喪地抱怨當天只能以「X/6」飲恨作結,未能揭開當天 謎底。當我們思考應用甚麼單字開始遊戲時,我們也許會 很隨性地把一個五個字母長的任意單字填進空格,但其實 這其實是一個科學問題。我們不難意識到有些單字比別的 好,對我們稍後的猜測更為有利,譬如選擇「FUZZY」遠比 「RAISE」不智,因為前者包括的字母遠比後者冷門。那麼, 哪個單字才是能幫我們贏出遊戲的最佳選擇呢? 甚麼是 Wordle? 我們假設讀者知道 Wordle 的運作方式,但如果你不 知道的話,以下是懶人包。 Wordle 的數據庫包含 2,315 個由開發者挑選,五個字 母長作為答案的單字,也有大概13,000 個被系統視為存 在的有效單字(裡面除了2,315 個作為答案的單字外,還包 括許多不常用的單字)[1]。每天程式都會從數據庫抽取一個 單字作為當天遊戲的答案。如果你猜的單字包含答案裡有 的字母,而該字母位於正確的位置上,該方格將會變為綠色; 如字母正確,但位置錯誤,該方格將變為黃色;如答案並沒 有包含該字母,方格則會變為灰色。 有用?無用? 解答以上問題前,我們必先量化「有用」這個指標。「有 用」的猜測能給我們更多資訊,但我們怎樣量化資訊呢?資 訊理論之父Claude Shannon早已在1940年代替我們 解決這個問題。 Shannon 用以下公式定義資訊: ,p為事情發 生的概率。你可能會問:為甚麼會是對數函數(logarithm function)呢?回想一下高中時我們學過的對數定律: ,如果有兩件獨立事件,兩者發生的概 率分別為p1 和p2,那麼他們兩者都發生的概率會是 p1p2, 或是: 事件發生概率的相乘結構就此保存於公式給出的資訊 量裡面。資訊的單位為位元(bit);在 Wordle 裡意味著一 個單字能把搜尋範圍縮小一半的次數。 「FUZZY」不太可能使我們一撃即中。假如它變出五個 灰色方格的話,這些方格給予我們甚麼資訊? 取以上兩個我們用作第一次猜測的單字(「FUZZY」和 「RAISE」)作為例子,「F」在英文單字裡出現的概率約為 2.2%(表一)[2],因此它沒有出現的概率為97.8%或0.978。 我們可以找出單字中各個字母沒有出現的概率,然後計算出 「FUZZY」的總資訊量為 0.093 位元(註一): 那如果「RAISE」給出五個灰色方格呢?資訊量為: average [3]. We are not suggesting that you recite the list of possible solutions and analyze every move like a computer, but having a good first guess should be a good way to start off the day with a good shot at a puzzle. 1 Editor’s remark: The second letter Z can indeed provide extra information. If both your guess and the answer contain two identical letters, say “FUZZY” and “WHIZZ”, both boxes of Z’s will turn yellow and/or green to confirm that the answer contains two Z’s. 2 Editor’s remark: The source of text (e.g. general documents, dictionary) can affect the values. Table 1 shows the frequencies of letters that appear in English documents of all types [2]; a more accurate way of estimating the probability in our case is to check the probability of each letter appearing in each slot according to the list of words in the New York Times code. For simplicity’s sake, values concerning the general English language were used here, but the more accurate way has already been done by the YouTuber Grant Sanderson (3blue1brown) [3]. 表一 英語裡一些字母的出現頻率(註二)[2] 字母 出現頻率 字母 出現頻率 F 2.2% R 6.0% U 2.8% A 8.2% Z 0.074% I 7.0% Y 2.0% S 6.3% E 13%

RkJQdWJsaXNoZXIy NDk5Njg=