Science Focus (issue 25)

單詞已經可以提供 16 億(40,000P2)個組合 [1]。GPT模 型的成功之道在於它能作出一個合理的猜測來選一條足夠 好的「線」來總結「點」的分佈,用理論值覆蓋現實文本鞭長 莫及的部分。迄今為止,我們不太了解電腦如何做到這一 點,就像我們並不真正了解大腦是如何憑直覺完成簡單事 情一樣,但我們只知道GPT 的開發者可以在每次學習過 程中調整網絡裡每個神經元輸出值的比重,以得出最佳結 果。換句話說,我們藉由機器學習訓練神經網絡,以找出 最合適總結資料點的「曲線」。 最終,我們的目標是讓GPT預測緊隨在未完成句子後 的單詞,從而使它得到自主寫作的能力。 無窮創意 「令人驚訝的是,GPT可以像人一樣寫作。它能生成讀 起來像人寫的文本,具有相似的風格、語法和詞彙。它做到 這一點的方法是從大量文本(如書籍、文章和網站)中學習, 這有助於它理解語言在不同語境中是如何使用的……」 以上一段文字是由 GPT-3.5 聊天機器人 Sage 寫的,但 讀起來就像人寫的一樣,如果我不告訴你,你大抵也不會注 意到。但它是怎麽做到的?正如 GPT自述的那樣,它是以大 量文本訓練出來的一個 LLM,在寫完每個短語後,它會評估 從統計學角度看來最有可能出現的單詞是甚麽。 你可能會認為GPT每次都會選擇表上最有可能出 現的單詞,但事實並非如此 — 創意往往在於出其不意 之處。如果你選擇較高的「創意指數」(技術上叫「溫度」 (temperature)),GPT 就會挑選其他可能性較低的選項 來續寫句子,這可使成品更為有趣而不那麼生硬。 又舉另一個例子,如果 GPT 每次都選擇統計學上最有可 能出現的單詞(即設溫度為零),那麼在舊版 GPT-2 系統中, 我們將會得到以下這段文字 [1]: 「人工智能的最大優點就是從經驗中學習的能力。這不 僅僅是從經驗中學習,而是從周圍的世界中學習。人工智能 就是一個很好的例子。它是如何利用人工智能改善生活的一 個很好的例子。這是一個如何利用人工智能改善生活的很 好的例子。人工智能是如何利用人工智能改善生活的一個很 好的例子。這是一個非常好的例子……」 它最終陷入無限循環。即使在GPT-3中沒有發生這 種情況,但得出的段落也並不見得有趣。然而,如果我們在 GPT-3將溫度提高到 0.8,就會得到以下一段 [1]: 「人工智能的最大優勢在於它能夠隨著時間的推移不斷 學習和發展,從而不斷提高性能和工作效率。人工智能還可 用於將瑣碎的任務自動化,讓人類專注於更重要的任務。人 工智能還可用於決策,並提供人類無法發現的洞察力。」 這段看來更像是人類寫的文章。溫度 0.8 其實是一個任 意值,只是目前看來效果最好(這也取決於你指派的寫作任 務需要多少創意)。人類對機器學習的過程並不十分了解,就 分包括 LibGen 等線上圖書館,以及互聯網論壇和其他非 正式來源。 概率之學:大型語言模型 如果你有在手機使用自動修正、預測字詞等功能的經 驗,你應該會對隨之而來的混亂有所了解。筆者此時手機以 「我(I)」開首的自動修正字串是這樣的:「我得去太平洋 大學,而我會到那裡馬上就要睡覺了。」(“I have to go to the university of the Pacific ocean and I will be there in about to go to bed now.”)句子乍聽之下尚算正常, 但很快就會發現那只是胡言亂語(例如世界上根本就沒有 太平洋大學),因為自動修正功能只懂得選擇語言中常見的 組合,但不能理解其實際含義 — 它不會知道「沒有顏色的 綠色想法激烈地睡覺」(“Colorless green ideas sleep furiously”;註二)是完全沒有意義的廢話 [5]。 當然,ChatGPT比自動修正聰明得多。首先, ChatGPT 會列出下一個可能詞語出現的機率。讓我們拿比 較簡單的 GPT-2 作為示範:對於「人工智能最棒的地方在 於它能夠……」(The best thing about AI is its ability to…),GPT列出的候選字詞可見於表二 [1]。 我們是如何得出這些概率?首先,我們不可能僅僅從現 有的文本推斷出這些概率,因為在考慮版權問題後我們遠遠 沒有足夠的文本訓練模型。相反,我們需要運用少許數學來 幫助我們。 GPT是大型語言模型(Large Language Model,簡稱 LLM)家族的一分子。LLM 背後的主要原理對讀過數學的大 家並不陌生:近似法(approximation)(更準確地說是建 立數學模型)。對於圖三裡一系列的點 [1],你會畫一條怎樣 的線?最簡單的選擇似乎是直線,但其實二次方程 ax2 + bx + c會更為適合。 因此我們可以說ax2 + bx + c對於橙色點的分佈來 說是一個足夠好的模型。有了模型,我們就可以作出估計 及預測。 如前面所述,人類撰寫的書籍數量遠遠不足以讓我們統 計出下一個單詞出現的實質概率,因為 40,000 個常用英語

RkJQdWJsaXNoZXIy NDk5Njg=