負熵之戰:從統計熱力學推導到 AI 思維能量景觀
一、從玻爾茲曼公式開始
灰白頭髮的教授站在黑板前,寫下統計熱力學最著名的一行:
S = k log W
這是玻爾茲曼公式。
- S:熵
- k:玻爾茲曼常數
- W:系統可實現的微觀態數量
這個公式的核心思想非常簡單:
微觀態越多,熵越大; 反之,熵越小。
如果一個系統可以用極多種方式排列,那它就比較混亂。
二、從微觀機率到信息熵
如果每個微觀態的機率不同,我們就必須使用更一般的形式。
S = -k ∑ p_i log p_i
這個形式後來在信息論中變成:
H = - ∑ p_i log p_i
差別只是一個比例常數。
這意味著:
熱力學熵與信息熵在數學結構上是同型的。
它們都衡量「分佈的擴散程度」。
三、能量與機率:Boltzmann 分布
在平衡態下,微觀態的機率遵循:
p_i = exp(-E_i / kT) / Z
其中:
- E_i 是能量
- T 是溫度
- Z 是配分函數
這告訴我們:
能量越低,機率越高。
於是我們可以把「高機率區域」想成「低能量谷底」。
這就是所謂的能量景觀(energy landscape)。
四、把模型搬到 AI 上
大型語言模型在生成時,本質是在條件機率分布中取樣:
P(word | context)
如果我們定義一個「語義能量」:
E(x) = - log P(x)
那麼:
P(x) ∝ exp(-E(x))
這與 Boltzmann 分布完全同型。
於是我們得到一個重要結論:
LLM 的語言空間,本質上是一個統計能量景觀。
常見說法 = 低能量 罕見創意 = 高能量
五、Local Minima 與平庸
在高維能量景觀中,存在許多局部最低點。
模型傾向停在:
- 高機率
- 高對稱
- 平均值附近
從統計角度看,這些區域熵最大。
因為大量不同語句都聚集在這裡。
這解釋了為什麼 AI 很容易產生「安全但普通」的答案。
六、做功與自由能
在熱力學中,真正決定方向的是自由能:
F = E - T S
系統自發演化方向,是使自由能下降。
如果我們把創造性理解為「降低語義自由能」:
- E:概念張力
- S:語言分布擴散度
那麼僅僅提高熵(隨便亂講)不會產生創意;
僅僅降低能量(講最常見的話)也不會。
真正有效的創造,是在兩者之間取得新的平衡。
七、人類作為外場
現在關鍵問題來了。
在封閉系統中,熵總是增加。
但如果有外界做功,系統可以產生結構。
在人機互動中:
- AI 提供機率分布 P(x)
- 人類提供方向性約束 I
數學上可以寫成:
P'(x) = P(x | I)
這個條件化操作,本質上是在重塑整個能量景觀。
你引入一個新的前提, 其實是在改變 Z(配分函數)。
八、漲落與創意跳躍
在統計物理中,跨越能障的機率為:
P ∝ exp(-Ea / kT)
能障越高,越難發生。
創意也是如此。
人類有時能透過直覺產生高能漲落, 暫時跳離原本分布。
這種「非梯度式跳躍」, 正是主觀性的價值所在。
九、教育的物理重寫
如果以上類比成立, 那教育的核心任務不是傳遞資訊。
而是教人:
- 如何辨識局部最低點
- 如何製造能量張力
- 如何對認知系統做功
真正的問題不是:
AI 會不會取代人類?
而是:
人類是否還願意做功?
結語
統計熱力學告訴我們: 封閉系統會走向平衡與最大熵。
思想若停止挑戰, 也會走向平均與平庸。
AI 提供的是巨大的機率場。
人類提供的是邊界條件與方向。
今天,你改變了你的配分函數嗎?

Comments
Post a Comment