負熵之戰:從統計熱力學推導到 AI 思維能量景觀

負熵之戰:從統計熱力學推導到 AI 思維能量景觀


一、從玻爾茲曼公式開始

灰白頭髮的教授站在黑板前,寫下統計熱力學最著名的一行:

S = k log W

這是玻爾茲曼公式。

  • S:熵
  • k:玻爾茲曼常數
  • W:系統可實現的微觀態數量

這個公式的核心思想非常簡單:

微觀態越多,熵越大; 反之,熵越小。

如果一個系統可以用極多種方式排列,那它就比較混亂。


二、從微觀機率到信息熵

如果每個微觀態的機率不同,我們就必須使用更一般的形式。

S = -k ∑ p_i log p_i

這個形式後來在信息論中變成:

H = - ∑ p_i log p_i

差別只是一個比例常數。

這意味著:

熱力學熵與信息熵在數學結構上是同型的。

它們都衡量「分佈的擴散程度」。


三、能量與機率:Boltzmann 分布

在平衡態下,微觀態的機率遵循:

p_i = exp(-E_i / kT) / Z

其中:

  • E_i 是能量
  • T 是溫度
  • Z 是配分函數

這告訴我們:

能量越低,機率越高。

於是我們可以把「高機率區域」想成「低能量谷底」。

這就是所謂的能量景觀(energy landscape)。


四、把模型搬到 AI 上

大型語言模型在生成時,本質是在條件機率分布中取樣:

P(word | context)

如果我們定義一個「語義能量」:

E(x) = - log P(x)

那麼:

P(x) ∝ exp(-E(x))

這與 Boltzmann 分布完全同型。

於是我們得到一個重要結論:

LLM 的語言空間,本質上是一個統計能量景觀。

常見說法 = 低能量 罕見創意 = 高能量


五、Local Minima 與平庸

在高維能量景觀中,存在許多局部最低點。

模型傾向停在:

  • 高機率
  • 高對稱
  • 平均值附近

從統計角度看,這些區域熵最大。

因為大量不同語句都聚集在這裡。

這解釋了為什麼 AI 很容易產生「安全但普通」的答案。


六、做功與自由能

在熱力學中,真正決定方向的是自由能:

F = E - T S

系統自發演化方向,是使自由能下降。

如果我們把創造性理解為「降低語義自由能」:

  • E:概念張力
  • S:語言分布擴散度

那麼僅僅提高熵(隨便亂講)不會產生創意;

僅僅降低能量(講最常見的話)也不會。

真正有效的創造,是在兩者之間取得新的平衡。


七、人類作為外場

現在關鍵問題來了。

在封閉系統中,熵總是增加。

但如果有外界做功,系統可以產生結構。

在人機互動中:

  • AI 提供機率分布 P(x)
  • 人類提供方向性約束 I

數學上可以寫成:

P'(x) = P(x | I)

這個條件化操作,本質上是在重塑整個能量景觀。

你引入一個新的前提, 其實是在改變 Z(配分函數)。


八、漲落與創意跳躍

在統計物理中,跨越能障的機率為:

P ∝ exp(-Ea / kT)

能障越高,越難發生。

創意也是如此。

人類有時能透過直覺產生高能漲落, 暫時跳離原本分布。

這種「非梯度式跳躍」, 正是主觀性的價值所在。


九、教育的物理重寫

如果以上類比成立, 那教育的核心任務不是傳遞資訊。

而是教人:

  • 如何辨識局部最低點
  • 如何製造能量張力
  • 如何對認知系統做功

真正的問題不是:

AI 會不會取代人類?

而是:

人類是否還願意做功?

結語

統計熱力學告訴我們: 封閉系統會走向平衡與最大熵。

思想若停止挑戰, 也會走向平均與平庸。

AI 提供的是巨大的機率場。

人類提供的是邊界條件與方向。

今天,你改變了你的配分函數嗎?

Comments

Popular posts from this blog

骨質密度的量測原理:從X光吸收看骨頭裡的密碼

營養燕麥棒食譜(酥脆版)

AI 是科學的「助燃劑」還是「滅火器」?——從哈佛與印度的兩個極端看學術主體性的危機與重構