当你目睹磁铁吸起一块铁时,你实际上正在见证经典物理学中最深刻的“漏洞(Glitch)”之一。为了理解那块金属为什么会动,我们必须拆毁经典直觉,并利用狄拉克(Dirac)、泡利(Pauli)和海森堡(Heisenberg)的工具来重建物理大厦。
1. 悖论:为什么洛伦兹力是“懒惰”的
在经典电磁学中,一个电荷 q 以速度 v → 在磁场 B → 中运动时,所受的力由洛伦兹力公式给出:
F → m a g = q ( v → × B → ) 根据定义,这个力永远垂直于速度方向(F → ⋅ v → = 0 )。由于功率是力做功的速率(P = F → ⋅ v → ),因此磁场力不做功 。
然而,当磁铁吸引金属时,金属明明获得了动能。如果磁场力不能做功,到底是什么在拉动金属?答案在于:磁性并非一种纯粹的经典力,而是一种相对论性的量子修正 。
2. 死胡同:玻尔-范雷文定理 (Bohr-van Leeuwen Theorem)
在寻找答案之前,我们必须先证明经典物理学根本无法产生磁性。这就是著名的玻尔-范雷文定理 。
考虑一个由 N 个电子组成的系统。磁矩 μ → 由电荷的轨道运动定义:
μ → = q 2 r → × v → = q 2 m ( r → × m v → ) = q 2 m L → 关键在于,z 方向的总磁化强度是广义速度 q ˙ i 的线性函数:
M z = ∑ i = 1 3 N a i ( q 1 , … , q 3 N ) q ˙ i 在电磁场中,系统的哈密顿量(总能量)H 为:
H = ∑ i = 1 N ( p → i − q A → ) 2 2 m + q V ( q 1 , … , q N ) 根据哈密顿方程,速度与动量的关系为 q ˙ i = ∂ H ∂ p i 。磁化强度的热力学平均值 ⟨ M z ⟩ 由配分函数给出:
⟨ M z ⟩ = ∫ d q 1 … d q 3 N ∫ d p 1 … d p 3 N M z e − H / k B T ∫ d q 1 … d q 3 N ∫ d p 1 … d p 3 N e − H / k B T 让我们聚焦于单项 a i q ˙ i 的动量积分。由于 a i 仅依赖于坐标,我们可以先对动量 p i 进行积分:
∫ − ∞ + ∞ d p i q ˙ i e − H / k B T = ∫ − ∞ + ∞ d p i ∂ H ∂ p i e − H / k B T 这个积分本质上是对一个全微分的积分。注意到 ∂ H ∂ p i e − β H = − 1 β ∂ ∂ p i ( e − β H ) (其中 β = 1 / k B T ),我们可以将其写为:
∫ H ( p = − ∞ ) H ( p = + ∞ ) d H e − H / k B T = [ − k B T e − H / k B T ] p i = − ∞ p i = + ∞ 由于动能项 ( p − q A ) 2 2 m 当动量 p → ± ∞ 时趋于无穷大,玻尔兹曼因子 e − H / k B T 在边界处趋于零。因此:
[ − k B T e − H / k B T ] − ∞ + ∞ = 0 − 0 = 0 结论: ⟨ M ⟩ = 0 。物理图像是无情的:虽然磁矢势 A → 平移了动量,但由于我们在整个动量空间(从 − ∞ 到 + ∞ )上进行积分,这种平移对总积分没有任何贡献。经典物理预言,磁铁是不可能存在的。
3. 超越薛定谔方程
薛定谔方程建立在非相对论能量-动量关系 E = p → 2 / 2 m 之上。如果我们试图通过替换量子算符 E → i ℏ ∂ t 和 p → → − i ℏ ∇ 来直接使用相对论关系 E 2 = c 2 p → 2 + m 2 c 4 ,我们将得到克莱因-戈登方程 (Klein-Gordon Equation) :
1 c 2 ∂ 2 ψ ∂ t 2 − ∇ 2 ψ + ( m c ℏ ) 2 ψ = 0 这个方程可以用达朗贝尔算符 (d'Alembertian) ◻ = 1 c 2 ∂ 2 ∂ t 2 − ∇ 2 更紧凑地写出,这是拉普拉斯算符在闵可夫斯基时空中的推广:
( ◻ + ( m c ℏ ) 2 ) ψ = 0 然而,当克莱因-戈登方程最初被提出时,它几乎被抛弃了,因为如果像薛定谔方程那样将 ψ 解释为单粒子波函数,会出现两个严重的概念问题。
一方面,相对论能量关系是能量的二次方程,导致两个解:E = ± ( p c ) 2 + ( m c 2 ) 2 。负能量态 的存在是个大麻烦。它暗示粒子可以通过跃迁到更低的负能级来持续辐射能量,这意味着物质不存在稳定的基态。
另一方面,量子力学中的波函数用于构建守恒的概率流 j μ = ( ρ , j ) 。对于薛定谔方程,概率密度 ρ = | ψ | 2 总是非负的。而对于克莱因-戈登方程,导出的守恒密度为:
ρ = i ℏ 2 m c 2 ( ψ ∗ ∂ ψ ∂ t − ψ ∂ ψ ∗ ∂ t ) 由于方程对时间是二阶的,ψ 和 ∂ ψ ∂ t 的初始值可以独立选择。这允许 ρ 在某些条件下为负值 ,这对于概率密度来说是荒谬的。粒子不可能以“负概率”出现在某处。
可以看出,这些问题源于时间导数的二阶性质。狄拉克(Dirac)的目标是找到一个新方程,它既像薛定谔方程那样对时间是一阶的,又是相对论协变的。自然的方法是构造一个动量的一阶形式,系数待定:
H ^ = c ( α x p ^ x + α y p ^ y + α z p ^ z ) + β m c 2 其中 p ^ k = − i ℏ ∂ ∂ x k 是动量算符。对应的波动方程为:
i ℏ ∂ ψ ∂ t = H ^ ψ = ( − i ℏ c ∑ k = 1 3 α k ∂ ∂ x k + β m c 2 ) ψ = ( − i ℏ c α → ⋅ ∇ + β m c 2 ) ψ 为了使该方程在相对论上自洽,它的任何自由粒子解也必须满足相对论能量关系(即也是克莱因-戈登方程的解)。这要求当我们将狄拉克算符作用两次(“平方”该方程)时,能还原出克莱因-戈登算符:
( c ∑ α i p i + β m c 2 ) 2 = c 2 ∑ p i 2 + m 2 c 4 展开左式(注意 p i 彼此对易,但系数矩阵 α i , β 不一定对易):
c 2 ∑ i α i 2 p i 2 + c 2 ∑ i < j { α i , α j } p i p j + m c 3 ∑ i { α i , β } p i + β 2 m 2 c 4 通过对比左右两边的系数,我们得到了对 α i 和 β 的代数要求,称为克利福德代数 (Clifford Algebra) :
α i 2 = I
β 2 = I
{ α i , α j } = 0 ( i ≠ j )
{ α i , β } = 0
为了让方程在洛伦兹变换下表现得更显式协变,我们定义 Gamma 矩阵 γ μ :
代入后得到简洁的协变形式:
其 中 ( i γ μ ∂ μ − m c ℏ ) ψ = 0 , 其中 ∂ μ = ( 1 c ∂ t , ∇ ) 利用前面 α i 和 β 的性质,我们可以推导出 γ μ 的核心性质:
对于时间项: ( γ 0 ) 2 = β 2 = I
对于空间项: ( γ i ) 2 = ( β α i ) ( β α i ) = − β 2 α i 2 = − I
对于混合项 (μ ≠ ν ):
{ γ 0 , γ i } = β ( β α i ) + ( β α i ) β = α i − α i = 0
{ γ i , γ j } = ( β α i ) ( β α j ) + ( β α j ) ( β α i ) = − β 2 { α i , α j } = 0
综合以上结果,Gamma 矩阵满足著名的反对易关系 (Anti-commutation Relation) :
{ γ μ , γ ν } = 2 η μ ν I 其中 η μ ν = diag ( 1 , − 1 , − 1 , − 1 ) 是闵可夫斯基度规。
满足此代数要求的最小不可约表示是 4 阶矩阵,我们可以通过排除法来推导:
1 阶(标量): 显然不行。标量乘法是对易的,无法满足像 γ 0 γ 1 = − γ 1 γ 0 这样的反对易关系(除非它们为零,但 γ 2 = ± I 禁止这样做)。
2 阶: 我们可以找到 3 个反对易的矩阵(即泡利矩阵 σ x , σ y , σ z )。但是,我们需要 4 个 反对易矩阵(γ 0 到 γ 3 )。
3 阶: 由于 Tr ( γ μ ) = 0 且 γ 2 = ± I ,特征值必须成对出现(+ 1 和 − 1 )。这意味着矩阵的阶数 n 必须是偶数 。
4 阶: 这是第一个既是偶数,又能容纳 4 个以上反对易矩阵的维度。在 4 阶矩阵空间中,我们可以构造出多达 5 个互相反对易的矩阵(γ 0 , γ 1 , γ 2 , γ 3 以及 γ 5 )。
在四阶矩阵中,最常用的是狄拉克表示 (Dirac Representation),它使用了 2 × 2 的单位矩阵 I 和泡利矩阵 σ i :
γ 0 = ( I 0 0 − I ) , γ i = ( 0 σ i − σ i 0 ) , γ i = β α i = ( I 0 0 − I ) ( 0 σ i σ i 0 ) = ( 0 σ i − σ i 0 ) σ x = ( 0 1 1 0 ) , σ y = ( 0 − i + i 0 ) , σ z = ( 1 0 0 − 1 ) 这是一个深刻的结果:为了得到线性的、相对论性的波动方程,波函数 ψ 被迫必须具有四个分量。我们现在知道,这分别描述了电子(自旋上/下)和它的反粒子——正电子(自旋上/下)。狄拉克试图解决负概率问题,却意外地打开了通往自旋的大门。这说明磁性不是物质的附加属性,而是时空对称性的必然结果。
4. 耦合电磁场
现在我们考虑存在电磁势 A μ = ( Φ / c , A → ) 的情况。我们需要在狄拉克方程中进行局部规范变换。动量替换: 将动量 p → 替换为动力学动量(Kinetic Momentum):p → → p → − q A → ,其中 A → 是磁矢势。能量替换: 将能量算符 i ℏ ∂ ∂ t 替换为:i ℏ ∂ ∂ t → i ℏ ∂ ∂ t − q Φ ,其中 Φ 是电标势。最终得到的方程为:
i ℏ ∂ ψ ∂ t = [ c α → ⋅ ( p → − q A → ) + β m c 2 + q Φ ] ψ 为了更直观地处理四维时空,我们通常将其写成协变形式。引入 Gamma 矩阵定义:γ 0 = β , γ i = β α i 。结合四维动量算符 p μ = i ℏ ∂ μ = ( i ℏ 1 c ∂ t , − i ℏ ∇ ) 和四维势 A μ = ( Φ / c , − A → ) ,方程整理为:
γ 0 ( i ℏ 1 c ∂ t − q Φ c ) ψ + γ → ⋅ ( i ℏ ∇ + q A → ) ψ − m c ψ = 0 再利用协变导数 D μ = ∂ μ + i q ℏ A μ ,可以写成极简形式:
或 ( i ℏ γ μ D μ − m c ) ψ = 0 或 γ μ ( p μ − q A μ ) ψ = m c ψ 我们现在希望求解这个四分量旋量方程。Gamma 矩阵的简单分块形式使得我们可以把四分量两两分组。同时,因为在非相对论极限下,静止能量 m c 2 是主导项,我们将波函数写成“大分量” ϕ 和“小分量” χ 的组合(均为 2 分量旋量),并显式提取出静能随时间的演化项:
ψ ( r → , t ) = ( ϕ ( r → , t ) χ ( r → , t ) ) e − i m c 2 t / ℏ 对左边的时间导数项应用乘法法则:
i ℏ ∂ ψ ∂ t = ( i ℏ ∂ ∂ t ( ϕ χ ) + m c 2 ( ϕ χ ) ) e − i m c 2 t / ℏ 代入狄拉克方程,并使用狄拉克标准表示下的矩阵形式,方程两边消去指数项,得到:
i ℏ ∂ ∂ t ( ϕ χ ) + m c 2 ( ϕ χ ) = c ( 0 σ → σ → 0 ) ⋅ π → ( ϕ χ ) + ( m c 2 0 0 − m c 2 ) ( ϕ χ ) + q Φ ( ϕ χ ) 其中 π → = p → − q A → 是动力学动量。我们将上式分解成两行耦合方程:
i ℏ ∂ ϕ ∂ t + m c 2 ϕ = c ( σ → ⋅ π → ) χ + m c 2 ϕ + q Φ ϕ i ℏ ∂ χ ∂ t + m c 2 χ = c ( σ → ⋅ π → ) ϕ − m c 2 χ + q Φ χ 在非相对论极限下,电子的动能和势能远小于静能,即 | i ℏ ∂ t χ | ≪ | 2 m c 2 χ | 且 | q Φ χ | ≪ | 2 m c 2 χ | 。于是小分量方程近似为:
2 m c 2 χ ≈ c ( σ → ⋅ π → ) ϕ ⟹ χ ≈ σ → ⋅ π → 2 m c ϕ 这说明了为什么 χ 被称为“小分量”:它的大小约为大分量的 v / c 倍。将 χ 的表达式代回大分量方程:
i ℏ ∂ ϕ ∂ t = [ ( σ → ⋅ π → ) 2 2 m + q Φ ] ϕ 这是自旋出现的关键点。利用泡利矩阵恒等式 ( σ → ⋅ A → ) ( σ → ⋅ B → ) = A → ⋅ B → + i σ → ⋅ ( A → × B → ) :
( σ → ⋅ π → ) 2 = π → ⋅ π → + i σ → ⋅ ( π → × π → ) 计算算符叉乘 π → × π → (作用于测试函数 f ):
( π → × π → ) f = ( p → − q A → ) × ( p → − q A → ) f = ( p → × p → − q p → × A → − q A → × p → + q 2 A → × A → ) f 其中 p → × p → = 0 且 A → × A → = 0 。剩余项为:
− q ( p → × A → + A → × p → ) f = − q [ ( − i ℏ ∇ ) × ( A → f ) + A → × ( − i ℏ ∇ f ) ] = i ℏ q [ ( ∇ × A → ) f − A → × ( ∇ f ) + A → × ( ∇ f ) ] = i ℏ q ( ∇ × A → ) f = i ℏ q B → f 因此:
( σ → ⋅ π → ) 2 = π → 2 + i σ → ⋅ ( i ℏ q B → ) = π → 2 − ℏ q σ → ⋅ B → 最终我们完整推导出了包含塞曼项(Zeeman term)U = − μ → ⋅ B → 的泡利方程 (Pauli Equation) :
i ℏ ∂ ϕ ∂ t = [ ( p → − q A → ) 2 2 m + q Φ − q ℏ 2 m σ → ⋅ B → ] ϕ 显然其哈密顿量中多了最后一项:
H = ( p → − q A → ) 2 2 m + q Φ − q ℏ 2 m σ → ⋅ B → 这就是自旋的由来。如果我们没有引入矩阵 σ → (即自旋为 0 的克莱因-戈登情况),那么算符项就是简单的 π → 2 ,这一项不会产生与磁场 B → 的线性耦合,会退化到正常的无自旋时的电磁耦合哈密顿量 H S p i n − 0 = ( p → − q A → ) 2 2 m + q Φ 。正是因为电子波函数的相对论协变性要求它必须有矩阵结构,才导致了 π → 的不相容性被转化为磁能项。简单来说:引入 σ → 矩阵是为了在数学上给粒子增加一个“内部转动轴”;如果不引入,粒子就是一个在空间中彻底“各向同性”的质点。它定义了算符的不对易性,在自旋为 0 的世界里,动量的三个分量 π x , π y , π z 虽然在磁场下不对易,但它们的作用是“外部”的(改变粒子的轨道),引入 σ → 矩阵后,它把这种动量的不对易性(磁场强度 B → )直接耦合到了波函数的内部维度上。
5. SU2 and SO3 之间的万有覆盖
以上我们已经从动力学(Dynamics)层面看到了自旋的“涌现”。但是自旋作为一种内秉性质,按理讲应该是无需借助外界电磁场来体现的,本质上它应该与对称性与变换有所关联所以才会存在。为什么波函数必须由 σ → 矩阵来操作?为什么它是二分量的旋量?这需要我们深入到运动学(Kinematics)的底层——即时空对称性的群论基础。即使不考虑电磁场,电子作为一个物理对象,当我们把实验室的坐标系旋转一个角度 θ 时,它的波函数 ψ 必然会发生改变。正是这种“旋转下的变换规则”定义了自旋。在进入物理之前,我们先简要介绍一下最重要的 SU2 与 SO3 群,他们属于李群,在物理中占有极其重要的地位。
SU2 的基本定义是:
为 全 体 三 维 实 单 位 矢 量 SU ( 2 ) ≡ { U | U ∈ GL ( 2 , C ) , U † U = 1 2 × 2 , | U | = 1 } ≡ { [ a b − b ∗ a ∗ ] | a , b ∈ C , | a | 2 + | b | 2 = 1 } ≡ { U ( n → , ω ) = e i ω 2 n → ⋅ σ → | ω ∈ [ 0 , π ] , n → 为全体三维实单位矢量 } 若采用实参数 x i ∈ R ,令 a = x 4 + i x 3 , b = x 2 + i x 1 来描述:
U = [ a b − b ∗ a ∗ ] = [ x 4 + i x 3 x 2 + i x 1 − x 2 + i x 1 x 4 − i x 3 ] 则约束条件变为 x 1 2 + x 2 2 + x 3 2 + x 4 2 = 1 说明 SU2 作为流形是 S 3 ,一个三维球面,属于超球面,其 T 2 -fibration 描述为:
其 中 { x 1 = sin θ cos φ x 2 = sin θ sin φ , { x 3 = cos θ cos χ x 4 = cos θ sin χ , 其中 θ ∈ [ 0 , π / 2 ] ; φ , χ ∈ [ 0 , 2 π ] . 这可以用两个反向圆锥面 χ , φ 与一根轴描述 θ , 在 θ = 0 或 θ = π / 2 时会有一个参数失效。也可以用一个中间会随着 θ 放缩于端点处使某参数失效的甜甜圈来描述,θ = 0 时甜甜圈就是一个无宽度圆,只有 χ 沿着圆有效,φ 因为圆没有宽度而失效,而 θ = π / 2 时甜甜圈变成了一个球,不再有空洞,所以 χ 失效,只有 φ 生效。
球坐标系描述为:
对 有 对 ω ∈ [ 0 , 2 π ] , θ ∈ [ 0 , π ] , φ ∈ [ 0 , 2 π ] 有 { x 1 = sin ω 2 sin θ cos φ x 2 = sin ω 2 sin θ sin φ x 3 = sin ω 2 cos θ x 4 = cos ω 2 SU2 还可以由 Pauli 矩阵表达:
U = [ x 4 + i x 3 x 2 + i x 1 − x 2 + i x 1 x 4 − i x 3 ] = x 4 1 2 × 2 + i x 1 σ 1 + i x 2 σ 2 + i x 3 σ 3 . 进一步结合球坐标有:
U ( n → , ω ) = e i ω 2 n → ⋅ σ → = 1 2 × 2 cos ω 2 + i n a σ a sin ω 2 n → = ( sin θ cos φ , sin θ sin φ , cos θ ) ; ω ∈ [ 0 , 2 π ] , θ ∈ [ 0 , π ] , φ ∈ [ 0 , 2 π ] . SO3 的基本定义是:
SO ( 3 ) ≡ { R | R ∈ GL ( 3 , R ) , R T R = 1 3 × 3 , | R | = 1 } ≡ { R ( ω → ) ω → = ω n → , n → = ( cos φ sin θ , sin φ sin θ , cos θ ) ω ∈ [ 0 , π ] , θ ∈ [ 0 , π ] , φ ∈ [ 0 , 2 π ] } . SO3 很直观,就是我们看得见摸得着的旋转操作。作为流形,SO3 可以看作是 ω → 端点构成的半径为 π 且对径认同的实心球,其抽象就在于对径认同,虽然其来源与绕固定轴逆时针转 180 度和顺时针转 180 度是一样的这样一个简单事实,但是对径认同导致了这个实心球虽然是一个连通流形但不是一个单连通流形,即空间内任意一条闭合曲线(环路)都能连续地收缩到一个点。对径认同的实心球有它的名字, 叫三维实射影空间 (real projective space), 记作 R P 3 。
数学上,群 G 在向量空间 V 上的表示 ,是一个从群 G 到一般线性群 G L ( V ) (即 V 上所有可逆变换构成的群)的同态映射 ∀ g 1 , g 2 ∈ G , D ( g 1 g 2 ) = D ( g 1 ) D ( g 2 ) ,对于李群来讲还要求映射连续。而射影表示则是因为在量子力学中,物理状态由希尔伯特空间中的射线 (Ray)描述,即 | ψ ⟩ 和 e i α | ψ ⟩ 代表同一物理状态。因此,群的乘法法则只需要在“相差一个相位因子”的意义下成立:
D ( g 1 ) D ( g 2 ) = ω ( g 1 , g 2 ) D ( g 1 g 2 ) 其中 ω ( g 1 , g 2 ) 是一个模为 1 的复数(相位因子)称为群指数 (group exponent)。Bargmann定理(1954)为射影表示提供了严格的数学框架:对于满足 H 2 ( g , R ) = 0 的李群 G (包括 SO3 和 Lorentz 群),其所有连续射影酉表示均可"提升"为某个中心扩张群 G ~ 的普通酉表示。对于 S O ( 3 ) 这种通过简单的“相位消除”无法变成普通表示的情况,我们可以通过寻找它的万有覆盖群 S U ( 2 ) ,将 S O ( 3 ) 的射影表示转化为 S U ( 2 ) 的普通表示。
这里引入的万有覆盖群的概念点出了 SO3 和 SU2 深刻的联系。在拓扑学中,一个空间 X 的万有覆盖空间 X ~ 就像是它的“升级版”,具有两个核心特征:单连通性: X ~ 里面所有的圈都能缩成一个点(没有拓扑洞)。局部一致性: 在局部区域,X ~ 看起来和 X 一模一样,但从整体上看,X ~ 往往比 X 更“大”,并以 n : 1 的方式覆盖在 X 上。
为什么 S U ( 2 ) 的矩阵能产生 S O ( 3 ) 的旋转?这里给出一个经典的构造方法。我们把三维空间中的向量 x = ( x , y , z ) 映射为一个二阶无迹厄米矩阵 X :
X = x σ 1 + y σ 2 + z σ 3 = ( z x − i y x + i y − z ) (其中 σ i 是泡利矩阵)。注意,det ( X ) = − ( x 2 + y 2 + z 2 ) = − ∥ x ∥ 2 。让 S U ( 2 ) 中的矩阵 U 通过以下方式作用在 X 上:X ′ = U X U † 。由于 U 是幺正的且行列式为 1,这个变换保持了 X 的无迹性和厄米性,并且保持了行列式不变 :det ( X ′ ) = det ( U X U † ) = det ( X ) 。这意味着 ∥ x ′ ∥ 2 = ∥ x ∥ 2 ,即这个变换保持了向量的长度,因此它描述的是一个三维旋转 。观察变换公式 X ′ = U X U † 。如果你把 U 换成 − U :( − U ) X ( − U ) † = ( − 1 ) 2 U X U † = U X U † 会发现 U 和 − U 产生了完全相同的旋转效果 。这就是 2 : 1 覆盖的代数根源,每一个 S O ( 3 ) 中的旋转,在 S U ( 2 ) 中都有两个点对应。这解释了为什么旋转 2 π 回不到原点(在 S U ( 2 ) 中只跑了半圈),而旋转 4 π 才能回到原点(在 S U ( 2 ) 中跑了一整圈)。。也就是说,S O ( 3 ) 本身是有“洞”的(它的基本群是 Z 2 ),而S U ( 2 ) (即 S 3 )是单连通的(基本群为 0 ),没有任何拓扑洞。
而万有覆盖中的第二个条件局部一致则引出了 SU2 和 SO3 的另一大特点,在单位元附近是局部同构的,意思就是:如果你只看“无穷小”的旋转,或者只看旋转一点点的情况,这两个群是完全一模一样的,没有任何区别。只有当你转了很大一圈(比如转了 2 π )去探索群的“全貌”时,你才会发现它们其实不一样(一个回到了起点,另一个到了 − I )。从数学上严格来讲,是因为它们拥有完全相同的李代数(Lie Algebra),即单位元的切空间同构:su ( 2 ) ≅ so ( 3 ) 。在求解薛定谔方程的过程中我们知道 SO3 的 3 个生成元是 J x , J y , J z (对应绕 x, y, z 轴的微小旋转),它们的对易关系(Commutation Relation)是:[ J i , J j ] = i ϵ i j k J k ,这是定义三维旋转本质的公式,所谓生成元也就是李代数的一个基底。
而对于 SU2 群,我们现在来求解其生成元。假设一个微小的变换:
U ( ϵ ) = I − i ϵ S 还需要属于 SU2,那么有幺正性约束: ( I + i ϵ S † ) ( I − i ϵ S ) = I ⟹ I − i ϵ ( S − S † ) = I ⟹ S = S † ,S 必须是厄米矩阵,物理上可观测。还有特殊性约束:利用公式 det ( e A ) = e Tr ( A ) 。 det ( U ) = det ( e − i ϵ S ) = e − i ϵ Tr ( S ) = 1 ⟹ Tr ( S ) = 0 则 S 必须是无迹矩阵。符合条件的正好就是 Pauli matrices,σ x , σ y , σ z 构成了 S U ( 2 ) 李代数 su ( 2 ) 的一组完备基底 。所以,生成元 S 必然正比于 σ ,而 [ σ i , σ j ] = 2 i ϵ i j k σ k ,我们会发现这与 [ L i , L j ] = i ϵ i j k L k 就差了一个系数 1 2 ,这就已经说明 SU2 和 SO3 的李代数同构了,而如果如果取 S = 1 2 σ ,则可以变成标准的 [ S i , S j ] = i ϵ i j k S k 与 J 的对易关系完全相同,这样我们会获得一个自恰的角动量理论,物理世界里存在总角动量 L = J + S 。如果自旋 S 想要有资格被称为“角动量”,并且能和 J 加在一起构成一个守恒量,那么 S 必须遵循和 J 一模一样的代数规则,而轨道角动量 J = r × p 是由空间坐标定义的,它的对易关系是没得选的(由 x 和 p 的对易关系推导出来),所以只能让 S = 1 2 σ 。除了理论上的自洽,现实世界的实验结果也是这样,当我们去做施特恩-格拉赫实验(Stern-Gerlach Experiment)时,我们测量电子在磁场中的偏转,测量到的物理值是 ± 1 2 ℏ 。这就直接证明了,代表物理观测量的算符 S ,它的特征值必须是 ± 1 / 2 。 而在数学上,只有矩阵 1 2 σ z 的特征值才是 ± 1 / 2 (因为 σ z 的特征值是 ± 1 )。
回到表示,对于李群来说,生成元的一个很好的性质是,任意有限变换 D ( θ ) 都可以由生成元 J 通过指数映射得到。如果 J 是李代数 g 的元素,那么群中的元素可以写成:
D ( θ ) = exp ( − i θ n ⋅ J ) 这里的 J 就是我们前面讨论的角动量算符(矩阵)。注意这个式子涉及到了物理学符号中一种常见的“混用”或者说“简写”。严格数学上,指数映射 exp 将抽象的李代数元素映射为抽象的李群元素。 但是,物理公式 D ( θ ) = exp ( − i θ n ⋅ J ) 实际上是在表示空间(矩阵空间)内部进行的操作。这里的 J 已经是生成元的矩阵表示,所以算出来的结果 D ( θ ) 自然就是群元素的矩阵表示。
不管我们是在处理 S O ( 3 ) 还是 S U ( 2 ) ,它们的李代数是同构的 。这意味着它们共享同一套生成元对易关系:[ J i , J j ] = i ϵ i j k J k (这里取 ℏ = 1 )。我们要寻找这套代数规则允许的所有有限维不可约表示。定义阶梯算符:
J ± = J x ± i J y 引入 J z 的本征态 | j , m ⟩ ,使得:
J z | j , m ⟩ = m | j , m ⟩ , J 2 | j , m ⟩ = λ | j , m ⟩ 计算对易子:
[ J z , J ± ] = [ J z , J x ] ± i [ J z , J y ] = i J y ± i ( − i J x ) = ± ( J x ± i J y ) = ± J ± 这意味着 J ± 是本征值的“升降梯”:
J z ( J ± | j , m ⟩ ) = ( J ± J z + [ J z , J ± ] ) | j , m ⟩ = ( m ± 1 ) ( J ± | j , m ⟩ ) 如果 m 是特征值,那么 m ± 1 也是特征值。但是因为我们寻找的是有限维表示,特征值谱必须有上界 m m a x 和下界 m m i n 。
J + | j , m m a x ⟩ = 0 , J − | j , m m i n ⟩ = 0 利用算符恒等式 J − J + = J 2 − J z 2 − J z ,作用在最高权态 | j , m m a x ⟩ 上:
0 = ( λ − m m a x 2 − m m a x ) | m m a x ⟩ ⟹ λ = m m a x ( m m a x + 1 ) 为了方便,我们将最大权重标记为 j ,即 m m a x ≡ j 。所以 Casimir 算符的特征值为 j ( j + 1 ) 。同理,利用 J + J − = J 2 − J z 2 + J z 作用在最低权态 | j , m m i n ⟩ 上:
0 = ( j ( j + 1 ) − m m i n 2 + m m i n ) | m m i n ⟩ 解方程 m m i n 2 − m m i n − j ( j + 1 ) = 0 ,得到两个解:
或 m m i n = − j 或 m m i n = j + 1 因为 m m i n ≤ m m a x = j ,所以只能取 m m i n = − j 。从 m m i n = − j 爬升到 m m a x = j ,每次加 1,必须经过整数步 k 才能到达:
m m a x − m m i n = j − ( − j ) = 2 j = k ( k ∈ Z ) ⟹ j = k 2 我们获得了结论,仅凭李代数结构,允许的 j 值为 0 , 1 / 2 , 1 , 3 / 2 , 2 ⋯ 。但是李代数结构只是局部性质,现在我们要把这些结果放回全局群结构 中去检验。检验的核心标准是单值性 : 如果我们把群元素沿着一条闭合路径转一圈回到起点(单位元),它的表示矩阵必须也回到单位矩阵(对于普通表示)。S O ( 3 ) 是三维空间中的旋转群,绕任意轴(设为 z 轴)旋转 2 π (360 ∘ ),物理空间完全复原:R z ( 2 π ) = R z ( 0 ) = 1 这是群单位元。而对于 S O ( 3 ) 的普通表示 D ,必须满足:D ( R z ( 2 π ) ) = D ( 1 ) = I 这是单位矩阵。代入李代数导出的公式,在 z 轴基底下,J z 是对角的,对角元为 m :D ( 2 π ) = exp ( − i 2 π J z ) = diag ( e − i 2 π m , … ) ,要让这个矩阵等于单位阵 I ,必须每一个对角元都等于 1:e − i 2 π m = 1 ⟹ m ∈ Z ,如果 j 是整数(0 , 1 , … ),则 m 是整数,条件满足,而如果 j 是半整数(1 / 2 , 3 / 2 , … ),则 m 是半整数,e − i 2 π m = − 1 ≠ 1 。 因此,S O ( 3 ) 的普通表示中,严格禁止半整数自旋。
但是 S U ( 2 ) 的几何结构与 S O ( 3 ) 不同。它是 S O ( 3 ) 的万有覆盖群(2:1 覆盖)。 在 S U ( 2 ) 中,参数 θ = 2 π 对应的群元素不是单位元,而是 U ( 2 π ) = − I ≠ I ,只有旋转 4 π 才是单位元。我们会发现 D ( 2 π ) 的行为完美匹配了 S U ( 2 ) 群本身的行为,我们实际上获得了 Bargmann 定理在 SO3 和 SU2 上的实例,SO3 非单连通李群的射影表示等价于其万有覆盖群 SU2 的普通表示,最终的映射关系表为:
自旋 j
在李代数中
在 SU(2) 中
在 SO(3) 中
物理粒子
整数 (0 , 1 , … )
存在
普通表示 (但不忠实,无法区分 ± I )
普通表示
玻色子 (光子等)
半整数 (1 / 2 , … )
存在
普通表示 (忠实表示)
射影表示 (多值)
费米子 (电子等)
“自旋”之所以能从这套抽象的数学结构中“涌现”出来,是因为量子力学对“物理状态”的定义比经典力学更宽容,从而释放了被经典物理屏蔽掉的拓扑自由度。
对称性(根源): 宇宙具有旋转对称性,这导致了李代数 so ( 3 ) ≅ su ( 2 ) 的存在。
量子化(契机): 概率波的特性允许“射影表示”,使得李代数中被经典物理禁用的“半整数部分”得以存活。
内禀化(成型): 这些存活下来的半整数表示无法对应任何空间运动,因此只能被解释为粒子与生俱来的内禀角动量 。
现在我们具体计算一下不同的 j 的表示是什么。我们要利用指数映射
D ( j ) ( n ^ , θ ) = ∑ k = 0 ∞ ( − i θ ) k k ! ( n ^ ⋅ J ( j ) ) k 其中 n ^ 是旋转轴单位向量,θ 是旋转角。
最简单的,j = 0 标量表示,维数只有 d = 2 ( 0 ) + 1 = 1 维,基底只有一个态 | 0 , 0 ⟩ ,生成元因为 m 只能取 0,所以 J z = [ 0 ] 。 升降算符作用在最高/最低权态上都是 0,所以 J + = [ 0 ] , J − = [ 0 ] ,所以 J x = 0 , J y = 0 , J z = 0 。指数映射得到表示 D ( θ ) = e − i θ n ⋅ 0 = 1 ,也称为平凡表示。这就是标量,不管怎么旋转,数值永远乘以 1,保持不变。
当 j = 1 2 ,维数为 2 j + 1 = 2 。我们已经知道生成元为 J = 1 2 σ ⟹ n ^ ⋅ J = 1 2 ( n ^ ⋅ σ ) ,为了计算 ( n ^ ⋅ J ) 的高次幂。 回顾泡利矩阵性质:( n ^ ⋅ σ → ) 2 = I (单位阵)。 因此生成元的幂次规律为:
( n ^ ⋅ J ) 2 = ( 1 2 n ^ ⋅ σ → ) 2 = 1 4 ( n ^ ⋅ σ → ) 2 = 1 4 I , ( n ^ ⋅ J ) 3 = ( n ^ ⋅ J ) 2 ( n ^ ⋅ J ) = 1 4 ( n ^ ⋅ J ) 其通项公式为:
( n ^ ⋅ J ) 2 k = ( 1 4 ) k I = ( 1 2 ) 2 k I ( n ^ ⋅ J ) 2 k + 1 = ( 1 2 ) 2 k ( n ^ ⋅ J ) = ( 1 2 ) 2 k + 1 ( n ^ ⋅ σ → ) 于是做级数求和,将指数级数拆分为偶数部分和奇数部分:
偶 数 项 奇 数 项 D ( 1 / 2 ) = ∑ k = 0 ∞ ( − i θ ) k k ! ( n ^ ⋅ J ) k = ∑ m = 0 ∞ ( − i θ ) 2 m ( 2 m ) ! ( 1 2 ) 2 m I ⏟ 偶数项 + ∑ m = 0 ∞ ( − i θ ) 2 m + 1 ( 2 m + 1 ) ! ( 1 2 ) 2 m + 1 ( n ^ ⋅ σ → ) ⏟ 奇数项 偶数项系数:∑ ( − 1 ) m ( 2 m ) ! ( θ 2 ) 2 m = cos ( θ 2 ) 。奇数项系数:− i ∑ ( − 1 ) m ( 2 m + 1 ) ! ( θ 2 ) 2 m + 1 = − i sin ( θ 2 ) 。最终得到:
D ( 1 / 2 ) ( n ^ , θ ) = cos ( θ 2 ) I − i sin ( θ 2 ) ( n ^ ⋅ σ → ) 这就是 j = 1 / 2 的表示。它把旋转操作映射到了 2 × 2 复矩阵 。检验 2 π : 代入 θ = 2 π ,cos ( π ) = − 1 , sin ( π ) = 0 。结果是 − I 。
当 j = 1 ,维数为 2 j + 1 = 3 。我们需要 3 × 3 的矩阵。在物理学定义的角动量基底(笛卡尔基底)下,生成元满足 ( J k ) a b = − i ϵ k a b 。例如绕 z 轴旋转的生成元 J z :
J z = ( 0 − i 0 i 0 0 0 0 0 ) 对于任意轴 n ^ ,令矩阵 K = n ^ ⋅ J 。直接计算 J z 的幂(其他方向同理):
注 意 : 这 不 是 J z 2 = ( 0 − i 0 i 0 0 0 0 0 ) ( 0 − i 0 i 0 0 0 0 0 ) = ( 1 0 0 0 1 0 0 0 0 ) ( 注意:这不是 I ) J z 3 = J z 2 ⋅ J z = ( 1 0 0 0 1 0 0 0 0 ) ( 0 − i 0 i 0 0 0 0 0 ) = ( 0 − i 0 i 0 0 0 0 0 ) = J z 发现规律,对于 j = 1 的生成元,满足特征方程 ( n ^ ⋅ J ) 3 = ( n ^ ⋅ J ) 。这意味着:奇数项 (k = 1 , 3 , 5 … ):( n ^ ⋅ J ) k = ( n ^ ⋅ J ) ,偶数项 (k = 2 , 4 , 6 … ):( n ^ ⋅ J ) k = ( n ^ ⋅ J ) 2 ,k = 0 项:I (单位阵)。同样展开泰勒级数,但这次要把 I 单独拿出来,因为 J 2 ≠ I 。
D ( 1 ) = I + ∑ odd k ( − i θ ) k k ! ( n ^ ⋅ J ) + ∑ even k ≥ 2 ( − i θ ) k k ! ( n ^ ⋅ J ) 2 奇数项系数:− i ( θ − θ 3 3 ! + … ) = − i sin θ ,偶数项系数:( − θ 2 2 ! + θ 4 4 ! − … ) = cos θ − 1 。结果:
D ( 1 ) ( n ^ , θ ) = I − i sin θ ( n ^ ⋅ J ) + ( cos θ − 1 ) ( n ^ ⋅ J ) 2 这就是 j = 1 的表示(物理学形式的罗德里格斯旋转公式)。它把旋转操作映射到了 3 × 3 实矩阵 (虽然 J 包含 i ,但 i ⋅ J 是实矩阵)。检验 2 π : 代入 θ = 2 π ,sin ( 2 π ) = 0 , cos ( 2 π ) = 1 ,D ( 1 ) = I − 0 + ( 1 − 1 ) ( … ) = I 。
一般地,我们可以建立所有 j 的生成元和表示。所有 j 的生成元构建都依赖于量子力学中角动量算符的三个核心矩阵元公式。只要有这三个公式,我们就能写出 j = 0 , 3 / 2 , 2 甚至 j = 100 的矩阵。首先 J z 是对角矩阵:
⟨ j , m ′ | J z | j , m ⟩ = m δ m ′ m 然后 J + (升算符) 是次对角矩阵:
⟨ j , m + 1 | J + | j , m ⟩ = j ( j + 1 ) − m ( m + 1 ) J − (降算符) 是下次对角矩阵: 它是 J + 的转置(实数情况下)。而 J x 和 J y 由 J ± 组合而成:
J x = 1 2 ( J + + J − ) , J y = 1 2 i ( J + − J − ) 比如 j = 3 / 2 :自旋 3/2 表示 (Spin-3/2) 这属于费米子,和电子类似,但它有 4 个分量。常见于 Δ 重子或超引力中的引力微子。维数:d = 2 ( 3 / 2 ) + 1 = 4 维。构建生成元 J z (对角线):
J z = ( 3 / 2 0 0 0 0 1 / 2 0 0 0 0 − 1 / 2 0 0 0 0 − 3 / 2 ) J + (升算符系数) 则需要计算 j ( j + 1 ) − m ( m + 1 ) ,其中 j = 3 / 2 ,也就是 3.75 − m ( m + 1 ) 。m = 1 / 2 → 3 / 2 : 3.75 − 0.75 = 3 ;m = − 1 / 2 → 1 / 2 : 3.75 − ( − 0.25 ) = 4 = 2 ;m = − 3 / 2 → − 1 / 2 : 3.75 − 0.75 = 3 。所以:
J + = ( 0 3 0 0 0 0 2 0 0 0 0 3 0 0 0 0 ) 利用 J x = 1 2 ( J + + J + † ) :
J x = 1 2 ( 0 3 0 0 3 0 2 0 0 2 0 3 0 0 3 0 ) 表示:这是一个 4 × 4 的幺正矩阵。旋转 2 π 时,因为对角元是半整数,它会变成 − I 4 × 4 。所以 j = 3 / 2 也是 S U ( 2 ) 的忠实表示,S O ( 3 ) 的射影表示。
至此,我们从对称性与群论的视角完整讲述了自旋的本质,不过似乎并不像上一章一样需要相对论修正,但是不像上一章我们从 Dirac 方程出发,直接推出了 4 分量波函数。我们这里的从从空间旋转(SU(2)/SO(3))出发,只推出了 j = 1 / 2 的 2 分量旋量(Pauli 旋量),另两个分量去哪里了?其原因同样在于相对论效应,目前的对称性分析只考虑了空间旋转,没有考虑洛伦兹变换(Boost)。只有引入洛伦兹群(Lorentz Group),才能解释为什么电子必须是“左右手”两个 S U ( 2 ) 表示的直和(2 + 2 = 4 ),从而完美闭环回到 Dirac 方程的结构。
6. 洛伦兹群
为了获得完整的自旋,我们必须开始考虑真正的对称性群,是包含了旋转(Rotation)和伪转动(Boost)的洛伦兹群 S O ( 1 , 3 ) 。当我们试图寻找洛伦兹群的“基本表示”时,会发生一件极其奇妙的事情:代数结构裂开了。
洛伦兹群的定义为:
O ( 1 , 3 ) ≡ { Λ ∣ Λ ∈ GL ( 4 , R ) , g μ ν Λ μ ρ Λ ν σ = g ρ σ } ⏟ dim O ( 1 , 3 ) = 6 , g = diag ( 1 , − 1 , − 1 , − 1 ) 本质上是闵氏时空的保度规线性变换群,从保度规条件 Λ T g Λ = g → g μ ν Λ μ ρ Λ ν σ = g ρ σ 可以得到一条对分量 Λ 0 0 的限制:
1 = g μ ν Λ 0 μ Λ 0 ν = ( Λ 0 0 ) 2 − ∑ i ( Λ 0 i ) 2 ⇒ ( Λ 0 0 ) 2 = 1 + ∑ i ( Λ 0 i ) 2 ≥ 1 这就是说洛伦兹变换必有 Λ ≥ 1 或 Λ ≤ 1 ,所以已经不连通了,由此可以将洛伦兹群氛围 O + ( 1 , 3 ) 和 O − ( 1 , 3 ) 两个流形,前者称为时向 (orthochronous) 洛伦兹群,后者不存在恒等元所以不构成群,称为洛伦兹群的反时向 (antichronous) 分支。
从保度规条件还可以确定行列式的取值:
即 有 | Λ T g Λ | = | g | ⇒ | Λ | 2 | g | = | g | ⇒ | Λ | 2 = 1 , 即有 | Λ | = ± 1 . 其中 | Λ | = 1 的记作 S O ( 1 , 3 ) 称为固有 (proper) 洛伦兹群,而 | Λ | = − 1 就称之为洛伦兹群的非固有 (improper) 分支。结合上述两点考虑我们可以将洛伦兹群 O ( 1 , 3 ) 分成四块儿连通流形,但实际上我们只需要研究固有保时性分支 S O + ( 1 , 3 ) ,这是因为另外三块儿都可以通过两个确定的洛伦兹变换作用在 S O + ( 1 , 3 ) 上来得到,更重要的是,现实世界的参考系变换绝对是保时向且固有的,而这两个确定的洛伦兹变换分别为:时间反演变换 T = T − 1 = diag ( − 1 , 1 , 1 , 1 ) 和宇称变换 P = P − 1 = diag ( 1 , − 1 , − 1 , − 1 ) 。
我们关注固有保时洛伦兹群 S O + ( 1 , 3 ) 。在这个连通分量中,任何一个变换都可以写成单位元的指数映射。如同 S O ( 3 ) 有 3 个转动生成元,S O + ( 1 , 3 ) 共有 6 个自由度(3 个转动 + 3 个伪转动),对应 6 个生成元。考虑无穷小变换 Λ ≈ I − i ϵ X ,类似上面的过程,我们可以写出两组生成元:转动生成元 J → = ( J 1 , J 2 , J 3 ) :对应空间转动,它们就是我们熟悉的角动量算符;伪转动(Boost)生成元 K → = ( K 1 , K 2 , K 3 ) :对应沿 x , y , z 轴的速度变换。这 6 个生成元满足的洛伦兹李代数 so ( 1 , 3 ) 如下:
[ J i , J j ] = i ϵ i j k J k
转动与 Boost 的关系 (Boost 算符本身像一个矢量一样旋转):
[ J i , K j ] = i ϵ i j k K k
Boost 之间不封闭 (两个不同方向的 Boost 复合不仅仅是 Boost,还会产生旋转,即 Thomas 进动) (注意:这里的负号是时空度规 g = diag ( 1 , − 1 , − 1 , − 1 ) 的特征体现,它区别于 S O ( 4 ) 的代数):
[ K i , K j ] = − i ϵ i j k J k 此时,这个代数结构看起来还是耦合在一起的(J 和 K 互相缠绕)。为了找到不可约表示,我们引入一个非幺正的基底变换 (Complexification)。定义两组新的算符 N → + 和 N → − :
N → + = 1 2 ( J → + i K → ) , N → − = 1 2 ( J → − i K → ) 让我们计算这两组新算符的对易关系。 首先看 N → + 内部:
= 1 4 [ J i + i K i , J j + i K j ] = 1 4 ( [ J i , J j ] + i [ J i , K j ] + i [ K i , J j ] − [ K i , K j ] ) = 1 4 ( i ϵ i j k J k + i ( i ϵ i j k K k ) + i ( − i ϵ i j k K k ) − ( − i ϵ i j k J k ) ) = 1 4 ( 2 i ϵ i j k J k − 2 ϵ i j k K k ) = i ϵ i j k 1 2 ( J k + i K k ) = i ϵ i j k N k + 同样地,我们可以验证 [ N i − , N j − ] = i ϵ i j k N k − 。最令人震惊的结果在于 N → + 和 N → − 之间:
[ N i + , N j − ] = 1 4 [ J i + i K i , J j − i K j ] = ⋯ = 0 这意味着:洛伦兹群的李代数在复化后,分裂成了两个相互独立的 su ( 2 ) 代数的直和。
so ( 1 , 3 ) C ≅ su ( 2 ) L ⊕ su ( 2 ) R 这在群论上是一个巨大的简化。既然我们已经对 su ( 2 ) 的表示了如指掌(由自旋 j 标记),那么洛伦兹群的不可约表示就可以由一对 半整数或者整数 ( j L , j R ) 来唯一标记。根据这种分解,最基本的旋量表示不再是唯一的,而是有了两种最基础的选择(基本表示),它们分别对应其中一个 su ( 2 ) 取 j = 1 / 2 ,另一个取 j = 0 。这就引出了手性的概念。
左手外尔旋量 (Left-handed Weyl Spinor) 对应标记 ( 1 / 2 , 0 ) 。它对 N → − 表现为自旋 1 / 2 ,对 N → + 表现为标量。这是一个 2 分量复向量,记作 ψ L 。在此表示下,N → − = 1 2 σ → ,N → + = 0 。由此反解出物理生成元:
J → = N → + + N → − = 1 2 σ → , K → = − i ( N → + − N → − ) = i 1 2 σ → 右手外尔旋量 (Right-handed Weyl Spinor) 对应标记 ( 0 , 1 / 2 ) 。它对 N → − 表现为标量,对 N → + 表现为自旋 1 / 2 。这也是一个 2 分量复向量,记作 ψ R 。在此表示下,N → − = 0 ,N → + = 1 2 σ → 。物理生成元为:
J → = 1 2 σ → , K → = − i 1 2 σ → 注意这里 K → 的符号差异!这说明虽然 ψ L 和 ψ R 在空间旋转 (J → ) 下行为一样(都是自旋 1 / 2 ),但在 Lorentz Boost (K → ) 下,它们的变换性质截然相反。
既然 ψ L 和 ψ R 都是 2 分量的,为什么我们需要 4 分量?原因在于宇称 (Parity) 。宇称变换 P 将空间坐标反演 x → → − x → 。J → 是轴矢量(r → × p → ),在 P 下不变:J → → J → 。K → 是极矢量(∼ v → ),在 P 下变号:K → → − K → 。将此代入 N → ± 的定义,我们发现宇称变换互换了这两个代数:
P : N → + ⟷ N → − 这意味着宇称将左手表示 ( 1 / 2 , 0 ) 变成了右手表示 ( 0 , 1 / 2 ) 。如果我们要描述一个像电子这样既有自旋又有质量、且遵循宇称守恒(在电磁力下)的粒子,我们不能只取其中一个。我们必须把它们“直和”在一起 。于是,Dirac 旋量 Ψ 作为 S O + ( 1 , 3 ) 扩张了宇称算符后的表示,正是这两个基本表示的直和:
Ψ = ( ψ L ψ R ) ∈ ( 1 2 , 0 ) ⊕ ( 0 , 1 2 ) 这就解释了为什么是 4 分量:两个分量来自左手扇区,两个分量来自右手扇区,它们通过质量项和宇称变换紧密耦合在一起。 我们之前用 S U ( 2 ) 看到的 Pauli 旋量,仅仅是这个相对论性对象在静止系(或非相对论极限)下的一个侧影。
顺便提一下,这里的 Weyl 旋量和刚才提到的 gamma matrices 中的 γ 5 关联深刻,实际上,厄米算符 γ 5 ≡ i γ 0 γ 1 γ 2 γ 3 就是那个用来“识别”和“定义” Weyl 旋量的算符 。如果没有 γ 5 ,我们就无法在数学上区分什么是“左手(Left-handed)”,什么是“右手(Right-handed)”。在 Dirac 理论中,γ 5 被称为手征算符(Chirality Operator) 。它有一个至关重要的代数性质:它与所有的 γ μ 反对易 { γ 5 , γ μ } = 0 。但它与洛伦兹变换的生成元 S μ ν = i 4 [ γ μ , γ ν ] 对易 :[ γ 5 , S μ ν ] = 0 ,这意味着 γ 5 是洛伦兹群表示的一个守恒量(对于无质量粒子),我们可以用它的本征值来给旋量分类。右手 Weyl 旋量是 γ 5 本征值为 +1 的态 γ 5 ψ R = + ψ R ,左手 Weyl 旋量是 γ 5 本征值为 -1 的态 γ 5 ψ L = − ψ L ,所以,物理上说的“左手性”和“右手性”,在数学上指的就是 γ 5 的特征值是 -1 还是 +1 。既然 Dirac 旋量 Ψ 是左手和右手的混合体(直和),我们如何从一个混杂的 Ψ 中把左手部分和右手部分单独“筛”出来呢?这就需要用到基于 γ 5 的投影算符 :
P L = 1 − γ 5 2 , P R = 1 + γ 5 2 这两个算符具有投影算符的标准性质(P 2 = P , P L P R = 0 , P L + P R = 1 )。它们的作用就是杀掉一手分量,只留下另一手分量:
P L Ψ = 1 − γ 5 2 ( ψ L + ψ R ) = 1 − ( − 1 ) 2 ψ L + 1 − 1 2 ψ R = ψ L , P R Ψ = ψ R 在粒子物理(特别是弱相互作用)的计算中,你经常会看到 1 − γ 5 2 这样的项,这就是在告诉你:“这个相互作用只和左手旋量玩,右手旋量请走开。” (这正是宇称不守恒的数学表达)。为了让这种关系一目了然,我们可以选择一组特殊的 Gamma 矩阵形式,称为Weyl 表象(或手征表象) ,这区别于之前提到的 Dirac 表示,在 Weyl 表象下,Gamma 矩阵是对角分块的,这使得 Dirac 旋量显式地分裂为上下两个 Weyl 旋量 Ψ = ( ψ L , ψ R ) T ,这是高能物理中最常用的视角;而在低能凝聚态物理中,我们常用 Dirac(标准)表象,那里 ψ L 和 ψ R 深度混合,更能体现‘大分量’与‘小分量’的非相对论近似。
7. 磁梯度力
我们已经完成了一段漫长的数学旅程。从狄拉克方程的推导到洛伦兹群的表示,我们已经确立了电子必须具有自旋,并且是一个 4 分量的相对论性客体。现在,让我们回到最初的那个悖论:如果不做功的洛伦兹力不能解释磁铁吸铁,那到底是谁在做功?为了回答这个问题,我们需要将微观的自旋与宏观的力联系起来。
通过对狄拉克方程进行非相对论近似,我们自然地得到了泡利方程。让我们重新审视那个凭空出现的“塞曼项”(Zeeman term):
H Z e e m a n = − e ℏ 2 m ( σ → ⋅ B → ) 在经典物理中,我们定义磁矩 μ → 与角动量 L → 的关系为回磁比。对于轨道角动量,这一关系为:
μ → L = e 2 m L → 如果我们试图用同样的逻辑来定义“自旋磁矩”,我们需要将自旋算符 S → 与磁矩联系起来。回顾 Sec 5 中自旋算符的定义:
S → = ℏ 2 σ → ⟹ σ → = 2 ℏ S → 将 σ → 代回塞曼项 H Z e e m a n ,我们得到:
H Z e e m a n = − e ℏ 2 m ( 2 ℏ S → ) ⋅ B → = − 2 ⋅ e 2 m S → ⋅ B → 我们将磁势能的一般形式写作 U = − μ → S ⋅ B → 。对比上式,我们可以读出电子的自旋磁矩 μ → S :
μ → S = 2 ⋅ e 2 m S → 如果将其写成通用的朗德因子(Landé g-factor)形式 μ → = g e 2 m S → ,我们可以直接得到结论:
g = 2 这个 g = 2 不是实验凑出来的参数,它是狄拉克方程时空对称性的直接数学结果 。它意味着:电子自旋产生磁矩的效率是经典轨道运动的两倍。
有了磁矩 μ → ,我们终于可以解释“谁在做功”了。经典洛伦兹力 F → L o r e n t z = q ( v → × B → ) 确实不做功。但是,对于一个具有内秉磁矩的物体,其动力学由势能 U 决定。根据哈密顿力学,力是势能的负梯度:
F → = − ∇ U = − ∇ ( − μ → ⋅ B → ) = ∇ ( μ → ⋅ B → ) 由于自旋 μ → 是内秉属性,在空间微分中保持常数,我们得到:
F → G r a d i e n t = ( μ → ⋅ ∇ ) B → 这就是那个做功的力,这个力被称为梯度力(Gradient Force)。如果磁场是均匀的 (∇ B → = 0 ),则受力为 0,只有力矩。而现实中的磁铁产生的磁场是非均匀 的(磁感线发散),∇ B → ≠ 0 。这是一个保守力,它将磁场与磁矩耦合的势能 转化为物体的动能 。所以,磁铁吸铁,本质上是量子化的自旋磁矩在非均匀磁场中受到梯度力的作用。洛伦兹力负责偏转,梯度力负责做功。
所以真的有两种磁力,而从对称性的角度,这对应着两种完全不同的对称性机制,这已经触及了量子场论的边缘。在量子场论中,相互作用是由对称性规定的:
洛伦兹力源于定域规范对称性 (Local Gauge Symmetry) 电磁相互作用的存在,是为了维护波函数的 U ( 1 ) 定域相位不变性:ψ → e i α ( x ) ψ 。为了补偿相位随位置的变化 ∂ μ α ( x ) ,我们必须引入规范场 A μ 和协变导数 D μ = ∂ μ − i e A μ 。 由此产生的运动方程(洛伦兹力)本质上是描述规范场如何与流(Current)耦合 。这种几何约束导致了力必须垂直于四维速度,投影到三维空间就是 v → × B → 。它的“不做功”特性是规范对称性几何结构的直接体现。
梯度力源于空间平移对称性的破缺 (Broken Spatial Translational Symmetry) 。根据诺特定理(Noether's Theorem) ,力和功与时空对称性紧密相关:动量守恒 ⟷ 空间平移对称性 。当电子处于均匀磁场 中时,哈密顿量 H = − μ → ⋅ B → 不显含位置 r → 。系统具有空间平移对称性,动量守恒 p → ˙ = − ∂ H / ∂ r → = 0 ,没有净力。然而,当电子处于非均匀磁场 (磁铁附近)时,磁场 B → ( r → ) 依赖于位置:∂ H ∂ r → = − μ → ⋅ ∂ B → ∂ r → ≠ 0 。磁铁的存在打破了空间的平移对称性(Homogeneity is broken)。正是这种时空背景对称性的破缺 ,迫使电子必须改变动量以响应能量梯度的变化。
所以,洛伦兹力是维护内部规范对称性的代价,而做功的梯度力是外部时空对称性破缺的产物。
既然我们已经站在了量子场论的视角上,必须指出 Dirac 的 g = 2 虽然辉煌,但并非终极真理。在 Dirac 方程中,我们将电子看作一个经典的场在与电磁场耦合。但在完全的量子电动力学(QED)中,真空不是空的。电子在传播过程中,会不断地发射和吸收虚光子(Virtual Photons),甚至产生正负电子对。这意味着电子与磁场的相互作用顶点(Vertex),不再仅仅是一个简单的点(Tree level),而是包含了无穷多的圈图修正(Loop corrections)。朱利安·施温格(Julian Schwinger)在 1948 年计算了第一阶修正(上图所示的单圈图),给出了著名的公式:
g = 2 ( 1 + α 2 π + O ( α 2 ) ) 其中 α ≈ 1 / 137 是精细结构常数。 这使得 g 的理论值变为 g ≈ 2.002319 . . . ,这与实验测量的结果惊人地一致(精确到小数点后 12 位)。这个微小的偏差(Anomalous magnetic moment)不仅证实了 g = 2 的相对论起源,更揭示了磁性背后的深层物理:当我们感受到磁铁的吸力时,我们不仅见证了时空的几何属性(自旋),甚至触摸到了真空中虚粒子沸腾的海洋。
8. Heisenberg Model
我们现在知道每个电子都是一个小磁针(g = 2 )。但是,如果你把一堆小磁针放在一起,室温下的热骚动(Thermal Agitation)足以将它们的方向完全打乱,使得宏观磁矩为零(顺磁性)。要形成铁磁性,自旋之间必须存在一种极强的“耦合力”,强制它们整齐排列。经典磁偶极相互作用(Dipole-Dipole Interaction)太弱了,大约只有热能的万分之一。真正的力量来自于我们之前提到的全同粒子统计性(Spin-Statistics)与 库仑相互作用 的结合。这被称为交换相互作用(Exchange Interaction) 。
为了展示本质,我们考虑最简单的模型:双电子系统 (例如 He 原子或者是两个相邻的 Fe 原子上的电子)。假设有两个电子 1 和 2,以及两个空间轨道 ψ a ( r → ) 和 ψ b ( r → ) ,ψ a ( r → ) 局域在原子 A 附近,ψ b ( r → ) 局域在原子 B 附近,并假设这两个轨道是正交归一的:⟨ ψ a | ψ b ⟩ = 0 ,注意这里的正交是我们接下来将要得到的 Heisenberg model 的前提假设,即使不正交归一我们也可以通过基底变换造出两个正交归一的新轨道,认为二者的重叠积分很小,这会使得双电子系统的计算大大简化,但是这并不意味着两个电子之间就没有交互了,因为交互作用中会伴随着交互作用项积分,一般不为零。
这个系统的总哈密顿量为:H = H 0 + H i n t ,其中 H 0 是单电子部分(动能+核势能),H i n t 是两个电子之间的库仑相互作用 :H i n t = e 2 | r → 1 − r → 2 | ,注意:这里完全没有磁相互作用项,只有纯粹的静电斥力。
根据量子力学全同粒子费米统计假设,电子的总波函数 Ψ ( 1 , 2 ) 必须在粒子交换算符 P 12 作用下变号(反对称):
P 12 Ψ ( 1 , 2 ) = − Ψ ( 1 , 2 ) 因为总波函数由空间部分 ϕ ( r → 1 , r → 2 ) 和自旋部分 χ ( s 1 , s 2 ) 组成:Ψ = ϕ ⊗ χ 。我们首先推导自旋部分,然后根据总体的反对称性得到空间部分。我们有两个自旋为 1 / 2 的粒子(比如两个电子),总共有 2 × 2 = 4 种可能的直积状态(未耦合基底),我们要把它们的自旋加在一起,看看总自旋 S → t o t = S → 1 + S → 2 会是什么样子,找到总自旋算符 S ^ 2 和总磁量子数 S ^ z 的共同本征态 | S , M ⟩ 。根据角动量加法规则,两个 1 / 2 自旋合成的总自旋 S 可以取:S = 1 / 2 + 1 / 2 = 1 (三重态,有 3 个 M 值:+ 1 , 0 , − 1 )和 S = 1 / 2 − 1 / 2 = 0 (单态,有 1 个 M 值:0 )。
三重态对应三个分量。总磁量子数 M 是两个粒子磁量子数之和:M = m 1 + m 2 。 要让 M = 1 ,唯一的可能是两个电子都向上:1 / 2 + 1 / 2 = 1 。 所以,三重态的第一个成员是确定的:| 1 , 1 ⟩ = | ↑↑ ⟩ ,然后使用降算符 (S − ) 得到中间态 (M = 0 ) 从 | 1 , 1 ⟩ 推导出 | 1 , 0 ⟩ 。 利用总降算符 S ^ − = S ^ 1 − + S ^ 2 − 作用在态 | j , m ⟩ 上:J − | j , m ⟩ = ℏ j ( j + 1 ) − m ( m − 1 ) | j , m − 1 ⟩ ,对左边的耦合态作用得到:
S ^ − | 1 , 1 ⟩ = 1 ( 1 + 1 ) − 1 ( 1 − 1 ) | 1 , 0 ⟩ = 2 | 1 , 0 ⟩ 对右边的直击态作用得到:
( S ^ 1 − + S ^ 2 − ) | ↑↑ ⟩ = ( S ^ 1 − | ↑ ⟩ 1 ) | ↑ ⟩ 2 + | ↑ ⟩ 1 ( S ^ 2 − | ↑ ⟩ 2 ) = | ↓ ⟩ 1 | ↑ ⟩ 2 + | ↑ ⟩ 1 | ↓ ⟩ 2 = | ↓↑ ⟩ + | ↑↓ ⟩ 于是得到:
| 1 , 0 ⟩ = 1 2 ( | ↑↓ ⟩ + | ↓↑ ⟩ ) 最低权态 (M = − 1 ) 也很简单,只有两个都向下才能得到 − 1 :| 1 , − 1 ⟩ = | ↓↓ ⟩ 。于是三重态自旋部分是对称的,交换都不变号,那么空间部分必须是反对称的。
单态的量子数是 S = 0 , M = 0 。 它必须是 M = 0 的直积态 | ↑↓ ⟩ 和 | ↓↑ ⟩ 的某种线性组合:| 0 , 0 ⟩ = a | ↑↓ ⟩ + b | ↓↑ ⟩ ,因为不同量子数的本征态必须是正交的,单态 | 0 , 0 ⟩ 必须与三重态中的 | 1 , 0 ⟩ 正交,可以解出:
| 0 , 0 ⟩ = 1 2 ( | ↑↓ ⟩ − | ↓↑ ⟩ ) 单态(Singlet)的自旋部分是反对称的,对应的空间部分必须是对称的。总结为:
空间对称 ⊗ 自旋反对称(Singlet, 单态)能量:E S
自旋部分(反对称): S = 0 的单态 χ S = 1 2 ( ↑↓ − ↓↑ ) 。
空间部分(对称):ϕ S ( r → 1 , r → 2 ) = 1 2 [ ψ a ( r → 1 ) ψ b ( r → 2 ) + ψ a ( r → 2 ) ψ b ( r → 1 ) ] 。
空间反对称 ⊗ 自旋对称(Triplet, 三重态)能量:E T
自旋部分(对称): S = 1 的三重态 χ T = { ↑↑ , 1 2 ( ↑↓ + ↓↑ ) , ↓↓ } 。
空间部分(反对称):ϕ A ( r → 1 , r → 2 ) = 1 2 [ ψ a ( r → 1 ) ψ b ( r → 2 ) − ψ a ( r → 2 ) ψ b ( r → 1 ) ] 。
我们的目标是:寻找一个只包含自旋算符 S → i 和 S → j 的数学表达式 H ^ e f f ,使得它作用在单态和三重态上时,能够自动给出对应的能量 E S 和 E T 。要构建这个哈密顿量,最自然的积木块是两个自旋的点积 S → i ⋅ S → j 。我们需要先算出这个算符在单态和三重态下的特征值 分别是多少。定义双电子系统的总自旋算符 :S → t o t = S → i + S → j ,对总自旋算符取平方反解出点积项:S → i ⋅ S → j = 1 2 ( S → t o t 2 − S → i 2 − S → j 2 ) 。利用量子力学中角动量平方算符的特征值公式 S ^ 2 | s ⟩ = s ( s + 1 ) | s ⟩ (此处为了简洁暂时省略 ℏ 2 ,最后结果不受影响,或者视为无量纲自旋):
对于单个电子 (s = 1 / 2 ):S → i 2 = S → j 2 = 1 2 ( 1 2 + 1 ) = 3 4
对于单态 (S t o t = 0 ):S → t o t 2 | S ⟩ = 0 ( 0 + 1 ) | S ⟩ = 0
对于三重态 (S t o t = 1 ):S → t o t 2 | T ⟩ = 1 ( 1 + 1 ) | T ⟩ = 2 | T ⟩
现在,我们把这些值代回点积公式,计算特征值:
单态下的点积值 :( S → i ⋅ S → j ) | S ⟩ = 1 2 ( 0 − 3 4 − 3 4 ) | S ⟩ = − 3 4 | S ⟩
三重态下的点积值 :( S → i ⋅ S → j ) | T ⟩ = 1 2 ( 2 − 3 4 − 3 4 ) | T ⟩ = 1 2 ( 1 2 ) | T ⟩ = 1 4 | T ⟩
我们假设等效哈密顿量 H ^ i j 具有如下线性形式(这是最普遍的旋转对称形式):H ^ i j = C 0 + C 1 ( S → i ⋅ S → j ) ,C 0 只是一个与自旋构型无关的常数能量平移(Energy Shift),在研究相变和自旋动力学时,我们可以将其丢弃(或者重新定义能量零点),然后将单态和三重态的数据代入,有 E S = C 1 ( − 3 4 ) , E T = C 1 ( 1 4 ) ,定义常数 J ≡ E S − E T ,就得到了双粒子哈密顿量:
H ^ i j = − J ( S → i ⋅ S → j )
如果 J > 0 (E S > E T ):系数是负的,点积越大(平行,+1/4),能量越低。这是铁磁性。
如果 J < 0 (E S < E T ):系数是正的,点积越小(反平行,-3/4),能量越低。这是反铁磁性。
现在我们将这个双粒子相互作用推广到整个晶格。假设每个电子 i 只和它的最近邻(Neighbors)发生相互作用。我们需要对晶格中所有的原子求和。为了修正这种重复计数:
H e x c h a n g e = − J 2 ∑ i , j neighbor S → i ⋅ S → j 最后,我们还要考虑每个电子自旋与外部均匀磁场 B → 的相互作用。这是单体相互作用,不需要考虑邻居。回顾我们之前从 Dirac 方程导出的结论,电子具有自旋磁矩:
μ → S = − g e 2 m S → 为了让公式更加简洁和通用,物理学家定义了一个自然常数组合,称为玻尔磁子(Bohr Magneton) 。玻尔磁子是原子物理中磁矩的自然单位。它的定义为:
μ B ≡ e ℏ 2 m e 这个物理量包含了三个基本常数:基本电荷 e 、普朗克常数 ℏ 和电子质量 m e 。它代表了一个经典电子在氢原子基态轨道上运动所产生的轨道磁矩大小,这是国际标准公制,而在高斯单位制下,还包含光速 μ B ≡ e ℏ 2 m e c 。如果我们将自旋算符 S → 视为无量纲 算符(即特征值为 1 / 2 而不是 ℏ / 2 ),那么真实的物理角动量是 ℏ S → 。将这个 ℏ 提取出来与前面的常数结合:
μ → S = − g e 2 m e ( ℏ S → dimensionless ) = − g ( e ℏ 2 m e ) S → = − g μ B S → 当电子处于外部磁场 B → 中时,其势能(Zeeman Energy)由经典电磁学公式 U = − μ → ⋅ B → 给出。将上述磁矩表达式代入:
注 意 符 号 : 通 常 势 能 定 义 为 U Z e e m a n = − ( − μ → S ) ⋅ B → ( 注意符号:通常势能定义为 − μ → ⋅ B → ) = − ( − g μ B S → ) ⋅ B → = g μ B S → ⋅ B → 关于符号的物理约定: 在凝聚态物理中,我们通常希望哈密顿量反映能量极小值。电子带负电,磁矩 μ → 与自旋 S → 反向。能量最低态是磁矩 μ → 与磁场 B → 平行 。这意味着自旋 S → 与磁场 B → 反平行 。为了避免处理繁琐的负号,或者为了让自旋看起来“顺着”磁场(定义 S → 指向磁矩方向而非角动量方向),有时文献会调整定义。但最标准的推导(保留电子电荷负号)给出的塞曼项通常写为 + g μ B S → ⋅ B → 或 − μ → ⋅ B → 。然而,在海森堡模型的习惯写法中,为了数学上的对称性及方便讨论(例如假设 g 为负或重新定义自旋方向),通常将塞曼项写为负号形式,表示自旋倾向于沿着场排列(这是一种唯象的处理):
H Z e e m a n = − g μ B ∑ i S → i ⋅ B → (这意味着能量最低时,S → i 与 B → 同向。这蕴含了我们重新定义了自旋方向,或者 g 取负值。在唯象模型中,我们只关心:磁场倾向于把自旋拉向哪个方向 。)
现在,我们将两部分拼图合二为一:内部相互作用 (由泡利原理和库仑力产生的交换能)与外部相互作用 (由相对论量子效应产生的磁矩与外场耦合),将它们相加,我们终于得到了描述固体磁性最核心的哈密顿量——海森堡模型(Heisenberg Model) :
H = − J 2 ∑ ⟨ i , j ⟩ S → i ⋅ S → j − g μ B ∑ i S → i ⋅ B → 这个公式是现代磁学的基石。第一项(J )解释了为什么磁铁会有磁性 (自发磁化,自旋整齐排列)。第二项(B )解释了磁铁如何被外界控制 (磁化过程,磁滞回线)。μ B 和 g 将微观的量子常数(ℏ , e , m e )与宏观的可观测磁场联系在了一起。
9. Ising Model
我们已经完成了微观机制的构建(Dirac → Spin → Exchange Interaction → Heisenberg Hamiltonian)。现在,我们要从微观走向宏观,为了做到这一点,我们需要处理 Heisenberg 模型。但在二维或三维中精确求解 Heisenberg 模型极度困难(因为它包含非对易算符)。因此,我们需要引入Ising 模型作为近似,并使用平均场论(Mean-Field Theory)来展示对称性是如何破缺的。
我们对 Heisenberg model 进行无量纲化处理,并分析其结构。假设外磁场沿着 z 方向 B → = ( 0 , 0 , B ) 。我们将自旋算符 S → 的点积展开为纵向(z )和横向(x , y )分量:
S → i ⋅ S → j = S i z S j z + ( S i x S j x + S i y S j y ) 为了看清横向部分的物理意义,我们引入升降算符(Ladder Operators):
S i + = S i x + i S i y , S i − = S i x − i S i y 于是,海森堡模型可以重写为两部分:
H = [ − J 2 ∑ ⟨ i , j ⟩ S i z S j z − h ∑ i S i z ] ⏟ Ising Part + [ − J 4 ∑ ⟨ i , j ⟩ ( S i + S j − + S i − S j + ) ] ⏟ Flip Part (其中 h = g μ B B )。这两部分有着截然不同的物理含义:
Ising Part (纵向项) : 这一项只涉及 S z 。由于不同格点的 S i z 是对易的([ S i z , S j z ] = 0 ),它们表现得像经典的标量变量。这描述了自旋在 z 轴上的静态排列。
Flip Part (横向项/翻转项) : 这一项涉及 S i + S j − 。它的作用是:将第 j 个格点的自旋向下翻(S − ),同时将第 i 个格点的自旋向上翻(S + )。S i + S j − | ↓ i ↑ j ⟩ = | ↑ i ↓ j ⟩ 。这物理上代表了自旋激发的移动 。就像一个自旋反转的状态在晶格中跳跃一样,这对应于自旋波(Spin Wave)或 磁振子(Magnon) 。这是一种量子涨落 ,它赋予了系统“动能”,倾向于破坏有序排列。
在许多真实的磁性材料中,由于晶格结构的对称性,存在磁各向异性(Magnetic Anisotropy) 。这意味着自旋在某些方向(如 z 轴,易轴)上的能量比在 x , y 平面内更低。如果各向异性足够强,或者我们只关心经典极限下的相变行为,我们可以忽略 Flip Part(量子涨落项),只保留纵向项。这便是著名的 Ising Model 。
此时,我们将算符 S i z 替换为经典变量 σ i = ± 1 (吸收系数到 J 中):
H I s i n g = − J 2 ∑ ⟨ i , j ⟩ σ i σ j − h ∑ i σ i 这是一个巨大的简化:我们将一个非对易的量子矩阵问题,变成了一个经典的统计排列组合问题。2D Heisenberg model 至今是没有办法精确解的,我们可以计算方法求解。不过其中的 Ising model 相对简单一些,1D Ising model 的解很简单,在 1D 没有相变(Ising, 1924),但是 2D 也是很难解,直到有一个奇人 Lars Onsager 发了个很简单的论文说这个他解了,但是没有给出怎么解的,但是他给出了那个 critical temperature,且指出低温时铁磁,高温是顺磁,这是第一个可以精确解出的铁磁相变的 model,他一直没有公布解答过程,直到杨振宁看到这篇论文,给出了解答,不过一样很困难。为了直观理解物理图像,我们这里采用平均场近似 。
我们面临的问题是多体耦合:σ i 的状态取决于 σ j ,而 σ j 又取决于 σ k ... 这种连锁反应使得配分函数难以计算。平均场思想:当我们关注第 i 个原子时,我们不关心邻居 j 到底是在 + 1 还是 − 1 之间跳变,我们只关心邻居的平均影响。我们将 σ j 写为平均值加涨落:σ j = ⟨ σ ⟩ + δ σ j 。 忽略二阶涨落项 δ σ i δ σ j ≈ 0 ,哈密顿量可以线性化为单体形式:
H M F A = − ∑ i σ i ( J ∑ j ∈ neigh ⟨ σ ⟩ + h ) ⏟ h e f f 这就定义了有效分子场(Molecular Field) h e f f :
h e f f = J z ⟨ σ ⟩ + h 其中 z 是配位数(每个原子的邻居数量)。现在,问题变成了一个自旋在“外场” h e f f 中的统计分布。根据玻尔兹曼分布,该自旋向上的概率正比于 e β h e f f ,向下的概率正比于 e − β h e f f (β = 1 / k B T )。 于是,该自旋的热力学平均值 ⟨ σ i ⟩ 为:
⟨ σ i ⟩ = ( + 1 ) e β h e f f + ( − 1 ) e − β h e f f e β h e f f + e − β h e f f = tanh ( β h e f f ) 因为晶格是均匀的,⟨ σ i ⟩ 必须等于场源本身的平均值 m = ⟨ σ ⟩ 。代入 h e f f ,我们得到了著名的自洽方程(Self-consistent Equation) :
m = tanh ( J z m + h k B T ) 让我们考虑最关键的情况:没有外部磁场 (h = 0 ) 。方程简化为:
m = tanh ( T c T m ) 其中我们将常数打包定义为 居里温度(Curie Temperature) T c = J z / k B 。这是一个超越方程,我们可以通过作图法(寻找 y = m 和 y = tanh ( T c T m ) 的交点)来分析解的行为:
高温相 (T > T c ) : tanh 曲线在原点的斜率 T c / T < 1 。直线与曲线只有一个交点 m = 0 。 物理意义: 热骚动剧烈,没有外场就没有磁性。这是顺磁相(Paramagnetic) 。
低温相 (T < T c ) : tanh 曲线在原点的斜率 T c / T > 1 。原点 m = 0 变成不稳定解,出现了两个新的稳定非零解 m = ± m 0 。 物理意义: 即使 h = 0 ,系统也会自发地产生非零的磁化强度 m 0 。这是铁磁相(Ferromagnetic) 。
这就是自发对称性破缺(Spontaneous Symmetry Breaking): 哈密顿量在 h = 0 时具有 σ → − σ 的翻转对称性。但是,当温度低于 T c 时,大自然被迫 在“全体向上”和“全体向下”中选择一个。这种选择不是由外力强加的,而是系统为了降低能量(由交换相互作用 J 驱动)而自发 做出的集体决策。这正是磁铁吸铁这一宏观现象背后的统计力学本质。
10. Magnetic Domains
我们根据 Ising 模型和平均场论得出了结论:当温度低于居里温度 T c 时,电子自旋会自发排列,产生巨大的宏观磁化强度 M 。但是,这立刻引出了一个新的悖论:如果你去五金店买一颗铁钉(室温显然远低于铁的居里温度 1043 K ),它并没有磁性。它不会去吸别的东西。这是因为我们忽略了最后一项能量竞争。
我们之前的哈密顿量只考虑了交换能(Exchange Energy)和塞曼能(Zeeman Energy)。但在宏观尺度上,还有一个经典的静磁能(Magnetostatic Energy) 。如果一块铁中的所有 10 23 个原子都整齐朝上排列,这块磁铁会在周围空间建立一个巨大的磁场。磁场包含了能量密度 B 2 / 2 μ 0 。把所有磁力线撑开需要耗费巨大的能量。为了降低这个静磁能 ,材料会自发地分裂成许多微小的区域,称为磁畴(Magnetic Domains) 。虽然在磁畴内部 ,交换相互作用让自旋整齐排列(满足微观铁磁性);但在整体 上,各个磁畴的磁矩矢量和为零(∑ M → i = 0 ),外部没有磁感线,从而极大地降低了静磁能。
磁畴之间的边界被称为畴壁(Domain Wall) 。在畴壁内,自旋不是突然反转的,而是渐进旋转的。这又是一次能量的博弈:交换能 希望自旋平行,不想让它们转弯(希望畴壁越宽越好);磁各向异性(Anisotropy)希望自旋沿着易轴,不想让它们指向中间方向(希望畴壁越窄越好)。 这两者的平衡决定了畴壁的厚度(通常是几百个原子层)。磁畴的形成并不是像自旋那样来自“第一性原理”的推导,而是来自连续介质场论下的能量最小化(Energy Minimization)属于微磁学(Micromagnetics)的范畴,这里就不展开了。
现在,我们终于可以完整描述“磁铁吸铁”的宏观过程了:
初始状态 :铁钉内部充满了杂乱无章的磁畴,宏观磁矩为零。
外场介入 :当你拿磁铁靠近铁钉时,提供了一个外磁场 B → e x t 。
畴壁移动(Domain Wall Motion) :这就打破了平衡。那些方向与 B → e x t 一致 的磁畴拥有更低的塞曼能(E = − M → ⋅ B → )。于是,这些“顺从”的磁畴开始吞并周围“不顺从”的磁畴。畴壁发生了移动。
宏观磁化 :铁钉迅速获得了一个巨大的净磁矩。
梯度力做功 :这个感应出来的宏观磁矩 m → t o t a l 受到磁铁产生的非均匀磁场的梯度力 F → = ∇ ( m → t o t a l ⋅ B → ) 的牵引。
咔哒 :铁钉飞向了磁铁。
Conclusion: The Deep Symmetry of the Universe
当你手中把玩两块磁铁,感受它们之间的排斥与吸引时,你感受到的不仅仅是力。你是在用手触摸量子力学的本质 和宇宙演化的秘密 。让我们回顾这段旅程,看看我们是如何重建物理直觉的:
经典的崩塌 :我们发现洛伦兹力不做功,且经典统计物理禁止磁性(Bohr-van Leeuwen 定理)。
相对论的修正 :Dirac 方程揭示了电子必须是 4 分量的旋量,并携带 g = 2 的内秉磁矩。磁性,是相对论效应在低速世界的残留。
量子统计的强力 :泡利不相容原理结合库仑斥力,产生了一种等效的“交换相互作用”,迫使自旋平行排列。
对称性的破缺 :Ising 模型告诉我们,当温度降低时,系统为了生存(降低能量),不得不破坏旋转对称性,选择一个方向。
最后,值得一提的是,我们在 Ising 模型中看到的自发对称性破缺(SSB) ,其意义远超固体物理。它是现代物理学理解宇宙的核心范式。在宇宙大爆炸之初(极高温),物理规律具有极高的对称性。所有的基本粒子都没有质量,就像高温下的铁块没有磁性一样(顺磁相)。 随着宇宙冷却,当温度跌破某个临界值时,充满宇宙的**希格斯场(Higgs Field)**发生了相变。就像电子自旋突然选择朝向一个方向一样,希格斯场在真空中获得了一个非零的期望值(Vacuum Expectation Value)。
在铁磁体中,对称性破缺赋予了材料磁性 。
在标准模型中,对称性破缺赋予了基本粒子质量 。
所以,下一次当你看到磁铁吸起一枚回形针时,请意识到:你正在目睹一个微缩版的宇宙创生时刻。那个让铁钉获得磁性的机制,正是让你身体里的夸克和电子获得质量、让这个宇宙得以存在的同一机制。
磁力不做功,是时空的几何在做功;磁铁的吸力,是量子的幽灵在宏观世界的舞蹈。