研究笔记 · Research Note

反问题与正则化

Zhenyu He · Jobs Stroustrup 阅读约 2 分钟

反问题与正则化 (Inverse Problems & Regularization)

页面用途：Zhenyu 在 2021 年本科末期（Yuk Yung / King-Fai Li 指导）系统自学的数学方法领域。

反问题 (Inverse Problem)：给定一个正向模型 $d = A x + ϵ$ （ $A$ 为已知的观测/物理算子， $d$ 为观测数据， $x$ 为待反演的未知量， $ϵ$ 为噪声），求未知量 $x$ 的过程。

不适定 (Ill-posed) 遵循 Hadamard 1902 定义，一个问题如果不满足以下三条之一就是 ill-posed：

离散反问题 (Discrete Inverse Problem)：物理上连续的反问题离散化后得到线性系统 $A x = d$ ，其中 $A$ 常为条件数极大（ $cond (A) ≫ 1$ ）的矩阵——微小的数据噪声会被放大成解空间里的巨大扰动。

正则化 (Regularization) 的核心思想：放弃”严格拟合数据”（即求 $min ∥ A x - d ∥^{2}$ ）的野心，换取解的稳定性，引入一个正则项 $R (x)$ 和正则化参数 $λ$ ：

$min_{x} ∥ A x - d ∥^{2} + λ R (x)$

常见的 $R (x)$ ：Tikhonov 的 $∥ x ∥^{2}$ 、 $∥ Lx ∥^{2}$ （ $L$ 为差分算子给出平滑性约束）、sparsity 的 $∥ x ∥_{1}$ （导向 compressive sensing）。

$λ$ 过小 → 解被噪声主导（欠正则化）； $λ$ 过大 → 解被正则项主导，失真（过正则化）。选择”刚刚好”的 $λ$ 是反问题方法论的核心。Zhenyu 在 repo 中系统对比了四种方法：

1. L-Curve Method

2. L-Curve Curvature Method

3. Generalized Cross Validation (GCV)

Golub、Heath、Wahba 1979 提出
目标函数： $GCV (λ) = \frac{∥ A x _{λ} - d ∥ ^{2}}{[ m - tr ( I - H ( λ )) ] ^{2}}$ ，其中 $H (λ)$ 是”帽子矩阵”
本质：留一交叉验证的期望形式的闭式近似
优点：有强理论基础、无需噪声水平、完全自动
缺点：目标函数可能 flat（最小值区域不显著），在高度相关数据上会低估 $λ$

4. Morozov Discrepancy Principle

Hansen（《Discrete Inverse Problems》2010）的立场：L-Curve 是首选——在未知噪声水平时，它的几何直觉最强、最鲁棒。书中大量例子（包括 gravity problem Fig 5.9）用的都是 L-Curve 搭配少量辅助方法。

Golub 1979 的 GCV 立场：GCV 在随机噪声下是统计最优的（在预测误差 $∥ A (x_{λ} - x_{true}) ∥^{2}$ 的期望意义下）。适合噪声水平未知但分布假设成立的问题。

Zhenyu 在 DSCOVR 实验中观察到的（ DSCOVR_test/）：

SVD 分解 + Tikhonov 解析解： $A = U Σ V^{T}$ ，解写作 $x_{λ} = \sum_{i} \frac{σ _{i}}{σ _{i}^{2} + λ} u_{i}^{T} d \cdot v_{i}$ ——filter factor 视角揭示了”哪些奇异方向被保留、哪些被压制”
条件数分析： $cond (A) = σ_{1} / σ_{n}$ 估计问题的”坏度”
Picard 条件：检查 $∣ u_{i}^{T} d ∣$ 是否在 $σ_{i}$ 衰减到噪声水平前衰减足够快——违反 Picard 条件意味着问题根本性无法从数据中恢复解
Filter factors： $f_{i} (λ) = σ_{i}^{2} / (σ_{i}^{2} + λ)$ ，Tikhonov 把 $f_{i}$ 变成光滑过渡；Truncated SVD 把 $f_{i}$ 变成阶跃函数（选前 $k$ 个奇异分量）

非线性反问题：这里讨论的都是线性 $A x = d$ 。实际气候、医学成像、地球物理反演常是非线性的（ $d = f (x) + ϵ$ ），正则化和参数选择还有什么差异？
Bayesian 视角统一：正则化参数 $λ$ 在 Bayesian 里对应先验的 precision，选择 $λ$ 等价于 Type-II MLE / MAP——这与 GP-贝叶斯反演的 MCMC over hyperparameter 观点的取舍？
Deep learning 学的”正则化”：dropout、weight decay、data augmentation——和经典 Tikhonov 的数学联系？

Zhenyu 已经用过或计划用的：

迁移场景（其他领域）：

— 代码 + 四种方法的对比实验 + 自学笔记
PKU-Undergraduate-Research — MCMC Retrieval Methods 项目背景
教科书（raw 里的 PDF）：Hansen《Discrete Inverse Problems》2010
原始论文（raw 里的 PDF）：Golub, Heath, Wahba 1979（GCV 发明）
讲义（raw 里的 PDF）：Morozov discrepancy principle
[待补充] Zhenyu 的 research-angle 独立 LLM Wiki 中的进一步 .docx 学习笔记（例如 Hansen_numerical_test_zyh.docx、TestOnUsingKawahara_3pointsLinearRegress_HansenBookEg.docx）——将来合并进来后此 concept 页可扩展