说明¶

说明

当前 tiny_norm 已包含三类归一化层：LayerNorm、BatchNorm1D、BatchNorm2D。其中 BatchNorm 系列默认以**推理模式**运行，直接使用 running_mean/running_var，便于端侧部署时对齐 PC 训练结果。

LayerNorm¶

LayerNorm 沿最后一维（feat）归一化，不依赖 batch 统计量：

\[ \mu = \frac{1}{F}\sum_f x_f,\quad \sigma^2 = \frac{1}{F}\sum_f (x_f-\mu)^2,\quad \hat{x}_f = \frac{x_f-\mu}{\sqrt{\sigma^2+\varepsilon}} \]

\[ y_f = \gamma_f \hat{x}_f + \beta_f \]

BatchNorm1D/2D 都提供：

bn->set_training(true);   // 使用当前 batch 统计并更新 running stats
bn->set_training(false);  // 使用 running_mean/running_var

在 Sequential 里可统一切换：

model.set_training_mode(true);   // 训练
model.set_training_mode(false);  // 推理

部署推理：先在 PC 训练并导入 gamma/beta/running_mean/running_var，端上保持 training_mode=false。
小 batch 训练：若 batch 很小且波动大，优先考虑 LayerNorm。
MLP/CNN 示例：example_mlp 新增 BatchNorm1D demo，example_cnn 新增 BatchNorm2D demo，可直接参考运行日志与模式切换流程。