Energy-Based Model (EBM)
约 717 个字 7 张图片 预计阅读时间 4 分钟
设
- Autoregressive:products of normalized objects
- Latent variables:Mixture of normalized objects
一般选择令
Training¶
目标:最大化
Contrastive Divergence¶
由于
称为 Contrastive divergence,推导:
这里
都需要迭代取样,非常慢。可以改进为 training without sampling,使用 score function:
也就是计算对数化之后的梯度,可视化:
Score Matching¶
直观上看,就是想要先让梯度近似相等,然后在除以 partition function
问题是,计算 trace 太过 expensive。
Noise Contrastive Estimation¶
将
推导: