论文阅读《生成模型的评估》:A NOTE ON THE EVALUATION OF GENERATIVE MODELS
最近在做GAN相关的东西,导师推荐了一篇生成模型评估的文章,读一读当作笔记。
作者 :LucasTheis∗ University of T¨ubingen 72072 T¨ubingen, Germany lucas@bethgelab.org
A¨aronvandenOord∗† Ghent University 9000 Ghent, Belgium aaron.vandenoord@ugent.be
MatthiasBethge University of T¨ubingen 72072 T¨ubingen, Germany matthias@bethgelab.org
发表会议 :ICLR 2016
摘要
概率图模型在各种场合都有大范围应用,所以这些模型的形成、训练和评估存在很大的异质性(heterogeneity)也就很正常了,所以一般很难直接比较两个模型。本文测评了三个目前最常用的准则,average log-likelihood,Parzen window estimas,and visual fidelity of samples。当数据是高维的时候,这三个准则,没有任何相关性,是独立的,意思就是一个准则好,另一个不一定也好。
结论就是,不能从一个准则直接推断另一个在准则,需要根据不同的应用场景进行合适的评估,另外也说了尽量避免使用parzen窗估计。
介绍
本文首先展示了基于KL散度和JSD和mmd优化过程导致不同的tradeoff的结果。
然后讨论了,log-likelihood和分类性能,parzen窗估计,样本保真度等之间的关系。
总之一句话,高质量样本并不一定代表优化准则的loss小,反之亦然。
生成模型的训练
现在都是从模型分布中采样有限的数据,然后训练模型到最佳。也就是说,假设模型正确,对于大量数据,用任何方法都是一样的结果。但是如果模型和数据分布不匹配,那么不同的优化方法将会产生不同结果。

作者说对于不同任务要选择适合的trade-off的metric。
比如:在图像压缩时候,为每个图像分配足够的概率是好的,但是在重构图像时候会出现很多重复实例。也就是说,在目标分布下具有大密度的意义上看似合理的样本并不一定表示通过KLD测得的良好密度模型,而是在优化JSD时可以预期的。
生成模型评估
这部分没太看懂啥意思,就是列举各种似然和样本情况。
好的似然-》坏的样本;
坏的似然-》好的样本;
好的似然-》好的样本;
基于最近邻的评估 只能测试处明显的过拟合
总结
基于似然的优化的结果好坏并不能代表什么。
在图像合成的领域,基于图像保真度的主观评价还是更有意义。至少能保证数据分布很好。尽量不用parezn窗估计
总而一句话,,,没有万能的损失函数,对呀不同的生成模型场景,选择合适的loss就得了。。。。
