Rich Human Feedback for Text-to-Image Generation
此篇文章属于LLM系列文章,在深入研究《Rich Human Feedback for Text-to-Image Generation》的基础上进行译介
用于文本到图像生成的丰富人类反馈
- Abstract部分
- 第1章 引言
- 第2章 相关研究综述
- 第3章 多样化用户反馈数据收集
- 第4章 数据驱动的反馈预测模型构建
- 第5章 基于丰富数据的模型优化与提升
- 第6章 研究总结及未来展望
摘要
最近的文本到图像(T2I)生成模型中,在基于文本描述生成高分辨率图像方面取得了显著进展。然而,在生成的图像中仍存在诸如伪影/不可信、与文本描述不一致以及低美学质量等问题。受人类反馈增强学习(RLHF)在大型语言模型中的成功应用启发,在先前的研究中收集了人类提供的评分作为对生成图像的反馈,并训练了奖励模型以改进T2I生成过程。本文提出了一种新的方法:首先通过标记与文本不可信或不对齐的图像区域;其次通过注释文本提示中哪些单词在图像上被误传或缺失来丰富反馈信号。我们在18K张生成图像(RichHF18K)上收集了这种丰富的人类反馈数据,并训练了一个多模态Transformer模型来自动预测这些反馈信息。我们表明可以通过预测的丰富人类反馈来改进图像生成过程:例如通过选择高质量的训练数据来进行微调和优化生成模型;或者通过创建具有预测热图的掩模来修复有问题的区域。值得注意的是:除了用于生成收集人类评分数据所用的特定变体外(如稳定扩散模型)之外;这种改进方案还被扩展应用于主模型(Muse)。RichHF-18K数据集已发布于我们的GitHub存储库:https://github.com/googleresearch/google-research/tree/master/richhf18k。
1 引言
2 相关工作
3 收集丰富的人类反馈
4 预测丰富的人类反馈
5 从丰富的人类反馈中学习
6 结论和局限性
在本研究工作中,我们开发了RichHF-18K数据集(R-HF-18K),这是首个专门用于图像生成任务的人类反馈数据集合。通过构建和训练一个多模态Transformer架构模型,在该数据集上实现了对人类反馈的精准预测能力,并通过具体案例展示了该方法如何有效提升图像生成质量
尽管我们在实验中取得了一些令人鼓舞的结果和未来潜力的表现空间,在这项研究工作中也暴露出了几个显著局限性:首先,在准确对齐热图上的性能表现不佳与不可信热图相比(可能是由于热图中的噪声干扰),这一缺陷值得深入研究和改进;其次,在评估其他生成模型及其潜在影响方面的工作仍有待加强;此外,在现有框架下提出的三种极具前景的技术方案虽然为T2I生成任务提供了创新思路和技术路径但我个人认为还存在许多有待探索的新方向例如:基于预测结果的强化学习微调、将预测结果作为加权因子引入生成过程以及利用错位序列辅助反馈学习等
我们相信RichHF-18K数据集与当前模型架构能够为我们未来研究者提供丰富的资源支持以探索这些前沿课题并推动图像生成技术的持续进步
