DALL·E 3:Improving Image Generation with Better Captions

论文链接：https://cdn.openai.com/papers/dall-e-3.pdf
DALLE3 API：https://github.com/Agora-X/Dalle3
官网链接：添加链接描述

DALLE3讲解视频：B站视频
推荐DALLE2的讲解视频：B站：跟李沐学AI 之前精讲的DALLE2论文

北理&上海AI Lab&清华提出 Mini DALL·E 3：https://arxiv.org/pdf/2310.07653.pdf
code：https://github.com/Zeqiang-Lai/Mini-DALLE3

要点分析

文章主要在讲：通过更好的文本标注（Better Captions），提升图像生成质量

在这里插入图片描述

1. 摘要（Abstract）

在这里插入图片描述

生成标注+原始文本标注的比例【意思train的时候加入生成标签，test的时候不加入呗？】
- 混合原因：生成文本是基于数据的模式，用户的文本（原始标注）有自己的风格，原始标注相当于正则
- 95%> 90% > 80%，但是不是100%最好
用户的prompt简短，不能充分发挥模型能力
- 用GPT扩写用户的prompt

在这里插入图片描述

自动评估：
- Clip scores：用Ms COCO的caption生成图片，然后用Clip scores去评估图片文本之间的匹配程度
- Drawbench：Images提出的比较全的评测prompts，然后用GPT-V（多模态）来评估生成突破和Prompts的匹配度（生成模型评估生成模型hh）
- T2l-Compbench：与Drawbench类似，区别在于GPT-V换成VQA
人工评估：
- Prompt fllowing：Prompts和图像匹配程度
- style：图片质量，评估者是看不到Prompts，直接看两张图片哪个更好
- coherence：观察不合理的结构，虚幻的场景人工评估打低分，作者换成用MS COCO的Caption生成的图像去做评估

在这里插入图片描述

方法局限性：

在这里插入图片描述