速率提升数十倍，惟独一张图一句话，google新模子20秒即可实现变脸

休闲 2025-03-07 10:15:17 144

时隔 8 个月，速率数倍google又提出了一种能在 20 秒内实现人脸特色化处置的提升更天生模子。

此前，惟独google以及波士顿大学的张图钻研者提出了一种「特色化（Personalization）」的文本到图像散漫模子 DreamBooth ，用户惟独提供 3~5 个样本 + 一句话，句话AI 就能定制照片级图像。新模现变

对于「特色化」咱们可能这样清晰，秒即以输入图像为参考，可实天生的速率数倍图像在种种情境以及差距气焰中都能坚持对于其身份的高度忠实。

举例来说，提升输入左侧 4 张小狗的惟独照片，DreamBooth 就能天生差距规范的张图小狗，如小狗在景点里遨游、句话在海里游泳、新模现变趴在窝棚里睡觉、秒即致使人类给它修剪毛发，而天生的图片都高度坚持了原图像的特色。

可是，特色化历程在光阴以及内存需要方面还存在良多挑战。详细到单个特色化模子，妨碍微调需要大批的 GPU 光阴投入，不光如斯，特色化模子还需要很高的存储容量。

为了克制这些挑战，时隔 8 个月，google又提出了一种新的天生模子 HyperDreamBooth 。HyperDreamBooth 可能天生差距高下文以及善焰的人脸，同时还能保存面部关键知识。

在只运用一张参考图像的情景下，HyperDreamBooth 在约莫 20 秒内实现为了对于人脸的特色化处置，比 DreamBooth 快 25 倍，比 Textual Inversion 快 125 倍，不光如斯，天生的图像与 DreamBooth 品质同样、气焰还多样性。此外，HyperDreamBooth 还比老例的 DreamBooth 模子小 10000 倍。

论文地址：https://arxiv.org/pdf/2307.06949.pdf

论文主页：https://hyperdreambooth.github.io/

在咱们深入品评辩说技术细节以前，先看一些下场。

下图中，右侧一栏是输入图像，给定一张图像就能；中间一栏是凭证差距的揭示天生的人脸，揭示语分说是 Instagram 上一张 V 型脸的自摄影；皮克斯卡通人物的 V 型脸；摇滚明星 V 型脸；树皮同样的 V 型脸。最右侧天生的是人物业余照片 V 型脸。服从展现，HyperDreamBooth 具备至关大的可编纂性，同时还能坚持人物关键面部特色的残缺性。

HyperDreamBooth 与 Textual Inversion 、DreamBooth 措施比力有何优势呢？

下图揭示了两个示例、5 种气焰，服从展现，HyperDreamBooth 可能很好的坚持输入图像特色，还具备很强的可编纂性。

接下来咱们看看 HyperDreamBooth 详细是若何实现的。

措施介绍

该钻研提出的措施由 3 其中间部份组成，分说是轻量级 DreamBooth（Lightweight DreamBooth，LiDB）、预料 LiDB 权重的 HyperNetwork 以及 rank-relaxed 快捷微调。

LiDB 的中间脑子是进一步分解 rank-1 LoRa 残差的权重空间。详细来说，该钻研运用 rank-1 LoRA 权重空间内的随机正交不残缺基（random orthogonal incomplete basis）来实现这一点，如下图所示：

HyperDreamBooth 的磨炼以及快捷微调如下图 2 所示，分为两个阶段。

第 1 阶段：磨炼 HyperNetwork 以凭证人脸图像预料收集权重。该钻研运用预先合计的特色化权重妨碍把守，运用 L2 损失以及 vanilla 散漫重修损失函数。第 2 阶段：给定面部图像，用 HyperNetwork 预料收集权重的开始预料（initial guess），而后运用重修损失妨碍微调以增强保真度。

HyperNetwork 架构

该钻研运用的 HyperNetwork 架构如下图 4 所示。其中，视觉 Transformer（ViT）编码器将人脸图像转换成潜在的人脸特色，而后将其衔接到潜在层权重特色（初始化为 0）。Transformer 解码器接管衔接特色的序列，并经由运用 delta 预料细化初始权重来迭代地预料权重特色的值。