OpenAI 最近推出了一种名为 sCM(简化连续时间一致性模型)的新技术。这种技术在保持输出质量的同时,提高了生成效率,适用于图像、视频和音频等多个领域的实时生成 AI 应用。
sCM 的一大特点是仅需 1-2 个采样步骤即可生成样本,这显著减少了计算成本和时间。最大规模的 sCM 模型(15 亿参数)在单个 A100 GPU 上生成一个样本仅需 0.11 秒,同时样本质量与扩散模型相当。
在 ImageNet 512×512 数据集上,OpenAI 训练了一个拥有 15 亿参数的 sCM 模型,目标是实现大规模数据集上的快速采样。基准测试表明,与其他生成模型相比,sCM 展示了优良的性能。
尽管 sCM 提供了优良的性能,研究人员也提到了一些局限性,比如仍需依赖预训练的扩散模型进行初始化和蒸馏,且生成样本的质量可能会有轻微差异。此外,目前使用的 FID 指标进行质量评估可能不够全面。
这项研究的详细内容和技术评估已在 arXiv.org 上发表。