在计算机视觉领域,生成图像的大规模模型已经变得越来越重要。然而,在这些模型中,能够生成透明图像或带有透明度分层的图像的技术却并不多见。尽管市场对这类技术的需求很大,但相关的研究却相对较少。
为了填补这一空白,ContorlNet的作者们推出了一项名为LayerDiffusion的项目。这个项目利用已经过预训练的潜在扩散模型,创造出能够生成透明图像的模型。LayerDiffusion不仅能生成单独的透明图像,还能生成多层透明图层,为用户提供了更多的创意空间。
LayerDiffusion的核心技术被称为“潜在透明度”。它通过整合透明度(即alpha通道)到预训练模型的潜在结构中,使得模型能够生成带有透明度的图像。这样做的好处是,它几乎不改变模型原有的潜在分布,从而保持了模型的高质量输出能力。
在训练模型时,研究人员采用了涉及人机互动的方法,收集了大量透明图像层数据。这些数据使得模型能够更好地理解和生成透明图像。实验结果显示,潜在透明技术不仅可以应用于各种开源图像生成器,还可以适配多种条件控制系统,实现不同应用场景下的层生成和结构控制。
一项用户研究发现,用户更喜欢直接生成的透明内容,而不是之前的临时解决方案(如先生成图像再进行抠图处理)。生成的透明图像在质量上甚至可以与真实的商业级透明素材相媲美,如Adobe Stock提供的素材。
LayerDiffusion的出现,不仅为我们提供了一种新的图像生成技术,还为我们带来了更多的创意和可能性。它让我们能够更方便地生成透明图像,为设计、广告、游戏等领域带来了更多的便利和可能性。