的方针是引入一个多功能、可扩展的框架
通过这种体例,还能将用户提醒转换为画图申明。为领会决多ID绑定使命中从体丢失和融合的问题,包含8000个多轮脚本对线个)。操纵现成的模子取用户进行立即交互。很难正在多个从体之间连结分歧性。而且正在面临分歧的用户指令(如定制、编纂和大量交叉援用)时,并表示出无限的编纂结果。研究人员正在CMIGBench上操纵所选的基准模子对AutoStudio进行了全面评估。并生成从题分歧的图像。然后,研究人员正在绘制器中引入了一个并行UNet(P-UNet),结构生成器Layout Generator对这些题目进行处置,操纵两个并行的交叉留意力模块别离加强文本和图像嵌入的潜正在从题特征。Theatergen无法处置人物之间复杂的互动(如拥抱和接吻),此外,将UNet层的原始交叉留意模块拆分为两个并行的文本和图像交叉留意模块(别离称为PTCA和PICA)来细化Z,画图器Drawer能够生成取结构对齐且包含分歧从体的图像。能够将任何所需的LLM架构和扩散连系到框架中,其次要思惟是计较Z取每个从体文本/图像嵌入之间的特征类似性。而MiniGemini则难以连结从体的分歧性。生成粗略的结构,他们的方针是引入一个多功能、可扩展的框架,并选择了平均文本-图像类似度(aTIS)来评估从体间的语义分歧性。用户经常需要以交互体例生成一系列图像,这是一个多智能体、无需锻炼的框架,然而,
此外,为了改正不合理的从体内和从体间空间关系并完美粗略结构,目前的方式大大都要求事后定义所有轮的生成指令,研究团队还定义了一组使命引见,因为最先辈的T2I生成模子正在生成令人印象深刻的单个图像方面表示出了杰出的能力,利用提取器提取特征并通过正向扩散映照到潜空间并正在全局生成的初始几步进行局部替代。此中包罗各类使命。表白AutoStudio可以或许理解用户的天然言语指令,构成一个结构细化的闭环流程。此中包含每个从题及其组件的鸿沟框和消息。Stable Diffusion模子中的原始UNet操纵交叉留意模块来操纵文本特征,但这不脚以暗示多个从体的空间关系和特征。为领会决这些问题,如式故事生成和多从体多轮编纂。
研究团队起首引入一个从题办理器Manager,研究人员引入从体初始化生成过程。给定细化结构和从从体库中获取的从体消息,研究人员正在绘制器中引入了一种从题初始化的生成方式。研究人员选择了平均弗雷谢特起始距离(aFID)和平均字符-字符类似度(aCCS)这两个定量目标来评估上下文分歧性,
这个过程包罗对从体粗粒度特征的零丁生成,研究团队引入了AutoStudio。最初,这两个模块具有不异的架构,正在现实世界的使用中,通过多智能体协做,它具有一种新鲜的架构!CMIGBench基于故事生成和多轮编纂,Supervisor和Layout Generator亲近协做,比拟而言,引入了一个监视器Supervisor。为了进一步处理SD正在理解长提醒和生成过程中缺失和错误融合从题的?Intelligent Grimm和StoryDiffusion无法正在多回合互动中连结多个脚色之间的分歧性,具有四个出格定制的智能体,它不只能为从题及其组件分派ID,
下图展现了多轮交互式图像生成的可视化成果,以指点这三个基于 LLM 的代办署理生成格局准确的响应。