信通学院本科生主导的AIGC研究成果被国际顶级会议ACM MM2024录用

时间:2024-08-16浏览:33

(通讯员 刘明君)

近日,我校信息与通信工程学院毛琪副教授团队带领本科生与新加坡国立大学Mike Zheng Shou 助理教授团队合作的论文被人工智能与多媒体顶会2024 ACM Multimedia (ACM MM)录用。      

ACM MM是中国计算机学会(CCF) 推荐的A类国际学术会议,ACM MM2024为该会议的第32届会议,将于2024年10月28日至11月1日在澳大利亚墨尔本举行。本届会议共收到 4385 篇有效投稿,其中 1149 篇被录用,录用率为 26.20%。


论文简介

题目:MAG-Edit: Localized Image Editing in Complex Scenarios via Mask-Based Attention-Adjusted Guidance 

论文概览:大规模文本到图像(T2I)扩散模型的最新成果展示了它们在生成高质量、多样化图像方面的卓越能力,尤其是在反映特定文本描述时。经过大量数据集的训练,这些模型能有效地将文本与相应图像联系起来,开辟了基于文本图像编辑的新可能性。过去一年中,基于扩散模型的文本图像编辑方法显著增加,大致可分为三类:基于指令的训练、微调以及无需训练的方法。本文聚焦于改进无需训练的编辑方法。现有无需训练的方法,如混合潜在扩散模型(Blended Latent Diffusion),会导致编辑区域的结构显著改变,破坏与复杂背景的视觉和谐。基于注意力的编辑方法(如Prompt-to-Prompt)能保持原始图像的结构和布局,但编辑效果可能超出目标区域。尽管结合这两种方法可以减少目标区域之外的编辑,但在与文本提示的精确对齐方面仍存在挑战,导致编辑内容无法准确定位。为解决这些问题,本文提出了一种新颖的优化策略,称为基于掩码的注意力调整引导(MAG-Edit)。该方法在推理阶段使用两个基于掩码的交叉注意力约束条件,对噪声潜特征进行局部优化,以增强图像特征与文本的对齐程度,从而实现平衡效果和结构的局部编辑。

     

本工作由“中国传媒大学智能多媒体处理小组(CUC-MIPG)”主导完成。其中,我院2020级数字媒体技术系本科生陈澜同学和2021级人工智能系本科生方镇同学参与了该项研究。近年来,信息与通信工程学院积极推动人工智能生成内容(AIGC)等前沿领域的科研团队建设。围绕“媒体内容智能生成”这一核心课题,学院推动本科生参与科研工作,通过设立科研项目、组织学术讲座、鼓励跨学科合作等多种形式,创造丰富的学习和研究机会。这不仅有助于发掘和培养媒体融合与传播研究的青年科技人才,也为推动媒体融合的深入发展贡献了力量。


算法效果

  

项目地址

 https://mag-edit.github.io/