科学研究

物信讲坛第二百五十一讲“基于多模态LLM的美学推理”

信息来源: 发布日期:2025-12-15

主讲人:陈长汶

开始时间:2025-12-22 09:00

地点:物理与信息工程学院思源厅

报告人简介:

陈长汶教授现任香港理工大学视觉计算讲座教授。在此之前,他于2017年至2020年担任香港中文大学(深圳)理工学院院长,并于2018年至2021年兼任鹏城实验室副主任。此前,他于2008年至2021年担任纽约州立大学布法罗分校(SUNY)Empire Innovation讲席教授,并于2003年至2007年担任佛罗里达理工学院Allen Henry讲席教授。他于1983年获得中国科学技术大学学士学位,1986年获得南加州大学硕士学位,并于1992年获得伊利诺伊大学厄巴纳-香槟分校(UIUC)博士学位。

他曾担任IEEE 多媒体汇刊的主编(2014-2016)和IEEE视频技术电路与系统汇刊的主编(2006-2009)。他荣获多项学术成就奖,包括10项最佳论文奖或最佳学生论文奖、2010年获享有盛誉的Alexander von Humboldt奖、2016年获纽约州立大学校长卓越学术与创意活动奖、2019年获伊利诺伊大学厄巴纳-香槟分校电子与计算机工程系杰出校友奖,以及2024年获ACM SIGMM终身学术成就奖。他是IEEE会士、SPIE会士和欧洲科学院院士。

报告内容简介:

生成艺术的飞速发展使视觉图像的创作大众化。然而,要达到真正的艺术冲击力,即能够与观众产生更深层次、更有意义的共鸣,则需要一种更精深的审美感知。这种感知包含一个多视角的推理过程,远超简单的视觉吸引力。而这往往被当前的计算模型所忽略。本次演讲将初步尝试捕捉这一复杂的过程,研究如何有效地激发多模态模型(MLLM)的推理能力以进行高层次的审美判断。我们最近的研究揭示了一个关键挑战:MLLM在审美推理过程中容易产生幻觉,其特征是主观意见和缺乏依据的艺术解读的冲突。正如我们所设计的基线算法ArtCoT所证实的那样,我们将证明,通过采用基于证据的客观推理过程,可以克服上述的局限性。遵循这一原则的MLLM能够产生多方面、更深入的审美推理,并与人类的艺术判断更加吻合。这些发现可直接应用于人工智能的艺术指导和生成艺术的奖励模型等领域。我们希望所提出的美学推理框架最终能够为构建真正能够理解、欣赏艺术作品并像人类一样富有创造力的下一代基于人工智能的艺术创作系统铺平道路。

报告时间 2025-12-22 09:00 报告地址 物理与信息工程学院思源厅
主讲人 陈长汶