鹭羽 发自 凹非寺
量子位 | 公众号 QbitAI
你好研究僧,听说刚刚中了顶会,却还在愁怎么做Poster(学术海报)?
别急,容在下为你推荐一款新时代科研党神器——PosterAgent,帮你一键从paper.pdf跳转poster.pptx。
相比GPT-4o,PosterAgent生成指标更优,同时token使用量减少87%,还只需要0.0045美元,就可将22页的论文转化为可编辑的 “.pptx” 终稿海报。
来自滑铁卢大学的联合研究团队,还精心构建了首个学术海报评估标准Paper2Poster,解决了长上下文、多模态压缩的评估空白。
话不多说,先给大家展示一波效果,以下面这篇CV论文为例。
先喂给GPT-4o-image,得到的是这样的:
显然学术海报三要素(吸睛标题、重点突出、色彩排版),GPT-4o-image通通都没有。
不妨交给PosterAgent试试:
视觉更连贯、信息还高效,难怪连已经毕业了的师兄师姐们都在X上哭诉,凭什么我们当年没有它。
这下妈妈再也不用担心我做不好Poster,被老板在群里夺命call了(狗头)。
下面来讲讲它为啥这么好用。
多模态海报自动生成
Poster在学术会议里的重要性不言而喻,需要让与会者在几分钟内就迅速从中掌握核心内容,这就很考验制作者的论文浓缩能力,以及文本和图形的排版功底。
为了帮大家解放双手,以及更一目了然地评估海报效果,研究团队提出了评估基准Paper2Poster以及基于此构建的多智能体框架PosterAgent。
Paper2Poster:首个学术海报评估基准
Paper2Poster的数据包含100对AI领域论文和作者设计的海报,涵盖计算机视觉(19%)、自然语言处理(17%)和强化学习(10%)等子领域的280个不同主题,论文平均22页,生成海报的文本压缩比约为14.4倍,图形减少比约为2.6倍。
评估指标覆盖四个基本维度:
视觉质量:使用CLIP图像嵌入测量生成海报与作者设计海报之间的视觉相似度,再计算图像和文本的相关性,以确保图像属于有效整合。
文本连贯性:计算文本在Llama-2-7b-hf下的标准困惑度(PPL),衡量文字流畅度。
整体评估:选择一个VLM(如GPT-4o),从美学(元素质量、布局平衡、参与度)和信息(清晰度、完整性、逻辑流)两个方面进行1到5分打分。
PaperQuiz:这是团队专门设计的评估指标,以模拟作者和读者的交流。让代表不同专业水平(例如学生和教授)的VLMs阅读每张海报并回答测验,获得最高平均分的海报被认为在传达论文内容方面最有效。
PosterAgent:多阶段自动生成框架
根据Paper2Poster的要求,团队设计了一个采用自上而下设计理念的多智能体流程PosterAgent。
首先全局地将整个文档重组为简洁、连贯的章节,然后进行局部精炼,以实现颗粒度对齐。
具体包含三个关键组件:
解析器(Parser):将工具和基于LLM的摘要相结合,提取关键文本和视觉内容,生成结构化摘要库(如各章要点、重要图表)。
规划器(Planner):匹配文本与图表,并用二叉树布局策略将其连贯排列,通过放大(zoom-in)机制迭代生成面板。
绘制器-评论器(Painter-Commenter):绘制器将内容转为简洁的要点列表和用于渲染的可执行代码,而VLM作为评论器提供布局反馈,确保整体连贯性和避免溢出。
眼见为实,为验证PosterAgent生成效果,研究人员用Paper2Poster评估了四类基线方法:
理想化方法(Oracle methods):包含原始PDF和作者设计的海报GT Poster,作为最佳呈现基准。
上一篇:当AI大模型邂逅旅游