2024 年 8 月 11 日至 16 日,泰国曼谷将迎来一年一度的自然语言处理会议 ——ACL 2024。ACL 每年吸引众多学者和研究机构参与。今年的大会接收了超过 400 篇论文,涵盖了多模态、长上下文、代码生成等多个研究方向。新闻中提到的 M-A-P 团队将在大会上讨论其多篇被接受的论文,包括 AnyGPT、E2-LLM、OpenCodeInterpreter、ChatMusician、SciMMIR 和 CIF-Bench。此外,曼彻斯特 NLP 团队也有 10 篇论文被接受。
M-A-P 团队的论文包括:
- AnyGPT:一种统一的多模态大语言模型,采用离散序列建模技术,能够处理文本、图像和音频等多种模态数据。
- E2-LLM:一种长上下文扩展大语言模型,能够处理极长的文本输入,适用于需要长时间上下文理解的任务。
- OpenCodeInterpreter:一种集成代码生成、执行和优化的代码大语言模型,能够自动生成代码并进行优化。
- ChatMusician:一种能够理解和生成音乐的多模态大语言模型,适用于音乐创作和分析。
- SciMMIR:一种科学多模态信息检索的基准测试,旨在评估多模态信息检索系统的性能。
- CIF-Bench:一个用于评估大语言模型在中文指令跟随任务中的基准测试。
近年来,预印本平台在学术界的影响力不断提升,成为科研人员快速发布研究成果的渠道。四川大学华西医学院教授苟马玲表示,传统的论文发表过程通常需要数月甚至更长时间,而预印本平台则可以让研究成果在短时间内被传播。中国科学院文献情报中心副主任张智雄也指出,预印本平台不仅可以快速确立科研发现的优先权,还能让科研人员在更大范围内获取同行的反馈意见,从而改进和完善论文内容。
预印本平台的优势在新冠疫情期间得到了体现。为了快速分享对抗新冠病毒的研究成果,许多科研团队选择将成果发布在预印本平台上,为临床治疗提供参考。张智雄介绍,预印本平台 arXiv 已经改变了物理学、数学、天文学等领域的学术交流模式,成为科学家们查阅最新研究进展的渠道。
国内的预印本平台也在逐步发展。2016 年,中国科学院文献情报中心建设的 ChinaXiv 平台上线,成为国内首个按国际通行规范运营的预印本交流平台。近年来,ChinaXiv 与国内多个科研机构和期刊合作,构建了多个领域的预印本子平台,发布了大量科研论文。中国人民大学也在今年 4 月上线了哲学社会科学预印本平台,标志着我国哲学社会科学在交流与传播领域迈出了重要一步。

