在多模态大模型领域,InternLM-XComposer-2.5(IXC-2.5)的发布是个大新闻。由上海人工智能实验室、香港中文大学、商汤集团和清华大学的研究团队联合推出,这款模型在技术上有了重大突破,能广泛应用于各种场景。
InternLM-XComposer-2.5 能处理视频理解、多图片对话、高分辨率图像理解、网页创建和图文文章创作等任务。在 28 个多模态基准测试中,IXC-2.5 在 16 个基准测试中超过了现有开源模型。该模型采用了链式思维(CoT)和直接偏好优化(DPO)技术,提升了生成内容的质量。加上 RoPE 外推技术,模型可以扩展到 96K 长上下文,处理任务更得心应手。InternLM-XComposer-2.5 还提供了代码示例、评估工具和支持多 GPU 推理的指南,方便用户进行快速部署和优化。
更多详细信息,请访问 InternLM-XComposer-2.5 GitHub 页面。
DreamDissector 是一种文本生成 3D 对象的方法。它接受多对象文本生成的 NeRF(神经辐射场)作为输入,通过神经类别场(NeCF)和类别评分蒸馏采样(CSDS)生成独立的纹理网格。这种方法解决了现有方法中对象独立性和空间互动不足的问题。
DreamDissector 在实际应用中适用于多种创意和实用领域。例如:
- 用户可以对生成的 3D 对象进行纹理引导。
- 通过几何编辑功能,用户可以对 3D 对象的形状和结构进行调整。
- 用户可以根据需要替换 3D 对象中的某些部分,实现对象的定制化和多样化。
DreamDissector 的技术细节:
- 这个模块对输入的 NeRF 进行深度挖掘,提取出几何和纹理信息。
- NeCF 通过对输入数据进行分类和评分,生成独立的纹理网格。
- CSDS 技术通过蒸馏采样提高了生成对象的质量和细节表现。
通过这些技术,DreamDissector 能够生成 3D 对象,轻松应对各种复杂的应用需求。

