谷歌 AI Studio 和 Gemini API 最近进行了更新,PDF 上传限制从 300 页提升至 1000 页或 2GB。这一改进利用了 Gemini 的文本理解和多模态处理能力,每页处理一张图像,提升了用户处理大型 PDF 文档的效率和便捷性。
Gemini API 的文本理解能力得到了进一步提升,能够解析和理解复杂的文档内容。多模态处理能力的增强使得每页的图像处理更加高效,确保了图像和文本的同步解析。这些技术改进提升了 PDF 处理的速度和准确性,为用户提供了更直观和便捷的操作体验。
用户体验方面,谷歌在 Google AI Studio 中引入了一些新的功能。例如,用户现在可以通过拖拽的方式直接上传 PDF 文件,系统会自动进行解析和处理。新的界面设计更加直观,用户可以查看和管理上传的文档。谷歌还增加了键盘快捷键,提升了用户的操作效率。
谷歌 AI Studio 和 Gemini API 的技术积累可以追溯到 2023 年。2023 年 10 月,谷歌推出了 Gemini 1.5 Flash 模型,这一版本在速度和效率上都有了提升。Gemini 1.5 Flash 保留了 Gemini 1.5 Pro 的多模态推理和长上下文处理能力,并优化了低延迟响应和整体性能。这些技术积累为此次 PDF 上传限制的提升奠定了基础。
此外,谷歌 AI 团队在过去两周内发布了多项重要更新。Gemini API 的模型速率限制从每分钟 200 万次提升至 400 万次,并新增了 PDF 支持,包括完整的 PDF OCR 功能。AI Studio 也进行了多项改进,如更新了键盘快捷键、优化了代码执行结果的 UI 显示、提升了温度设置上限、支持拖拽和复制粘贴图片、减少加载时间约 50%、增加示例提示等。