2024 年 8 月 24 日,GitHub 上发布了一个名为 “llmaidedocr” 的项目,结合了光学字符识别(OCR)和大型语言模型(LLM),通过 LLM 的纠错功能,提升了 OCR 文本的准确性和可读性,适用于处理扫描的 PDF 文件。
该项目使用 Tesseract 进行 OCR 处理,并通过 LLM 对输出的文本进行错误修正,确保文本的准确性和格式一致性。项目支持本地和云端的 LLM(如 OpenAI 和 Anthropic),并提供异步处理以提高性能。最终输出包括 LLM 修正后的 Markdown 格式文本,并提供详细的日志记录和质量评估功能,方便跟踪和调试。
Tesseract 是一个开源的 OCR 引擎,广泛应用于文本识别任务。然而,OCR 技术在处理图像质量差或复杂布局的文档时,往往会产生错误。为了克服这些挑战,项目引入了 LLM 进行后处理。LLM,如 ByT5 和 Llama 7B,经过大量文本数据的训练,能够理解和生成类似人类的语言。通过利用这种能力,LLM 可以更有效地纠正 OCR 错误,从而提高文本提取过程的整体准确性。
具体来说,项目首先使用 Tesseract 对扫描的 PDF 文件进行初步的文本识别,然后将识别结果输入到 LLM 中进行纠错和格式化处理。
在技术实现上,项目支持本地和云端的 LLM,用户可以根据需求选择合适的模型。为了提高处理性能,项目还提供了异步处理功能,允许同时处理多个文档。此外,项目还提供了详细的日志记录和质量评估功能,方便用户跟踪和调试。