分享一个开源、免费的智能图像文字识别工具,借助LLM大语言模型,可以对PDF文件智能分块,高效处理PDF文件。
一、介绍
功能特性:
- PDF 到图像的转换
- 使用 Tesseract 的 OCR
- 使用(本地或基于 API)进行LLMs高级纠错
- 智能文本分块,实现高效处理
- 提供Markdown 格式选项
- 页眉和页码抑制(可选)
- 最终产出的质量评估
- 支持本地LLMs和基于云的 API 提供商(OpenAI、Anthropic)
- 用于提高性能的异步处理
- 用于进程跟踪和调试的详细日志记录
- 用于本地LLM推理的 GPU 加速
二、项目地址
Github: https://github.com/Dicklesworthstone/llm_aided_ocr
参考:
最新评论
大佬用了魔法还是用不了,无互联网访问
地址挂了
如果不用魔法是不是下载了也看不了
请问大佬能推荐渠道么 十分感恩