从金融研报到学术论文柱状图、折线图、饼图等图表承载着大量关键数据。然而当你试图从 PDF 或图片中逆向还原这些图表为可编辑的 Excel 数据时往往会陷入困境 —— 传统工具要么需要手动操作要么精度堪忧。TextIn 文档解析最新上线的图表解析功能正在改变这一局面。图表数据提取的行业痛点以金融行业为例机构常需解析上市公司年报、各类研报中的数据其中包括大量图表。这些文件以 PDF 和图片格式为主甚至不乏批量处理更困难的加密 PDF。相比纯文本表格和图表中包含了更多重要数据如何准确提取对后续研究分析至关重要。医学、工程等领域同样面临类似挑战。许多研究奠基于上世纪 50-80 年代电子化时代之前的历史论文常存在数据缺失关键图表仅存低清扫描件。传统方法需要研究人员手动记录或用尺子测量图表像素费时费力且无法保证精准度。现有工具为何难以胜任目前市面上能将非矢量格式图表解析为结构化数据的工具较为少见。WebPlotDigitizer、Tesseract OCR 等工具虽能辅助图表识别但大多需要手动操作精度有限。Tabula 等工具虽然能提取 PDF 表格但主要针对规整的表格结构对于柱状图、折线图等可视化图表则无能为力。调用 Python 库如 PyMuPDF、pdfplumber 进行 PDF 数据提取要求使用者具备一定编程能力。而且这些方法只能完成基本的图表识别无法支持堆叠柱状图这样的复杂图表。如果要在本地部署 ChartOCR 等深度学习模型用户必须具备工程能力并拥有充分的计算资源对非专业用户或少量解析需求而言成本过高。TextIn 图表解析一键转化图表为结构化数据TextIn 文档解析上架的图表解析功能通过线上参数配置即可调用完成全文解析无需对样本进行预先分割或其他预处理。精准输出能力对于有数值标注的图表TextIn 可以直接输出准确表格将其转化为结构化数据方便后续的数据入库、分析或输入大模型进行处理。智能预估功能对于没有明确数值的复杂图表TextIn 接口会通过精确测量给出预估数值在仅有扫描件、图片文件的情况下帮助挖掘更多有效数据信息。目前该功能已支持饼图、折线图、柱状图、雷达图、散点图等多种图表类型并以 Excel 格式精准输出。与大模型结合释放更大价值TextIn 图表解析与大模型结合后能实现更优秀的 AI 应用效果。以全球工业机器人销售额图表为例直接上传 PDF 时未经解析的柱状图对大模型的理解造成了干扰而上传 TextIn 解析后的 Markdown 文件模型则给出了准确、优质的答案。这种精准解析加强大推理的组合正在改变传统的行业模式。金融机构可以快速从研报图表中提取关键指标科研人员能够高效还原历史文献中的实验数据文档解析等大模型加速器与 AI 技术相辅相成创造了更多应用可能性。对于经常需要处理 PDF 图表数据的用户TextIn 图表解析功能目前已以内测形式上线可通过官方渠道联系工作人员开通体验。