揭示PDF解析如何从科学PDF论文中提取公式
本文是高级RAG 02:揭示PDF解析 的补充。
从科学论文中提取公式一直是一个具有挑战性的任务。
有一些工具可以识别科学论文中的公式,例如:
- Nougat :用于学术文档的神经光学理解,是一种端到端可训练的编码器-解码器变换器模型,用于将文档页面转换为标记。
- grobid :图2表明其性能不如Nougat。
- LaTeX-OCR :图2表明其性能不如Nougat。
- Donut : Nougat基于其模型架构。
- Mathpix Snip :一款付费工具。
在本文中,我们使用开源Nougat框架 ,架构如图1所示:
对于科学论文,公式识别的准确性很高,如图2所示:

作为演示,我们使用论文“Attention Is All You Need ”第5页的一些公式,如图3所示。

执行命令**nougat YOUR_PDF_PATH -o YOUR_OUTPUT_DIR_PATH**后获得的结果如下:
1 | ... |
解析结果是一个mmd格式文件。在vscode中下载相应的插件 。渲染后的结果如图4和5所示。


可以观察到,公式确实被准确解析。然而,在章节标题“3.3 位置-wise前馈网络”中,“3.3”缺失。
值得一提的是,Nougat在“Attention Is All You Need ”论文中的表1上表现良好,这是因为表1包含公式。

感兴趣的读者可以尝试一下。
结论
总体而言,Nougat 是一个出色的公式提取工具。
然而,作为一个端到端的工具(它不需要任何与 OCR 相关的输入或模块,网络隐式地识别文本),它缺乏中间结果,并且似乎定制选项有限。
此外,Nougat 使用自回归前向传播进行文本生成,这导致相对较慢的生成速度,并增加了产生幻觉和重复的可能性。
最后,如果您有任何问题,请在评论区中指出。
- 标题: 揭示PDF解析如何从科学PDF论文中提取公式
- 作者: Barry
- 创建于 : 2024-02-15 20:04:20
- 更新于 : 2024-08-31 06:59:45
- 链接: https://wx.role.fun/2024/02/15/0876ac8f331143dca6c03cd098514a81/
- 版权声明: 本文章采用 CC BY-NC-SA 4.0 进行许可。