揭示PDF解析如何从科学PDF论文中提取公式

揭示PDF解析如何从科学PDF论文中提取公式

Barry Lv6

本文是高级RAG 02:揭示PDF解析 的补充。

从科学论文中提取公式一直是一个具有挑战性的任务。

有一些工具可以识别科学论文中的公式,例如:

  • Nougat :用于学术文档的神经光学理解,是一种端到端可训练的编码器-解码器变换器模型,用于将文档页面转换为标记。
  • grobid :图2表明其性能不如Nougat。
  • LaTeX-OCR :图2表明其性能不如Nougat。
  • Donut : Nougat基于其模型架构。
  • Mathpix Snip :一款付费工具。

在本文中,我们使用开源Nougat框架 ,架构如图1所示:

对于科学论文,公式识别的准确性很高,如图2所示:

作为演示,我们使用论文“Attention Is All You Need ”第5页的一些公式,如图3所示。

执行命令**nougat YOUR_PDF_PATH -o YOUR_OUTPUT_DIR_PATH**后获得的结果如下:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
...
...
...

Multi-head attention allows the model to jointly attend to information from different representation subspaces at different positions. With a single attention head, averaging inhibits this.

\[\mathrm{MultiHead}(Q,K,V) =\mathrm{Concat}(\mathrm{head}_{1},...,\mathrm{head}_{\mathrm{h}})W^ {O}\] \[\text{where }\mathrm{head}_{\mathrm{i}} =\mathrm{Attention}(QW_{i}^{Q},KW_{i}^{K},VW_{i}^{V})\]

Where the projections are parameter matrices \(W_{i}^{Q}\in\mathbb{R}^{d_{\text{model}}\times d_{k}}\), \(W_{i}^{K}\in\mathbb{R}^{d_{\text{model}}\times d_{k}}\), \(W_{i}^{V}\in\mathbb{R}^{d_{\text{model}}\times d_{v}}\) and \(W^{O}\in\mathbb{R}^{hd_{v}\times d_{\text{model}}}\).

In this work we employ \(h=8\) parallel attention layers, or heads. For each of these we use \(d_{k}=d_{v}=d_{\text{model}}/h=64\). Due to the reduced dimension of each head, the total computational cost is similar to that of single-head attention with full dimensionality.

...
...
...

### 位置-wise前馈网络

除了注意力子层外,我们的编码器和解码器中的每一层都包含一个全连接前馈网络,该网络应用于每个位置,并且相同。这由两个线性变换组成,中间有一个ReLU激活。

\[\mathrm{FFN}(x)=\max(0,xW_{1}+b_{1})W_{2}+b_{2} \tag{2}\]

虽然不同位置的线性变换相同,但它们在层与层之间使用不同的参数。另一种描述方式是将其视为两个卷积,卷积核大小为1。输入和输出的维度为\(d_{\text{model}}=512\),而内层的维度为\(d_{ff}=2048\)。

...
...
...

解析结果是一个mmd格式文件。在vscode中下载相应的插件 。渲染后的结果如图4和5所示。

可以观察到,公式确实被准确解析。然而,在章节标题“3.3 位置-wise前馈网络”中,“3.3”缺失。

值得一提的是,Nougat在“Attention Is All You Need ”论文中的表1上表现良好,这是因为表1包含公式。

感兴趣的读者可以尝试一下。

结论

总体而言,Nougat 是一个出色的公式提取工具。

然而,作为一个端到端的工具(它不需要任何与 OCR 相关的输入或模块,网络隐式地识别文本),它缺乏中间结果,并且似乎定制选项有限。

此外,Nougat 使用自回归前向传播进行文本生成,这导致相对较慢的生成速度,并增加了产生幻觉和重复的可能性。

最后,如果您有任何问题,请在评论区中指出。

  • 标题: 揭示PDF解析如何从科学PDF论文中提取公式
  • 作者: Barry
  • 创建于 : 2024-02-15 20:04:20
  • 更新于 : 2024-08-31 06:59:45
  • 链接: https://wx.role.fun/2024/02/15/0876ac8f331143dca6c03cd098514a81/
  • 版权声明: 本文章采用 CC BY-NC-SA 4.0 进行许可。
此页目录
揭示PDF解析如何从科学PDF论文中提取公式