Meta AI 发布 OCR 工具 Nougat
2023-08-30 13:31:33 10243
Meta AI 发布 OCR 工具 Nougat,可轻松将学术 PDF 转换为 MultiMarkdown
Meta AI 最近发布了一款 OCR 工具 Nougat,它可以将学术 PDF 文档转换为 MultiMarkdown,尤其擅长处理复杂数学公式。Nougat 基于 Transformer 模型训练而成,即使是扫描版的 PDF 也能高效转换。
MultiMarkdown 格式输出
Nougat 的输出格式是 MultiMarkdown,这种格式适合于学术文档写作。但是,如果在 Obsidian 等 Markdown 编辑器中使用,需要手动调整格式细节,如公式等,才能正确展示。
强大的公式转换功能
Nougat 能够将公式转换成正确的 LaTeX 格式,这一功能特别强大,让学术党感到欣喜若狂。这使得生成的文档更加规范、易读。
表格和图片的处理
Nougat 能够识别表格,但输出的是 LaTeX 格式的表格,需要手动调整后才能在 Markdown 中正确展示。而对于图片,Nougat 生成的文档中不包含图片,需要手动从 PDF 中提取或截图。
引入模块化神经架构 Neural Attentive Circuits (NACs)
除了 OCR 工具 Nougat,Meta AI 还发布了一项新的研究成果,即一种新的模块化神经架构 Neural Attentive Circuits (NACs)。NACs 是一种通用的神经架构,可以在不使用领域知识的情况下,共同学习神经模块的参数化和稀疏连接。NACs 可以看作是两个系统的组合,一个系统用于确定模块的配置,另一个系统用于在输入上执行模块。
NACs 的性能表现
研究表明,NACs 能够在不需要额外监督的情况下,学习出多样而有意义的模块配置。同时,NACs 在 CIFAR、Caltech-UCSD Birds dataset (CUB) 和 Tiny ImageNet-R 数据集上的低样本适应性和 OOD 鲁棒性方面,比非模块化基线模型提高了约 10% 和 2.5%。此外,NACs 在推理时可以实现 8 倍的加速,同时性能损失不到 3%。最后,NACs 在点云分类、符号处理和 ASCII 字节文本分类等多种数据模态上表现出了竞争力,证明了其通用性。
实际使用效果
耗费 GPU 目前效果并不理想,转换时间慢,中文支持不大行。
来源:
https://github.com/facebookresearch/nougat
https://facebookresearch.github.io/nougat/