认知边界

Meta AI 发布 OCR 工具 Nougat

2023-08-30 13:31:33 10245


Meta AI 发布 OCR 工具 Nougat,可轻松将学术 PDF 转换为 MultiMarkdown

Meta AI 最近发布了一款 OCR 工具 Nougat,它可以将学术 PDF 文档转换为 MultiMarkdown,尤其擅长处理复杂数学公式。Nougat 基于 Transformer 模型训练而成,即使是扫描版的 PDF 也能高效转换。

MultiMarkdown 格式输出

Nougat 的输出格式是 MultiMarkdown,这种格式适合于学术文档写作。但是,如果在 Obsidian 等 Markdown 编辑器中使用,需要手动调整格式细节,如公式等,才能正确展示。

强大的公式转换功能

Nougat 能够将公式转换成正确的 LaTeX 格式,这一功能特别强大,让学术党感到欣喜若狂。这使得生成的文档更加规范、易读。

表格和图片的处理

Nougat 能够识别表格,但输出的是 LaTeX 格式的表格,需要手动调整后才能在 Markdown 中正确展示。而对于图片,Nougat 生成的文档中不包含图片,需要手动从 PDF 中提取或截图。

引入模块化神经架构 Neural Attentive Circuits (NACs)

除了 OCR 工具 Nougat,Meta AI 还发布了一项新的研究成果,即一种新的模块化神经架构 Neural Attentive Circuits (NACs)。NACs 是一种通用的神经架构,可以在不使用领域知识的情况下,共同学习神经模块的参数化和稀疏连接。NACs 可以看作是两个系统的组合,一个系统用于确定模块的配置,另一个系统用于在输入上执行模块。

NACs 的性能表现

研究表明,NACs 能够在不需要额外监督的情况下,学习出多样而有意义的模块配置。同时,NACs 在 CIFAR、Caltech-UCSD Birds dataset (CUB) 和 Tiny ImageNet-R 数据集上的低样本适应性和 OOD 鲁棒性方面,比非模块化基线模型提高了约 10% 和 2.5%。此外,NACs 在推理时可以实现 8 倍的加速,同时性能损失不到 3%。最后,NACs 在点云分类、符号处理和 ASCII 字节文本分类等多种数据模态上表现出了竞争力,证明了其通用性。

实际使用效果

耗费 GPU 目前效果并不理想,转换时间慢,中文支持不大行。


来源:

https://github.com/facebookresearch/nougat

https://facebookresearch.github.io/nougat/

AutoAnimate 自动为整个前端应用添加合适的动画的工具

AutoAnimate是一个可以自动为整个应用添加合适的动画的工具,不需要用户自己决定或配置动画。它的原理是监控给定DOM节点的所有子节点的特殊操作,包括节点的插入、删除和移动,并在这些过程中插入相应的动画。AutoAnimate可以帮助提升用户体验,而且它支持现在所有主流的框架,包括React、V
2023-08-26
开发者工具箱 Devkits [闭源]

开发者工具箱 Devkits [闭源]

闭源软件,基于 wails 开发
2023-08-28
声准 SoundSavvy 软件, 准确合成 TTS 音频的解决方案

声准 SoundSavvy 软件, 准确合成 TTS 音频的解决方案

声准 SoundSavvy!该产品是一款结合了 TTS 技术的语音生成工具,为用户提供高质量、准确的音频文件。
2023-08-28
Meta AI 发布 OCR 工具 Nougat

Meta AI 发布 OCR 工具 Nougat

Meta AI 发布 OCR 工具 Nougat,可轻松将学术 PDF 转换为 MultiMarkdownMeta AI 最近发布了一款 OCR 工具 Nougat,它可以将学术 PDF 文档转换为 MultiMarkdown,尤其擅长处理复杂数学公式。Nougat 基于 Transformer 模
2023-08-30
Aidea:一款集成主流大语言模型和绘图模型的开源Flutter应用程序

Aidea:一款集成主流大语言模型和绘图模型的开源Flutter应用程序

如果你正在寻找一个值得学习的 Flutter 前端项目,那么我强烈推荐你看看 Aidea 这个项目。Aidea 是一个集成了主流大语言模型和绘图模型的应用程序,采用 Flutter 开发,代码完全开源。Aidea 支持多种功能,包括 GPT-3.5/4 问答聊天、国产模型(通义千问,文心一言)、文生
2023-08-30
卫星照片上的B-2轰炸机为什么有彩色条纹?

卫星照片上的B-2轰炸机为什么有彩色条纹?

背景这张照片来自谷歌地图,上面拍摄到了一架B-2轰炸机的飞行过程。与其他卫星图像相比,这张照片有明显的彩色条纹。提高分辨率的技巧 普通数码相机只有一个传感器,一次只能拍一张照片。但高分辨率的卫星图像不是这样的。它们采用了一种类似JPEG图像编码的技巧来模拟更高的分辨率。具体做法是先拍摄一张高分辨率的
2023-09-06
如何控制系统软件的复杂度

如何控制系统软件的复杂度

本文总结自参考链接的内容。概要本文主要讨论了几个减少软件系统复杂度的方法。首先是对于非核心组件,应该购买现成的软件而不是自己研发,以减少复杂度。其次是通过统一编码规范、代码审查和重构、统一命名规范等方法来降低代码复杂度。此外,文章还提到了在关键函数和变量命名上反映业务而不是程序逻辑,以及保证系统架构
2023-10-23
移轴摄影 Tilt-shift Photography

移轴摄影 Tilt-shift Photography

移轴指的是镜头与感光器CMOS之间连接的部分是可动的。 可动部件带来的一个好处就是:在不移动相机本身的前提下,利用沙姆定律 可以拍摄出特定景深的物体。相机中景深是指:在相机拍摄的画面中,被摄物体前后距离一定范围内都能保持清晰焦点的深度范围。沙姆定律 Scheimpflug principle这个定律
2023-11-05