数据提取研究的一篇文章(pdf电子高度结构化的数据)

7视图(30天)
我的研究领域是在材料科学应用机器学习。我争取一个算法,可以检索所需的数据值(分类和数值)的研究文章(一个电子pdf文档,是高度结构化的)。有成千上万的这种文档(pdf)的数据需要提取时间密集型任务。一些pdf可能携带数据图表而其他表或文本。请指导我完成这个过程使用我可以有效地提取数据。
1评论
dpb
dpb 2022年11月2日
本质上是一个不可能完成的任务——一个pdf文件中的数据/数据不是存储在一个可收回格式以外的解释/呈现pdf文档本身。

登录置评。

答案(2)

图像分析
图像分析 2022年11月3日
2的评论
dpb
dpb 2022年11月3日
@Image分析师 指出“转换器”实际使用OCR识别和pdf内容转换为文本。然后,你得找到特定代码ineterst的话语。
这只是文字部分;表和图片在我的经验没有转换为原始数据只是嵌入到文档对象。那 可能 至少让你方式的一部分,但它不会是简单的做一个通用的文件的集合。
看到 < acrobat /网络/ convert-pdf.html > 和Google是你的朋友找到交替Adobe外……虽然你的大学可能有一个网站许可证。
这真的不是一个MATLAB问?

登录置评。


图像分析
图像分析 2022年11月3日
我怀疑成千上万的文章都是在这种格式/样式。你可以得到的文本和数字可能很难自动找出哪些表中的数字是他们的意思。的情节,你可能只需要将它们转换为图像,然后使用一个文件交换意见。但即便如此,我想它会需要大量的手动处理。
也许你可以用 亚马逊的土耳其机器人 雇佣一群廉价全球工人为你。

社区寻宝

找到宝藏在MATLAB中央,发现社区如何帮助你!

开始狩猎!