数据提取研究的一篇文章(pdf电子高度结构化的数据)

7视图(30天)

显示旧的评论

Aditi Mahajan 2022年11月2日

0
链接

这个问题直接联系

//www.tianjin-qmedu.com/matlabcentral/answers/1842163-data-extraction-from-a-research-article-an-electronic-pdf-with-highly-unstructured-data

回答: 图像分析 2022年11月3日

我的研究领域是在材料科学应用机器学习。我争取一个算法,可以检索所需的数据值(分类和数值)的研究文章(一个电子pdf文档,是高度结构化的)。有成千上万的这种文档(pdf)的数据需要提取时间密集型任务。一些pdf可能携带数据图表而其他表或文本。请指导我完成这个过程使用我可以有效地提取数据。

1评论
显示没有隐藏没有

dpb 2022年11月2日

本质上是一个不可能完成的任务——一个pdf文件中的数据/数据不是存储在一个可收回格式以外的解释/呈现pdf文档本身。

登录置评。

在回答这个问题。

答案(2)

图像分析 2022年11月3日

0
链接

直接链接到这个答案

//www.tianjin-qmedu.com/matlabcentral/answers/1842163-data-extraction-from-a-research-article-an-electronic-pdf-with-highly-unstructured-data answer_1090183

试试这个:

//www.tianjin-qmedu.com/matlabcentral/fileexchange/?term=tag%3A%22digitize%22

2的评论
显示1年长的评论藏1年长的评论

dpb 2022年11月3日

@Image分析师指出“转换器”实际使用OCR识别和pdf内容转换为文本。然后,你得找到特定代码ineterst的话语。

这只是文字部分;表和图片在我的经验没有转换为原始数据只是嵌入到文档对象。那可能至少让你方式的一部分,但它不会是简单的做一个通用的文件的集合。

看到 < acrobat /网络/ convert-pdf.html > 和Google是你的朋友找到交替Adobe外……虽然你的大学可能有一个网站许可证。

这真的不是一个MATLAB问?

登录置评。

图像分析 2022年11月3日

0
链接

直接链接到这个答案

//www.tianjin-qmedu.com/matlabcentral/answers/1842163-data-extraction-from-a-research-article-an-electronic-pdf-with-highly-unstructured-data answer_1090658

我怀疑成千上万的文章都是在这种格式/样式。你可以得到的文本和数字可能很难自动找出哪些表中的数字是他们的意思。的情节,你可能只需要将它们转换为图像,然后使用一个文件交换意见。但即便如此,我想它会需要大量的手动处理。

也许你可以用亚马逊的土耳其机器人雇佣一群廉价全球工人为你。

https://www.mturk.com/

0评论
显示1年长的评论藏1年长的评论

登录置评。

在回答这个问题。

类别

MATLAB 图形二维和三维图数据分布的情节散点图

找到更多的在散点图在帮助中心和文件交换

s manbetx 845

社区寻宝

找到宝藏在MATLAB中央,发现社区如何帮助你!

开始狩猎!

数据提取研究的一篇文章(pdf电子高度结构化的数据)

1评论
显示没有隐藏没有

答案(2)

2的评论
显示1年长的评论藏1年长的评论

0评论
显示1年长的评论藏1年长的评论

另请参阅

类别

标签

s manbetx 845

社区寻宝

数据提取研究的一篇文章(pdf电子高度结构化的数据)

1评论 显示没有隐藏没有

答案(2)

2的评论 显示1年长的评论藏1年长的评论

0评论 显示1年长的评论藏1年长的评论

另请参阅

类别

标签

s manbetx 845

社区寻宝

1评论
显示没有隐藏没有

2的评论
显示1年长的评论藏1年长的评论

0评论
显示1年长的评论藏1年长的评论