提交调用Ben Litchfield的PDFBox Java库的PDFTextStripper类,从PDF文档中提取文本。
1.下载PDFBox库从http://sourceforge.net/projects/pdfbox/
2.下载FontBox库http://sourceforge.net/projects/fontbox/
3.修改pdfParseDemo.m中的文件路径
4.启用单元格模式并逐步通过pdfParseDemo.m
该代码不处理具有密码保护的“内容复制”权限的文件;热烈欢迎大家合作解决这个问题!
引用作为
迪米特里Shvorob(2021)。从PDF文档中提取文本(//www.tianjin-qmedu.com/matlabcentral/fileexchange/19798-extract-text-from-a-pdf-document), MATLAB中央文件交换。检索.