主要内容

extractFileText

阅读文本从PDF,微软、HTML和纯文本文件

描述

例子

str= extractFileText (文件名将文本数据作为字符串从文件中读取。

例子

str= extractFileText (文件名名称,值使用一个或多个名称-值对参数指定其他选项。

例子

全部折叠

将文本从sonnets.txt使用extractFileText.该文件sonnets.txt收录了莎士比亚的十四行诗。

str = extractFileText (“sonnets.txt”);

看第一首十四行诗。

我= strfind (str,“我”);2 = strfind (str,“二世”);=我开始(1);鳍= 2 (1);extractBetween (str,开始,fin-1)
我们希望从最美丽的生灵中生长,这样美之玫瑰就永远不会凋谢,但正如成熟的玫瑰会随着时间的流逝而凋谢,他的娇嫩的继承人也会记住他:可是你,只盯着自己明亮的眼睛,把自己的物质燃料填满你的火焰,把富足的地方变成饥荒,把你自己当作敌人,把你可爱的自己弄得太残酷:你现在是这世界的新鲜的装饰品,是这绚丽春天的唯一使者,把你的满足埋在你的花蕾里,温柔的粗人把你的吝啬浪费掉:可怜这世界吧,否则这个贪吃的人,要用坟墓和你来吃掉这世界的本分。”

将文本从exampleSonnets.pdf使用extractFileText.该文件exampleSonnets.pdf包含了莎士比亚的十四行诗的PDF文件。

str = extractFileText (“exampleSonnets.pdf”);

看第二首十四行诗。

2 = strfind (str,“二世”);3 = strfind (str,“三世”);开始= 2 (1);鳍= 3 (1);extractBetween (str,开始,fin-1)
ans = "二世当四十冬天围攻你的眉毛,和你美丽的领域深入挖掘战壕,你青春的骄傲制服现在凝视着,将小价值的碎布会杂草:然后被要求,所有你的美丽谎言,所有的珍惜你的精力充沛的天;在你深陷的眼眸里说,这是一种吞噬一切的耻辱,和挥霍无度的赞美。如果你能这样回答:“我这美丽的孩子将算一算我的账,用我的老借口,”证明他的美丽继承了你的美貌,那该多值得赞美啊!当你年老时,这将是新的,当你感到寒冷时,看到你的血液温暖。"

从PDF文件的第3页、第5页和第7页提取文本。

页数= [3 5 7];str = extractFileText (“exampleSonnets.pdf”...“页面”页);

看第十首十四行诗。

x = strfind (str,“X”);ξ= strfind (str,“十一”);开始= x (1);鳍= xi (1);extractBetween (str,开始,fin-1)
你过独身生活,是不是因为怕湿了寡妇的眼睛,才把自己消耗掉?啊!如果你无子嗣死去,世界将为你哀号,像一个无子嗣的妻子;世界将成为你的寡妇,仍将为你哭泣,因为你没有留下你的影子,而每个寡妇都可以用孩子的眼睛,记住她丈夫的模样:瞧!一个浪荡子在世上的挥霍,只会改变他的地位,因为世人仍在享受;但是美的浪费在这个世界上是有尽头的,使用者不使用它,就等于毁灭了它。那胸中没有对别人的爱,竟对自己犯下如此残忍的耻辱。X不像话!否认你对任何人怀有爱,因为他们对你自己是如此缺乏远见。当然,如果你愿意,你是许多人的宠儿,但谁也不喜欢你,这是最明显的:因为你的仇恨如此凶残,你不愿与自己谋反,你的首要愿望是毁坏那美丽的屋顶,把它修缮好。"

如果您的文本数据包含在一个文件夹中的多个文件中,那么您可以使用文件数据存储将文本数据导入MATLAB。

为示例十四行诗文本文件创建文件数据存储。示例十四行诗有文件名"exampleSonnetN.txt”,N是十四行诗的编号。指定要读取的函数extractFileText

readFcn = @extractFileText;fds = fileDatastore (“exampleSonnet * . txt”“ReadFcn”readFcn)
/tp706790c2/textanalytics-ex73762432/exampleSonnet1.txt';“…/ tp706790c2 / textanalytics-ex73762432 / exampleSonnet2.txt”;“…/ tp706790c2 / textanalytics-ex73762432 / exampleSonnet3.txt”……{'/tmp/Bdoc21a_1606923_11597/tp706790c2/textanalytics-ex73762432'} UniformRead: 0 ReadMode: 'file' BlockSize: Inf PreviewFcn: @extractFileText SupportedOutputFormats: 万博1manbetx[1x16 string] ReadFcn: @extractFileText AlternateFileSystemRoots: {}

创建一个空的单词袋模型。

袋= bagOfWords
bag = bagOfWords with properties: Counts: [] Vocabulary: [1x0 string] NumWords: 0 NumDocuments: 0

循环遍历数据存储中的文件并读取每个文件。标记每个文件中的文本并将文档添加到

Hasdata (fds) STR = read(fds);文档= tokenizedDocument (str);袋= addDocument(袋、文档);结束

查看更新的单词袋模型。

bag = bagOfWords with properties: Counts: [4x276 double] Vocabulary: [1x276 string] NumWords: 276 NumDocuments: 4

要直接从HTML代码中提取文本数据,请使用extractHTMLText并将HTML代码指定为字符串。

代码="

THE十四行诗

by William Shakespeare

"
;str = extractHTMLText(代码)
莎士比亚十四行诗

输入参数

全部折叠

文件的名称,指定为字符串标量或字符向量。

数据类型:字符串|字符

名称-值对的观点

指定可选的逗号分隔的对名称,值参数。的名字参数名和价值为对应值。的名字必须出现在引号内。可以以任意顺序指定多个名称和值对参数Name1, Value1,…,的家

例子:“页面”,[1 3 5]指定从PDF文件中读取第1、3和5页。

要使用的字符编码,指定为逗号分隔对组成“编码”以及字符向量或字符串标量。字符向量或字符串标量必须包含如下所示的标准字符编码方案名称。

“繁体”

“iso - 8859 - 1”

“windows - 874”

“Big5-HKSCS”

“iso - 8859 - 2”

“windows - 949”

“CP949”

“iso - 8859 - 3”

“windows - 1250”

“EUC-KR”

“iso - 8859 - 4”

“windows - 1251”

“EUC-JP”

“iso - 8859 - 5”

“windows - 1252”

“EUC-TW”

“iso - 8859 - 6”

“windows - 1253”

“GB18030”

“iso - 8859 - 7”

“windows - 1254”

“GB2312”

“iso - 8859 - 8”

“windows - 1255”

“GBK”

“iso - 8859 - 9”

“windows - 1256”

“IBM866”

“iso - 8859 - 11”

“windows - 1257”

“KOI8-R”

“iso - 8859 - 13”

“windows - 1258”

“KOI8-U”

“iso - 8859 - 15”

“us - ascii”

“麦金塔”

“utf - 8”

“Shift_JIS”

如果您没有指定编码方案,那么该函数将对要使用的编码执行启发式自动检测。启发式取决于您的地区。如果这些启发式方法失败,则必须显式指定一个。

此选项仅在输入是纯文本文件时适用。

数据类型:字符|字符串

提取方法,指定为由逗号分隔的对组成“ExtractionMethod”以及以下其中之一:

选项 描述
“树” 分析DOM树和文本内容,然后提取段落块。
“文章” 检测文章文本并提取段落块。
“所有文本” 提取HTML主体中的所有文本,除了脚本和CSS样式。

此选项仅支持HTML文件万博1manbetx输入。

打开PDF文件的密码,指定为逗号分隔对,由“密码”以及字符向量或字符串标量。此选项仅适用于输入文件为PDF的情况。

例子:“密码”、“skroWhtaM”

数据类型:字符|字符串

要从PDF文件读取的页,指定为逗号分隔对,由“页面”一个正整数向量。此选项仅适用于输入文件为PDF文件的情况。默认情况下,该函数从PDF文件中读取所有页面。

例子:“页面”,[1 3 5]

数据类型:||int8|int16|int32|int64|uint8|uint16|uint32|uint64

提示

兼容性的考虑

全部展开

不建议从R2020b开始

介绍了R2017b