extractFileText

阅读文本从PDF，微软词、HTML和纯文本文件

折叠所有页面

语法

str = extractFileText(文件名)

str = extractFileText(文件名、名称、值)

描述

例子

str= extractFileText (文件名）将文本数据作为字符串从文件中读取。

例子

str= extractFileText (文件名，名称,值）使用一个或多个名称-值对参数指定其他选项。

例子

全部折叠

从文本文件中提取文本数据

打开生活的脚本

将文本从sonnets.txt使用extractFileText．该文件sonnets.txt收录了莎士比亚的十四行诗。

str = extractFileText (“sonnets.txt”）;

看第一首十四行诗。

我= strfind (str,“我”）;2 = strfind (str,“二世”）;=我开始(1);鳍= 2 (1);extractBetween (str,开始,fin-1)

我们希望从最美丽的生灵中生长，这样美之玫瑰就永远不会凋谢，但正如成熟的玫瑰会随着时间的流逝而凋谢，他的娇嫩的继承人也会记住他:可是你，只盯着自己明亮的眼睛，把自己的物质燃料填满你的火焰，把富足的地方变成饥荒，把你自己当作敌人，把你可爱的自己弄得太残酷:你现在是这世界的新鲜的装饰品，是这绚丽春天的唯一使者，把你的满足埋在你的花蕾里，温柔的粗人把你的吝啬浪费掉:可怜这世界吧，否则这个贪吃的人，要用坟墓和你来吃掉这世界的本分。”

从PDF中提取文本数据

打开生活的脚本

将文本从exampleSonnets.pdf使用extractFileText．该文件exampleSonnets.pdf包含了莎士比亚的十四行诗的PDF文件。

str = extractFileText (“exampleSonnets.pdf”）;

看第二首十四行诗。

2 = strfind (str,“二世”）;3 = strfind (str,“三世”）;开始= 2 (1);鳍= 3 (1);extractBetween (str,开始,fin-1)

ans = "二世当四十冬天围攻你的眉毛,和你美丽的领域深入挖掘战壕,你青春的骄傲制服现在凝视着,将小价值的碎布会杂草:然后被要求,所有你的美丽谎言,所有的珍惜你的精力充沛的天;在你深陷的眼眸里说，这是一种吞噬一切的耻辱，和挥霍无度的赞美。如果你能这样回答:“我这美丽的孩子将算一算我的账，用我的老借口，”证明他的美丽继承了你的美貌，那该多值得赞美啊!当你年老时，这将是新的，当你感到寒冷时，看到你的血液温暖。"

从PDF文件的第3页、第5页和第7页提取文本。

页数= [3 5 7];str = extractFileText (“exampleSonnets.pdf”，．..“页面”页);

看第十首十四行诗。

x = strfind (str,“X”）;ξ= strfind (str,“十一”）;开始= x (1);鳍= xi (1);extractBetween (str,开始,fin-1)

你过独身生活，是不是因为怕湿了寡妇的眼睛，才把自己消耗掉?啊!如果你无子嗣死去，世界将为你哀号，像一个无子嗣的妻子;世界将成为你的寡妇，仍将为你哭泣，因为你没有留下你的影子，而每个寡妇都可以用孩子的眼睛，记住她丈夫的模样:瞧!一个浪荡子在世上的挥霍，只会改变他的地位，因为世人仍在享受;但是美的浪费在这个世界上是有尽头的，使用者不使用它，就等于毁灭了它。那胸中没有对别人的爱，竟对自己犯下如此残忍的耻辱。X不像话!否认你对任何人怀有爱，因为他们对你自己是如此缺乏远见。当然，如果你愿意，你是许多人的宠儿，但谁也不喜欢你，这是最明显的:因为你的仇恨如此凶残，你不愿与自己谋反，你的首要愿望是毁坏那美丽的屋顶，把它修缮好。"

使用文件数据存储从多个文件导入文本

打开生活的脚本

如果您的文本数据包含在一个文件夹中的多个文件中，那么您可以使用文件数据存储将文本数据导入MATLAB。

为示例十四行诗文本文件创建文件数据存储。示例十四行诗有文件名"exampleSonnetN.txt”,N是十四行诗的编号。指定要读取的函数extractFileText．

readFcn = @extractFileText;fds = fileDatastore (“exampleSonnet * . txt”，“ReadFcn”readFcn)

/tp706790c2/textanalytics-ex73762432/exampleSonnet1.txt';“…/ tp706790c2 / textanalytics-ex73762432 / exampleSonnet2.txt”;“…/ tp706790c2 / textanalytics-ex73762432 / exampleSonnet3.txt”……{'/tmp/Bdoc21a_1606923_11597/tp706790c2/textanalytics-ex73762432'} UniformRead: 0 ReadMode: 'file' BlockSize: Inf PreviewFcn: @extractFileText SupportedOutputFormats: 万博1manbetx[1x16 string] ReadFcn: @extractFileText AlternateFileSystemRoots: {}

创建一个空的单词袋模型。

袋= bagOfWords

bag = bagOfWords with properties: Counts: [] Vocabulary: [1x0 string] NumWords: 0 NumDocuments: 0

循环遍历数据存储中的文件并读取每个文件。标记每个文件中的文本并将文档添加到袋．

而Hasdata (fds) STR = read(fds);文档= tokenizedDocument (str);袋= addDocument(袋、文档);结束

查看更新的单词袋模型。

袋

bag = bagOfWords with properties: Counts: [4x276 double] Vocabulary: [1x276 string] NumWords: 276 NumDocuments: 4

从HTML中提取文本

打开生活的脚本

要直接从HTML代码中提取文本数据，请使用extractHTMLText并将HTML代码指定为字符串。

代码="THE十四行诗
by William Shakespeare
"；str = extractHTMLText(代码)

莎士比亚十四行诗

输入参数

全部折叠

`文件名`- - - - - -文件的名字
字符串标量|特征向量

文件的名称，指定为字符串标量或字符向量。

数据类型:字符串|字符

名称-值对的观点

指定可选的逗号分隔的对名称,值参数。的名字参数名和价值为对应值。的名字必须出现在引号内。可以以任意顺序指定多个名称和值对参数Name1, Value1,…,的家．

例子:“页面”,[1 3 5]指定从PDF文件中读取第1、3和5页。

`“编码”`- - - - - -字符编码
`“汽车”`(默认)|`“utf - 8”`|`“iso - 8859 - 1”`|`“windows - 1251”`|`“windows - 1252”`|……

要使用的字符编码，指定为逗号分隔对组成“编码”以及字符向量或字符串标量。字符向量或字符串标量必须包含如下所示的标准字符编码方案名称。

`“繁体”`	`“iso - 8859 - 1”`	`“windows - 874”`
`“Big5-HKSCS”`	`“iso - 8859 - 2”`	`“windows - 949”`
`“CP949”`	`“iso - 8859 - 3”`	`“windows - 1250”`
`“EUC-KR”`	`“iso - 8859 - 4”`	`“windows - 1251”`
`“EUC-JP”`	`“iso - 8859 - 5”`	`“windows - 1252”`
`“EUC-TW”`	`“iso - 8859 - 6”`	`“windows - 1253”`
`“GB18030”`	`“iso - 8859 - 7”`	`“windows - 1254”`
`“GB2312”`	`“iso - 8859 - 8”`	`“windows - 1255”`
`“GBK”`	`“iso - 8859 - 9”`	`“windows - 1256”`
`“IBM866”`	`“iso - 8859 - 11”`	`“windows - 1257”`
`“KOI8-R”`	`“iso - 8859 - 13”`	`“windows - 1258”`
`“KOI8-U”`	`“iso - 8859 - 15”`	`“us - ascii”`
	`“麦金塔”`	`“utf - 8”`
	`“Shift_JIS”`

如果您没有指定编码方案，那么该函数将对要使用的编码执行启发式自动检测。启发式取决于您的地区。如果这些启发式方法失败，则必须显式指定一个。

此选项仅在输入是纯文本文件时适用。

数据类型:字符|字符串

`“ExtractionMethod”`- - - - - -提取方法
`“树”`(默认)|`“文章”`|`“所有文本”`

提取方法，指定为由逗号分隔的对组成“ExtractionMethod”以及以下其中之一:

选项	描述
`“树”`	分析DOM树和文本内容，然后提取段落块。
`“文章”`	检测文章文本并提取段落块。
`“所有文本”`	提取HTML主体中的所有文本，除了脚本和CSS样式。