文档帮助中心文档
extractFileText
阅读文本从PDF,微软词、HTML和纯文本文件
str = extractFileText(文件名)
str = extractFileText(文件名、名称、值)
例子
str= extractFileText (文件名)将文本数据作为字符串从文件中读取。
str= extractFileText (文件名)
str
文件名
str= extractFileText (文件名,名称,值)使用一个或多个名称-值对参数指定其他选项。
str= extractFileText (文件名,名称,值)
名称,值
全部折叠
将文本从sonnets.txt使用extractFileText.该文件sonnets.txt收录了莎士比亚的十四行诗。
sonnets.txt
str = extractFileText (“sonnets.txt”);
看第一首十四行诗。
我= strfind (str,“我”);2 = strfind (str,“二世”);=我开始(1);鳍= 2 (1);extractBetween (str,开始,fin-1)
我们希望从最美丽的生灵中生长,这样美之玫瑰就永远不会凋谢,但正如成熟的玫瑰会随着时间的流逝而凋谢,他的娇嫩的继承人也会记住他:可是你,只盯着自己明亮的眼睛,把自己的物质燃料填满你的火焰,把富足的地方变成饥荒,把你自己当作敌人,把你可爱的自己弄得太残酷:你现在是这世界的新鲜的装饰品,是这绚丽春天的唯一使者,把你的满足埋在你的花蕾里,温柔的粗人把你的吝啬浪费掉:可怜这世界吧,否则这个贪吃的人,要用坟墓和你来吃掉这世界的本分。”
将文本从exampleSonnets.pdf使用extractFileText.该文件exampleSonnets.pdf包含了莎士比亚的十四行诗的PDF文件。
exampleSonnets.pdf
str = extractFileText (“exampleSonnets.pdf”);
看第二首十四行诗。
2 = strfind (str,“二世”);3 = strfind (str,“三世”);开始= 2 (1);鳍= 3 (1);extractBetween (str,开始,fin-1)
ans = "二世当四十冬天围攻你的眉毛,和你美丽的领域深入挖掘战壕,你青春的骄傲制服现在凝视着,将小价值的碎布会杂草:然后被要求,所有你的美丽谎言,所有的珍惜你的精力充沛的天;在你深陷的眼眸里说,这是一种吞噬一切的耻辱,和挥霍无度的赞美。如果你能这样回答:“我这美丽的孩子将算一算我的账,用我的老借口,”证明他的美丽继承了你的美貌,那该多值得赞美啊!当你年老时,这将是新的,当你感到寒冷时,看到你的血液温暖。"
从PDF文件的第3页、第5页和第7页提取文本。
页数= [3 5 7];str = extractFileText (“exampleSonnets.pdf”,...“页面”页);
看第十首十四行诗。
x = strfind (str,“X”);ξ= strfind (str,“十一”);开始= x (1);鳍= xi (1);extractBetween (str,开始,fin-1)
你过独身生活,是不是因为怕湿了寡妇的眼睛,才把自己消耗掉?啊!如果你无子嗣死去,世界将为你哀号,像一个无子嗣的妻子;世界将成为你的寡妇,仍将为你哭泣,因为你没有留下你的影子,而每个寡妇都可以用孩子的眼睛,记住她丈夫的模样:瞧!一个浪荡子在世上的挥霍,只会改变他的地位,因为世人仍在享受;但是美的浪费在这个世界上是有尽头的,使用者不使用它,就等于毁灭了它。那胸中没有对别人的爱,竟对自己犯下如此残忍的耻辱。X不像话!否认你对任何人怀有爱,因为他们对你自己是如此缺乏远见。当然,如果你愿意,你是许多人的宠儿,但谁也不喜欢你,这是最明显的:因为你的仇恨如此凶残,你不愿与自己谋反,你的首要愿望是毁坏那美丽的屋顶,把它修缮好。"
如果您的文本数据包含在一个文件夹中的多个文件中,那么您可以使用文件数据存储将文本数据导入MATLAB。
为示例十四行诗文本文件创建文件数据存储。示例十四行诗有文件名"exampleSonnetN.txt”,N是十四行诗的编号。指定要读取的函数extractFileText.
exampleSonnetN.txt
N
readFcn = @extractFileText;fds = fileDatastore (“exampleSonnet * . txt”,“ReadFcn”readFcn)
/tp706790c2/textanalytics-ex73762432/exampleSonnet1.txt';“…/ tp706790c2 / textanalytics-ex73762432 / exampleSonnet2.txt”;“…/ tp706790c2 / textanalytics-ex73762432 / exampleSonnet3.txt”……{'/tmp/Bdoc21a_1606923_11597/tp706790c2/textanalytics-ex73762432'} UniformRead: 0 ReadMode: 'file' BlockSize: Inf PreviewFcn: @extractFileText SupportedOutputFormats: 万博1manbetx[1x16 string] ReadFcn: @extractFileText AlternateFileSystemRoots: {}
创建一个空的单词袋模型。
袋= bagOfWords
bag = bagOfWords with properties: Counts: [] Vocabulary: [1x0 string] NumWords: 0 NumDocuments: 0
循环遍历数据存储中的文件并读取每个文件。标记每个文件中的文本并将文档添加到袋.
袋
而Hasdata (fds) STR = read(fds);文档= tokenizedDocument (str);袋= addDocument(袋、文档);结束
查看更新的单词袋模型。
bag = bagOfWords with properties: Counts: [4x276 double] Vocabulary: [1x276 string] NumWords: 276 NumDocuments: 4
要直接从HTML代码中提取文本数据,请使用extractHTMLText并将HTML代码指定为字符串。
extractHTMLText
代码="THE十四行诗by William Shakespeare";str = extractHTMLText(代码)
by William Shakespeare
莎士比亚十四行诗
文件的名称,指定为字符串标量或字符向量。
数据类型:字符串|字符
字符串
字符
指定可选的逗号分隔的对名称,值参数。的名字参数名和价值为对应值。的名字必须出现在引号内。可以以任意顺序指定多个名称和值对参数Name1, Value1,…,的家.
的名字
价值
Name1, Value1,…,的家
“页面”,[1 3 5]
“编码”
“汽车”
“utf - 8”
“iso - 8859 - 1”
“windows - 1251”
“windows - 1252”
要使用的字符编码,指定为逗号分隔对组成“编码”以及字符向量或字符串标量。字符向量或字符串标量必须包含如下所示的标准字符编码方案名称。
“繁体”
“windows - 874”
“Big5-HKSCS”
“iso - 8859 - 2”
“windows - 949”
“CP949”
“iso - 8859 - 3”
“windows - 1250”
“EUC-KR”
“iso - 8859 - 4”
“EUC-JP”
“iso - 8859 - 5”
“EUC-TW”
“iso - 8859 - 6”
“windows - 1253”
“GB18030”
“iso - 8859 - 7”
“windows - 1254”
“GB2312”
“iso - 8859 - 8”
“windows - 1255”
“GBK”
“iso - 8859 - 9”
“windows - 1256”
“IBM866”
“iso - 8859 - 11”
“windows - 1257”
“KOI8-R”
“iso - 8859 - 13”
“windows - 1258”
“KOI8-U”
“iso - 8859 - 15”
“us - ascii”
“麦金塔”
“Shift_JIS”
如果您没有指定编码方案,那么该函数将对要使用的编码执行启发式自动检测。启发式取决于您的地区。如果这些启发式方法失败,则必须显式指定一个。
此选项仅在输入是纯文本文件时适用。
数据类型:字符|字符串
“ExtractionMethod”
“树”
“文章”
“所有文本”
提取方法,指定为由逗号分隔的对组成“ExtractionMethod”以及以下其中之一:
此选项仅支持HTML文件万博1manbetx输入。
“密码”
打开PDF文件的密码,指定为逗号分隔对,由“密码”以及字符向量或字符串标量。此选项仅适用于输入文件为PDF的情况。
例子:“密码”、“skroWhtaM”
“密码”、“skroWhtaM”
“页面”
要从PDF文件读取的页,指定为逗号分隔对,由“页面”一个正整数向量。此选项仅适用于输入文件为PDF文件的情况。默认情况下,该函数从PDF文件中读取所有页面。
例子:“页面”,[1 3 5]
数据类型:单|双|int8|int16|int32|int64|uint8|uint16|uint32|uint64
单
双
int8
int16
int32
int64
uint8
uint16
uint32
uint64
要直接从HTML代码中读取文本,请使用extractHTMLText.
全部展开
不建议从R2020b开始
万博1manbetx支持提取文本微软®词二进制DOC文件使用extractFileText函数将在未来的版本中被删除。微软文字处理软件将继续支持DOCX文件。万博1manbetx
提取文本数据微软文字处理软件97-2003二进制DOC文件,首先保存为PDF文件,微软文字处理软件DOCX、HTML或纯文本文件,然后使用extractFileText函数。
extractHTMLText|readPDFFormData|tokenizedDocument|writeTextDocument
readPDFFormData
tokenizedDocument
writeTextDocument
您有这个示例的修改版本。您想打开这个示例与您的编辑吗?
你点击一个链接对应于这个MATLAB命令:
通过在MATLAB命令窗口中输入命令来运行命令。Web浏览器不支持MATLAB命令。万博1manbetx
选择一个网站,在那里获得翻译的内容,并看到当地的活动和优惠。根据您的位置,我们建议您选择:.
你也可以从以下列表中选择一个网站:
选择中国网站(中文或英文)以获得最佳网站性能。其他MathWorks国家站点没有针对您所在位置的访问进行优化。
与当地办事处联系