


通常,将文本数据导入到MATLAB中最简单的方法是使用extractFileText函数。这个函数从文本、PDF、HTML和Microsoft Word文件中提取文本数据。要从CSV和Microsoft Excel文件中导入文本,请使用readtable.要从HTML代码中提取文本,请使用extractHTMLText.要从PDF表格中读取数据,请使用readPDFFormData





开始=“ 一世”+换行;鳍=“II”;SONNET1 =提取物(str,start,fin)


文件名=“multilindinesonnets.txt”;str = readline(文件名)
str =3×1串“从最美丽的生物中我们渴望增加,因此美丽的玫瑰可能永远不会死,但随着涟漪应该随着时间的评估,他的温柔继承人可能会忍受他的记忆:但是你,签约自己明亮的眼睛,喂养你的光明的火焰自我大量的燃料,在丰富的地方撒谎,你的自我你的敌人,你的甜蜜的自我太残忍了:你现在是世界上新的装饰品,而且只有先驱到华丽的春天,在你自己的萌芽中,才能在你自己的萌芽中,和温柔的Churl Mak'st浪费在琐事中:遗憾的是世界,否则这个贪吃是,在坟墓和你身边吃世界的到期。““当四十冬天围攻你的眉头,并在你的美丽领域挖掘深沟,你现在所凝视的骄傲的衣服如此凝视着,将是一个破烂的杂草的小值得举行:然后被问到,所有你的美丽谎言,在哪里你疯狂的日子的所有宝藏;说,在你自己深沉的眼睛里,是一种难以置信的耻辱,一定令人羞耻,一致好评。如果你可以回答这个公平的孩子应该总结一下,并使我的老借口“,通过继承来证明他的美丽!这是为了艺术老,当你感到寒冷时,看到你的血液温暖。”“看看你的玻璃杯,告诉你现在是脸部应该形成另一个人的时候;如果你现在没有更新,你的新修理,你渴望世界,脱一些母亲。她在哪里是她如此公平的那个子宫蔑视你的耕作者的耕作?或者是谁是如此喜欢,他的自爱停止后遗症?你妈妈的玻璃杯,她在你的春天的可爱4月份;所以你通过窗户虽然皱纹,但是,尽管你的黄金时间皱纹,但如果你活着,那就记得不成为,死于单身和你的图像与你一起死亡。“

Microsoft Word文档




开始=“II”+换行;鳍=“三世”;SONNET2 =提取物(str,start,fin)
Sonnet2 =“当四十冬季围攻你的眉头,并在你们美丽的领域挖掘深沟,现在的骄傲的衣服如此凝视着现在,将是一个杂草的小杂草:然后被问到,所有你的美丽谎言,在你疯狂的一天的所有宝藏;说,在你自己深沉的沉没的眼睛里,是一种饮食般的耻辱,一定令人羞耻,一致好评。如果你能回答这个公平的孩子我的伯爵队,并通过继承的借口来达成我的伯爵,并通过继承来证明他的美丽!这是为了艺术老的时候成为新的制作,当你感到寒冷时,看到你的血液温暖。“

示例Microsoft Word文档在每行之间使用两个换行符。要用一个换行符替换这些字符,请使用代替函数。

SONNET2 =替换(SONNET2,[Newline Newline],Newline)
Sonnet2 =“当四十冬季围攻你的眉头,并在你们美丽的领域挖掘深沟,现在的骄傲的衣服如此凝视着现在,将是一个杂草的小杂草:然后被问到,所有你的美丽谎言,在你疯狂的一天的所有宝藏;说,在你自己深沉的沉没的眼睛里,是一种饮食般的耻辱,一定令人羞耻,一致好评。如果你能回答这个公平的孩子我的伯爵队,并通过继承的借口来达成我的伯爵,并通过继承来证明他的美丽!这是为了艺术老的时候成为新的制作,当你感到寒冷时,看到你的血液温暖。“







开始=“三”+换行;鳍=“四”;sonnet3 = extractBetween (str,开始,翅片)


要从PDF格式读取文本数据,请使用readPDFFormData. 函数返回一个包含PDF表单字段数据的结构。

文件名=“weatherrereportform1.pdf”;data = readpdfformdata(文件名)







Start = newline +“四”+换行;FIN =换行符+“V”+换行符;十四行诗4=extractBetween(str、start、fin)





by William Shakespeare

; str=extractHTMLText(代码)



URL =."//www.tianjin-qmedu.com/help/textanalytics";代码= Webrabread(URL);str = extracthtmltext(代码)
发布说明PDF文档发布说明PDF文档文本分析工具箱™为文本数据的预处理、分析和建模提供了算法和可视化。使用工具箱创建的模型可用于情感分析、预测维护和主题建模等应用程序。文本分析工具箱包括用于处理来自设备日志、新闻源、调查、运营商报告和社交媒体等来源的原始文本的工具。您可以从流行的文件格式中提取文本,预处理原始文本,提取单个单词,将文本转换为数字表示,并构建统计模型。使用机器学习技术,如LSA、LDA和单词嵌入,您可以从高维文本数据集找到聚类并创建特征。使用Text Analytics Toolbox创建的功能可以与来自其他数据源的功能相结合,以构建利用文本、数字和其他类型数据的机器学习模型。开始学习基本的文本分析工具箱文本数据准备文本数据导入MATLAB®和预处理分析建模和预测开发预测模型使用主题模型和文字嵌入显示和演示可视化文本数据和模型使用词云分散图和文本语言支持万博1manbetx关于文本分析工具箱中的语言支持的信息万博1manbetx



树= htmltree(代码);选择器=“一种”;子树= findElement(树,选择器);


str = extracthtmltext(子树);


str (1:10)
ans =10×1字符串“跳到内容”“”产品“”解决方案“”Acads manbetx 845emia“”支持“”社万博 尤文图斯区“”事件“”得到Matlab“”“万博1manbetx


attr =“href”;str = getAttribute(子树(1:10),attr)
str =10×1字符串“#content_container”“//www.tianjin-qmedu.com?s_tid=gn_logo”“//www.tianjin-qmedu.com/prs manbetx 845oducts.html?s_tid=gn_ps”“//www.tianjin-qmedu.com/sol万博 尤文图斯utions.html?s_tid = gn_sol“//www.tianjin-qmedu.com/academia.html?s_tid=gn_acad”“https://www.tianjin-qmedu.com/s万博1manbetxupport.html?s_tid=gn_supp”https://www.tianjin-qmedu.com/matlabcentral/?s_tid=gn_mlc“//www.tianjin-qmedu.com/company/events.html?s_tid=gn_ev”“//www.tianjin-qmedu.com/pros manbetx 845ducts/get-matlab.html?s_tid = gn_getml“//www.tianjin-qmedu.com?s_tid=gn_logo”

CSV和Microsoft Excel文件

要从CSV和Microsoft Excel文件中提取文本数据,请使用readtable并从其返回的表中提取文本数据。


T = readtable ('factoryreports.csv',“TextType”,“字符串”);头(T)
ans =8×5表类别描述紧急解决成本  _____________________________________________________________________ ____________________ ________ ____________________ _____ " 项目是偶尔陷入扫描仪卷。”“机械故障”、“中等”、“重新调整机器”、“组装器的活塞发出响亮的咔嗒咔嗒和砰砰的声音。”“机械故障”“中等”“调整机器”“启动工厂时电源被切断”“电子故障”“高”“完全更换”“16200”“组装器内电容器烧毁”“电子故障”“高”“更换元件”“352”“混频器跳闸保险丝。”“电子故障”“低”“列入观察名单”“55”施工剂中爆管正在喷洒冷却剂。"泄漏" "高" "更换部件" 371 "混合器内保险丝熔断"“电子故障”“低”“更换部件”“东西不断从传送带上掉下来。”“机械故障”“低”“重新调整机


str = t.description;str (1:10)
ans =10×1字符串“物品偶尔会卡在扫描仪的线轴上。”“组装器的活塞发出响亮的咔嗒咔嗒和砰砰的声音。”“启动核电站时,电力会被切断。”“组装器里的电容器被炸了。”“搅拌机把保险丝弄坏了。”"爆破管道中施工剂正在喷洒冷却剂""搅拌机里的保险丝烧断了"“事情继续从腰带上滑落。”“从传送带上掉下来的东西。”扫描卷轴一旦分开,很快就会开始弯曲。




位置= fullfile(matlabroot,“例子”,“textanalytics”,“数据”,“exampleSonnet * . txt”);fds = filedataStore(位置,“ReadFcn”@extractFileText)
fds = FileDatastore与属性:Files:{'…\matlab\examples\textanalytics\data\exampleSonnet1.txt';“…\ matlab \ \ textanalytics \ \ exampleSonnet2.txt数据的例子;“…\ matlab \ \ textanalytics \ \ exampleSonnet3.txt数据的例子…和2个更多的}文件夹:{'…ReadFcn: @extractFileText SupportedOutputFormats: ["txt" "csv" "xlsx" "xls" "parquet" "parq" "png" "jpg" "jpeg" "ti万博1manbetxf" "tiff" "wav" "flac" "ogg" "mp4" "m4a"] ReadFcn: @extractFileText AlternateFileSystemRoots: {}


str = [];尽管hasdata(fds)textData=读取(fds);str=[str;textData];结束


