选择部分HTML文件
4次浏览(最近30天)
显示旧的注释
你好,
我在一个目录中有一系列文本文件,按顺序编号,*第1部分*,第2部分,第3部分…这些实际上是HTML文件,但我也可以将它们保存为文本文件。其中的第4部分就是这样一个文件。(标题开头有“3”,但它是标题的一部分。这不是序列号。'3'出现在目录中的每个文件中。)所有这些文件的结构都完全相同。感兴趣的区域总是出现在第26行到第40行之间。
我希望将第26行至第40行之间的所有白话文本保存在一个单独的文本文件中,而紧跟在这些白话之后的括号中的单词则保存在另一个单独的文本文件中。本地文本总是出现在序列号之后,然后是句号,然后是空格,然后是星号。这种白话文本后面的词总是出现在白话文本前面的空格后面的开括号和闭括号内。
如何采取这些在两个单独的文本文件中所有的html文件在目录一次?
谢谢。
0评论
接受的答案
里克
2020年11月23日
首先阅读html文件(你可以得到我的
readfile
函数从
FEX
.如果您使用的是R2017a或更高版本,您也可以通过AddOn-manager获取它,或者在R2020b上,您可以使用readlines):
数据= readfile (“//www.tianjin-qmedu.com/matlabcentral/answers/uploaded_files/424138/3%20letter%20Hindi%20words%20without%20matra%20%E2%80%93%20Part%204%20%E2%80%93%20Kathakar.txt”);
lines_of_interest =数据(26:40);
接下来需要做的是解析特定的行。你已经有了你要找的模式。有一种最优的方法用正则表达式,还有一种简单的方法用几个调用
strfind
.如果你在实现这一点上遇到了困难,不要犹豫,就你所做的尝试发表评论。