选择部分HTML文件

4次浏览(最近30天)
v k
v k 2020年11月23日
评论道: v k2020年11月26日
你好,
我在一个目录中有一系列文本文件,按顺序编号,*第1部分*,第2部分,第3部分…这些实际上是HTML文件,但我也可以将它们保存为文本文件。其中的第4部分就是这样一个文件。(标题开头有“3”,但它是标题的一部分。这不是序列号。'3'出现在目录中的每个文件中。)所有这些文件的结构都完全相同。感兴趣的区域总是出现在第26行到第40行之间。
我希望将第26行至第40行之间的所有白话文本保存在一个单独的文本文件中,而紧跟在这些白话之后的括号中的单词则保存在另一个单独的文本文件中。本地文本总是出现在序列号之后,然后是句号,然后是空格,然后是星号。这种白话文本后面的词总是出现在白话文本前面的空格后面的开括号和闭括号内。
如何采取这些在两个单独的文本文件中所有的html文件在目录一次?
谢谢。

接受的答案

里克
里克 2020年11月23日
首先阅读html文件(你可以得到我的 readfile 函数从 FEX .如果您使用的是R2017a或更高版本,您也可以通过AddOn-manager获取它,或者在R2020b上,您可以使用readlines):
数据= readfile (“//www.tianjin-qmedu.com/matlabcentral/answers/uploaded_files/424138/3%20letter%20Hindi%20words%20without%20matra%20%E2%80%93%20Part%204%20%E2%80%93%20Kathakar.txt”);
lines_of_interest =数据(26:40);
接下来需要做的是解析特定的行。你已经有了你要找的模式。有一种最优的方法用正则表达式,还有一种简单的方法用几个调用 strfind .如果你在实现这一点上遇到了困难,不要犹豫,就你所做的尝试发表评论。
7评论
v k
v k 2020年11月26日
我认为这是一个很好的简洁的例子。但是,不能得到't'(仅为null),但我对RE表达式进行了很大的调整。
无论如何,如上所述,我认为有一种方法可以解决另一个查询。让我单独提出一个问题:
也许,这种类型的RE结构在这里是有用的。

登录评论。

更多答案(0)

社区寻宝

在MATLAB Central中找到宝藏,并发现社区如何帮助您!

开始狩猎!