选择部分HTML文件

4次浏览(最近30天)

显示旧的注释

v k 2020年11月23日

0
链接

直接链接到这个问题

//www.tianjin-qmedu.com/matlabcentral/answers/658198-selecting-parts-of-html-file

评论道: v k2020年11月26日

答:接受里克

3个不含matra的印地语单词-第4部分- Kathakar.txt

你好,

我在一个目录中有一系列文本文件，按顺序编号，*第1部分*，第2部分，第3部分…这些实际上是HTML文件，但我也可以将它们保存为文本文件。其中的第4部分就是这样一个文件。(标题开头有“3”，但它是标题的一部分。这不是序列号。'3'出现在目录中的每个文件中。)所有这些文件的结构都完全相同。感兴趣的区域总是出现在第26行到第40行之间。

我希望将第26行至第40行之间的所有白话文本保存在一个单独的文本文件中，而紧跟在这些白话之后的括号中的单词则保存在另一个单独的文本文件中。本地文本总是出现在序列号之后，然后是句号，然后是空格，然后是星号。这种白话文本后面的词总是出现在白话文本前面的空格后面的开括号和闭括号内。

如何采取这些在两个单独的文本文件中所有的html文件在目录一次?

谢谢。

0评论
显示隐藏-1旧的注释

登录评论。

登录回答这个问题。

接受的答案

里克 2020年11月23日

0
链接

直接链接到这个答案

//www.tianjin-qmedu.com/matlabcentral/answers/658198-selecting-parts-of-html-file#answer_553028

首先阅读html文件(你可以得到我的 readfile 函数从 FEX ．如果您使用的是R2017a或更高版本，您也可以通过AddOn-manager获取它，或者在R2020b上，您可以使用readlines):

                              数据= readfile (“//www.tianjin-qmedu.com/matlabcentral/answers/uploaded_files/424138/3%20letter%20Hindi%20words%20without%20matra%20%E2%80%93%20Part%204%20%E2%80%93%20Kathakar.txt”）;
                             
                              lines_of_interest =数据(26:40);

接下来需要做的是解析特定的行。你已经有了你要找的模式。有一种最优的方法用正则表达式，还有一种简单的方法用几个调用 strfind ．如果你在实现这一点上遇到了困难，不要犹豫，就你所做的尝试发表评论。

7评论
显示隐藏旧的评论

里克 2020年11月23日

编辑:里克 2020年11月23日

不客气，这是我最引以为傲的函数之一，虽然我当然有偏见，尤其是花了这么多时间来写它。(它甚至比 readline R2020b中引入的函数(即它在基本多语言平面之外的表情符号上不会失败)，尽管它支持更多的编码，而不仅仅是ASCII和UTF-8)万博1manbetx

对于第二部分，你需要一步一步来:

                                   印地语=细胞(大小(lines_of_interest));
                                  
                                   英语=细胞(大小(lines_of_interest));
                                  
                                   为n = 1:元素个数(lines_of_interest)
                                  
                                   current_line = lines_of_interest {n};
                                  
                                   %现在您可以使用strfind来查找所描述的模式的开头
                                  
                                   pat_start_hindi =”。*’；
                                  
                                   pat_hindi_english =“(”；
                                  
                                   pat_english_stop =”)*’；
                                  
                                   你需要用这些指标做什么来确定这两部分的开始和结束? ?
                                  
                                   ind1 = strfind (current_line pat_start_hindi);
                                  
                                   ind2 = strfind (current_line pat_hindi_english);
                                  
                                   ind3 = strfind (current_line pat_english_stop);
                                  
                                   结束

尝试一些事情，并展示你所做的努力。

首先将文本放在单独的变量中，然后您可以考虑将其写入文本文件(您可以在谷歌上找到大量示例)。

里克 2020年11月24日

这是一般结构:

                                   RE = [.．.
                                  
                                   ' & '，.．.%以&符号开头
                                  
                                   ' ('，.．.捕获第一个令牌
                                  
                                   ' [^;]* '，.．.%匹配任何不是分号的内容
                                  
                                   ') '，.．.％
                                  
                                   “。*”，.．.%匹配任何字符
                                  
                                   “\*”，.．.%匹配文字*
                                  
                                   ' ('，.．.捕获第二个令牌
                                  
                                   “。*”，.．.%匹配任何字符
                                  
                                   ') '，.．.％
                                  
                                   ' % '，.．.%以百分号结尾
                                  
                                   ”];
                                  
                                   RE =再保险(~ isspace (RE));%移除空格(用\s匹配实际空格)
                                  
                                   str =“不匹配，但是&匹配这个;和* %’；
                                  
                                   t = regexp (str,再保险公司“令牌”）;
                                  
                                   celldisp (t)
                                  
                                     T {1}{1} = match this T {1}{2} = this

正则表达式对文档来说很糟糕，所以这是我能做的最好的。你应该能够很容易地适应你的情况。如果实际表达式是不可读的，我就使用这种编写和记录正则表达式的风格。在这种情况下，这是实际的表达式:

RE ='&([^;]*).*\*(.*)%'；

v k 2020年11月26日

我认为这是一个很好的简洁的例子。但是，不能得到't'(仅为null)，但我对RE表达式进行了很大的调整。

无论如何，如上所述，我认为有一种方法可以解决另一个查询。让我单独提出一个问题:

https://in.mathworks.com/matlabcentral/answers/662608-converting-strings-to-operators

也许，这种类型的RE结构在这里是有用的。

登录评论。

类别

人工智能，数据科学和统计学文本分析工具箱文本数据准备

了解更多文本数据准备在帮助中心而且文件交换

社区寻宝

在MATLAB Central中找到宝藏，并发现社区如何帮助您!

开始狩猎!

选择部分HTML文件

0评论
显示隐藏-1旧的注释

接受的答案

7评论
显示隐藏旧的评论

更多答案(0)

另请参阅

类别

标签

社区寻宝

选择部分HTML文件

0评论 显示隐藏-1旧的注释

接受的答案

7评论 显示隐藏旧的评论

更多答案(0)

另请参阅

类别

标签

社区寻宝

0评论
显示隐藏-1旧的注释

7评论
显示隐藏旧的评论