我怎么能一个HTML文件读入MATLAB和丢弃的HTML标签吗?

88(30天)

显示旧的评论

MathWorks支万博1manbetx持团队 2009年6月27日

1
链接

这个问题直接联系

//www.tianjin-qmedu.com/matlabcentral/answers/98555-how-can-i-read-an-html-file-into-matlab-and-discard-the-html-tags

编辑: MathWorks支万博1manbetx持团队 2023年5月19日6点12

答:接受 MathWorks支万博1manbetx持团队

我有一个HTML文件,我想读到MATLAB。然而,我想丢弃的HTML标记,只保留文本文件。

在回答这个问题。

接受的答案

MathWorks支万博1manbetx持团队 2018年1月4日

4
链接

直接链接到这个答案

//www.tianjin-qmedu.com/matlabcentral/answers/98555-how-can-i-read-an-html-file-into-matlab-and-discard-the-html-tags answer_107903

fread_html.m

没有函数可用MATLAB将读取HTML文件并删除HTML标记。然而,这可以很容易地通过使用正则表达式:

                             str =' < HTML >我的鲜花< b > < / b > < A HREF = " http://www.a.com " http://www.a.com " < > >布鲁姆在< / > < / HTML >”;
                            
                             帕特=“< [^ >]* >”;
                            
                             regexprep (str,帕特,”)

另一种方法不使用正则表达式包含HTML文件扫描,更换 * 和换行符“* BR”标签,以及消除其他标签。附加的例子,fread_html。米,展示了一个可能的解决方案,处理HTML标记的一个子集。

拯救一个html文件的另一种方法没有html格式标记是通过使用ActiveX。下面的代码调用微软Internet Explorer作为一个ActiveX自动化服务器拷贝的文本提供的URL并存储到一个MATLAB变量的文本。

                             函数str = CopyPasteIE (url);
                            
                             哈= actxserver (“internetexplorer.application”);
                            
                             导航(哈,url);
                            
                             暂停(3);%暂停让页面加载
                            
                             ha.document.execCommand (“selectall”,”,”);
                            
                             ha.document.execCommand (“复制”,”,”);
                            
                             str =剪贴板(“粘贴”);

示例用法:mystr = CopyPasteIE (“http://www.google.com”);

注意:在这个例子中提供的代码是出于演示的目的,并没有彻底地测试。

9日评论
显示8年长的评论隐藏8年长的评论

大卫Longin 2022年2月2日

                                   % ReadURL
                                  
                                   [a, b] = web (url);在浏览器Malab %
                                  
                                   %给它一些时间来加载
                                  
                                   暂停(10)
                                  
                                   %将url处理转换成字符串
                                  
                                   c = getHtmlText (b);
                                  
                                   %将java字符串转换为字符
                                  
                                   cName = char (c);