我怎么能一个HTML文件读入MATLAB和丢弃的HTML标签吗?
88(30天)
显示旧的评论
MathWorks支万博1manbetx持团队
2009年6月27日
编辑:
MathWorks支万博1manbetx持团队
2023年5月19日6点12
我有一个HTML文件,我想读到MATLAB。然而,我想丢弃的HTML标记,只保留文本文件。
接受的答案
MathWorks支万博1manbetx持团队
2018年1月4日
没有函数可用MATLAB将读取HTML文件并删除HTML标记。然而,这可以很容易地通过使用正则表达式:
str =' < HTML >我的鲜花< b > < / b > < A HREF = " http://www.a.com " http://www.a.com " < > >布鲁姆在< / > < / HTML >”;
帕特=“< [^ >]* >”;
regexprep (str,帕特,”)
另一种方法不使用正则表达式包含HTML文件扫描,更换
*
和换行符“* BR”标签,以及消除其他标签。附加的例子,fread_html。米,展示了一个可能的解决方案,处理HTML标记的一个子集。
拯救一个html文件的另一种方法没有html格式标记是通过使用ActiveX。下面的代码调用微软Internet Explorer作为一个ActiveX自动化服务器拷贝的文本提供的URL并存储到一个MATLAB变量的文本。
函数str = CopyPasteIE (url);
哈= actxserver (“internetexplorer.application”);
导航(哈,url);
暂停(3);%暂停让页面加载
ha.document.execCommand (“selectall”,”,”);
ha.document.execCommand (“复制”,”,”);
str =剪贴板(“粘贴”);
示例用法:mystr = CopyPasteIE (“http://www.google.com”);
注意:在这个例子中提供的代码是出于演示的目的,并没有彻底地测试。
9日评论
大卫Longin
2022年2月2日
% ReadURL
[a, b] = web (url);在浏览器Malab %
%给它一些时间来加载
暂停(10)
%将url处理转换成字符串
c = getHtmlText (b);
%将java字符串转换为字符
cName = char (c);