我怎么能一个HTML文件读入MATLAB和丢弃的HTML标签吗?

88(30天)
我有一个HTML文件,我想读到MATLAB。然而,我想丢弃的HTML标记,只保留文本文件。

接受的答案

MathWorks支万博1manbetx持团队
没有函数可用MATLAB将读取HTML文件并删除HTML标记。然而,这可以很容易地通过使用正则表达式:
str =' < HTML >我的鲜花< b > < / b > < A HREF = " http://www.a.com " http://www.a.com " < > >布鲁姆在< / > < / HTML >”;
帕特=“< [^ >]* >”;
regexprep (str,帕特,)
另一种方法不使用正则表达式包含HTML文件扫描,更换 * 和换行符“* BR”标签,以及消除其他标签。附加的例子,fread_html。米,展示了一个可能的解决方案,处理HTML标记的一个子集。
拯救一个html文件的另一种方法没有html格式标记是通过使用ActiveX。下面的代码调用微软Internet Explorer作为一个ActiveX自动化服务器拷贝的文本提供的URL并存储到一个MATLAB变量的文本。
函数str = CopyPasteIE (url);
哈= actxserver (“internetexplorer.application”);
导航(哈,url);
暂停(3);%暂停让页面加载
ha.document.execCommand (“selectall”,,);
ha.document.execCommand (“复制”,,);
str =剪贴板(“粘贴”);
示例用法:mystr = CopyPasteIE (“http://www.google.com”);
注意:在这个例子中提供的代码是出于演示的目的,并没有彻底地测试。
9日评论
大卫Longin
大卫Longin 2022年2月2日
% ReadURL
[a, b] = web (url);在浏览器Malab %
%给它一些时间来加载
暂停(10)
%将url处理转换成字符串
c = getHtmlText (b);
%将java字符串转换为字符
cName = char (c);

登录置评。

答案(1)

肖恩·德Wolski
肖恩·德Wolski 2017年10月17日
编辑:MathWorks支万博1manbetx持团队 2023年5月19日6点12
1评论
沃尔特·罗伯森
沃尔特·罗伯森 2017年10月22日
R2017b,工具箱是新的,它还需要统计和机器学习的工具箱。如果你已经有工具箱因其他原因然后当然使用它,但如果不是那么regexp()好。

登录置评。

类别

找到更多的在在MATLAB中使用COM对象帮助中心文件交换

社区寻宝

找到宝藏在MATLAB中央,发现社区如何帮助你!

开始狩猎!