解析HTML和提取文本内容

打开实时脚本

这个例子展示了如何解析HTML代码并从特定元素中提取文本内容。

解析HTML代码

从URL读取HTML代码//www.tianjin-qmedu.com/help/textanalytics使用webread．

url =“//www.tianjin-qmedu.com/help/textanalytics”；代码= webread(url);

使用解析HTML代码htmlTree．

tree = htmlTree(code);

查看树的HTML元素名称。

树。的名字

ans = "HTML"

查看树的子元素。子树是树．

树。孩子们

ans = 4×1 htmlTree: " " 文本分析工具箱文档




< A class="mwa-nav_login" href="//www.tianjin-qmedu.com/es/login?uri=/help/textanalytics/index.html">Sign…

从HTML树中提取文本

要直接从HTML树中提取文本，请使用extractHTMLText．

str = extractHTMLText(树)

文本分析工具箱™为预处理、分析和建模文本数据提供了算法和可视化。使用工具箱创建的模型可用于情感分析、预测性维护和主题建模等应用程序。文本分析工具箱包括用于处理来自设备日志、新闻提要、调查、操作员报告和社交媒体等来源的原始文本的工具。您可以从流行的文件格式提取文本、预处理原始文本、提取单个单词、将文本转换为数字表示以及构建统计模型。使用诸如LSA、LDA和词嵌入等机器学习技术，您可以从高维文本数据集中找到集群并创建特征。使用文本分析工具箱创建的功能可以与来自其他数据源的功能相结合，以构建利用文本、数字和其他类型数据的机器学习模型。”

查找HTML元素

要查找HTML树的特定元素，请使用findElement．找到HTML树中的所有超链接。在HTML中，超链接使用“A”标记。

选择器=“一个”；subtrees = findElement(树，选择器);

查看前几个子树。

子树(1:20)

ans = 20×1 htmlTree:< class = " svg_link navbar-brand " href = " //www.tianjin-qmedu.com?s_tid=gn_logo " > < IMG alt = " MathWorks " class = " mw_logo " src = " /图片/响应全球/ pic-header-mathworks-logo.svg " / > < / > < class = " mwa-nav_login " href = " //www.tianjin-qmedu.com/login?uri=http: / / www.tianjin-qmedu.com/help/textanalytics/index.html " >在< / > < A href = " https:s manbetx 845//www.tianjin-qmedu.com/products.html?s_tid=gn_ps " >产品< / > < A href = " https万博 尤文图斯://www.tianjin-qmedu.com/solutions.html?s_tid=gn_sol " > < / > <一个解决方案学术界href = " //www.tianjin-qmedu.com/academia.html?s_tid=gn_acad " > < / > < A href = " https://www.mathwork万博1manbetxs.com/support.html?s_tid=gn_supp " > < / >支持社区< A href = " //www.tianjin-qmedu.com/matlabcentral/?s_tid=gn_mlc " > < / > < A href = " //www.tianjin-qmedu.com/company/events.html?s_tid=gn_ev " >事件< / > < A href = " //www.tianjin-qmedu.com/company/aboutus/contact_us.html?s_tid=gn_cntus " >联系我们< / > < A href = " //www.tianjin-qmedu.com/store?s_cid=store_top_nav& s_tid = gn_store " >如何购买< / >联系我们 如何购买 签到  Products Solutions Academia Support Community  < / >

从超链接的文本创建一个词云。

str = extractHTMLText(subtrees);图wordcloud (str);标题(“超链接”）

获取HTML属性

从HTML树中的段落元素中获取类属性。

subtrees = findElement(树，“p”）;attr =“类”；str = getAttribute(subtrees,attr)

str =21×1字符串数组<缺失> <缺失> "add_margin_5" <缺失> <缺失> <缺失> <缺失> <缺失> "category_desc" "category_desc" "category_desc" "category_desc" <缺失> <缺失> <缺失> "text-center" <缺失> <缺失> <缺失> "copyright" <缺失>

使用class从段落元素中包含的文本创建单词云“category_desc”．

subtrees = findElement(树，“p.category_desc”）;str = extractHTMLText(subtrees);图wordcloud (str);

另请参阅

htmlTree|findElement|getAttribute|extractHTMLText|tokenizedDocument