解析HTML并提取文本内容

打开生活的脚本

这个示例展示了如何解析HTML代码并从特定元素中提取文本内容。

解析HTML代码

从URL读取HTML代码//www.tianjin-qmedu.com/help/textanalytics使用webread。

url =“//www.tianjin-qmedu.com/help/textanalytics”;代码= webread (url);

解析HTML代码使用htmlTree。

树= htmlTree(代码);

查看树的HTML元素名称。

tree.Name

ans =“HTML”

查看树的子元素。子树是树。

tree.Children

ans = 4×1 htmlTree: " <头> <标题>文本分析工具箱文档< /名称> < META charset = " utf - 8 " / > < META内容=“宽度=设备宽度,初始= 1.0 " name = "视窗" / > < META内容=“IE =边缘”http-equiv = " X-UA-Compatible " / > <链接的href = " / includes_content /响应/ css /引导/ bootstrap.min。css" rel="stylesheet" type="text/css"/> < DIV class = "头visible-xs visible-sm " id = " header_mobile "翻译=“不”> <导航类= =“导航”“navbar navbar-default”作用> < DIV class = " container-fluid " > < DIV class = "行" > < DIV class = " col-xs-12 " > < DIV class = " navbar-header " > <按钮类=“navbar-toggle topnav_toggle”数据目标= " # topnav_collapse " data-toggle =“崩溃”类型=“按钮”> <跨类=“sr-only”>切换主要导航< / SPAN > < SPAN class = "图标菜单" / > < /按钮> < class = " svg_link navbar-brand“href = " //www.tianjin-qmedu.com?s_tid=gn_logo"> < / > < / DIV > < / DIV > < / DIV > < DIV class = "行visible-xs visible-sm”> < DIV class = " col-xs-12 " > < DIV class = " navbar-collapse崩溃" id = " topnav_collapse " > < UL类= " nav navbar-nav " id =“topnav”> <李类=“headernav_login”> < class = " mwa-nav_login " href = " //www.tianjin-qmedu.com/login?uri=http: / / www.tianjin-qmedu.com/help/textanalytics/index.html " >标志……

从HTML树提取文本

要直接从HTML树中提取文本，请使用extractHTMLText。

str = extractHTMLText(树)

Text Analytics Toolbox™为预处理、分析和建模文本数据提供了算法和可视化。使用工具箱创建的模型可以在情绪分析、预测维护和主题建模等应用程序中使用。文本分析工具箱包括处理原始文本的工具，从资源，如设备日志，新闻源，调查，操作员报告，和社会媒体。您可以从流行的文件格式中提取文本、预处理原始文本、提取单个单词、将文本转换为数字表示，以及构建统计模型。使用LSA、LDA和单词嵌入等机器学习技术，您可以从高维文本数据集中找到集群并创建特性。Text Analytics Toolbox创建的功能可以与来自其他数据源的功能相结合，从而构建利用文本、数字和其他类型数据的机器学习模型。”

找到HTML元素

要查找HTML树的特定元素，请使用findElement。找到HTML树中的所有超链接。在HTML中，超链接使用“A”标签。

选择器=“一个”;子树= findElement(树,选择器);

查看前几个子树。

子树(1:20)

  < / > < A href = " https://www.mathworks.c万博 尤文图斯om/solutions.html?s_tid = gn_sol万博 尤文图斯 " >解决方案< / > < A href = " //www.tianjin-qmedu.com/academia.html?学术界s_tid = gn_acad " > < / > < A href = " https://www.mathworks万博1manbetx.com/support.html?s_tid = gn_supp万博1manbetx " >支持< / > < A href = " //www.tianjin-qmedu.com/matlabcentral/?社区s_tid = gn_mlc " > < / > < A href = " //www.tianjin-qmedu.com/company/events.html?s_tid=gn_ev " > < / >事件Contact Us How to Buy Contact Us How to Buy Sign In  333manbetx
 Solutions 2018世界杯狗万滚球app
 2019新万博appmanbetⅩ
 Community Events

从超链接的文本创建一个单词云。

str = extractHTMLText(子树);图wordcloud (str);标题(“超链接”)

获取HTML属性

从HTML树中的段落元素中获取类属性。

子树= findElement(树,“p”);attr =“类”;str = getAttribute(子树,attr)

str =21日×1的字符串数组<丢失> <丢失b> "add_margin_5" <丢失b> <丢失> <丢失> <丢失> "category_desc" "category_desc" "category_desc" <丢失> <丢失> <丢失> "text-center"丢失>0 <丢失>1 <丢失>3 "版权"丢失>3

用类从包含在段落元素中的文本创建一个单词云“category_desc”。

子树= findElement(树,“p.category_desc”);str = extractHTMLText(子树);图wordcloud (str);

另请参阅

extractHTMLText|findElement|getAttribute|htmlTree|tokenizedDocument

解析HTML并提取文本内容

解析HTML代码

从HTML树提取文本

找到HTML元素

获取HTML属性

另请参阅

相关的话题

文本分析工具箱文档

万博1manbetx

开始学习MATLAB中的文本分析