extracthtmltext.

从HTML中提取文本

页面上倒塌

句法

str = extracthtmltext（代码）

str = extracthtmltext（树）

str = extracthtmltext（___，'提取方法'，前）

描述

例子

str.= uptracthtmltext（代码）解析HTML代码代码并提取文本。

例子

str.= uptracthtmltext（树）从HTML树中提取文本。

str.= uptracthtmltext（___，'提取方法'，前任）还指定要使用的提取方法。

例子

全部收缩

从HTML中提取文本

打开直播脚本

直接从HTML代码中提取文本数据，使用extracthtmltext.并将HTML代码指定为字符串。

代码=“   sonnets  由威廉莎士比亚  ”;str = extracthtmltext（代码）

str =“威廉莎士比亚的十四行诗”

从网站提取文本

打开直播脚本

要从网页中提取文本数据，请首先使用韦布雷德函数读取HTML代码。然后用来extracthtmltext.返回代码上的功能。

URL =.“//www.tianjin-qmedu.com/help/textanalytics”;代码= Webrabread（URL）;str = extracthtmltext（代码）

str ='文本分析工具箱™提供用于预处理，分析和建模文本数据的算法和可视化。使用工具箱创建的模型可用于语言分析，预测性维护和主题建模等应用程序。Text Analytics工具箱包括从设备日志，新闻源，调查，运营商报告和社交媒体等源处理原始文本的工具。您可以从流行文件格式提取文本，预处理原始文本，提取单个单词，将文本转换为数字表示，并构建统计模型。使用机器学习技术，如LSA，LDA和Word Embeddings，您可以找到来自高维文本数据集的群集并创建功能。使用Text Analytics Toolbox创建的功能可以与其他数据源的功能组合，以构建利用文本，数字和其他类型的数据的机器学习模型。

在HTML树中查找元素

打开直播脚本

从URL读取HTML代码//www.tianjin-qmedu.com/help/textanalytics.使用韦布雷德功能。

URL =.“//www.tianjin-qmedu.com/help/textanalytics”;代码= Webrabread（URL）;

解析HTML代码使用htmltree.。

树= htmltree（代码）;

查找使用HTML树中的所有超链接Fedelement.。超链接是具有元素名称的节点“一种”。

选择器=“一种”;子树= FindElement（树，选择器）;

查看前几个子树。

子树（1:10）

ans = 10×1 htmltree：跳到内容    产品 万博 尤文图斯solutions   Academia  支持 社区  得到matlab.

使用子树中提取文本extracthtmltext.。结果包含页面上每个链接的链接文本。

str = extracthtmltext（子树）;str（1:10）

ans =.10×1字符串“跳到内容”“”产品“”解决方案“”Acads manbetx 845emia“”支持“”社万博 尤文图斯区“”事件“”得到Matlab“”“万博1manbetx

输入参数

全部收缩

`代码`-HTML代码
字符串数组|字符向量|字符向量的单元格阵列

HTML代码，指定为字符串数组，字符向量或字符向量的单元格数组。

小费

要从网页读取HTML代码，请使用韦布雷德。
从HTML文件中提取文本，使用提取物文字。

例子：“”

数据类型：char|细绳|细胞

`树`-HTML树
`htmltree.`大批

HTML树，指定为一个htmltree.大批。

`前任`-提取方法
`'树'`（默认）|`'文章'`|`'全文'`

提取方法，指定为以下之一：

选项	描述
`'树'`	分析DOM树和文本内容，然后提取一段段落。
`'文章'`	检测文本文本并提取一段段落。
`'全文'`	提取HTML主体中的所有文本，除了脚本和CSS样式。