主要内容

findElement

在HTML树中找到元素

描述

例子

子树= findElement (,选择器)返回元素匹配CSS选择器。

例子

全部折叠

从URL中读取HTML代码//www.tianjin-qmedu.com/help/textanalytics使用webread函数。

url =“//www.tianjin-qmedu.com/help/textanalytics”;代码= webread (url);

使用。解析HTML代码htmlTree

树= htmlTree(代码);

在HTML树中找到所有超链接findElement。超链接是具有元素名称的节点“一个”

选择器=“一个”;子树= findElement(树,选择器);

查看前几个子树。

子树(1:10)
ans = 10×1 htmlt:<类= " skip_link sr-only " href = " # content_container " >跳到内容< / > < A href = " //www.tianjin-qmedu.com?s_tid=gn_logo " class = " svg_link navbar-brand”> < IMG src = " /图片/响应/全球/ pic-header-mathworks-logo.svg”类=“mw_logo”alt = " MathWorks " / > < / > < A href = " //www.tianjin-qmedu.com/pros manbetx 845ducts.html?s_tid=gn_ps " > < / > <一个产品href = " https://www.mathworks.c万博 尤文图斯om/solutions.html?s_tid=gn_sol " >解决方案< / > < A href = " //www.tianjin-qmedu.com/academia.html?s_tid=gn_acad " >学术界< / > < A href = " https://www.万博1manbetxmathworks.com/support.html?s_tid=gn_supp " >支持< / > < A href = " //www.tianjin-qmedu.com/matlabcentral/?s_tid=gn_mlc " > < / > <社区事件href = " //www.tianjin-qmedu.com/company/events.html?s_tid=gn_ev " > < / > < A href = " https://www.mathwors manbetx 845ks.com/products/get-matlab.html?s_tid=gn_getml " >得到MATLAB < / > < A href = " //www.tianjin-qmedu.com?s_tid=gn_logo " class = " svg_link pull-left”> < IMG src = " /图片/响应/全球/ pic-header-mathworks-logo.svg”类=“mw_logo”alt = " MathWorks " / > < / >

从子树中提取文本extractHTMLText。结果包含页面上每个链接的链接文本。

str = extractHTMLText(子树);str (1:10)
ans =10×1的字符串“跳到内容" "" "产品”“解决方案”“学s manbetx 845术界”“支持”“社区”万博 尤文图斯“事件”“得到MATLAB”“”万博1manbetx

输入参数

全部折叠

HTML树,指定为标量htmlTree对象。

CSS选择器,指定为字符串标量或字符向量。有关更多信息,请参见CSS选择器

输出参数

全部折叠

匹配HTML子树,返回为htmlTree数组中。

更多关于

全部折叠

HTML元素

一个典型的HTML元素包含以下组件:

  • 元素名称- HTML标记的名称。元素名称对应于的名字属性。

  • 属性——关于标签的附加信息。HTML属性具有表单的名字= "价值,在那里的名字价值分别表示属性名和值。属性出现在打开的HTML标记中。要从HTML树中获取属性值,请使用getAttribute

  • 内容-元素的内容。内容出现在打开和关闭HTML标记之间。内容可以是文本数据或嵌套的HTML元素。从htmlTree对象,使用extractHTMLText。对象的嵌套HTML元素htmlTree对象,使用孩子们财产。

例如,HTML元素回家的< a href = " //www.tianjin-qmedu.com " > < / >包括以下组成部分:

组件 价值 描述
元素名称 一个 元素是一个超链接
属性 属性名称 href 超链接引用
属性值 “//www.tianjin-qmedu.com” 超链接的参考价值
内容 首页 文本显示

CSS选择器

CSS选择器指定匹配树中的元素的模式。

这个表格展示了一些如何从HTML树中提取不同的HTML元素的例子:

任务 CSS选择器 例子
找到所有段落(< p >)元素。 “p” findElement(树,“p”)
找到所有段落(< p >)及列出项目(<李>)元素。 “p,李” findElement(树,”李p”)
找到所有段落(< p >)在table (<表>)元素。 "表p " findElement(树,“表”页)
找到所有超连结(<一>)元素的超链接引用属性(href)值以. pdf” “(href = " . pdf”“美元)” findElement(树”(href = " . pdf”“美元)”)
找到所有段落(< p >)元素,它们是父元素的第一个子元素。 “p:第一个孩子” findElement (tr,“p:第一个孩子”)
找到所有段落(< p >)元素,它们是父元素的第一个段落元素。 “p: first-of-type” findElement (tr,“p: first-of-type”)
找到所有的重点(< em >)元素,其中父元素是段落(< p >)元素。 “p > em” findElement (tr,“p > em”)
找到所有段落(< p >)元素立即出现在标题1 (<标题>)元素 “h1 + p” findElement (tr, h1 + p)
找到所有空元素。 ”:空” findElement (tr,“空”):
找到所有非空标签(<标识>)元素。 ”标签:不(空的):“ findElement (tr,“标签:不(空的):“)

findElement函数支持所有的CS万博1manbetxS级别3,除了选择器“朗:“,”:“检查,”:链接”,”:活跃”,”:徘徊”,”:焦点”,”:目标”,启用”:“,禁用”:“

有关CSS选择器的更多信息,请参见[1]

参考文献

介绍了R2018b