tokenDetails

标记化的文档中标记数组的细节

所有的页面崩溃

语法

tdetails = tokenDetails(文档)

描述

例子

tdetails= tokenDetails (文档)返回一个令牌的牌表细节tokenizedDocument数组文档。

例子

全部折叠

查看标记文件的详细信息

打开生活的脚本

创建一个标记化的文档数组。

str = […“这是一个示例文档。它有两个句子。”“这文档有一句话和一个表情符号。:)”“这是另一个例子文件。:D”];文件= tokenizedDocument (str);

查看标记的细节前几令牌。

tdetails = tokenDetails(文件);头(tdetails)

令牌DocumentNumber LineNumber类型语言__________ __________ * * * ___________ ________”这种“1 1字母en”是“1 1字母在“一个”1 1字母在“示例”1 1字母在“文档”1 1字母在“。”1 1 punctuation en "It" 1 1 letters en "has" 1 1 letters en

的类型变量包含每个令牌的类型。查看文档中的表情符号。

idx = tdetails。类型= =“表情符号”;tdetails (idx:)

ans =2×5表令牌DocumentNumber LineNumber类型语言__________ _____ * * *说:“2 1 emoticon en ":D" 3 1 emoticon en

句子的细节添加到文档

打开生活的脚本

创建一个标记化的文档数组。

str = […“这是一个示例文档。它有两个句子。”“这个文档有一句话。”“这是另一个例子文件。它也有两句话。”];文件= tokenizedDocument (str);

句子的细节添加到文档使用addSentenceDetails。这个函数将这句话号码添加到表返回的tokenDetails。查看更新后的令牌最初几个令牌的详细信息。

= addSentenceDetails文件(文档);tdetails = tokenDetails(文件);头(tdetails)

令牌DocumentNumber SentenceNumber LineNumber类型语言是_____________ __________ __________ * * * ___________ ________”这种“1 1 1字母en”是“1 1 1字母在“一个”1 1 1字母在“示例”1 1 1字母在“文档”1 1 1字母在“。”1 1 1 punctuation en "It" 1 2 1 letters en "has" 1 2 1 letters en

查看标记第二句第三文档的细节。

idx = tdetails。DocumentNumber== 3 &…tdetails。SentenceNumber = = 2;tdetails (idx:)

ans =6×6表令牌DocumentNumber SentenceNumber LineNumber类型语言是_____________ __________…………* * *说“它”3 2 1字母en”也“3 2 1字母在“”3 2 1字母在“两个”3 2 1字母在“句子”3 2 1字母在“。”3 2 1 punctuation en

词性的细节添加到文档

打开生活的脚本

加载示例数据。该文件sonnetsPreprocessed.txt莎士比亚的十四行诗的包含预处理版本。文件包含每行一个十四行诗,单词之间用一个空格来分隔。提取的文本sonnetsPreprocessed.txt在换行字符,文本分割成文档,然后标记文件。

文件名=“sonnetsPreprocessed.txt”;str = extractFileText(文件名);textData =分裂(str,换行符);文件= tokenizedDocument (textData);

查看标记的细节前几令牌。

tdetails = tokenDetails(文件);头(tdetails)

令牌DocumentNumber LineNumber __________和________型语言……* * *“公平”字母在“生物”1 1字母在“欲望”1 1字母在“增长”字母在“从而”1 1字母在“美”字母在“玫瑰”1 1字母在“可能”1字母

词性的细节添加到文档使用addPartOfSpeechDetails函数。这个函数首先将句子的信息添加到文件,然后添加了词性标记返回的表tokenDetails。查看更新后的令牌最初几个令牌的详细信息。

= addPartOfSpeechDetails文件(文档);tdetails = tokenDetails(文件);头(tdetails)

令牌DocumentNumber SentenceNumber LineNumber类型语言PartOfSpeech“公平”是_____________ __________和________ ___________ * * * * * * 1 1 1字母en形容词“生物”1 1 1字母在名词“欲望”1 1 1字母在名词“增长”1 1 1字母en名词“从而”1 1 1字母在副词“美丽”1 1 1字母en名词“玫瑰”1 1 1字母在名词”可能“1 1 1字母en助动词

输入参数

全部折叠

`文档`- - - - - -输入文档
`tokenizedDocument`数组

输入文件,指定为一个tokenizedDocument数组中。

输出参数

全部折叠

`tdetails`——令牌表细节
表

令牌表细节。tdetails有以下变量:

的名字	描述
`令牌`	标记文本,作为字符串返回标量。
`DocumentNumber`	令牌属于索引的文档,作为一个正整数返回。
`SentenceNumber`	句子的令牌数量文件,作为一个正整数返回。如果这些细节丢失,那么首先添加句子细节`文档`使用`addSentenceDetails`函数。
`LineNumber`	行号标记的文档,作为一个正整数返回。
`类型`	令牌的类型,作为其中一个返回类型: `信`——只串字母字符 `数字`-字符串的位数 `标点符号`——一连串标点和符号字符 `电子邮件地址`——发现电子邮件地址 `网站地址`——检测到网络地址 `标签`-检测到标签(开始`“#”`字符后跟一个字母) `一提到他`-发现在提及(开始`“@”`字符) `表情符号`——发现表情符号 `emoji`——发现emoji `其他`——不属于前面的类型和不是一个自定义类型如果这些细节丢失,那么首先添加类型的细节`文档`使用`addTypeDetails`函数。
`语言`	语言的令牌,作为这些语言之一:返回 `在`- - - - - -英语 `晶澳`——日本 `德`——德国 `ko`——韩国这些语言细节决定的行为`removeStopWords`,`addPartOfSpeechDetails`,`normalizeWords`,`addSentenceDetails`,`addEntityDetails`功能上的令牌。如果这些细节丢失,那么首先添加语言细节`文档`使用`addLanguageDetails`函数。关于语言支持的更多信息以文本分析工具箱™,明白了万博1manbetx语言的注意事项。
`PartOfSpeech`	词性标记,作为其中一个返回标签: `形容词`——形容词 `adposition`——Adposition `副词`——副词 `助动词`——助动词 `coord-conjunction`——并列连接词 `决定因素`——决定因素 `感叹词`——感叹词 `名词`- - - - - -名词 `数字`——数字 `粒子`——粒子 `代词`——代词 `专有名词`(专有名词 `标点符号`(标点符号 `subord-conjunction`- - - - - -从属conjucntion `象征`——象征 `动词`——动词 `其他`——其他如果这些细节丢失,那么第一个词性细节添加到`文档`使用`addPartOfSpeechDetails`函数。
`实体`	指定实体标签,这些标签之一: `位置`——检测位置 `组织`——检测组织 `人`——检测人 `其他`——检测实体,不属于上述类别 `走眼`——没有实体检测如果这些细节丢失,那么首先添加实体细节`文档`使用`addEntityDetails`函数。
`引理`	引理的形式。如果这些细节丢失,那么首先添加引理细节`文档`使用`addLemmaDetails`函数。
`头`	语法的依赖,指定为令牌,这令牌修改的索引。如果这些细节丢失,那么首先添加语法细节的依赖`文档`使用`addDependencyDetails`函数。
`依赖`	语法依赖类型,指定为这些标签之一。这里列出的依赖类型只是一个子集。依赖类型的完整列表,包括亚型,明白了[1]。 `acl`子句的修饰词的名词(修饰名词的条款) `advcl`——状语从句修饰符 `advmod`——状语 `amod`——形容词的修饰符 `奥博金`——同位的修饰符 `辅助`——辅助 `情况下`——案例标记 `cc`——并列连接词 `ccomp`——条款的补充 `clf`——分类器 `复合`——复合 `连词`——结合的 `警察`——连系动词 `csubj`——子句的主题 `部`——未指明的依赖 `依据`——决定因素 `话语`——话语元素 `脱臼`——混乱元素 `expl`——脏话 `固定`——固定多字表达 `平`——平面多字表达 `goeswith`——与 `iobj`——间接宾语 `列表`——列表 `马克`——标记 `nmod`——名义上的修饰符 `nsubj`——名义上的主题 `nummod`——数字修饰符 `obj`- - - - - -对象 `长方形的`——斜名义 `孤儿`——孤儿 `并列`——并列 `punct`(标点符号 `reparandum`——覆盖不流利 `根`——根 `称呼的`——呼格 `xcomp`——打开条款的补充如果这些细节丢失,那么首先添加语法细节的依赖`文档`使用`addDependencyDetails`函数。