主要内容

tokenDetails

标记化的文档中标记数组的细节

描述

例子

tdetails= tokenDetails (文档)返回一个令牌的牌表细节tokenizedDocument数组文档

例子

全部折叠

创建一个标记化的文档数组。

str = [“这是一个示例文档。它有两个句子。”“这文档有一句话和一个表情符号。:)”“这是另一个例子文件。:D”];文件= tokenizedDocument (str);

查看标记的细节前几令牌。

tdetails = tokenDetails(文件);头(tdetails)
令牌DocumentNumber LineNumber类型语言__________ __________ * * * ___________ ________”这种“1 1字母en”是“1 1字母在“一个”1 1字母在“示例”1 1字母在“文档”1 1字母在“。”1 1 punctuation en "It" 1 1 letters en "has" 1 1 letters en

类型变量包含每个令牌的类型。查看文档中的表情符号。

idx = tdetails。类型= =“表情符号”;tdetails (idx:)
ans =2×5表令牌DocumentNumber LineNumber类型语言__________ _____ * * *说:“2 1 emoticon en ":D" 3 1 emoticon en

创建一个标记化的文档数组。

str = [“这是一个示例文档。它有两个句子。”“这个文档有一句话。”“这是另一个例子文件。它也有两句话。”];文件= tokenizedDocument (str);

句子的细节添加到文档使用addSentenceDetails。这个函数将这句话号码添加到表返回的tokenDetails。查看更新后的令牌最初几个令牌的详细信息。

= addSentenceDetails文件(文档);tdetails = tokenDetails(文件);头(tdetails)
令牌DocumentNumber SentenceNumber LineNumber类型语言是_____________ __________ __________ * * * ___________ ________”这种“1 1 1字母en”是“1 1 1字母在“一个”1 1 1字母在“示例”1 1 1字母在“文档”1 1 1字母在“。”1 1 1 punctuation en "It" 1 2 1 letters en "has" 1 2 1 letters en

查看标记第二句第三文档的细节。

idx = tdetails。DocumentNumber== 3 &tdetails。SentenceNumber = = 2;tdetails (idx:)
ans =6×6表令牌DocumentNumber SentenceNumber LineNumber类型语言是_____________ __________…………* * *说“它”3 2 1字母en”也“3 2 1字母在“”3 2 1字母在“两个”3 2 1字母在“句子”3 2 1字母在“。”3 2 1 punctuation en

加载示例数据。该文件sonnetsPreprocessed.txt莎士比亚的十四行诗的包含预处理版本。文件包含每行一个十四行诗,单词之间用一个空格来分隔。提取的文本sonnetsPreprocessed.txt在换行字符,文本分割成文档,然后标记文件。

文件名=“sonnetsPreprocessed.txt”;str = extractFileText(文件名);textData =分裂(str,换行符);文件= tokenizedDocument (textData);

查看标记的细节前几令牌。

tdetails = tokenDetails(文件);头(tdetails)
令牌DocumentNumber LineNumber __________和________型语言……* * *“公平”字母在“生物”1 1字母在“欲望”1 1字母在“增长”字母在“从而”1 1字母在“美”字母在“玫瑰”1 1字母在“可能”1字母

词性的细节添加到文档使用addPartOfSpeechDetails函数。这个函数首先将句子的信息添加到文件,然后添加了词性标记返回的表tokenDetails。查看更新后的令牌最初几个令牌的详细信息。

= addPartOfSpeechDetails文件(文档);tdetails = tokenDetails(文件);头(tdetails)
令牌DocumentNumber SentenceNumber LineNumber类型语言PartOfSpeech“公平”是_____________ __________和________ ___________ * * * * * * 1 1 1字母en形容词“生物”1 1 1字母在名词“欲望”1 1 1字母在名词“增长”1 1 1字母en名词“从而”1 1 1字母在副词“美丽”1 1 1字母en名词“玫瑰”1 1 1字母在名词”可能“1 1 1字母en助动词

输入参数

全部折叠

输入文件,指定为一个tokenizedDocument数组中。

输出参数

全部折叠

令牌表细节。tdetails有以下变量:

的名字 描述
令牌 标记文本,作为字符串返回标量。
DocumentNumber 令牌属于索引的文档,作为一个正整数返回。
SentenceNumber 句子的令牌数量文件,作为一个正整数返回。如果这些细节丢失,那么首先添加句子细节文档使用addSentenceDetails函数。
LineNumber 行号标记的文档,作为一个正整数返回。
类型

令牌的类型,作为其中一个返回类型:

  • ——只串字母字符

  • 数字-字符串的位数

  • 标点符号——一连串标点和符号字符

  • 电子邮件地址——发现电子邮件地址

  • 网站地址——检测到网络地址

  • 标签-检测到标签(开始“#”字符后跟一个字母)

  • 一提到他-发现在提及(开始“@”字符)

  • 表情符号——发现表情符号

  • emoji——发现emoji

  • 其他——不属于前面的类型和不是一个自定义类型

如果这些细节丢失,那么首先添加类型的细节文档使用addTypeDetails函数。

语言

语言的令牌,作为这些语言之一:返回

  • - - - - - -英语

  • 晶澳——日本

  • ——德国

  • ko——韩国

这些语言细节决定的行为removeStopWords,addPartOfSpeechDetails,normalizeWords,addSentenceDetails,addEntityDetails功能上的令牌。

如果这些细节丢失,那么首先添加语言细节文档使用addLanguageDetails函数。

关于语言支持的更多信息以文本分析工具箱™,明白了万博1manbetx语言的注意事项

PartOfSpeech

词性标记,作为其中一个返回标签:

  • 形容词——形容词

  • adposition——Adposition

  • 副词——副词

  • 助动词——助动词

  • coord-conjunction——并列连接词

  • 决定因素——决定因素

  • 感叹词——感叹词

  • 名词- - - - - -名词

  • 数字——数字

  • 粒子——粒子

  • 代词——代词

  • 专有名词(专有名词

  • 标点符号(标点符号

  • subord-conjunction- - - - - -从属conjucntion

  • 象征——象征

  • 动词——动词

  • 其他——其他

如果这些细节丢失,那么第一个词性细节添加到文档使用addPartOfSpeechDetails函数。

实体

指定实体标签,这些标签之一:

  • 位置——检测位置

  • 组织——检测组织

  • ——检测人

  • 其他——检测实体,不属于上述类别

  • 走眼——没有实体检测

如果这些细节丢失,那么首先添加实体细节文档使用addEntityDetails函数。

引理

引理的形式。如果这些细节丢失,那么首先添加引理细节文档使用addLemmaDetails函数。

语法的依赖,指定为令牌,这令牌修改的索引。如果这些细节丢失,那么首先添加语法细节的依赖文档使用addDependencyDetails函数。
依赖

语法依赖类型,指定为这些标签之一。

这里列出的依赖类型只是一个子集。依赖类型的完整列表,包括亚型,明白了[1]

  • acl子句的修饰词的名词(修饰名词的条款)

  • advcl——状语从句修饰符

  • advmod——状语

  • amod——形容词的修饰符

  • 奥博金——同位的修饰符

  • 辅助——辅助

  • 情况下——案例标记

  • cc——并列连接词

  • ccomp——条款的补充

  • clf——分类器

  • 复合——复合

  • 连词——结合的

  • 警察——连系动词

  • csubj——子句的主题

  • ——未指明的依赖

  • 依据——决定因素

  • 话语——话语元素

  • 脱臼——混乱元素

  • expl——脏话

  • 固定——固定多字表达

  • ——平面多字表达

  • goeswith——与

  • iobj——间接宾语

  • 列表——列表

  • 马克——标记

  • nmod——名义上的修饰符

  • nsubj——名义上的主题

  • nummod——数字修饰符

  • obj- - - - - -对象

  • 长方形的——斜名义

  • 孤儿——孤儿

  • 并列——并列

  • punct(标点符号

  • reparandum——覆盖不流利

  • ——根

  • 称呼的——呼格

  • xcomp——打开条款的补充

如果这些细节丢失,那么首先添加语法细节的依赖文档使用addDependencyDetails函数。

版本历史

介绍了R2018a

全部展开