tokenDetails
标记化的文档中标记数组的细节
描述
例子
查看标记文件的详细信息
创建一个标记化的文档数组。
str = […“这是一个示例文档。它有两个句子。”“这文档有一句话和一个表情符号。:)”“这是另一个例子文件。:D”];文件= tokenizedDocument (str);
查看标记的细节前几令牌。
tdetails = tokenDetails(文件);头(tdetails)
令牌DocumentNumber LineNumber类型语言__________ __________ * * * ___________ ________”这种“1 1字母en”是“1 1字母在“一个”1 1字母在“示例”1 1字母在“文档”1 1字母在“。”1 1 punctuation en "It" 1 1 letters en "has" 1 1 letters en
的类型
变量包含每个令牌的类型。查看文档中的表情符号。
idx = tdetails。类型= =“表情符号”;tdetails (idx:)
ans =2×5表令牌DocumentNumber LineNumber类型语言__________ _____ * * *说:“2 1 emoticon en ":D" 3 1 emoticon en
句子的细节添加到文档
创建一个标记化的文档数组。
str = […“这是一个示例文档。它有两个句子。”“这个文档有一句话。”“这是另一个例子文件。它也有两句话。”];文件= tokenizedDocument (str);
句子的细节添加到文档使用addSentenceDetails
。这个函数将这句话号码添加到表返回的tokenDetails
。查看更新后的令牌最初几个令牌的详细信息。
= addSentenceDetails文件(文档);tdetails = tokenDetails(文件);头(tdetails)
令牌DocumentNumber SentenceNumber LineNumber类型语言是_____________ __________ __________ * * * ___________ ________”这种“1 1 1字母en”是“1 1 1字母在“一个”1 1 1字母在“示例”1 1 1字母在“文档”1 1 1字母在“。”1 1 1 punctuation en "It" 1 2 1 letters en "has" 1 2 1 letters en
查看标记第二句第三文档的细节。
idx = tdetails。DocumentNumber== 3 &…tdetails。SentenceNumber = = 2;tdetails (idx:)
ans =6×6表令牌DocumentNumber SentenceNumber LineNumber类型语言是_____________ __________…………* * *说“它”3 2 1字母en”也“3 2 1字母在“”3 2 1字母在“两个”3 2 1字母在“句子”3 2 1字母在“。”3 2 1 punctuation en
词性的细节添加到文档
加载示例数据。该文件sonnetsPreprocessed.txt
莎士比亚的十四行诗的包含预处理版本。文件包含每行一个十四行诗,单词之间用一个空格来分隔。提取的文本sonnetsPreprocessed.txt
在换行字符,文本分割成文档,然后标记文件。
文件名=“sonnetsPreprocessed.txt”;str = extractFileText(文件名);textData =分裂(str,换行符);文件= tokenizedDocument (textData);
查看标记的细节前几令牌。
tdetails = tokenDetails(文件);头(tdetails)
令牌DocumentNumber LineNumber __________和________型语言……* * *“公平”字母在“生物”1 1字母在“欲望”1 1字母在“增长”字母在“从而”1 1字母在“美”字母在“玫瑰”1 1字母在“可能”1字母
词性的细节添加到文档使用addPartOfSpeechDetails
函数。这个函数首先将句子的信息添加到文件,然后添加了词性标记返回的表tokenDetails
。查看更新后的令牌最初几个令牌的详细信息。
= addPartOfSpeechDetails文件(文档);tdetails = tokenDetails(文件);头(tdetails)
令牌DocumentNumber SentenceNumber LineNumber类型语言PartOfSpeech“公平”是_____________ __________和________ ___________ * * * * * * 1 1 1字母en形容词“生物”1 1 1字母在名词“欲望”1 1 1字母在名词“增长”1 1 1字母en名词“从而”1 1 1字母在副词“美丽”1 1 1字母en名词“玫瑰”1 1 1字母在名词”可能“1 1 1字母en助动词
输入参数
文档
- - - - - -输入文档
tokenizedDocument
数组
输入文件,指定为一个tokenizedDocument
数组中。
输出参数
tdetails
——令牌表细节
表
令牌表细节。tdetails
有以下变量:
的名字 | 描述 |
---|---|
令牌 |
标记文本,作为字符串返回标量。 |
DocumentNumber |
令牌属于索引的文档,作为一个正整数返回。 |
SentenceNumber |
句子的令牌数量文件,作为一个正整数返回。如果这些细节丢失,那么首先添加句子细节文档 使用addSentenceDetails 函数。 |
LineNumber |
行号标记的文档,作为一个正整数返回。 |
类型 |
令牌的类型,作为其中一个返回类型:
如果这些细节丢失,那么首先添加类型的细节 |
语言 |
语言的令牌,作为这些语言之一:返回
这些语言细节决定的行为 如果这些细节丢失,那么首先添加语言细节 关于语言支持的更多信息以文本分析工具箱™,明白了万博1manbetx语言的注意事项。 |
PartOfSpeech |
词性标记,作为其中一个返回标签:
如果这些细节丢失,那么第一个词性细节添加到 |
实体 |
指定实体标签,这些标签之一:
如果这些细节丢失,那么首先添加实体细节 |
引理 |
引理的形式。如果这些细节丢失,那么首先添加引理细节 |
头 |
语法的依赖,指定为令牌,这令牌修改的索引。如果这些细节丢失,那么首先添加语法细节的依赖文档 使用addDependencyDetails 函数。 |
依赖 |
语法依赖类型,指定为这些标签之一。 这里列出的依赖类型只是一个子集。依赖类型的完整列表,包括亚型,明白了[1]。
如果这些细节丢失,那么首先添加语法细节的依赖 |
引用
版本历史
介绍了R2018aR2018b:tokenDetails
返回令牌类型emoji
emoji字符
从R2018b开始,tokenizedDocument
检测和emoji字符tokenDetails
这些令牌型函数报告“emoji”
。这使得它更容易分析文本包含emoji字符。
在R2018a,tokenDetails
报告emoji字符型“其他”
。找到令牌型的指标“emoji”
或“其他”
,使用指数idx = tdetails。类型= =“emoji”|tdetails。类型= =“其他”
,在那里tdetails
是一个令牌表细节。
MATLAB命令
你点击一个链接对应MATLAB命令:
运行该命令通过输入MATLAB命令窗口。Web浏览器不支持MATLAB命令。万博1manbetx
你也可以从下面的列表中选择一个网站:
表现最好的网站怎么走吗
选择中国网站(中文或英文)最佳站点的性能。其他MathWorks国家网站不优化的访问你的位置。