文本分析的授权文档数组
授权文档是表示作为单词集合的文件(也称为令牌)用于文本分析。
使用令牌化的文件:
检测文本中的复杂符号,如网址、表情符号、表情符号和标签。
删除词语,如停止词语使用删除
或Removestopwords.
功能。
执行字级的预处理任务,如词干提取或词源化normalizeWords
功能。
使用分析词和n-gram中的频率bagOfWords
和bagOfNgrams
对象。
使用句子和言语部分的句子AddsentEnCentails.
和addPartOfSpeechDetails
功能。
使用使用该实体标记addEntityDetails
功能。
使用使用的令牌的详细信息tokenDetails
功能。
该功能支持英语,日语,德语万博1manbetx和韩文文本。学习如何使用tokenizedDocument
对于其他语言,请参阅语言考虑因素.
str
-输入文本输入文本,指定为字符串数组、字符向量、字符向量的单元格数组或字符串数组的单元格数组。
如果输入文本尚未分成单词,那么str
必须是字符串数组,字符向量,字符向量的单元格数组,或字符串标量的单元格数组。
例子:[“短文档的示例”,“第二短文件”]
例子:“单个文档的示例”
例子:{'一个简短文件'的一个例子;'第二个简短文件'}
如果输入文本已被分成单词,则指定'tokenizemethod'
成为'没有任何'
.如果str
包含单个文档,然后它必须是字符串矢量的字符串矢量,字符向量的行小区阵列,或包含单个字符串矢量的单个字符串矢量的小区数组。如果str
包含多个文档,那么它必须是字符串数组的单元格数组。
例子:[“一个”“示例”“文件”]
例子:{'AN','example','document'}
例子:{[“一个”““的”,“一个”,“短”,“文件的例子”,”]}
例子:{[“”A“”短“”文档“的”示例“”]; [“第二”“第二”“短”文档“]}
数据类型:细绳
|char
|细胞
指定可选的逗号分离对名称,价值
论点。名称
是参数名称和价值
为对应值。名称
必须出现在引号内。您可以以任何顺序指定多个名称和值对参数name1,value1,...,namen,valuen
.
'detectpatterns',{'电子邮件地址','web-address'}
检测电子邮件地址和网址
'tokenizemethod'
-方法来标记文档unicode的
|'麦布'
|mecabOptions
目的|'没有任何'
授权文档的方法,指定为逗号分隔的配对'tokenizemethod'
和以下之一:
unicode的
- 使用规则令牌化输入文本基于Unicode的®标准附件#29[1]还有重症监护室的标记器[2].如果str
是单元格数组,那么其中的元素呢str
必须是字符串标量或字符向量。如果“语言”
是'en'
或“德”
, 然后unicode的
是默认值。
'麦布'
- 使用MECAB标记器授予日语和韩文文本[3].如果“语言”
是'JA'
或'ko'
, 然后'麦布'
是默认值。
mecabOptions
对象 - 使用由A指定的MECAB选项标记日语和韩文文本mecabOptions
对象。
'没有任何'
- 请勿授予输入文本。
如果输入文本已被分成单词,则指定'tokenizemethod'
成为'没有任何'
.如果str
包含单个文档,然后它必须是字符串矢量的字符串矢量,字符向量的行小区阵列,或包含单个字符串矢量的单个字符串矢量的小区数组。如果str
包含多个文档,那么它必须是字符串数组的单元格数组。
'侦查'
-复杂令牌的模式检测'全部'
(默认)|字符向量|字符串数组|字符向量的单元格阵列要检测的复杂标记的模式,指定为由逗号分隔的对组成'侦查'
和'没有任何'
那'全部'
或包含以下一个或多个的字符串或单元格数组。
'电子邮件地址'
- 检测电子邮件地址。例如,治疗“user@domain.com”
作为一个令牌。
“网址”
- 检测网站地址。例如,治疗“//www.tianjin-qmedu.com”
作为一个令牌。
'井号'
- 检测井号标签。例如,治疗“#matlab”
作为一个令牌。
“提升”
- 检测到提升。例如,治疗“@mathworks”
作为一个令牌。
“表情”
- 检测表情。例如,治疗“:-d”
作为一个令牌。
如果DetectPatterns
是'没有任何'
,然后该功能不会检测到任何复杂的令牌模式。如果DetectPatterns
是'全部'
,然后该函数检测所有列出的复杂令牌模式。
例子:“DetectPatterns”、“标签”
例子:'detectpatterns',{'电子邮件地址','web-address'}
数据类型:char
|细绳
|细胞
'CustomTokens'
-自定义令牌检测''
(默认)|字符串数组|字符向量|字符向量的单元格阵列|桌子定制令牌检测,指定为逗号分隔对组成'CustomTokens'
以及以下之一。
一个字符串数组,字符向量,或包含自定义标记字符向量的单元阵列。
包含列中的列中的自定义令牌的表令牌
和相应的令牌类型命名列类型
.
如果指定的自定义标记作为一个字符串数组,字符向量,或字符向量的单元阵列,则该函数分配令牌类型“风俗”
.要指定自定义令牌类型,请使用表输入。要查看令牌类型,请使用tokenDetails
功能。
例子:'CustomTokens',[ “C ++” “C#”]
数据类型:char
|细绳
|桌子
|细胞
'常用表达'
-正则表达式来检测''
(默认)|字符串数组|字符向量|字符向量的单元格阵列|桌子定期检测,指定为逗号分隔的对'常用表达'
以及以下之一。
包含正则表达式的字符数阵列,字符向量或字符向量的单元格数组。
包含正则表达式的表命名列图案
和命名列中的相应令牌类型类型
.
如果将正则表达式指定为字符串阵列,字符向量或字符向量的单元格数组,则该函数分配令牌类型“风俗”
.要指定自定义令牌类型,请使用表输入。要查看令牌类型,请使用tokenDetails
功能。
例子:'scalearexpressions',[“ver:\ d +”“rev:\ d +”]
数据类型:char
|细绳
|桌子
|细胞
'TopLevelDomains'
-用于Web地址检测的顶级域用于Web地址检测的顶级域,指定为逗号分隔对'TopLevelDomains'
和字符向量,字符串数组,或字符向量的单元阵列。默认情况下,该功能使用的输出人持人群
.
此选项仅适用,如果'侦查'
是'全部'
或者包含“网址”
.
例子:'topleveldomains',[“com”“net”“org”]
数据类型:char
|细绳
|细胞
“语言”
-语'en'
|'JA'
|“德”
|'ko'
语言,指定为逗号分隔的配对“语言”
以及以下之一。
'en'
- 英语。此选项还设置了默认值'tokenizemethod'
到unicode的
.
'JA'
- 日本人。此选项还设置了默认值'tokenizemethod'
到'麦布'
.
“德”
- 德语。此选项还设置了默认值'tokenizemethod'
到unicode的
.
'ko'
- 韩国人。此选项还设置了默认值'tokenizemethod'
到'麦布'
.
如果未指定值,则该函数使用输入文本检测语言小毒素语言
功能。
此选项指定标记的语言细节。要查看标记的语言细节,请使用tokenDetails
.这些语言详细信息决定了行为Removestopwords.
那addPartOfSpeechDetails
那normalizeWords
那AddsentEnCentails.
, 和addEntityDetails
令牌上的功能。
有关“文本分析工具箱™”中语言支持的更多信息,请参见万博1manbetx语言考虑因素.
例子:'语言', 'JA'
词汇
-文档中的独特单词文档中的唯一单词,指定为字符串数组。单词不会出现在任何特定的顺序中。
数据类型:细绳
侵蚀 |
从文本和文档中擦除标点符号 |
Removestopwords. |
从文档中删除停止单词 |
删除 |
从文档或单词袋式模型中删除所选单词 |
normalizeWords |
茎或鼠里言语 |
矫正力 |
正确拼写单词 |
replaceWords |
替换文档中的单词 |
更换铭文 |
在文档中替换n-gram |
删除程序 |
从令牌化文档阵列中删除空文档,文字袋模型或N-r克模型 |
降低 |
将文档转换为小写 |
上 |
将文档转换为大写 |
tokenDetails |
令牌化文档阵列中的令牌细节 |
AddsentEnCentails. |
在文档中添加句子编号 |
addPartOfSpeechDetails |
向文档添加语音部分标签 |
addlangugseTails. |
为文档添加语言标识符 |
addtypedetails. |
向文档添加令牌类型细节 |
addlemmadetails. |
将Lemma形式的令牌形式添加到文件中 |
addEntityDetails |
将实体标记添加到文档 |
WriteTextDocument. |
将文档写入文本文件 |
Doclencth. |
文档阵列中的文档长度 |
语境 |
在上下文中搜索单词或n-gram出现的文档 |
ingwords. |
由连词文档转换为字符串 |
doc2cell |
将文档转换为字符串向量的单元格数组 |
细绳 |
将标量文档转换为字符串向量 |
加 |
追加文件 |
代替 |
在文档中替换子字符串 |
多犯 |
将功能应用于文档中的文字 |
regexprep. |
使用正则表达式替换文档的文字文本 |
WordCloud. |
从文本,文字袋模型,n-grams模型或LDA模型创建单词云图 |
从字符串数组创建标记化文档。
str = [“一句话的一个例子”“第二句话”]
str =2×1线“一句话”“第二句话”
文档= tokenizeddocument(str)
documents = 2x1 tokenizedDocument: 6个token:一个短句的例子4个token:第二个短句
从字符串创建标记化文档str
.默认情况下,该函数处理标签“#matlab”
,图释“:-d”
,以及网址“//www.tianjin-qmedu.com/help”
作为单一代币。
str =“学习如何分析#MATLAB的文字!:-D看到//www.tianjin-qmedu.com/help/”;文档= tokenizedDocument(STR)
Document = tokenizeddocument:11令牌:了解如何分析#matlab的文本!: - 请参阅//www.tianjin-qmedu.com/help/
要检测到复杂令牌的HashTags,请指定'侦查'
选项是'井号'
只要。然后授权表情符号“:-d”
和网址“//www.tianjin-qmedu.com/help”
成多个记号。
文档= tokenizedDocument (str,'侦查'那'井号')
Document = tokenizeddocument:24令牌:学习如何在#matlab中分析文本!: - D见HTTPS:/ / / www。MathWorks。COM /帮助/
从使用的文档数组中删除停止词Removestopwords.
.这tokenizedDocument
功能检测到文档是英语,所以Removestopwords.
删除英语停顿词。
文件= tokenizedDocument ([“一句话的一个例子”“第二句话”]);newDocuments = removeStopWords(文档)
newDocuments = 2×1 tokenizedDocument:3个标记:例如短句子3个标记:第二短句
使用porter stemmer栓文档阵列中的单词。
文件= tokenizedDocument ([“一份措辞强烈的词集”“另一个词集”]);newDocuments = normalizeWords(文档)
newdocuments = 2x1 tokenizeddocument:6个令牌:一个strongli字收集字4令牌:Anoth收集单词
这tokenizedDocument
函数在默认情况下拆分包含符号的单词和标记。例如,该函数将“c++”和“c#”拆分为多个标记。
str =“我在MATLAB,C ++和C#方面很有经验。”;文档= tokenizeddocument(str)
我精通MATLAB, c++和c#。
为防止含有符号拆分令牌功能,使用指定自定义标记'CustomTokens'
选项。
文档=令人畏缩的document(str,'CustomTokens',[“C ++”“C#”])
我精通MATLAB, c++和c#。
自定义令牌有令牌类型“风俗”
.查看令牌详细信息。列类型
包含令牌类型。
tdetails = tokenDetails(文档)
Tdetails =11×5表令牌DocumentNumber LineNumber上类型语言_____________ ______________ __________ ___________ ________ “我” 1个+ 1字母带 “上午”, “中” 1个+ 1字母1个个字母EN “经历了” 1个+ 1字母嗯嗯 “MATLAB” 1个+ 1个字母恩 “” 1 + 1标点符号en“c ++”1 1自定义en“,”1 1标点符号en“和”1 1字母en“c#”1 1自定义en“。”1 1标点符号
要指定自己的令牌类型,请将自定义令牌作为表格命名的列中的令牌输入令牌
,列中的列中的类型类型
.若要将自定义类型分配给不包含符号的令牌,请在表中也包含该令牌。例如,创建一个表,将“MATLAB”、“c++”和“c#”分配给“编程语言”
令牌类型。
t =表;t.Token = [“matlab”“C ++”“C#”]'t.type = [“编程语言”“编程语言”“编程语言”]'
t =3×2表令牌类型________ ______________________“MATLAB”,“程序设计语言”,“C ++”,“程序设计语言”,“C#”,“程序设计语言”
令牌化使用自定义标记的表中的文本,并查看令牌的详细信息。
文档=令人畏缩的document(str,'CustomTokens',t);tdetails = tokenDetails(文档)
Tdetails =11×5表令牌DocumentNumber LineNumber上类型语言_____________ ______________ __________ ____________________ ________ “我” 1个+ 1字母带 “上午”, “中” 1个+ 1字母1个个字母EN “经历了” 1个+ 1字母嗯嗯 “MATLAB” 1 + 1的编程语言EN “”1 1标点符号en“C ++”1 1编程语言en“,”1 1标点符号en“和”1 1字母EN“C#”1 1编程语言en“。”1 1标点符号
这tokenizedDocument
功能,默认情况下,分割的单词和含符号标记。举例来说,功能拆分文本版本:2”
成多个记号。
str =“升级到版本:2启:3”;文档= tokenizeddocument(str)
文档= tokenizeddocument:9令牌:升级到Ver:2 Rev:3。
为了防止具有特定模式的拆分令牌的函数,请使用以下方法指定这些模式'常用表达'
选项。
指定正则表达式以检测表示版本和修订版号的令牌:显示后的数字字符串“ver:”
和“rev:”
分别。
文档=令人畏缩的document(str,'常用表达',[“版本:\ d +”“rev:\ d +”])
文档= tokenizedDocument:5个令牌:已升级到版本:2启:3。
默认情况下,自定义令牌有令牌类型“风俗”
.查看令牌详细信息。列类型
包含令牌类型。
tdetails = tokenDetails(文档)
Tdetails =5×5表令牌DocumentNumber LineNumber上类型语言__________ ______________ __________ ___________ ________ “升级” 1个+ 1字母恩 “以” 1个+ 1带字母 “VER:2” 1个+ 1自定义连接 “REV:3” “” 11个自定义连接1 1标点符号
要指定自己的令牌类型,请将正则表达式作为表输入,其中包含名为的列中的正则表达式图案
和命名列中的令牌类型类型
.
t =表;t.pattern = [“版本:\ d +”“rev:\ d +”]'t.type = [“版本”“修订”]'
t =2×2表阵列类型_________ __________ “版本:\ d +”, “版本”, “转:\ d +” “修订版”
令牌化使用自定义标记的表中的文本,并查看令牌的详细信息。
文档=令人畏缩的document(str,'常用表达',t);tdetails = tokenDetails(文档)
Tdetails =5×5表令牌DocumentNumber Limenumber类型语言__________ ______________________________________________________________________________________1 1标点符号
加载示例数据。文件sonnetsPreprocessed.txt
包含Precrocessed版本的莎士比亚的十四行诗。该文件每行包含一个十四行诗,单词由空格分隔。从中提取文本sonnetsPreprocessed.txt
,将文本以换行符分割为文档,然后标记文档。
filename =.“sonnetspreprocessed.txt”;str = extractFileText(文件名);textData =分裂(str,换行符);文件= tokenizedDocument (textData);
搜索词“生命”。
tbl =上下文(文档,“生命”);头(TBL)
ans =.8×3表上下文文档词 ________________________________________________________ ________ ____ " consumst你自己单身生活啊你徒劳的“9 10”不是假冒行生活生活修复乘以铅笔“16 35 d假冒行生活生活修复次铅笔基金会的“16 36”天知道墓藏生活展示半部分编写“17 14”他眼睛长久的生命给你生命温柔的大使馆爱你生命四两独沉你的美虽有情人生命美将黑线剪掉活第二生命第二头在美之前
查看字符串数组中的出现。
tbl.context.
ans =.23x1串“consumst你自己单身生活啊你徒劳的”“不是假冒行生活生活修复次铅笔”“d假冒行生活生活修复次铅笔基金会”“天知道墓藏生活展示半部分编写b”“他眼睛长给生活你”“温柔的大使馆爱你生活四个二沉”“大美虽然爱好者生命美必黑线”“年代剪掉第二生活第二头之前美”“e排练让爱甚至生命衰变以免智慧世界lo”“圣保释应带走生命所行利益memor”“艺术你失去了渣滓生活猎物蠕虫身体死牛”“思想食品生活sweetseasond淋浴gro”“tten名字因此不朽的生命一旦走了w”“美沉默别人给的生活带来生活fa " ve生活带来墓墓生活生活公平眼睛诗人赞美d”“偷走自己的定期寿险你放心我的李”“菲你是向我的生活不再你的爱留在dep”“害怕坏的错误至少生活有更好的状态是“anst烦恼变化无常的心灵、生活你反抗谎言啊ha" " fame faster time wastes life thou preventst scythe cr" "ess harmful deeds better life provide public means pub" "ate hate away threw savd life saying " " many nymphs vowd chaste life keep came tripping maide"
使用令牌化的日本文字tokenizedDocument
.该功能可以自动检测日语文本。
str = [“恋に悩み,苦しむ。”“恋の悩みで苦しむ。”“空に星が輝き,瞬いている。”“空の星が辉きを増している。”];文档= tokenizeddocument(str)
文档= 4x1令牌地区:6个代币:恋に悩み,苦しむ。6令牌:恋の悩みで苦しむ。10令牌:空に星が辉き,瞬いている。10令牌:空の星が辉きをてているいる。
使用授权德语文本tokenizedDocument
.该功能可以自动检测德语文本。
str = [“Guten Morgen。Wie Geht es dir?”“HEUTE wird EIN GUTER标签。”];文档= tokenizeddocument(str)
文档= 2x1令牌地区:8令牌:Guten Morgen。魏某geht ES目录 ?6个令牌:Heute Wird Ein Guter标签。
这tokenizedDocument
函数具有内置规则,仅适用于英语、日语、德语和韩语。对于英语和德语文本,是unicode的
令牌化方法tokenizedDocument
使用基于Unicode标准附件#29使用规则来检测令牌[1]还有重症监护室的标记器[2],修改以更好地检测诸如HASHTAG和URL等复杂令牌。日语和韩文文本,'麦布'
令牌化方法使用基于MECAB令终止器的规则来检测令牌[3].
对于其他语言,您仍然可以尝试使用tokenizedDocument
.如果tokenizedDocument
不产生有用的结果,然后尝试手动授权文本。创建一个tokenizedDocument
从手动授予文本中的数组,设置'tokenizemethod'
选择'没有任何'
.
有关更多信息,请参阅语言考虑因素.
tokenizedDocument
检测韩语R2019B的行为更改
从R2019B开始,tokenizedDocument
检测韩语并设置“语言”
选择'ko'
.属性的默认行为AddsentEnCentails.
那addPartOfSpeechDetails
那Removestopwords.
, 和normalizeWords
功能朝鲜文件输入。这种变化使得软件可以使用特定的韩国规则和词汇表进行分析。如果tokenizedDocument
错误地检测文本作为韩语,然后您可以通过设置手动指定语言“语言”
名称值对tokenizedDocument
.
在以前的版本中,tokenizedDocument
通常检测的韩国文字英语和套“语言”
选择'en'
.要重现此行为,请手动设置“语言”
名称值对tokenizedDocument
到'en'
.
tokenizedDocument
检测表情R2018B的行为更改
从R2018B开始,tokenizedDocument
,默认情况下,检测表情符号令牌。此行为使得更容易分析包含表情符号的文本。
在R2017B和R2018A中,tokenizedDocument
将表情符号分成多个令牌。重现这种行为,在tokenizedDocument
,指定'侦查'
选项是{'电子邮件地址','web-address','hashtag','提示'}
.
tokenDetails
返回令牌类型表情符号
emoji字符R2018B的行为更改
从R2018B开始,tokenizedDocument
检测表情符号字符和tokenDetails
函数用类型报告这些令牌“emoji”
.这使得分析包含表情符号的文本变得更容易。
在R2018a,tokenDetails
使用类型报告Emoji字符“其他”
.使用类型查找令牌的指数“emoji”
或“其他”
,使用索引IDX = tdetails.Type == “表情符号” |tdetails.Type == “其他”
, 在哪里Tdetails.
是令牌细节表。
tokenizedDocument
在数字之间不拆分和冒号字符R2018B的行为更改
从R2018B开始,tokenizedDocument
当它们出现在两位数之间时,不会在斜杠,反斜杠或结肠字符上拆分。在授权包含日期和时间的文本时,此行为会产生更好的结果。
在以前的版本中,tokenizedDocument
在分割这些字符。若要重现行为,手动标记化的文本或插入空白使用前斜线左右,反斜杠和冒号字符tokenizedDocument
.
[1]Unicode文本分段.https://www.unicode.org/reports/tr29/
[3]Mecab:又是言语和形态分析仪.https://taku910.github.io/mecab/
addEntityDetails
|addPartOfSpeechDetails
|AddsentEnCentails.
|bagOfNgrams
|bagOfWords
|语境
|ingwords.
|normalizeWords
|删除程序
|Removestopwords.
|删除
|更换铭文
|replaceWords
|tokenDetails
您单击了与此MATLAB命令对应的链接:
在MATLAB命令窗口中输入它来运行命令。Web浏览器不支持MATLAB命令。万博1manbetx
您还可以从以下列表中选择一个网站:
选择中国网站(以中文或英文)以获取最佳网站性能。其他MathWorks国家网站未优化您的位置。