addPartOfSpeechDetails
词性标记添加到文档
描述
使用addPartOfSpeechDetails
将词性标记添加到文档。
函数支持英语、日语、德语,万博1manbetx和韩国的文本。
检测词类updatedDocuments
= addPartOfSpeechDetails (文档
)文档
并更新标记的细节。这个函数,默认情况下,retokenizes词性标记的文本。例如,函数将“你”这个词分为令牌“你”和“的”。从词性的细节updatedDocuments
,使用tokenDetails
。
使用一个或多个指定附加选项名称-值对参数。updatedDocuments
= addPartOfSpeechDetails (文档
,名称,值
)
提示
使用addPartOfSpeechDetails
在使用之前较低的
,上
,erasePunctuation
,normalizeWords
,removeWords
,removeStopWords
函数作为addPartOfSpeechDetails
这些函数使用的信息删除。
例子
词性的细节添加到文档
加载示例数据。该文件sonnetsPreprocessed.txt
莎士比亚的十四行诗的包含预处理版本。文件包含每行一个十四行诗,单词之间用一个空格来分隔。提取的文本sonnetsPreprocessed.txt
在换行字符,文本分割成文档,然后标记文件。
文件名=“sonnetsPreprocessed.txt”;str = extractFileText(文件名);textData =分裂(str,换行符);文件= tokenizedDocument (textData);
查看标记的细节前几令牌。
tdetails = tokenDetails(文件);头(tdetails)
ans =8×5表令牌DocumentNumber LineNumber __________和________型语言……* * *“公平”字母在“生物”1 1字母在“欲望”1 1字母在“增长”字母在“从而”1 1字母在“美”字母在“玫瑰”1 1字母在“可能”1字母
词性的细节添加到文档使用addPartOfSpeechDetails
函数。这个函数首先将句子的信息添加到文件,然后添加了词性标记返回的表tokenDetails
。查看更新后的令牌最初几个令牌的详细信息。
= addPartOfSpeechDetails文件(文档);tdetails = tokenDetails(文件);头(tdetails)
ans =8×7表令牌DocumentNumber SentenceNumber LineNumber类型语言PartOfSpeech“公平”是_____________ __________和________ ___________ * * * * * * 1 1 1字母en形容词“生物”1 1 1字母在名词“欲望”1 1 1字母在名词“增长”1 1 1字母en名词“从而”1 1 1字母在副词“美丽”1 1 1字母en名词“玫瑰”1 1 1字母在名词”可能“1 1 1字母en助动词
得到词性日本文本的细节
日本标记文本使用tokenizedDocument
。
str = [“恋に悩み,苦しむ。”“恋の悩みで苦しむ。”“空に星が輝き,瞬いている。”“空の星が輝きを増している。”“駅までは遠くて,歩けない。”“遠くの駅まで歩けない。”“すもももももももものうち。”];文件= tokenizedDocument (str);
对日本文字,你可以使用词性的细节tokenDetails
。对于英语文本,您必须首先使用addPartOfSpeechDetails
。
tdetails = tokenDetails(文件);头(tdetails)
ans =8×8表令牌DocumentNumber LineNumber类型语言PartOfSpeech引理实体除了___ _____ ___________ ________ _______ _________ __________“恋”1 1字母是名词“恋”非“に”1字母ja adpositionに“走眼”悩み“1 1字母是动词“悩む“走眼”、“1 1标点符号是标点符号”、“走眼”苦しむ“1 1字母是动词“苦しむ“走眼”。“1 1标点ja标点走眼。”““恋”2 1字母是名词“恋”非“の”2 1字母ja adpositionの走眼
得到词性德国文本的细节
德国标记文本使用tokenizedDocument
。
str = [“早安。是不是可以es dir ?”“Heute将静脉肠道标签。”];文件= tokenizedDocument (str)
文件= 2 x1 tokenizedDocument: 8令牌:早安。蒙特es dir ?6代币:Heute将静脉肠道标签。
得到德国的词性信息文本,首先使用addPartOfSpeechDetails
。
= addPartOfSpeechDetails文件(文档);
查看词性细节,使用tokenDetails
函数。
tdetails = tokenDetails(文件);头(tdetails)
ans =8×7表令牌DocumentNumber SentenceNumber LineNumber类型语言PartOfSpeech __________……________ ________是_____________ * * * _______”好“1 1 1字母de形容词“摩根”1 1 1字母de名词“。”1 1 1 punctuation de punctuation "Wie" 1 2 1 letters de adverb "geht" 1 2 1 letters de verb "es" 1 2 1 letters de pronoun "dir" 1 2 1 letters de pronoun "?" 1 2 1 punctuation de punctuation
输入参数
文档
- - - - - -输入文档
tokenizedDocument
数组
输入文件,指定为一个tokenizedDocument
数组中。
名称-值参数
指定可选的双参数作为Name1 = Value1,…,以=家
,在那里的名字
参数名称和吗价值
相应的价值。名称-值参数必须出现在其他参数,但对的顺序无关紧要。
R2021a之前,用逗号来分隔每一个名称和值,并附上的名字
在报价。
例子:“DiscardKnownValues”,真的
指定抛弃以前计算的细节和验算。
RetokenizeMethod
- - - - - -方法retokenize文档
“词性”
(默认)|“没有”
方法retokenize文件,指定为以下之一:
“词性”
——变换词性标注的令牌。函数执行这些任务:分离复合字。例如,将复合词
“想”
到令牌“想要”
和”到“
。这包括复合单词包含撇号。例如,函数将这个词“不要”
到令牌“做”
和“不”
。合并时期不结束前标记的句子。例如,合并令牌
“先生”
和“。”
到令牌“先生”
。对德国的文本,合并跨多个令牌的缩写。例如,合并令牌
“z”
,“。”
,“B”
,“。”
到单一的令牌“z。b .”
。合并的时期为椭圆。例如,合并的三个实例
“。”
到单一的令牌“…”
。
“没有”
——不retokenize文档。
缩写
- - - - - -的缩写列表
字符串数组|特征向量|单元阵列的特征向量|表
缩写句子检测列表,指定为一个字符串数组,特征向量,单元阵列的特征向量,或一个表。
如果输入文件不包含句子的细节,然后函数首先运行addSentenceDetails
功能和指定的缩写列表“缩写”
。为句子检测指定更多的选项(例如,句子开始)使用addSentenceDetails
函数使用前addPartOfSpeechDetails
细节。
如果缩写
是一个字符串数组,特征向量,或单元阵列的特征向量,那么函数将这些视为普通的缩写。如果下一个单词大写句子起动器,然后在落后时期函数了。函数忽略了任何缩写的字母大小写的差异。指定句子初学者使用刚开始的时候
名称-值对。
指定不同的行为分割句子缩写时,指定缩写
作为一个表。表必须有变量命名缩写
和使用
,在那里缩写
包含缩写,使用
包含每个缩写的类型。下面的表描述的可能值使用
,函数的行为当通过这些类型的缩写。
使用 | 行为 | 例子缩写 | 示例文本 | 检测到的句子 |
---|---|---|---|---|
常规的 |
如果下一个单词大写句子起动器,然后打破落后时期。否则,不失落后时期。 | “appt。” | ”一位appt书。我们会满足。” |
|
”一位appt书。今天。” |
”一位appt书。今天。” |
|||
内心的 |
不失落后时期。 | “博士” | “史密斯博士”。 |
“史密斯博士”。 |
参考 |
如果下一个记号不是一个数字,然后在一段后打破。如果下一个令牌是一个数字,然后在落后时期不失。 | “图”。 | 见图3。 |
见图3。 |
“试试无花果。他们真好吃。” |
|
|||
单位 |
如果前面的单词是一个数字和下面的单词是一个大写的句子起动器,然后在一段后打破。 | “在。” | “高度为30。宽度是10。” |
|
如果前面的单词是一个数字和下面的字不大写,然后不失落后时期。 | “项目是10。宽。” |
“项目是10。宽。” |
||
如果前面的词不是一个数字,然后在一段后打破。 | “进来。坐下来。” |
|
默认值是输出的缩写
函数。日本和韩国的文本、缩写句子通常不影响检测。
提示
默认情况下,函数对单字母缩写,如“诉”,或tokens with mixed single letters and periods, such as "U.S.A." as regular abbreviations. You do not need to include these abbreviations in缩写
。
数据类型:字符
|字符串
|表
|细胞
DiscardKnownValues
- - - - - -选择丢弃之前计算的细节
假
(默认)|真正的
选择丢弃之前计算的细节和验算,指定为真正的
或假
。
数据类型:逻辑
输出参数
updatedDocuments
——更新文档
tokenizedDocument
数组
更新文件,作为一个返回tokenizedDocument
数组中。获得令牌的细节updatedDocuments
,使用tokenDetails
。
更多关于
词性标记
的addPartOfSpeechDetails
返回的函数将词性标记添加到表tokenDetails
函数。这个函数标记每个令牌和一个分类标签的类名:
“形容词”
——形容词“adposition”
——Adposition“副词”
——副词“助动词”
——助动词“coord-conjunction”
——并列连接词“限定词”
——决定因素“感叹词”
——感叹词“名词”
- - - - - -名词“数字”
——数字“粒子”
——粒子“代词”
——代词“专有名词”
(专有名词“标点符号”
(标点符号“subord-conjunction”
- - - - - -从属conjucntion“象征”
——象征“动词”
——动词“其他”
——其他
算法
如果输入文件不包含句子的细节,然后函数首先运行addSentenceDetails
。
版本历史
Apri esempio
如果dispone di una versione modificata di questo esempio。Desideri aprire questo esempio con le modifiche星期二吗?
第一MATLAB
海脂肪clic苏联合国collegamento切corrisponde questo第一MATLAB:
Esegui il第一inserendolo所以nella隙缝di第一MATLAB。我浏览器web非supportano万博1manbetx comandi MATLAB。
你也可以从下面的列表中选择一个网站:
表现最好的网站怎么走吗
选择中国网站(中文或英文)最佳站点的性能。其他MathWorks国家网站不优化的访问你的位置。