addPartOfSpeechDetails
向文档添加词性标记
描述
使用addPartOfSpeechDetails
向文档添加词性标记。
支持英文、日文、德文、韩文万博1manbetx文本。
中检测词性updatedDocuments
= addPartOfSpeechDetails (文档
)文档
并更新令牌详细信息。默认情况下,该函数为词性标记重标记文本。例如,该函数将单词“you’re”分成标记“you”和“’re”。来获取词性细节updatedDocuments
,使用tokenDetails
.
使用一个或多个名称-值对参数指定其他选项。updatedDocuments
= addPartOfSpeechDetails (文档
,名称,值
)
提示
使用addPartOfSpeechDetails
在使用之前较低的
,上
,erasePunctuation
,normalizeWords
,removeWords
,removeStopWords
函数作为addPartOfSpeechDetails
使用被这些函数删除的信息。
例子
为文档添加词性细节
加载示例数据。该文件sonnetsPreprocessed.txt
包含莎士比亚十四行诗的预处理版本。该文件每行包含一首十四行诗,词之间用空格隔开。从中提取文本sonnetsPreprocessed.txt
,以换行符将文本拆分为文档,然后对文档进行标记。
文件名=“sonnetsPreprocessed.txt”;str = extractFileText(文件名);textData =分裂(str,换行符);文件= tokenizedDocument (textData);
查看前几个令牌的令牌详细信息。
tdetails = tokenDetails(文件);头(tdetails)
Token DocumentNumber LineNumber Type Language ___________ ______________ __________ _______ ________ "fairest" 1 1个字母en "creatures" 1 1个字母en "desire" 1 1个字母en "increase" 1 1个字母en " therefore " 1 1个字母en " beauys " 1 1个字母en "rose" 1 1个字母en "might" 1 1个字母en " en "
方法向文档添加词性细节addPartOfSpeechDetails
函数。该函数首先向文档添加句子信息,然后向返回的表添加词性标记tokenDetails
.查看前几个令牌的更新令牌详细信息。
= addPartOfSpeechDetails文件(文档);tdetails = tokenDetails(文件);头(tdetails)
Token DocumentNumber SentenceNumber LineNumber Type Language PartOfSpeech ___________ ______________ ______________ __________ _______ ________ ______________ "fairest" 1 1 1个字母en形容词"creatures" 1 1 1个字母en名词"desire" 1 1 1个字母en名词"increase" 1 1 1个字母en名词"因此" 1 1 1个字母en副词" beauys " 1 1 1个字母en名词"rose" 1 1 1个字母en名词"might" 1 1 1个字母en助动词
获取日语文本的词性细节
将日语文本的符号化tokenizedDocument
.
str = [“恋に悩み,苦しむ。”“恋の悩みで苦しむ。”“空に星が輝き,瞬いている。”“空の星が輝きを増している。”“駅までは遠くて,歩けない。”“遠くの駅まで歩けない。”“すもももももももものう。”];文件= tokenizedDocument (str);
对于日文文本,您可以使用tokenDetails
.对于英文文本,必须首先使用addPartOfSpeechDetails
.
tdetails = tokenDetails(文件);头(tdetails)
令牌DocumentNumber LineNumber PartOfSpeech引理实体类型语言 _______ ______________ __________ ___________ ________ ____________ _______ __________ " 恋“1 1字母是名词“恋“走眼”に“1 1”字母ja adpositionに“走眼”悩み“1 1字母是动词“悩む“走眼”、“1 1标点ja标点符号”、“走眼”苦しむ“1 1字母是动词“苦しむ“走眼”。“1 1 punctuation ja punctuation”。“非实体”恋2 1个字母名词“恋”非实体“の”2 1个字母adposition“の”非实体
获取德语文本的词性细节
用标记化德语文本tokenizedDocument
.
str = [“早安。我得到了什么?”“Heute wird ein guter Tag。”];文件= tokenizedDocument (str)
documents = 2x1 tokenizedDocument: 8 token: Guten Morgen。我得到了dir ?6代币:Heute weird ein guter Tag。
要获得德语文本的词性细节,首先使用addPartOfSpeechDetails
.
= addPartOfSpeechDetails文件(文档);
要查看词性细节,请使用tokenDetails
函数。
tdetails = tokenDetails(文件);头(tdetails)
令牌DocumentNumber SentenceNumber LineNumber PartOfSpeech类型语言 ________ ______________ ______________ __________ ___________ ________ ____________ " 好“1 1 1字母de形容词“摩根”de名词1 1 1字母“”。1 1 1标点符号“Wie”1 2 1个字母副词“get”1 2 1个字母动词“es”1 2 1个字母代词“dir”1 2 1个字母代词“?”1 2 1标点de标点
输入参数
文档
- - - - - -输入文档
tokenizedDocument
数组
输入文档,指定为tokenizedDocument
数组中。
名称-值参数
指定可选参数对为Name1 = Value1,…,以=家
,在那里的名字
参数名称和价值
对应的值。名-值参数必须出现在其他参数之后,但对的顺序并不重要。
在R2021a之前,名称和值之间用逗号隔开,并括起来的名字
在报价。
例子:“DiscardKnownValues”,真的
指定丢弃以前计算的详细信息并重新计算它们。
RetokenizeMethod
- - - - - -方法重标记文档
“词性”
(默认)|“没有”
方法重标记文档,指定为以下之一:
“词性”
-转换词性标记的标记。函数执行以下任务:分离复合字。例如,拆分复合词
“想”
到令牌“想要”
和”到“
.这包括包含撇号的复合词。例如,该函数拆分单词“不要”
到令牌“做”
和“不”
.合并不以前面的标记结束句子的句点。例如,合并令牌
“先生”
和“。”
到令牌“先生”
.对于德语文本,合并跨越多个标记的缩写。例如,合并令牌
“z”
,“。”
,“B”
,“。”
到单个令牌中“z。b .”
.将周期合并为椭圆。例如,合并三个实例
“。”
到单个令牌中“…”
.
“没有”
-不要重新标记文档。
缩写
- - - - - -的缩写列表
字符串数组|特征向量|字符向量的单元格数组|表格
用于句子检测的缩写列表,指定为字符串数组、字符向量、字符向量的单元格数组或表格。
如果输入文档不包含句子细节,则该函数首先运行addSentenceDetails
函数并指定给出的缩写列表“缩写”
.为句子检测指定更多选项(例如,句子启动器),请使用addSentenceDetails
函数使用前addPartOfSpeechDetails
细节。
如果缩写
是字符串数组、字符向量或字符向量的单元格数组,则函数将它们视为正则缩写。如果下一个单词是一个大写的句子开头,那么函数在结尾句号处中断。该函数忽略缩写字母大小写的任何差异。方法指定句子开头开胃菜
名称-值对。
要指定在缩略语分离句子时的不同行为,请指定缩写
作为一个表。表必须有命名的变量缩写
和使用
,在那里缩写
包含缩写和使用
包含每个缩写的类型。的可能值如下表所示使用
,以及传递这些类型的缩写时函数的行为。
使用 | 行为 | 例子缩写 | 示例文本 | 检测到的句子 |
---|---|---|---|---|
常规的 |
如果下一个单词是一个大写的句子开头,那么在结尾部分中断。否则,不要在尾期中断。 | “appt。” | ”一位appt书。我们会满足。” |
|
”一位appt书。今天。” |
”一位appt书。今天。” |
|||
内心的 |
在跟踪期后不要中断。 | “博士” | “史密斯博士”。 |
“史密斯博士”。 |
参考 |
如果下一个令牌不是一个数字,则在尾随句号处中断。如果下一个令牌是一个数字,那么不要在末尾中断。 | “图”。 | 见图3。 |
见图3。 |
“尝尝无花果吧,它们很好吃。” |
|
|||
单位 |
如果前面的单词是一个数字,下面的单词是一个大写的句子开头,那么在结尾时中断。 | “在。” | “高度是30英寸。宽度是10英寸。” |
|
如果前面的单词是一个数字,而后面的单词没有大写,那么不要在末尾停顿。 | “这个项目是10英寸。宽。” |
“这个项目是10英寸。宽。” |
||
如果前面的单词不是数字,则在后面的句号处中断。 | “进来。坐下来。” |
|
的输出缩写
函数。对于日语和韩语文本,缩略语通常不会影响句子检测。
提示
默认情况下,该函数将单个字母缩写,如“v”,或将单个字母和句点混合的标记,如“U.S.A.”视为常规缩写。你不需要包括这些缩写缩写
.
数据类型:字符
|字符串
|表格
|细胞
DiscardKnownValues
- - - - - -选项放弃以前计算的详细信息
假
(默认)|真正的
选项丢弃以前计算的详细信息并重新计算它们,指定为真正的
或假
.
数据类型:逻辑
输出参数
updatedDocuments
——更新文档
tokenizedDocument
数组
更新的文件,作为一个返回tokenizedDocument
数组中。获取令牌详细信息updatedDocuments
,使用tokenDetails
.
更多关于
词性标记
的addPartOfSpeechDetails
方法返回的表中添加词性标记tokenDetails
函数。函数用类别标记标记每个标记,类别标记具有以下类名之一:
形容词
——形容词adposition
——Adposition副词
——副词助动词
——助动词coord-conjunction
——并列连接词决定因素
——决定因素感叹词
——感叹词名词
- - - - - -名词数字
——数字粒子
——粒子代词
——代词专有名词
(专有名词标点符号
(标点符号subord-conjunction
- - - - - -从属conjucntion象征
——象征动词
——动词其他
——其他
算法
如果输入文档不包含句子细节,则该函数首先运行addSentenceDetails
.
版本历史
介绍了R2018b
Matlabコマンド
次のmatlabコマンドに対応するリンクがクリックされました。
コマンドをmatlabコマンドウィンドウに入力して実行してください。WebブラウザはMATLABコマンドをサポトしていません。
您也可以从以下列表中选择网站:
如何获得最佳的网站性能
选择中国网站(中文或英文)以获得最佳的网站表现。其他MathWorks国家网站没有针对从您的位置访问进行优化。