主要内容

erasePunctuation

从文本和文档删除标点符号

描述

例子

newStr= erasePunctuation (str)擦除标点符号和符号的元素str。该函数删除字符属于Unicode标点符号或符号类。

例子

newDocuments= erasePunctuation (文档)擦除标点和符号文档。如果一个单词是空的之后删除标点和符号字符,然后删除它的函数。标记文档输入、擦除标点符号从令牌类型的函数“标点符号”“其他”。例如,函数不擦掉标点和符号字符从网址和电子邮件地址。

例子

newDocuments= erasePunctuation (文档“TokenTypes”,类型)擦除标点和符号只有指定的令牌类型。

例子

全部折叠

擦除的标点符号文本str

str =“这是一个和/或两个。”;newStr = erasePunctuation (str)
newStr = " 1和或2”

插入的地方“/”符号是,首先使用取代函数。

newStr =取代(str,“/”,”“)
newStr = "是一个或两个。”
newStr = erasePunctuation (newStr)
newStr = "其一个或两个”

删除数组的标点符号文件。

文件= tokenizedDocument ([“一个短句的例子。”“另一个例子…URL: //www.tianjin-qmedu.com”])
文件= 2 x1 tokenizedDocument: 7标记:一个简短的句子。10令牌:另外一个例子。与一个URL: //www.tianjin-qmedu.com
newDocuments = erasePunctuation(文档)
newDocuments = 2 x1 tokenizedDocument: 6个标记:一个短句的例子6令牌:URL //www.tianjin-qmedu.com的另一个例子

这里,这个函数不擦掉URL的标点符号。

输入参数

全部折叠

输入文本,指定为字符串数组,特征向量,或单元阵列特征向量。

例子:["的一个例子短句。”;“第二个短句。”)

数据类型:字符串|字符|细胞

输入文件,指定为一个tokenizedDocument数组中。

令牌类型擦除标点,指定为一个特征向量,字符串数组或单元阵列特征向量包含一个或多个令牌类型(包括自定义令牌类型)。

tokenizedDocumentaddTypeDetails功能自动检测以下令牌类型:

  • ——只串字母字符

  • 数字-字符串的位数

  • 标点符号——一连串标点和符号字符

  • 电子邮件地址——发现电子邮件地址

  • 网站地址——检测到网络地址

  • 标签-检测到标签(开始“#”字符后跟一个字母)

  • 一提到他-发现在提及(开始“@”字符)

  • 表情符号——发现表情符号

  • emoji——发现emoji

  • 其他——不属于前面的类型和不是一个自定义类型

指定您自己的自定义令牌类型分词时,使用“CustomTokens”“RegularExpressions”选项tokenizedDocument。如果你不指定一个类型为自定义的令牌,然后设置相应的令牌类型的软件“自定义”

数据类型:字符串|字符|细胞

输出参数

全部折叠

输出文本,作为一个字符串数组,返回字符向量,或单元阵列的特征向量。strnewStr有相同的数据类型。

输出文件,作为一个返回tokenizedDocument数组中。

更多关于

全部折叠

Unicode字符类别

每个Unicode字符指定一个类别。下表总结了Unicode标点和符号类别和提供了一个示例字符从每个类别:

类别 类别代码 的字符数 例子字符
标点符号、连接器 (电脑) 10 _
标点符号,短跑 (Pd) 24 - - - - - -
标点符号, (体育) 73年 )
标点符号,最终报价 (Pf) 10
标点符号,最初的报价 (π) 12
标点符号,其他 (Po) 566年 !
标点符号、开放 (Ps) 75年 (
符号、货币 (Sc) 54 美元
象征,修饰符 (Sk) 121年 ^
符号、数学 (Sm) 948年 +
符号,其他 (所以) 5855年 ¦

有关更多信息,请参见[1]

提示

  • 字符串输入,erasePunctuation从url和HTML标记删除标点符号。这种行为可以预防的功能eraseTags,eraseURLs,decodeHTMLEntities从按预期工作。如果您想要使用这些函数来对文本进行预处理,然后利用这些函数在使用erasePunctuation

版本历史

介绍了R2017b

全部展开