主要内容

删除标点符号

删除文本和文档中的标点符号

描述

例子

newStr=删除标点符号(str删除元素中的标点符号str.函数删除属于Unicode标点或符号类的字符。

例子

newDocuments=删除标点符号(文档从中删除标点符号和符号文档.如果删除标点和符号字符后的单词为空,则该函数将删除该单词。对于标记化的文档输入,该函数将从带有类型的标记中删除标点符号“标点符号”“其他”.例如,该函数不会删除url和电子邮件地址中的标点符号和符号字符。

例子

newDocuments=删除标点符号(文档“TokenTypes”,类型仅从指定的标记类型中删除标点和符号。

例子

全部崩溃

把文中的标点符号擦掉str

str =“是一个和/或两个。”;newStr = erasePunctuation (str)
newStr = "它的一个和或两个"

插入一个空格"/"符号是,先用代替函数。

newStr =取代(str,"/"" "
newStr=“是一加二。”
newStr = erasePunctuation (newStr)
newStr=“它是一个或两个”

删除文档数组中的标点符号。

文件= tokenizedDocument ([...“一个短句的例子。”“另一个例子…网址://www.tianjin-qmedu.com"])
documents = 2x1 tokenizedDocument: 7 tokens:短句示例。10代币:另一个例子…URL: //www.tianjin-qmedu.com
newDocuments = erasePunctuation(文档)
newDocuments = 2x1 tokenizedDocument: 6 tokens:简短句子的一个例子6 tokens: URL //www.tianjin-qmedu.com的另一个例子

在这里,函数不会删除URL中的标点符号。

输入参数

全部崩溃

输入文本,指定为字符串数组、字符向量或字符向量的单元格数组。

例子:“一个短句的例子”;第二个简短的句子。]

数据类型:字符串|烧焦|单间牢房

输入文档,指定为标记化文档数组中。

要擦除标点符号的标记类型,指定为字符向量、字符串数组或包含一个或多个标记类型(包括自定义标记类型)的字符向量单元数组。

标记化文档addTypeDetails函数自动检测下列令牌类型:

  • “信件”-只能包含字母的字符串

  • “数字”-只能是数字字符串

  • “标点符号”-只包含标点符号字符的字符串

  • “电子邮件地址”–检测到的电子邮件地址

  • “网址”-检测到的web地址

  • “标签”–检测到的标签(以“#”字符后跟字母)

  • “提及时”-检测在提及(开始于"@"字符)

  • “表情符号”——发现表情符号

  • “emoji”–检测到的表情符号

  • “其他”–不属于以前的类型,也不是自定义类型

要在标记化时指定自己的自定义标记类型,请使用“CustomTokens”“常规表达”选项标记化文档。如果未指定自定义令牌的类型,则软件会将相应的令牌类型设置为“自定义”

数据类型:字符串|烧焦|单间牢房

输出参数

全部崩溃

输出文本,作为字符串数组、字符向量或字符向量的单元格数组返回。strnewStr具有相同的数据类型。

输出文档,作为标记化文档数组中。

更多关于

全部崩溃

Unicode字符类别

每个Unicode字符被分配一个类别。下表总结了Unicode标点符号和符号类别,并提供了每个类别的示例字符:

类别 类别代码 字符数 示例字符
标点符号 (电脑) 10 _
标点符号,短跑 (Pd) 24 -
标点符号, (体育) 73
标点符号 (Pf) 10
标点符号 (π) 12
标点符号,其他 [行政长官] 566
标点符号、开放 (Ps) 75
符号、货币 [资深大律师] 54
符号,修饰语 (Sk) 121
符号、数学 (Sm) 948 +
符号,其他 (所以) 5855 ¦

有关详细信息,请参阅[1]

提示

  • 对于字符串输入,删除标点符号从URL和HTML标记中删除标点符号。此行为可能会阻止擦除标签eraseURLsdecodeHTMLEntities不按预期工作。如果您想使用这些函数来预处理您的文本,那么请在使用之前使用这些函数删除标点符号

兼容性考虑

全部展开

R2018b中行为改变

工具书类

介绍了R2017b