主要内容

删除标点符号

从文本和文档中擦除标点符号

描述

例子

新闻=侵蚀(str.从元素中删除标点符号和符号str.。该函数删除属于Unicode标点符号或符号类的字符。

例子

新的模特=侵蚀(文件从中删除标点符号和符号文件。如果在删除标点符号和符号字符后,则单词是空的,则该功能会删除它。对于令牌化文档输入,该函数删除与类型的令牌标点'标点''其他'。例如,该函数不会从URL和电子邮件地址删除标点符号和符号字符。

例子

新的模特=侵蚀(文件,'tokentypes',类型仅从指定的标记类型中删除标点和符号。

例子

全部崩溃

从文本中删除标点符号str.

str =“这是一个和/或两个。”;newstr =侵蚀(str)
newstr =“它的一个Andor两个”

插入一个空间"/"符号是,首先使用代替功能。

newstr =替换(str,"/"" "
newStr=“是一加二。”
Newstr =侵蚀(Newstr)
newStr=“它是一个或两个”

删除文档数组中的标点符号。

文档= tokenizeddocument([......“一个短句的例子。”“另一个例子......带有URL://www.tianjin-qmedu.com”])
文档= 2x1令牌设备:7个令牌:短句的一个例子。10令牌:另一个例子。。。使用URL://www.tianjin-qmedu.com
newdocuments =侵蚀(文件)
newdocuments = 2x1 tokenizeddocument:6个令牌:短句6令牌的示例:另一个例子,带有URL //www.tianjin-qmedu.com

这里,该函数不会从URL删除标点符号。

输入参数

全部崩溃

输入文本,指定为字符串数组、字符向量或字符向量的单元格数组。

例子:[“短句的一个例子。”;“第二句话。”]

数据类型:细绳|烧焦|单间牢房

输入文档,指定为a标记化文档大批。

令牌类型以擦除标点符号,指定为字符向量,字符串阵列或包含一个或多个令牌类型(包括自定义令牌类型)的字符向量的小区数组。

标记化文档addTypeDetails函数自动检测以下令牌类型:

  • '字母'- 仅限字符串字符串

  • “数字”- 仅限位数

  • '标点'- 仅标点符号和符号字符

  • '电子邮件地址'–检测到的电子邮件地址

  • “网址”- 检测到的Web地址

  • '井号'–检测到的标签(以“#”字符后跟字母)

  • “提及时”- 检测到提及(从"@"特点)

  • '表情'- 检测到的表情符号

  • 'emoji'–检测到的表情符号

  • '其他'–不属于以前的类型,也不是自定义类型

要在标记化时指定自己的自定义标记类型,请使用'CustomTokens'“常规表达”选项标记化文档. 如果未指定自定义令牌的类型,则软件会将相应的令牌类型设置为'风俗'

数据类型:细绳|烧焦|单间牢房

输出参数

全部崩溃

输出文本,返回为字符串数组,字符向量或字符向量的单元格数组。str.新闻具有相同的数据类型。

输出文件,作为a返回标记化文档大批。

更多关于

全部崩溃

Unicode字符类别

每个Unicode字符都被分配了一个类别。下表总结了Unicode标点符号和符号类别,并提供每个类别的示例字符:

类别 类别代码 字符数 示例字符
标点符号 [个人电脑] 10. _
标点符号,破折号 [PD] 24. -
标点符号,关闭 [PE] 73.
标点符号 [PF] 10.
标点符号 [pi] 12.
标点符号,其他 [行政长官] 566 !!
标点符号,开放 [PS] 75.
符号、货币 [资深大律师] 54. $
符号,修饰语 [sk] 121. ^
符号,数学 [SM] 948. +
符号,其他 [所以] 5855 |

有关详细信息,请参阅[1]

提示

  • 对于字符串输入,删除标点符号从URL和HTML标记中删除标点符号。此行为可能会阻止擦除标签eraseulls.解码码从预期工作。如果要使用这些函数来预处理您的文本,请在使用前使用这些功能删除标点符号

兼容性考虑

展开全部

R2018B的行为更改

工具书类

在R2017B中介绍