删除文本和文档中的标点符号
从中删除标点符号和符号newDocuments
=删除标点符号(文档
)文档
.如果删除标点和符号字符后的单词为空,则该函数将删除该单词。对于标记化的文档输入,该函数将从带有类型的标记中删除标点符号“标点符号”
和“其他”
.例如,该函数不会删除url和电子邮件地址中的标点符号和符号字符。
仅从指定的标记类型中删除标点和符号。newDocuments
=删除标点符号(文档
“TokenTypes”,类型
)
对于字符串输入,删除标点符号
从URL和HTML标记中删除标点符号。此行为可能会阻止擦除标签
,eraseURLs
和decodeHTMLEntities
不按预期工作。如果您想使用这些函数来预处理您的文本,那么请在使用之前使用这些函数删除标点符号
.
[1]Unicode字符类别.https://www.fileformat.info/info/unicode/category/index.htm