主要内容

textanalytics.unicode.nfc

Unicode组成规格化形式(NFC)

自从R2022b

    描述

    例子

    newStr= textanalytics.unicode.nfc (str)规范化字符串strUnicode标准组成形式(NFC)。

    例子

    全部折叠

    外观相同,可以有不同的底层表示的字符串。Unicode标准组合形式(NFC)确保相同的字符串有一个独特的二进制表示。

    考虑到字符串“墨西哥”,性格“n”表示为这个角色吗“n”其次是代码单元“\ x0303”,对应于可区别的“~”。在一些系统中,这个角色“n”表现为两个字符。字符串长度为9。

    str =组成(“jalapen \ x0303o”)
    str = " jalapeño”
    strlength (str)
    ans = 9

    正常使用的字符串textanalytics.unicode.nfc函数。在一些系统中,输出字符串似乎是相同的输入字符串。

    newStr = textanalytics.unicode.nfc (str)
    newStr =“墨西哥”

    视图规范化字符串的长度。规范化表示包含一个更少的代码单元。在这种情况下,函数合并这封信“n”和可区别的“~”成一个单一的单位表示的代码“n”

    strlength (newStr)
    ans = 8

    提取第七规范化字符串的代码单元。

    extractBetween (newStr 7 7)
    ans = " n "

    检查是否strnewStr是平等的使用= =操作符。操作符返回0因为字符串有不同的底层表示。

    = str = = newStr特遣部队
    tf =逻辑0

    输入参数

    全部折叠

    输入文本,指定为字符串数组,特征向量,或单元阵列特征向量。

    例子:["的一个例子短句。”;“第二个短句。”)

    数据类型:字符串|字符|细胞

    输出参数

    全部折叠

    输出文本,作为一个字符串数组,返回字符向量,或单元阵列的特征向量。strnewStr有相同的数据类型。

    算法

    全部折叠

    Unicode规范化形式

    关于Unicode标准化形式的更多信息,请参阅Unicode标准附件# 15 Unicode标准化形式

    引用

    [1]惠斯勒肯,艾德。“Unicode标准附件# 15:Unicode标准化形式。”Unicode技术报告,2021年8月27日。https://unicode.org/reports/tr15/

    版本历史

    介绍了R2022b