帮助中心帮助中心

文本数据准备

将文本数据导入MATLAB^®并对其进行预处理以供分析

文本分析工具箱™包括用于处理来自设备日志，新闻提要，调查，运营商报告和社交媒体等来源的原始文本的工具。使用这些工具可以从流行的文件格式中提取文本、预处理原始文本、提取单个单词或多单词短语(n-gram)、将文本转换为数字表示，以及构建统计模型。有关演示如何开始的示例，请参见准备文本数据进行分析．

文本分析工具箱支持英语、日语、德语和韩语。万博1manbetx大多数文本分析工具箱功能都可以处理其他语言的文本。有关更多信息，请参见语言的注意事项．

实时编辑器任务

预处理文本数据

预处理和清理文本数据进行分析

功能

进出口

`extractFileText`	阅读PDF文本，微软词、HTML和纯文本文件
`extractHTMLText`	从HTML中提取文本
`readPDFFormData`	从PDF表单读取数据
`pdfinfo`	PDF档案资料
`writeTextDocument`	将文档写入文本文件

HTML解析

`htmlTree`	解析过的HTML树
`findElement`	在HTML树中查找元素
`getAttribute`	读取HTML树根节点的HTML属性
`ismissing`	查找没有值的HTML树
`字符串`	将解析过的HTML树转换为字符串

文档预处理

`tokenizedDocument`	用于文本分析的标记化文档数组
`erasePunctuation`	删除文本和文档中的标点符号
`eraseTags`	从文本中删除HTML和XML标记
`eraseURLs`	从文本中删除HTTP和HTTPS url
`removeStopWords`	从文档中删除停止词
`removeShortWords`	从文档或词袋模型中删除短单词
`removeLongWords`	从文档或词袋模型中删除长词
`removeWords`	从文档或词袋模型中删除选定的单词
`normalizeWords`	使单词词干或词序化
`replaceWords`	替换文档中的单词
`replaceNgrams`	替换文档中的n-gram
`splitSentences`	将文本分成句子
`splitParagraphs`	将文本分成段落
`stopWords`	停止词列表
`decodeHTMLEntities`	将HTML和XML实体转换为字符
`较低的`	将文档转换为小写
`上`	将文档转换为大写

令牌的细节

`上下文`	在文档中搜索上下文中出现的单词或n-gram
`tokenDetails`	标记化文档数组中标记的详细信息
`addSentenceDetails`	给文档添加句子号
`addPartOfSpeechDetails`	向文档添加词性标记
`addLemmaDetails`	向文档添加令牌的引理形式
`addLanguageDetails`	向文档添加语言标识符
`addEntityDetails`	向文档添加实体标记
`addDependencyDetails`	向文档添加语法依赖性细节
`addTypeDetails`	向文档添加令牌类型详细信息
`splitSentences`	将文本分成句子
`splitParagraphs`	将文本分成段落
`corpusLanguage`	检测文本语言
`缩写`	常用缩略语表
`topLevelDomains`	顶级域名列表

单词和N-Gram计数

`bagOfWords`	Bag-of-words模型
`bagOfNgrams`	Bag-of-n-grams模型
`addDocument`	将文档添加到bag-of-words或bag-of-n-grams模型
`removeDocument`	从word - bag或n-grams - bag模型中删除文档
`removeInfrequentWords`	从单词袋模型中删除计数低的单词
`removeInfrequentNgrams`	从n-g包模型中删除不常见的n-g
`removeNgrams`	从n-g模型中删除n-g
`removeEmptyDocuments`	从标记化文档数组、词袋模型或n-grams模型中删除空文档
`topkwords`	词袋模型或LDA主题中最重要的词
`topkngrams`	最常见的n-gram
`编码`	将文档编码为单词计数或n-gram计数的矩阵
`tfidf`	词频率-逆文档频率(tf-idf)矩阵
`加入`	组合多个单词袋或n-grams袋模型

拼写纠正和编辑距离

`用语`	正确拼写单词
`editDistance`	查找两个字符串或文档之间的编辑距离
`editDistanceSearcher`	编辑距离最近邻搜索器
`knnsearch`	根据编辑距离查找最近的邻居
`rangesearch`	按编辑距离范围查找最近的邻居
`splitGraphemes`	将字符串拆分为字母

文档操作和转换

`docfun`	对文档中的单词应用函数
`containsWords`	检查word是否是文档的成员
`containsNgrams`	检查n-gram是否是文档的成员
`包含`	检查pattern是否为文档中的子字符串
`+`	附加文件
`取代`	替换文档中的子字符串
`regexprep`	使用正则表达式替换文档单词中的文本
`doclength`	文档数组中文档的长度
`doc2cell`	将文档转换为字符串向量的单元格数组
`joinWords`	通过连接单词将文档转换为字符串
`字符串`	将标量文档转换为字符串向量

Unicode

`textanalytics.unicode.nfc`	Unicode组合规范化形式(NFC)
`textanalytics.unicode.nfd`	Unicode分解的规范化形式(NFD)
`textanalytics.unicode.nfkc`	Unicode兼容组合规范化形式(NFKC)
`textanalytics.unicode.nfkd`	Unicode兼容性分解规范化形式(NFKD)
`textanalytics.unicode.UTF32`	Unicode UTF-32字符串表示
`characterCategories`	Unicode字符分类
`十六进制`	将UTF-32表示转换为十六进制值
`字符串`	将UTF-32表示转换为字符串

主题

进口

从文件中提取文本数据
本示例展示了如何从文本、HTML、Microsoft®Word、PDF、CSV和Microsoft Excel®文件中提取文本数据，并将其导入MATLAB®进行分析。
解析HTML和提取文本内容
这个示例展示了如何解析HTML代码并从特定元素中提取文本内容。
文本分析的数据集
为各种文本分析任务发现数据集。

预处理

在实时编辑器中预处理文本数据
探索文本预处理技术预处理文本数据实时编辑器任务。
准备文本数据进行分析
这个例子展示了如何创建一个函数来清理和预处理文本数据以供分析。
分析包含表情符号的文本数据
这个例子展示了如何分析包含表情符号的文本数据。
正确的文档拼写
这个例子展示了如何使用Hunspell纠正文档中的拼写。
创建扩展字典的拼写纠正
这个示例展示了如何创建用于拼写更正的Hunspell扩展字典。
使用编辑距离搜索器创建自定义拼写更正功能
这个示例展示了如何使用编辑距离搜索器和已知单词的词汇表来纠正拼写。
使用语法依存分析法分析句子结构
这个示例展示了如何使用语法依赖性解析从句子中提取信息。

语言支持万博1manbetx

语言的注意事项
有关使用其他语言的文本分析工具箱功能的信息。
日语支持万博1manbetx
关于文本分析工具箱中日语支持的信息。万博1manbetx
分析日语文本数据
这个示例展示了如何使用主题模型导入、准备和分析日语文本数据。
德语支持万博1manbetx
关于文本分析工具箱中德语支持的信息。万博1manbetx
分析德文文本数据
这个示例展示了如何使用主题模型导入、准备和分析德语文本数据。

特色的例子

从文件中提取文本数据

从文件中提取文本数据

从文本、HTML、Microsoft®Word、PDF、CSV和Microsoft Excel®文件中提取文本数据，并将其导入MATLAB®进行分析。

打开实时脚本

准备文本数据进行分析

准备文本数据进行分析

创建一个用于清理和预处理文本数据以供分析的函数。

打开实时脚本

分析包含表情符号的文本数据

分析包含表情符号的文本数据

分析包含表情符号的文本数据。

打开实时脚本