文本数据准备

导入文本数据到MATLAB^®并预处理它进行分析

Text Analytics Toolbox™包括从设备日志，新闻源，调查，运营商报告和社交媒体等源处理原始文本的工具。使用这些工具从流行文件格式中提取文本，预处理原始文本，提取单个单词或多字短语（n-grams），将文本转换为数字表示，并构建统计模型。有关如何开始的示例，请参阅准备文本数据进行分析．

文本分析工具箱支持语言英语，日语，德语，和韩语万博1manbetx。大多数文本分析工具箱函数可以处理来自其他语言的文本。有关更多信息，请参见语言考虑因素．

功能

全部展开

进出口

`extractFileText`	阅读文本从PDF，微软词、HTML和纯文本文件
`extractHTMLText`	从HTML中提取文本
`readPDFFormData`	从PDF表单读取数据
`writeTextDocument`	将文档写入文本文件

HTML解析

`htmlTree`	解析的html树
`Fedelement.`	在HTML树中查找元素
`getAttribute.`	读取HTML树根节点的HTML属性
`ismissing`	查找没有值的HTML树
`字符串`	将解析的HTML树转换为字符串

文档预处理

`令人生畏的鳕文`	用于文本分析的标记化文档数组
`侵蚀`	删除文本和文档中的标点符号
`erasetags.`	从文本中删除HTML和XML标记
`eraseURLs`	删除文本中的HTTP和HTTPS url
`Removestopwords.`	从文档中删除停止词
`removeshortworts.`	从文档或单词袋式模型中删除短单词
`removeLongWords`	从文档或单词袋式模型中删除长单词
`removeWords`	从文档或词袋模型中删除选定的词
`normalizeWords`	茎或鼠里言语
`替换字词`	替换文档中的单词
`更换纸张`	在文档中替换n-g
`秒表`	停止词表
`decodeHTMLEntities`	将HTML和XML实体转换为字符
`较低的`	将文档转换为小写
`上`	将文档转换为大写

令牌细节

`上下文`	在文档中搜索上下文中出现的单词或n-gram
`tokenDetails`	令牌化文档数组中令牌的详细信息
`AddsentEnCentails.`	将句号添加到文件中
`addpartofspeechdetails.`	向文档添加语音部分标签
`addLemmaDetails`	向文档添加标记的引理形式
`addlangugseTails.`	向文档添加语言标识符
`添加性etails.`	向文档添加实体标记
`addtypedetails.`	向文档添加令牌类型细节
`splitSentences`	将文本分割成句子
`小毒素语言`	检测文本语言
`缩写`	常用缩略语表
`人体等室`	顶级域名列表

单词和N-Gram计数

`bagOfWords`	Bag-of-words模型
`bagOfNgrams`	Bag-of-n-grams模型
`addocument.`	将文档添加到单词袋或袋袋模型
`删除录制`	从单词袋或n-gram袋模型中删除文档
`removeInfrequentWords`	从单词袋模型中删除低计数的单词
`removeinfrequentngrams.`	从n-r克模型中删除不经常看到的n-grams
`removeNgrams`	从N-r克模型中删除n-grams
`removeEmptyDocuments`	从令牌化文档阵列中删除空文档，文字袋式模型或N-r克模型
`topkwords`	单词袋模型或LDA主题中最重要的单词
`topkngrams.`	最常见的字格
`编码`	将文档编码为单词或n元计数矩阵
`tfidf`	术语频率-反文档频率(tf-idf)矩阵
`加入`	组合多个bag-of-words或bag-of-n-grams模型

拼写纠正和编辑距离

`用语`	单词的正确拼写
`editDistance`	查找两个字符串或文档之间的编辑距离
`EditDistanceSearcher.`	编辑距离最近的邻居搜索器
`knnsearch`	通过编辑距离找到最近的邻居
`rangesearch`	通过编辑距离范围查找最近的邻居
`splitGraphemes`	将字符串拆分为字母

文档操纵和转换

`Docfun.`	将功能应用于文档中的文字
`加`	附加文件
`代替`	替换文档中的子字符串
`regexprep`	使用正则表达式替换文档单词中的文本
`doclength`	文档阵列中的文档的长度
`doc2cell.`	将文档转换为字符串向量的单元格数组
`ingoming.`	通过加入单词将文档转换为字符串
`字符串`	将标量文档转换为字符串向量

Unicode

`textanalytics.unicode.nfd.`	Unicode分解的规范化形式(NFD)
`UTF32`	Unicode UTF-32字符串表示
`characterCategories`	Unicode字符类别
`十六进制`	将UTF-32表示转换为十六进制值
`字符串`	将UTF-32表示转换为字符串