主要内容

文本数据准备

导入文本数据到MATLAB®并预处理它进行分析

Text Analytics Toolbox™包括从设备日志,新闻源,调查,运营商报告和社交媒体等源处理原始文本的工具。使用这些工具从流行文件格式中提取文本,预处理原始文本,提取单个单词或多字短语(n-grams),将文本转换为数字表示,并构建统计模型。有关如何开始的示例,请参阅准备文本数据进行分析

文本分析工具箱支持语言英语,日语,德语,和韩语万博1manbetx。大多数文本分析工具箱函数可以处理来自其他语言的文本。有关更多信息,请参见语言考虑因素

功能

全部展开

extractFileText 阅读文本从PDF,微软、HTML和纯文本文件
extractHTMLText 从HTML中提取文本
readPDFFormData 从PDF表单读取数据
writeTextDocument 将文档写入文本文件
htmlTree 解析的html树
Fedelement. 在HTML树中查找元素
getAttribute. 读取HTML树根节点的HTML属性
ismissing 查找没有值的HTML树
字符串 将解析的HTML树转换为字符串
令人生畏的鳕文 用于文本分析的标记化文档数组
侵蚀 删除文本和文档中的标点符号
erasetags. 从文本中删除HTML和XML标记
eraseURLs 删除文本中的HTTP和HTTPS url
Removestopwords. 从文档中删除停止词
removeshortworts. 从文档或单词袋式模型中删除短单词
removeLongWords 从文档或单词袋式模型中删除长单词
removeWords 从文档或词袋模型中删除选定的词
normalizeWords 茎或鼠里言语
替换字词 替换文档中的单词
更换纸张 在文档中替换n-g
秒表 停止词表
decodeHTMLEntities 将HTML和XML实体转换为字符
较低的 将文档转换为小写
将文档转换为大写
上下文 在文档中搜索上下文中出现的单词或n-gram
tokenDetails 令牌化文档数组中令牌的详细信息
AddsentEnCentails. 将句号添加到文件中
addpartofspeechdetails. 向文档添加语音部分标签
addLemmaDetails 向文档添加标记的引理形式
addlangugseTails. 向文档添加语言标识符
添加性etails. 向文档添加实体标记
addtypedetails. 向文档添加令牌类型细节
splitSentences 将文本分割成句子
小毒素语言 检测文本语言
缩写 常用缩略语表
人体等室 顶级域名列表
bagOfWords Bag-of-words模型
bagOfNgrams Bag-of-n-grams模型
addocument. 将文档添加到单词袋或袋袋模型
删除录制 从单词袋或n-gram袋模型中删除文档
removeInfrequentWords 从单词袋模型中删除低计数的单词
removeinfrequentngrams. 从n-r克模型中删除不经常看到的n-grams
removeNgrams 从N-r克模型中删除n-grams
removeEmptyDocuments 从令牌化文档阵列中删除空文档,文字袋式模型或N-r克模型
topkwords 单词袋模型或LDA主题中最重要的单词
topkngrams. 最常见的字格
编码 将文档编码为单词或n元计数矩阵
tfidf 术语频率-反文档频率(tf-idf)矩阵
加入 组合多个bag-of-words或bag-of-n-grams模型
用语 单词的正确拼写
editDistance 查找两个字符串或文档之间的编辑距离
EditDistanceSearcher. 编辑距离最近的邻居搜索器
knnsearch 通过编辑距离找到最近的邻居
rangesearch 通过编辑距离范围查找最近的邻居
splitGraphemes 将字符串拆分为字母
Docfun. 将功能应用于文档中的文字
附加文件
代替 替换文档中的子字符串
regexprep 使用正则表达式替换文档单词中的文本
doclength 文档阵列中的文档的长度
doc2cell. 将文档转换为字符串向量的单元格数组
ingoming. 通过加入单词将文档转换为字符串
字符串 将标量文档转换为字符串向量
textanalytics.unicode.nfd. Unicode分解的规范化形式(NFD)
UTF32 Unicode UTF-32字符串表示
characterCategories Unicode字符类别
十六进制 将UTF-32表示转换为十六进制值
字符串 将UTF-32表示转换为字符串

主题

进口

从文件中提取文本数据

此示例显示了如何从文本,HTML,Microsoft®Word,PDF,CSV和MicrosoftExcel®文件中提取文本数据,并将其导入Matlab®进行分析。

解析HTML并提取文本内容

这个示例展示了如何解析HTML代码并从特定元素中提取文本内容。

文本分析的数据集

发现各种文本分析任务的数据集。

预处理

准备文本数据进行分析

这个例子展示了如何创建一个函数来清理和预处理文本数据以进行分析。

分析包含表情符号的文本数据

此示例显示如何分析包含EMOJIS的文本数据。

正确拼写文档

这个例子展示了如何使用Hunspell来纠正文档中的拼写。

创建用于拼写校正的扩展字典

此示例显示如何创建HunSpell扩展名称以拼写校正。

使用编辑距离搜索器创建自定义拼写纠正功能

这个例子展示了如何使用编辑距离搜索器和已知单词的词汇表来纠正拼写。

语言支持万博1manbetx

语言考虑因素

有关使用其他语言的文本分析工具箱功能的信息。

日本语言支持万博1manbetx

关于文本分析工具箱中的日语支持的信息。万博1manbetx

分析日语文本数据

此示例显示了如何使用主题模型导入,准备和分析日语文本数据。

德语支持万博1manbetx

文本分析工具箱中德语支持的信息。万博1manbetx

分析德语文本数据

此示例显示了如何使用主题模型导入,准备和分析德语文本数据。

特色的例子