主要内容

文本数据准备

将文本数据导入MATLAB®并对其进行预处理以供分析

文本分析工具箱™包括用于处理来自设备日志,新闻提要,调查,运营商报告和社交媒体等来源的原始文本的工具。使用这些工具可以从流行的文件格式中提取文本、预处理原始文本、提取单个单词或多单词短语(n-gram)、将文本转换为数字表示,以及构建统计模型。有关演示如何开始的示例,请参见准备文本数据进行分析

文本分析工具箱支持英语、日语、德语和韩语。万博1manbetx大多数文本分析工具箱功能都可以处理其他语言的文本。有关更多信息,请参见语言的注意事项

实时编辑器任务

预处理文本数据 预处理和清理文本数据进行分析

功能

全部展开

extractFileText 阅读PDF文本,微软、HTML和纯文本文件
extractHTMLText 从HTML中提取文本
readPDFFormData 从PDF表单读取数据
pdfinfo PDF档案资料
writeTextDocument 将文档写入文本文件
htmlTree 解析过的HTML树
findElement 在HTML树中查找元素
getAttribute 读取HTML树根节点的HTML属性
ismissing 查找没有值的HTML树
字符串 将解析过的HTML树转换为字符串
tokenizedDocument 用于文本分析的标记化文档数组
erasePunctuation 删除文本和文档中的标点符号
eraseTags 从文本中删除HTML和XML标记
eraseURLs 从文本中删除HTTP和HTTPS url
removeStopWords 从文档中删除停止词
removeShortWords 从文档或词袋模型中删除短单词
removeLongWords 从文档或词袋模型中删除长词
removeWords 从文档或词袋模型中删除选定的单词
normalizeWords 使单词词干或词序化
replaceWords 替换文档中的单词
replaceNgrams 替换文档中的n-gram
splitSentences 将文本分成句子
splitParagraphs 将文本分成段落
stopWords 停止词列表
decodeHTMLEntities 将HTML和XML实体转换为字符
较低的 将文档转换为小写
将文档转换为大写
上下文 在文档中搜索上下文中出现的单词或n-gram
tokenDetails 标记化文档数组中标记的详细信息
addSentenceDetails 给文档添加句子号
addPartOfSpeechDetails 向文档添加词性标记
addLemmaDetails 向文档添加令牌的引理形式
addLanguageDetails 向文档添加语言标识符
addEntityDetails 向文档添加实体标记
addDependencyDetails 向文档添加语法依赖性细节
addTypeDetails 向文档添加令牌类型详细信息
splitSentences 将文本分成句子
splitParagraphs 将文本分成段落
corpusLanguage 检测文本语言
缩写 常用缩略语表
topLevelDomains 顶级域名列表
bagOfWords Bag-of-words模型
bagOfNgrams Bag-of-n-grams模型
addDocument 将文档添加到bag-of-words或bag-of-n-grams模型
removeDocument 从word - bag或n-grams - bag模型中删除文档
removeInfrequentWords 从单词袋模型中删除计数低的单词
removeInfrequentNgrams 从n-g包模型中删除不常见的n-g
removeNgrams 从n-g模型中删除n-g
removeEmptyDocuments 从标记化文档数组、词袋模型或n-grams模型中删除空文档
topkwords 词袋模型或LDA主题中最重要的词
topkngrams 最常见的n-gram
编码 将文档编码为单词计数或n-gram计数的矩阵
tfidf 词频率-逆文档频率(tf-idf)矩阵
加入 组合多个单词袋或n-grams袋模型
用语 正确拼写单词
editDistance 查找两个字符串或文档之间的编辑距离
editDistanceSearcher 编辑距离最近邻搜索器
knnsearch 根据编辑距离查找最近的邻居
rangesearch 按编辑距离范围查找最近的邻居
splitGraphemes 将字符串拆分为字母
docfun 对文档中的单词应用函数
containsWords 检查word是否是文档的成员
containsNgrams 检查n-gram是否是文档的成员
包含 检查pattern是否为文档中的子字符串
+ 附加文件
取代 替换文档中的子字符串
regexprep 使用正则表达式替换文档单词中的文本
doclength 文档数组中文档的长度
doc2cell 将文档转换为字符串向量的单元格数组
joinWords 通过连接单词将文档转换为字符串
字符串 将标量文档转换为字符串向量
textanalytics.unicode.nfc Unicode组合规范化形式(NFC)
textanalytics.unicode.nfd Unicode分解的规范化形式(NFD)
textanalytics.unicode.nfkc Unicode兼容组合规范化形式(NFKC)
textanalytics.unicode.nfkd Unicode兼容性分解规范化形式(NFKD)
textanalytics.unicode.UTF32 Unicode UTF-32字符串表示
characterCategories Unicode字符分类
十六进制 将UTF-32表示转换为十六进制值
字符串 将UTF-32表示转换为字符串

主题

进口

预处理

语言支持万博1manbetx