文本分析工具箱
分析和建模文本数据
文本分析工具箱™为预处理、分析和建模文本数据提供了算法和可视化。使用工具箱创建的模型可以在情绪分析、预测维护和主题建模等应用程序中使用。
文本分析工具箱包括处理原始文本的工具,从资源,如设备日志,新闻源,调查,操作员报告,和社会媒体。您可以从流行的文件格式中提取文本、预处理原始文本、提取单个单词、将文本转换为数字表示,以及构建统计模型。
使用LSA、LDA和单词嵌入等机器学习技术,您可以从高维文本数据集中找到集群并创建特性。使用Text Analytics Toolbox创建的特性可以与来自其他数据源的特性相结合,以构建利用文本、数字和其他类型数据的机器学习模型。
开始:
提取文本数据
导入文本数据到MATLAB®从单个文件或大型文件集合,包括PDF、HTML和Microsoft®词®和Excel®文件。
语言支持万博1manbetx
文本分析工具箱为英语、日语、德语和韩语提供了特定于语言的预处理功能。大多数函数还可以处理其他语言中的文本。
清洁文本数据
应用高级过滤函数来删除无关的内容,如url、HTML标记、标点符号和正确的拼写。
字嵌入和编码
训练单词嵌入模型,如word2vec连续单词包(CBOW)和跳过图模型。进口预先训练的模型,包括fastText和手套。
主题建模
使用机器学习算法(如潜在Dirichlet分配(LDA)和潜在语义分析(LSA))发现和可视化大型文本数据集中的底层模式、趋势和复杂关系。