什么是文本分析工具箱?
文本分析工具箱™提供了从文档中提取文本、预处理原始文本、可视化文本以及对文本数据执行机器学习的工具。典型的工作流程首先从文档(如PDF和Microsoft)导入文本数据®词®文件,然后从数据中提取有意义的单词。预处理文本之后,您可以以多种方式与数据交互,包括将文本转换为数字表示,并使用字云或散点图可视化文本。
使用“文本分析工具箱”创建的功能还可以与来自其他数据源的功能相结合,以构建利用文本、数字、音频和其他类型数据的机器学习模型。可以导入预先训练好的词嵌入模型,例如word2vec、FastText和GloVe格式,将数据集中的单词映射到相应的单词向量。您还可以使用LDA和LSA等机器学习算法执行主题建模和降维。
要开始将大量文本数据转换为有意义的见解,下载免费试用版文本分析工具箱。
文本分析工具箱提供了从文档中提取文本、预处理原始文本、可视化文本以及对文本数据执行机器学习的工具。
您可以使用文本分析工具箱来分析来自维护报告、操作日志、财务文档、web和社交媒体来源等来源的数据。
您可以从各种来源(包括Microsoft Word、Microsoft Excel和PDF)提取原始文本,并使用单词云查看单词的相对频率和交互式散点图,以了解单词之间的数字关系。
文本分析工具箱提供了预处理原始文本的功能,例如删除常用单词和标点符号,并将文档标记为单个单词或短语。
预处理文本后,将文本转换为数字表示可以让您进行更多的分析和可视化,以了解词频,包括:
- 比较字数的直方图
- 词汇袋和ngram来实现高效的可视化和计算
- 以及TF-IDF模型用于文本挖掘和机器学习
统计和机器学习算法可以与文本分析一起使用,以执行主题建模,以识别文档中的主题,对文档进行分类并进行预测。
你可以训练机器学习模型或使用预先训练好的词嵌入模型,如word2vec、FastText和GloVe。
在本例中,使用Latent Dirichlet Allocation算法在风暴报告中构建一个包含60个主题的主题模型,以识别损害和天气模式。
当你有大量的文档集时,你还可以使用深度学习算法来构建准确的分类器,并使用并行计算来加速文本处理和训练。
有关文本分析工具箱的更多信息,请参阅产品页面或选择下面的链接。
您也可以从以下列表中选择一个网站:
如何获得最佳的网站性能
选择中国站点(中文或英文)以获得最佳站点性能。其他MathWorks国家站点没有针对您所在位置的访问进行优化。