萨拉Palfreyman,MathWorks公司
文本分析工具箱™提供了提取文档中的文本,预处理原始文本,可视化文本和文本数据进行机器学习工具。典型的工作流程开始从文件,如PDF和微软导入文本数据®字®文件,然后提取数据意味深长的话。一旦文本进行预处理,可以在许多方面,包括文字转换成数字表示和可视化与云词或散点图文字与数据进行交互。
使用Text Analytics Toolbox创建的特性还可以与来自其他数据源的特性相结合,以构建利用文本、数字、音频和其他类型数据的机器学习模型。您可以导入预先训练过的单词嵌入模型,例如word2vec、FastText和GloVe格式中可用的那些模型,以将数据集中的单词映射到它们对应的单词向量。您还可以使用LDA和LSA等机器学习算法来执行主题建模和降维。
要开始转换大集文本数据转换为有意义的洞察,下载免费试用的文本分析工具箱。
文本分析工具箱提供了提取文档中的文本,预处理原始文本,文本可视化和学习上的文本数据进行机床。
您可以使用文本分析工具箱从像维修报告,操作日志,财务文件,网页和社交媒体资源来源的数据。
您可以提取各种来源包括Microsoft Word,Microsoft Excel中,和PDF和使用字云可以查看文字和互动散点图的相对频率,以了解词与词之间的关系,数字原始文本。
文本分析工具箱预处理原始文本提供诸如移除常用词和标点符号和令牌化文档转换成单个的单词或短语。
一旦文本进行预处理,将文本转换为数字表示让你做更多的分析和可视化,了解词频率包括:
统计和机器学习算法可以与文本分析一起进行主题建模,识别文档中的主题,对文档进行分类和预测。
你可以训练机器学习模型或使用预训练字嵌入模型如word2vec,FastText和手套。
在这个例子中,隐含狄利克雷分布算法来构建一个主题模型与风暴报告60周的主题,以确定损伤和天气模式。
您也可以使用深学习算法,建立精确的分类,当你有大集的文件,并采用并行计算来加速文本处理和培训。
有关文本分析工具箱的详细信息,请参阅产品页面,或选择下面的链接。
您还可以选择从下面的列表中的网站:
选择最佳的网站性能的中国网站(在中国或英文)。其他MathWorks的国家网站都没有从您的位置访问进行了优化。