文本分析术语- MATLAB和Simulink万博1manbetx - 万博1manbetx,s manbetx 845,万博尤文图斯

文档帮助中心文档

文本分析术语表

本节提供文本分析中使用的术语列表。

文档和令牌

术语	定义	更多的信息
三元	两个标志相继出现。例如,`(“新”“纽约”)`．	`bagOfNgrams`
复杂的令牌	具有复杂结构的令牌。例如，电子邮件地址或标签。	`tokenDetails`
上下文	围绕给定标记的标记或字符。	`上下文`
语料库	文件的集合	`tokenizedDocument`
文档	对文本数据的单一观察。例如，一份报告、一条推特或一篇文章。	`tokenizedDocument`
字母	人类可读的角色。一个字素可以由多个Unicode代码点组成。例如,“”,“”,或“語”。	`splitGraphemes`
语法	N令牌。	`bagOfNgrams`
演讲的一部分	语法结构中使用的词汇类别。例如，“名词”、“动词”和“形容词”。	`addPartOfSpeechDetails`
令牌	代表一个文本数据单元的一串字符，也称为“unigram”。例如，一个单词、数字或电子邮件地址。	`tokenizedDocument`
令牌的细节	关于令牌的信息。例如，类型、语言或词性细节。	`tokenDetails`
令牌类型	令牌的类别。例如，"letters"， "punctuation"， or "email address"。	`tokenDetails`
标记化的文档	分割为令牌的文档。	`tokenizedDocument`
卦	三个标志连续。例如,`(“的”“团结”“国家”)`	`bagOfNgrams`
词汇表	语料库或模型中唯一的词或标记。	`tokenizedDocument`

预处理

术语	定义	更多的信息
正常化	将单词简化为词根。例如，使用词干或词根化将单词“walking”略读为“walk”。	`normalizeWords`
Lemmatize	将单词简化为字典中的单词(引理形式)。例如，将单词“running”和“ran”略读为“run”。	`normalizeWords`
阀杆	减少单词的变化。略读单词不一定是一个真正的单词。例如，波特的词根将单词“happy”和“happiest”简化为“happi”。	`normalizeWords`
停止词	在分析之前，这些词通常被删除。例如"and"， "of"和"the"。	`removeStopWords`

建模和预测

Bag-of-Words

术语	定义	更多的信息
Bag-of-n-grams模型	一个模型，记录n-g在语料库的每个文档中出现的次数。	`bagOfNgrams`
Bag-of-words模型	记录单词在集合的每个文档中出现次数的模型。	`bagOfWords`
项频率计数矩阵	与给定词汇表相对应的文档集合中出现的单词的频率计数矩阵。这个矩阵是词汇袋模型的基础数据。	`bagOfWords`
术语频率-反文档频率(tf-idf)矩阵	一种统计方法，基于文档中的单词频率计数和语料库中包含单词的文档比例。	`tfidf`

潜在狄利克雷分配

术语	定义	更多的信息
语料库主题概率	用观察语料库中每个主题的概率来拟合LDA模型。	`ldaModel`
文档主题概率	用于拟合LDA模型的每个文档中观察每个主题的概率。同样，训练文档的主题混合。	`ldaModel`
潜狄利克雷分配(LDA)	生成的统计主题模型，推断文档中的主题概率和主题中的单词概率。	`fitlda`
困惑	一个模型描述给定数据的好坏程度的统计度量。越低的困惑表示越适合。	`logp`
主题	一个词的分布，以“主题词的概率”为特征。	`ldaModel`
话题集中	语料库主题混合底层Dirichlet分布的浓度参数。	`ldaModel`
主题的混合物	给定文档中主题的概率。	`变换`
主题文字概率	单词在给定主题中的概率。	`ldaModel`
词集中	主题的基础狄利克雷分布的浓度参数。	`ldaModel`

潜在语义分析

术语	定义	更多的信息
组件的重量	分解的奇异值，平方。	`lsaModel`
文档得分	用文档的低维空间中的分数向量来拟合LSA模型。	`变换`
潜在语义分析(LSA)	基于主成分分析(PCA)的降维技术。	`fitlsa`
单词的分数	LSA模型中每个组件中每个单词的分数。	`lsaModel`

字嵌入

术语	定义	更多的信息
字嵌入	由word2vec、GloVe和fastText库推广的一种模型，它将词汇表中的单词映射到真实的向量。	`wordEmbedding`
字嵌入层	深度学习网络层，在训练过程中学习单词嵌入。	`wordEmbeddingLayer`
字编码	将单词映射为数字索引的模型。	`wordEncoding`

可视化

术语	定义	更多的信息
文本散点图	在指定坐标而不是标记处绘制文字的散点图。	`textscatter`
词云	一种显示与数字数据对应大小的单词的图表，通常是频率计数。	`wordcloud`

另请参阅

tokenizedDocument|tokenDetails|addPartOfSpeechDetails|removeStopWords|normalizeWords|bagOfWords|fitlda|wordEmbedding|wordEncoding|wordEmbeddingLayer|bagOfNgrams|wordcloud|textscatter

相关的话题

文本分析工具箱文档

万博1manbetx

入门文本分析在MATLAB

立即下载