主要内容

文本分析术语表

本节提供文本分析中使用的术语列表。

文档和令牌

术语 定义 更多的信息
三元 两个标志相继出现。例如,(“新”“纽约”) bagOfNgrams
复杂的令牌 具有复杂结构的令牌。例如,电子邮件地址或标签。 tokenDetails
上下文 围绕给定标记的标记或字符。 上下文
语料库 文件的集合 tokenizedDocument
文档 对文本数据的单一观察。例如,一份报告、一条推特或一篇文章。 tokenizedDocument
字母 人类可读的角色。一个字素可以由多个Unicode代码点组成。例如,“”,“”,或“語”。 splitGraphemes
语法 N令牌。 bagOfNgrams
演讲的一部分 语法结构中使用的词汇类别。例如,“名词”、“动词”和“形容词”。 addPartOfSpeechDetails
令牌 代表一个文本数据单元的一串字符,也称为“unigram”。例如,一个单词、数字或电子邮件地址。 tokenizedDocument
令牌的细节 关于令牌的信息。例如,类型、语言或词性细节。 tokenDetails
令牌类型 令牌的类别。例如,"letters", "punctuation", or "email address"。 tokenDetails
标记化的文档 分割为令牌的文档。 tokenizedDocument
三个标志连续。例如,(“的”“团结”“国家”) bagOfNgrams
词汇表 语料库或模型中唯一的词或标记。 tokenizedDocument

预处理

术语 定义 更多的信息
正常化 将单词简化为词根。例如,使用词干或词根化将单词“walking”略读为“walk”。 normalizeWords
Lemmatize 将单词简化为字典中的单词(引理形式)。例如,将单词“running”和“ran”略读为“run”。 normalizeWords
阀杆 减少单词的变化。略读单词不一定是一个真正的单词。例如,波特的词根将单词“happy”和“happiest”简化为“happi”。 normalizeWords
停止词 在分析之前,这些词通常被删除。例如"and", "of"和"the"。 removeStopWords

建模和预测

Bag-of-Words

术语 定义 更多的信息
Bag-of-n-grams模型 一个模型,记录n-g在语料库的每个文档中出现的次数。 bagOfNgrams
Bag-of-words模型 记录单词在集合的每个文档中出现次数的模型。 bagOfWords
项频率计数矩阵 与给定词汇表相对应的文档集合中出现的单词的频率计数矩阵。这个矩阵是词汇袋模型的基础数据。 bagOfWords
术语频率-反文档频率(tf-idf)矩阵 一种统计方法,基于文档中的单词频率计数和语料库中包含单词的文档比例。 tfidf

潜在狄利克雷分配

术语 定义 更多的信息
语料库主题概率 用观察语料库中每个主题的概率来拟合LDA模型。 ldaModel
文档主题概率 用于拟合LDA模型的每个文档中观察每个主题的概率。同样,训练文档的主题混合。 ldaModel
潜狄利克雷分配(LDA) 生成的统计主题模型,推断文档中的主题概率和主题中的单词概率。 fitlda
困惑 一个模型描述给定数据的好坏程度的统计度量。越低的困惑表示越适合。 logp
主题 一个词的分布,以“主题词的概率”为特征。 ldaModel
话题集中 语料库主题混合底层Dirichlet分布的浓度参数。 ldaModel
主题的混合物 给定文档中主题的概率。 变换
主题文字概率 单词在给定主题中的概率。 ldaModel
词集中 主题的基础狄利克雷分布的浓度参数。 ldaModel

潜在语义分析

术语 定义 更多的信息
组件的重量 分解的奇异值,平方。 lsaModel
文档得分 用文档的低维空间中的分数向量来拟合LSA模型。 变换
潜在语义分析(LSA) 基于主成分分析(PCA)的降维技术。 fitlsa
单词的分数 LSA模型中每个组件中每个单词的分数。 lsaModel

字嵌入

术语 定义 更多的信息
字嵌入 由word2vec、GloVe和fastText库推广的一种模型,它将词汇表中的单词映射到真实的向量。 wordEmbedding
字嵌入层 深度学习网络层,在训练过程中学习单词嵌入。 wordEmbeddingLayer
字编码 将单词映射为数字索引的模型。 wordEncoding

可视化

术语 定义 更多的信息
文本散点图 在指定坐标而不是标记处绘制文字的散点图。 textscatter
词云 一种显示与数字数据对应大小的单词的图表,通常是频率计数。 wordcloud

另请参阅

||||||||||||

相关的话题