什么是word2vec?

文本分析的单词嵌入模型

Word2Vec是Word Embedation的最受欢迎的实现之一。它用于创建单词的分布式表示为数字向量。Word2VEC将文本转换为捕获词语之间的语义和关系的向量。一个语义的一个例子是意大利和罗马之间的关系是如何与法国和巴黎之间的关系类似,所以意大利 - 罗马+巴黎≈法国。

文本分析工作流程:使用Word2VEC将文本转换为数字

典型的文本分析工作流包括预处理,将文本转换为数字和模型构建。单词嵌入(例如Word2VEC)是将文本转换为数字的流行方法之一。将文本转换为数字的其他方法是:

Word2Vec在其他方法中的优势是其识别类似单词的能力。Word Embeddings(如Word2Vec)在许多文本分析应用程序中显示了更好的准确性。

嵌入Word2vec的替代方案

除了Word2Vec外,Word Embedding的其他流行实施是手套和FastText.。这些实现之间的差异是使用的算法类型和用于创建模型的训练的初始文本语料库。Word2VEC使用连续的单词(CBOW)和Skip-Gram算法来培训初始文本语料库。

您可以使用工作流程中的现有预磨词嵌入式模型,例如Word2Vec。或者,您可以创建自己的单词嵌入式模型。有些事情要考虑是:

  • 预先训练的模型,如Word2VEC,使其易于开始,但可能缺乏高精度文本分析应用程序所需的域特定词。
  • 创建自定义模型更耗时,但自定义模型可以在特定于域的应用程序中更好地执行。

您还可以在深度学习网络中包含一个预先灌注的单词嵌入层,例如Word2VEC,并继续培训它进行特定应用程序。

文本分析工具箱™,与Matlab一起使用®,有函数读取由Word2VEC,手套和的Word Embeddings和FastText.与之Wordembeddings.目的。

要了解有关使用Word2VEC和构建文本数据的建筑模型的更多信息,请参阅文本分析工具箱

也可以看看:自然语言处理情绪分析与matlab的文本挖掘数据科学深度学习深度学习工具箱™统计和机器学习工具箱™预测维护工具箱™n-gram.