主要内容

Wordembeddings.

单词嵌入模型将单词映射到向量和背部

描述

嵌入单词嵌入,由Word2Vec,手套和FastText库普及,将词汇表中的单词映射到真实的向量。

矢量试图捕获单词的语义,使得类似的单词具有相似的向量。有些嵌入品也捕获单词之间的关系,例如“王是女王,因为男人是女人“。在矢量形式中,这种关系是王 - 男人+女人=女王

创建

通过加载使用嵌入的嵌入使用来创建一个单词嵌入fasttextwordembeddings.,阅读文件中的嵌入使用readwordembeddings.,或通过培训使用嵌入训练喜勒姆贝斯丁

特性

展开全部

嵌入单词的维度,指定为正整数。

例子:300

模型中的唯一单词,指定为字符串向量。

数据类型:细绳

对象功能

vec2word. 地图嵌入矢量到单词
Word2vec. 映射单词嵌入矢量
IsVocabularyWord. 测试如果单词是单词嵌入或编码的成员
withwordembeddings. 写入单词嵌入文件

例子

全部收缩

下载并安装Text Analytics Toolbox™模型对于FastText英语160亿令牌字嵌入万博1manbetx支持包。

类型fasttextwordembeddings.在命令行。

fasttextwordembeddings.

如果是文本分析工具箱模型对于FastText英语160亿令牌字嵌入万博1manbetx不安装支持包,然后该函数提供了在附加资源管理器中的所需支持包的链接。要安装支持包,请单击“链接”,万博1manbetx然后单击安装。通过键入检查安装是否成功emb = fasttextwordembeddings.在命令行。

emb = fasttextwordembeddings.
emb = wordembeddings与属性:维度:300词汇:[1×1000000字符串]

如果安装了所需的支持包,则该函数万博1manbetx返回aWordembeddings.目的。

加载嵌入使用的预磨词fasttextwordembeddings.。此功能需要文本分析工具箱™模型对于FastText英语160亿令牌字嵌入万博1manbetx支持包。如果未安装此支持万博1manbetx包,则该函数提供了下载链接。

emb = fasttextwordembeddings.
emb = wordembeddings与属性:维度:300词汇:[1×1000000字符串]

用“意大利”,“罗马”和“巴黎”来映射使用Word2vec.

意大利= word2vec(emb,“意大利”);罗马= word2vec(emb,“罗马”);巴黎= Word2Vec(emb,“巴黎”);

映射矢量意大利 - 罗马+巴黎使用一个单词vec2word.

Word = vec2word(emb,意大利 - 罗马+巴黎)
Word =“法国”

将一系列令牌化文件转换为使用佩带的单词嵌入的单词向量序列。

使用使用的倒置的Word嵌入倒置的单词fasttextwordembeddings.功能。此功能需要文本分析工具箱™模型对于FastText英语160亿令牌字嵌入万博1manbetx支持包。如果未安装此支持万博1manbetx包,则该函数提供了下载链接。

emb = fasttextwordembedding;

加载出厂报告数据并创建一个令人畏缩的鳕文大批。

filename =.“factoryreports.csv”;数据= readtable(文件名,'texttype''细绳');textdata = data.description;文档= tokenizeddocument(textdata);

将文档转换为使用单词向量的序列doc2sequence.。这doc2sequence.默认情况下,默认情况下,序列具有相同的长度。使用高维文字嵌入转换大量文件时,填充可能需要大量的内存。要防止功能填充数据,请设置'paddingdirection'选择'没有任何'。或者,您可以使用使用的填充量'长度'选项。

序列= doc2sequence(mem,文件,'paddingdirection''没有任何');

查看前10个序列的大小。每个序列都是D.-经过-S.矩阵,其中D.是嵌入的维度,和S.是序列中的单词矢量的数量。

序列(1:10)
ans =.10×1个单元阵列{300×10单} {300×11单} {300×11单} {300×5单} {300×10单} {300×8单} {300×9单} {300×7单} {300×13单}

阅读嵌入的示例单词。该模型是通过分析维基百科的文本来源的。

filename =.“examplewordembedding.vec”;emb = readwordembeddings(文件名)
emb = wordembeddings与属性:尺寸:50词汇:[1x9999字符串]

探索嵌入使用的单词Word2vec.vec2word.

king = word2vec(emb,“国王”);man = word2vec(emb,“男子”);女人= word2vec(emb,“女士”);Word = vec2word(emb,王 - 男人+女人)
Word =“女王”

培训一个单词嵌入并将其写入文本文件。

加载示例数据。文件sonnetspreprocessed.txt.txt.包含Precrocessed版本的莎士比亚的十四行诗。该文件每行包含一个十四行诗,单词由空格分隔。从中提取文本sonnetspreprocessed.txt.txt.,将文本拆分为换行符的文档,然后授权文档。

filename =.“sonnetspreprocessed.txt”;str = inthelfiletext(filename);textdata = split(str,newline);文档= tokenizeddocument(textdata);

培训嵌入使用的词训练喜勒姆贝斯丁

emb = trainwordembeddings(文件)
培训:100%损失:0剩余时间:0小时0分钟。
emb = wordembeddings与属性:尺寸:100词汇:[1x401字符串]

将嵌入到文本文件的单词写入文本文件。

filename =.“idesidonsembeddings.vec”;withwordembeddings(emb,filename)

阅读嵌入文件的单词使用readwordembeddings.

emb = readwordembeddings(文件名)
emb = wordembeddings与属性:尺寸:100词汇:[1x401字符串]
在R2017B中介绍