Wordembeddings.

单词嵌入模型将单词映射到向量和背部

展开所有页面

描述

嵌入单词嵌入，由Word2Vec，手套和FastText库普及，将词汇表中的单词映射到真实的向量。

矢量试图捕获单词的语义，使得类似的单词具有相似的向量。有些嵌入品也捕获单词之间的关系，例如“王是女王，因为男人是女人“。在矢量形式中，这种关系是王 - 男人+女人=女王。

创建

通过加载使用嵌入的嵌入使用来创建一个单词嵌入fasttextwordembeddings.，阅读文件中的嵌入使用readwordembeddings.，或通过培训使用嵌入训练喜勒姆贝斯丁。

特性

展开全部

`尺寸`-单词嵌入的维度
正整数

嵌入单词的维度，指定为正整数。

例子：300

`词汇`-模型中的独特单词
弦矢量

模型中的唯一单词，指定为字符串向量。

数据类型：细绳

对象功能

`vec2word.`	地图嵌入矢量到单词
`Word2vec.`	映射单词嵌入矢量
`IsVocabularyWord.`	测试如果单词是单词嵌入或编码的成员
`withwordembeddings.`	写入单词嵌入文件

例子

全部收缩

下载FastText支持包万博1manbetx

下载并安装Text Analytics Toolbox™模型对于FastText英语160亿令牌字嵌入万博1manbetx支持包。

类型fasttextwordembeddings.在命令行。

fasttextwordembeddings.

如果是文本分析工具箱模型对于FastText英语160亿令牌字嵌入万博1manbetx不安装支持包，然后该函数提供了在附加资源管理器中的所需支持包的链接。要安装支持包，请单击“链接”，万博1manbetx然后单击安装。通过键入检查安装是否成功emb = fasttextwordembeddings.在命令行。

emb = fasttextwordembeddings.

emb = wordembeddings与属性：维度：300词汇：[1×1000000字符串]

如果安装了所需的支持包，则该函数万博1manbetx返回aWordembeddings.目的。

地图单词到向量和背部

打开直播脚本

加载嵌入使用的预磨词fasttextwordembeddings.。此功能需要文本分析工具箱™模型对于FastText英语160亿令牌字嵌入万博1manbetx支持包。如果未安装此支持万博1manbetx包，则该函数提供了下载链接。

emb = fasttextwordembeddings.

emb = wordembeddings与属性：维度：300词汇：[1×1000000字符串]

用“意大利”，“罗马”和“巴黎”来映射使用Word2vec.。

意大利= word2vec（emb，“意大利”）;罗马= word2vec（emb，“罗马”）;巴黎= Word2Vec（emb，“巴黎”）;

映射矢量意大利 - 罗马+巴黎使用一个单词vec2word.。

Word = vec2word（emb，意大利 - 罗马+巴黎）

Word =“法国”

将文档转换为单词向量序列

打开直播脚本

将一系列令牌化文件转换为使用佩带的单词嵌入的单词向量序列。

使用使用的倒置的Word嵌入倒置的单词fasttextwordembeddings.功能。此功能需要文本分析工具箱™模型对于FastText英语160亿令牌字嵌入万博1manbetx支持包。如果未安装此支持万博1manbetx包，则该函数提供了下载链接。

emb = fasttextwordembedding;

加载出厂报告数据并创建一个令人畏缩的鳕文大批。

filename =.“factoryreports.csv”;数据= readtable（文件名，'texttype'那'细绳'）;textdata = data.description;文档= tokenizeddocument（textdata）;

将文档转换为使用单词向量的序列doc2sequence.。这doc2sequence.默认情况下，默认情况下，序列具有相同的长度。使用高维文字嵌入转换大量文件时，填充可能需要大量的内存。要防止功能填充数据，请设置'paddingdirection'选择'没有任何'。或者，您可以使用使用的填充量'长度'选项。

序列= doc2sequence（mem，文件，'paddingdirection'那'没有任何'）;

查看前10个序列的大小。每个序列都是D.-经过-S.矩阵，其中D.是嵌入的维度，和S.是序列中的单词矢量的数量。

序列（1:10）

ans =.10×1个单元阵列{300×10单} {300×11单} {300×11单} {300×5单} {300×10单} {300×8单} {300×9单} {300×7单} {300×13单}

读取从文本文件嵌入的单词

打开直播脚本

阅读嵌入的示例单词。该模型是通过分析维基百科的文本来源的。

filename =.“examplewordembedding.vec”;emb = readwordembeddings（文件名）

emb = wordembeddings与属性：尺寸：50词汇：[1x9999字符串]

探索嵌入使用的单词Word2vec.和vec2word.。

king = word2vec（emb，“国王”）;man = word2vec（emb，“男子”）;女人= word2vec（emb，“女士”）;Word = vec2word（emb，王 - 男人+女人）

Word =“女王”

写入文件嵌入文件

打开直播脚本

培训一个单词嵌入并将其写入文本文件。

加载示例数据。文件sonnetspreprocessed.txt.txt.包含Precrocessed版本的莎士比亚的十四行诗。该文件每行包含一个十四行诗，单词由空格分隔。从中提取文本sonnetspreprocessed.txt.txt.，将文本拆分为换行符的文档，然后授权文档。

filename =.“sonnetspreprocessed.txt”;str = inthelfiletext（filename）;textdata = split（str，newline）;文档= tokenizeddocument（textdata）;

培训嵌入使用的词训练喜勒姆贝斯丁。

emb = trainwordembeddings（文件）

培训：100％损失：0剩余时间：0小时0分钟。

emb = wordembeddings与属性：尺寸：100词汇：[1x401字符串]

将嵌入到文本文件的单词写入文本文件。

filename =.“idesidonsembeddings.vec”;withwordembeddings（emb，filename）

阅读嵌入文件的单词使用readwordembeddings.。

emb = readwordembeddings（文件名）

emb = wordembeddings与属性：尺寸：100词汇：[1x401字符串]

也可以看看

话题

在R2017B中介绍

Wordembeddings.

描述

创建

特性

`尺寸`-单词嵌入的维度
正整数

`词汇`-模型中的独特单词
弦矢量

对象功能

例子

下载FastText支持包万博1manbetx

地图单词到向量和背部

将文档转换为单词向量序列

读取从文本文件嵌入的单词

写入文件嵌入文件

也可以看看

话题

文本分析工具箱文档

万博1manbetx

在Matlab中的文本分析入门

Wordembeddings.

描述

创建

特性

尺寸-单词嵌入的维度正整数

词汇-模型中的独特单词弦矢量

对象功能

例子

下载FastText支持包万博1manbetx

地图单词到向量和背部

将文档转换为单词向量序列

读取从文本文件嵌入的单词

写入文件嵌入文件

也可以看看

话题

文本分析工具箱文档

万博1manbetx

在Matlab中的文本分析入门

`尺寸`-单词嵌入的维度
正整数

`词汇`-模型中的独特单词
弦矢量