主要内容

fastTextWordEmbedding

预训练fastText字嵌入

描述

例子

循证= fastTextWordEmbedding返回一个300维预先训练的嵌入100万个英语单词的单词。

此函数需要文本分析工具箱™模型fastText English 160亿Token字嵌入万博1manbetx支持包。如果没有安装此支万博1manbetx持包,则该功能提供下载链接。

例子

全部折叠

下载及安装文本分析工具箱模型fastText English 160亿Token字嵌入万博1manbetx支持包。

类型fastTextWordEmbedding在命令行。

fastTextWordEmbedding

如果文本分析工具箱模型fastText English 160亿Token字嵌入万博1manbetxsupport包未安装,则该功能将在Add-On资源管理器中提供到所需支持包的链接。如果需要安装支持包,请单击链接万博1manbetx,然后单击安装.输入命令检查安装是否成功emb = fasttextwordem寝食在命令行。

emb = fasttextwordem寝食
emb = wordem寝具属性:维数:300词汇:[1×1000000 string]

如果安装了所需的支持包,则函数返万博1manbetx回一个wordEmbedding对象。

加载一个预先训练的词嵌入使用fastTextWordEmbedding.此功能需要文本分析工具箱™模型fastText English 160亿Token字嵌入万博1manbetx支持包。如果没有安装此支万博1manbetx持包,则该功能提供下载链接。

emb = fasttextwordem寝食
emb = wordem寝具属性:维数:300词汇:[1×1000000 string]

将单词“意大利”、“罗马”和“巴黎”映射到使用的向量word2vec

意大利;意大利;“意大利”);罗马,罗马;“罗马”);巴黎;“巴黎”);

映射矢量意大利-罗马+巴黎用一个词vec2word

Word = vec2word(emb,意大利-罗马+巴黎)
word =“法国”

使用预先训练的单词嵌入将标记文档数组转换为单词向量序列。

方法加载预训练的单词嵌入fastTextWordEmbedding函数。此功能需要文本分析工具箱™模型fastText English 160亿Token字嵌入万博1manbetx支持包。如果没有安装此支万博1manbetx持包,则该功能提供下载链接。

emb = fasttextwordem寝食;

加载工厂报告数据并创建一个tokenizedDocument数组中。

文件名=“factoryReports.csv”;数据= readtable(文件名,“TextType”“字符串”);textData = data.Description;documents = tokenizedDocument(textData);

将文档转换为字向量序列doc2sequence.的doc2sequence函数,默认情况下,左垫片的序列具有相同的长度。在使用高维字嵌入转换大量文档集合时,填充可能需要大量内存。若要防止函数填充数据,请设置“PaddingDirection”选项“没有”.控件控制填充的数量“长度”选择。

Sequences = doc2sequence(emb,documents,“PaddingDirection”“没有”);

查看前10个序列的大小。每个序列是D——- - - - - -年代矩阵,D是嵌入维数,和年代是序列中字向量的个数。

序列(1:10)
ans =10×1单元格数组{300×10单}{300×11单}{300×11单}{300×6单}{300×5单}{300×10单}{300×8单}{300×9单}{300×7单}{300×13单}

输出参数

全部折叠

预训练的词嵌入,返回为wordEmbedding对象。

版本历史

在R2018a中介绍