doc2sequence
描述
例子
将文档转换为序列的指数
加载工厂报告数据和创建一个tokenizedDocument
数组中。
文件名=“factoryReports.csv”;data = readtable(文件名,“TextType”,“字符串”);textData = data.Description;文件= tokenizedDocument (textData);
创建一个词编码。
内附= wordEncoding(文件);
将文档转换为序列的指数。
序列= doc2sequence (enc,文档);
视图的大小头10序列。每个序列1 -年代向量,年代序列是词的数量指标。由于序列填充,年代是恒定的。
序列(1:10)
ans =10×1单元阵列{[0 0 0 0 0 0 0 1 2 3 4 5 6 7 8 9 10]}{[0 0 0 0 0 0 2 16 17 18 19 11 12 13 14 15 10]}{[0 0 0 0 0 0 20 2 7 7 21日22日23日24日25日26日10]}{[0 0 0 0 0 0 0 0 0 0 0 27 28 6 7 18 10]}{[0 0 0 0 0 0 0 0 0 0 0 0 29 30 7 31 10]}{[0 0 0 0 0 0 0 32 33 6 7 34 35 36 37 38 10]}{[0 0 0 0 0 0 0 0 0 39 40 36 41 6 7 42 10]}{[0 0 0 0 0 0 0 0 43 44 22 45 46 47 7 48 10]}{[0 0 0 0 0 0 0 0 0 0 49 50 17 7 51 48 10]}{52 [0 0 0 0 8 53 36 54 55 56 57 58 59 22 60 10]}
将文档转换成向量序列的词
数组标记化的文档转换为词向量使用pretrained嵌入的序列。
加载一个pretrained字嵌入使用fastTextWordEmbedding
函数。这个函数需要文本分析工具箱™模型160亿年fastText英语嵌入标记词万博1manbetx支持包。如果这种支持包没万博1manbetx有安装,那么函数提供一个下载链接。
emb = fastTextWordEmbedding;
加载工厂报告数据和创建一个tokenizedDocument
数组中。
文件名=“factoryReports.csv”;data = readtable(文件名,“TextType”,“字符串”);textData = data.Description;文件= tokenizedDocument (textData);
将文档转换为使用的词序列向量doc2sequence
。的doc2sequence
函数,默认情况下,left-pads序列长度相同。当转换大量使用高维字嵌入文档,填充需要大量内存。防止函数填充数据,设置“PaddingDirection”
选项“没有”
。或者,您可以控制的填充量使用“长度”
选择。
序列= doc2sequence (emb、文档“PaddingDirection”,“没有”);
视图的大小头10序列。每个序列D——- - - - - -年代矩阵,D嵌入维数,年代在序列词向量的个数。
序列(1:10)
ans =10×1单元阵列{300×10单}{300×11单}{300×11单}{300×6单}{300×5单}{300×10单}{300×8单}{300×9单}{300×7单}{300×13单}
垫或截断序列指定长度
转换文档的集合词向量使用pretrained嵌入序列,序列和垫或截断到指定长度。
加载一个pretrained字嵌入使用fastTextWordEmbedding
。这个函数需要文本分析工具箱™模型160亿年fastText英语嵌入标记词万博1manbetx支持包。如果这种支持包没万博1manbetx有安装,那么函数提供一个下载链接。
emb = fastTextWordEmbedding;
加载工厂报告数据和创建一个tokenizedDocument
数组中。
文件名=“factoryReports.csv”;data = readtable(文件名,“TextType”,“字符串”);textData = data.Description;文件= tokenizedDocument (textData);
将文档转换为序列词向量。指定left-pad或截断序列长度为100。
序列= doc2sequence (emb、文档“长度”,100);
视图的大小头10序列。每个序列D——- - - - - -年代矩阵,D嵌入维数,年代词向量的个数在序列(序列长度)。因为指定序列的长度,年代是恒定的。
序列(1:10)
ans =10×1单元阵列{300×100单}{300×100单}{300×100单}{300×100单}{300×100单}{300×100单}{300×100单}{300×100单}{300×100单}{300×100单}
输入参数
循证
- - - - - -输入字嵌入
wordEmbedding
对象
输入字嵌入,指定为一个wordEmbedding
对象。
内附
- - - - - -输入字编码
wordEncoding
对象
输入文字编码,指定为一个wordEncoding
对象。
文档
- - - - - -输入文档
tokenizedDocument
数组
输入文件,指定为一个tokenizedDocument
数组中。
名称-值参数
指定可选的双参数作为Name1 = Value1,…,以=家
,在那里的名字
参数名称和吗价值
相应的价值。名称-值参数必须出现在其他参数,但对的顺序无关紧要。
R2021a之前,用逗号来分隔每一个名称和值,并附上的名字
在报价。
例子:“长度”、“最短的
这样的序列有相同的长度最短的序列。
UnknownWord
- - - - - -生词的行为
“丢弃”
(默认)|“南”
未知词行为,指定为逗号分隔组成的“UnknownWord”
和下列之一:
“丢弃”
——如果一个字输入地图,然后丢弃它。“南”
——如果一个字输入地图,然后返回南
价值。
提示
如果要创建序列训练与字嵌入深度学习网络,使用“丢弃”
。不要使用序列南
值,因为这样做可以通过网络传播错误。
PaddingDirection
- - - - - -填充方向
“左”
(默认)|“对”
|“没有”
填充方向,指定为逗号分隔组成的“PaddingDirection”
和下列之一:
“左”
——左边垫序列。“对”
——垫序列在右边。“没有”
——不垫序列。
提示
当转换使用高维海量数据嵌入,填充需要大量内存。防止函数添加太多的填充,设置“PaddingDirection”
选项“没有”
或一组“长度”
一个较小的值。
PaddingValue
- - - - - -填充的值
0(默认)|数字标量
填充值,指定为逗号分隔组成的“PaddingValue”
和一个数字标量。不垫序列南
,因为这样做可以通过网络传播错误。
数据类型:单
|双
|int8
|int16
|int32
|int64
|uint8
|uint16
|uint32
|uint64
长度
- - - - - -序列长度
“最长”
(默认)|“最短”
|正整数
序列长度指定为逗号分隔组成的“长度”
和下列之一:
“最长”
——垫序列有相同的长度最长的序列。“最短”
——截断序列有相同的长度最短的序列。正整数——垫或截断序列指定的长度。右边的函数序列。
数据类型:单
|双
|int8
|int16
|int32
|int64
|uint8
|uint16
|uint32
|uint64
|字符
|字符串
输出参数
序列
——输出序列
单元阵列
输出序列,作为细胞数组返回。
字嵌入输入的我th元素序列
是一个矩阵的向量对应我输入文档。
字编码输入的我th元素序列
是一个向量的编码指标对应我输入文档。
提示
当转换使用高维海量数据嵌入,填充需要大量内存。防止函数添加太多的填充,设置
“PaddingDirection”
选项“没有”
或一组“长度”
一个较小的值。
版本历史
介绍了R2018b
Abrir比如
这种版本modificada德埃斯特比如。害怕Desea abrir埃斯特比如con sus modificaciones吗?
第一de MATLAB
Ha事实clic en联合国围绕此时一个埃斯特第一de MATLAB:
Ejecute el第一introduciendolo en la ventana de第一de MATLAB。洛杉矶navegadores网络没有admiten第一de MATLAB。
你也可以从下面的列表中选择一个网站:
表现最好的网站怎么走吗
选择中国网站(中文或英文)最佳站点的性能。其他MathWorks国家网站不优化的访问你的位置。