文档帮助中心文档
组合多个bag-of-words或bag-of-n-grams模型
newBag =加入(袋)
newBag =加入(袋、暗)
例子
newBag=加入(袋)组合数组中的元素袋通过合并频率计数。该函数将第一维不等于1的元素组合起来。
newBag=加入(袋)
newBag
袋
newBag=加入(袋,昏暗的)组合数组中的元素袋沿着维度昏暗的.
newBag=加入(袋,昏暗的)
昏暗的
全部折叠
从标记化的文档中创建一个由两个词袋模型组成的数组。
str = [...一个短句的例子第二个短句];文件= tokenizedDocument (str);袋(1)= bagOfWords(文档(1));袋(2)= bagOfWords(文档(2))
袋=1×2对象带有属性的1x2 bagOfWords数组:计数词汇量NumWords NumDocuments
结合单词袋模型使用加入.
加入
袋=加入(袋)
bag = bagOfWords with properties: Counts: [2x7 double]NumWords: 7 NumDocuments: 2
如果您的文本数据包含在一个文件夹中的多个文件中,那么您可以导入文本数据并使用并行创建单词包模型parfor.如果您安装了并行计算工具箱™,则parfor循环以并行方式运行,否则,它以串行方式运行。使用加入将一组词汇袋模型组合成一个模型。
parfor
从文件集合创建单词袋模型。示例十四行诗有文件名"exampleSonnetN.txt”,N是十四行诗的编号。获取文件的列表和他们的位置使用dir.
exampleSonnetN.txt
N
dir
fileLocation = fullfile (matlabroot,“例子”,“textanalytics”,“exampleSonnet * . txt”);fileInfo = dir (fileLocation)
fileInfo = 0x1带有字段的空结构数组:name folder date bytes isdir datenum
初始化一个空的单词包模型,然后循环遍历这些文件并创建一个单词包模型数组。
袋= bagOfWords;numFiles =元素个数(fileInfo);parfori = 1:numFiles f = fileInfo(i);文件名= fullfile (f.folder f.name);textData = extractFileText(文件名);文档= tokenizedDocument (textData);袋(我)= bagOfWords(文档);结束
bag = bagOfWords with properties: Counts: [] Vocabulary: [1x0 string] NumWords: 0 NumDocuments: 0
bagOfWords
bagOfNgrams
包-单词或包-n-grams模型的数组,指定为bagOfWords数组或一个bagOfNgrams数组中。如果袋是一个bagOfNgrams的值,则要连接的每个元素必须具有相同的NgramLengths财产。
NgramLengths
连接模型的维度,指定为正整数。如果昏暗的,则默认为大小不等于1的第一个维度。
输出模型,作为bagOfWords对象或一个bagOfNgrams对象。的类型newBag是同类型的吗袋.newBag具有与输入模型相同的数据类型,并且在被连接的维度上的大小为1。
bagOfWords|bagOfNgrams|addDocument|removeDocument|removeEmptyDocuments|topkwords|topkngrams|编码|tfidf|tokenizedDocument
addDocument
removeDocument
removeEmptyDocuments
topkwords
topkngrams
编码
tfidf
tokenizedDocument
您有这个示例的修改版本。您想打开这个示例与您的编辑吗?
你点击一个链接对应于这个MATLAB命令:
通过在MATLAB命令窗口中输入命令来运行命令。Web浏览器不支持MATLAB命令。万博1manbetx
选择一个网站,在那里获得翻译的内容,并看到当地的活动和优惠。根据您的位置,我们建议您选择:.
你也可以从以下列表中选择一个网站:
选择中国网站(中文或英文)以获得最佳网站性能。其他MathWorks国家站点没有针对您所在位置的访问进行优化。
与当地办事处联系