上下文
文档搜索单词或语法出现在上下文
描述
例子
文档搜索词出现
加载示例数据。该文件sonnetsPreprocessed.txt
莎士比亚的十四行诗的包含预处理版本。文件包含每行一个十四行诗,单词之间用一个空格来分隔。提取的文本sonnetsPreprocessed.txt
在换行字符,文本分割成文档,然后标记文件。
文件名=“sonnetsPreprocessed.txt”;str = extractFileText(文件名);textData =分裂(str,换行符);文件= tokenizedDocument (textData);
寻找“生命”这个词。
台=上下文(文档,“生命”);头(台)
上下文文档词________________________________________________________ ________——”consumst你自己单身生活啊你徒劳的”9 10“不是假冒行生活生活修复次铅笔”16 35 d假冒行生活生活修复铅笔基金会的“16 36“天知道墓藏生活展示半部分编写b”17日14”他眼睛长给生活你“18 69年“温柔的大使馆爱你生活四个二沉”45 23“大美虽然情人生活美丽黑色线条”63年50 s剪掉第二生活第二头在美”68年27
查看事件在一个字符串数组。
tbl.Context
ans =23 x1字符串“consumst你自己单身生活啊你徒劳的”“不是假冒行生活生活修复次铅笔”“d假冒行生活生活修复次铅笔基金会”“天知道墓藏生活展示半部分编写b”“他眼睛长给生活你”“温柔的大使馆爱你生活四个二沉”“大美虽然情人生活美丽黑色线条”“s剪掉第二生活第二头在美”“e排练让爱甚至生命衰变以免智慧世界lo”“圣保释带走生活有兴趣memor”“艺术你生活失去了渣滓猎物蠕虫身体死牛”“思想食品生活sweetseasond淋浴gro”“tten名字因此不朽的生命虽然一旦w”“美沉默的人给生命带来墓生活fa”“已经把坟墓的生活生活公平眼睛诗人赞美d”“偷你自己去生活你是我向李”一词“菲你放心我的生活不再你的爱留在dep”“恐惧严重错误至少生活有更好的状态是“结束”anst烦恼变化无常的心灵、生活你反抗难道撒谎啊,哈哈”“名声更快时间浪费生命你preventst镰刀cr”“ess有害行为更好的生活提供公共酒吧”“吃讨厌把savd生活说““许多仙女vowd贞洁的生活保持了跳闸maide”
搜索文档的语法现象
加载示例数据。该文件sonnetsPreprocessed.txt
莎士比亚的十四行诗的包含预处理版本。文件包含每行一个十四行诗,单词之间用一个空格来分隔。提取的文本sonnetsPreprocessed.txt
在换行字符,文本分割成文档,然后标记文件。
文件名=“sonnetsPreprocessed.txt”;str = extractFileText(文件名);textData =分裂(str,换行符);文件= tokenizedDocument (textData);
寻找三元的“你”。
ngram = [“难道”“你”];台=上下文(文档、ngram);头(台)
上下文文档词_____________________________________________________________说“unthrifty可爱为什么你花你的自我”4 4 5“ee美丽的吝啬鬼为什么你滥用慷慨的慷慨”4 25 26”已经无益的高利贷者为什么你伟大的金额总和能”4 35 36“eavy眼睑疲惫的晚上你渴望睡眠后破碎的年代”61 10 11“甜蜜可爱的你让耻辱像溃疡f 95 3 4“hy出芽的名字啊,糖果你你的罪将舌头“95 19 20“露丝美爱取决于你在庄严的“101 16 17“你盲目的傻瓜爱你我的眼睛看哪知道是“137 5 6
查看事件在一个字符串数组。
tbl.Context
ans =10 x1字符串“unthrifty可爱为什么你花你的自我”“ee美丽的吝啬鬼为什么你滥用慷慨的慷慨”“已经无益的高利贷者为什么你伟大的金额总和能”“eavy眼睑疲惫的晚上你欲望的睡眠后破碎的年代”“甜蜜可爱的你让耻辱像溃疡f”“hy出芽的名字啊,糖果你你的罪将舌头”“露丝美爱取决于你在庄严的做出““你盲目的傻瓜爱你我的眼睛看哪知道是“h”反叛力量数组为什么你松遭受缺乏漆”“y大量成本短期租赁你你衰落公馆”
指定上下文的长度
加载示例数据。该文件sonnetsPreprocessed.txt
莎士比亚的十四行诗的包含预处理版本。文件包含每行一个十四行诗,单词之间用一个空格来分隔。提取的文本sonnetsPreprocessed.txt
在换行字符,文本分割成文档,然后标记文件。
文件名=“sonnetsPreprocessed.txt”;str = extractFileText(文件名);textData =分裂(str,换行符);文件= tokenizedDocument (textData);
寻找“生命”这个词并返回每个发生之前和之后返回上下文。
台=上下文(文档,“生命”15);头(台)
上下文文档词____________________________________ ________——”自己为什么单身生活啊你issuel”9 10“nterfeit行生活生活修复ti”16 35“eit行生活生活修复乘以p”16 36“ows坟墓里隐藏的生活显示一半par”17日14“ng”给生活你18 69年“装配爱你生活了四两”45 23“尽管恋人生活美自63年b”50“ay住第二人生第二头er”68年27
查看事件在一个字符串数组。
tbl.Context
ans =23 x1字符串“hy自我单身生活啊你issuel”“nterfeit行生活生活修复ti”“eit行生活生活修复乘以p”“ows坟墓里隐藏的生活显示一半par”“ng给生活你”“装配爱你生活了四两”“虽然情人生活美应当b”“是的生活第二人生第二头呃”“让爱甚至生命衰变以免威斯康星州”“带走一生所行强度”“ast失去渣滓生活猎物蠕虫bod”“思想食品生活sweetseasond年代”“因此不朽的生命虽然o”“te别人给的生活带来墓押尾学”“ing墓生活生活公平眼睛诗人”“自我生活你是阿舒尔”一词“t保证我的生活不再你的值列表”“t错误至少生活有贝蒂”“nconstant心灵、生活你反抗点”“呃时间浪费生命你preventst”“l”行为更好的生活提供公共“扔savd生活方式说”“hs vowd贞洁的生活保持了旅行”
指定源文本
指定源文本显示上下文。
加载sonnets.txt
数据分割成单独的文件。
txt = extractFileText (“sonnets.txt”);段落=分裂(txt(换行换行));
提取的十四行诗段落
。第一个十四行诗是段落的第五元素,剩下的十四行诗出现在每秒钟元素之后。
十四行诗=段落(5:2:结束);文件= tokenizedDocument(十四行诗);
标准化的文本,然后寻找“生命”这个词。
documentsNormalized = normalizeWords(文件);T =上下文(documentsNormalized,“生命”)
T =23日×3表上下文文档________________________________________________________ ________ ____”和singl生活中刻画你的自我?啊!你若无子女的“9 18”:应该的生活,所以生活修复,这“73”ld的生活生活修复,这,蒂姆“75”的坟墓隐藏你的生活,并显示一半你住这“17 34”,和这给你生命。“18 128”ssi的爱你,我的生活,由四个,45 53 eauti,尽管我的爱人的生活:嗨,美丽女孩应当在100年“63”awai,第二生活第二头;er博“68 59”t甚至你的爱与我的生活decai;以免聪明的我们要生产我awai“71 - 118”,我的生活已经在这一行有些“74 18”ast但失去生命的渣滓,蠕虫的prei,“74 - 83”我认为食物来生活,或如sweet-season所“75 10”你的名字从henc immort生活应当有,虽然我,“81年42”,当其他会给生活,带一个坟墓。108年“83”一个坟墓。生活有更多的生活在你的公平是th awai碰到“83 - 118”,我的生活你是阿舒尔;一个“92年13⋮
因为这句话是规范化,环境可能不容易阅读。查看使用原始文本的上下文数据,指定源文本使用“源”
选择。
T =上下文(documentsNormalized,“生命”,“源”十四行诗)
T =23日×3表上下文文档________________________________________________________ ________ ____”嗯刻画你的自我在单身生活吗?啊!你若无子女的年代“9 18”:应该的生活,生命修复,“73”d的生活生活修复,这,时间“75”坟墓里隐藏了你的生活,和一半你的“17 34”类型,并且赐给你生命。“18 128”组件的爱你,我的生活,是由四个,智慧”45 53“徒有其表,尽管我的爱人的生活:他的美丽的“63”100 n,第二生活第二头;跟前男友“68 59”t甚至你的爱和我的生命衰变;以免智者磨破“71 118”带着我走,我的生活已经在这条线我“74年18”圣但失去生命的渣滓,蠕虫的猎物,我的b“74”83年啊,我的想法为食物的生活,或者是sweet-season从因此sh“75”10名不朽的生命,虽然我在“81 42”,当别人给予的生活,带来了坟墓。108年“83”一个坟墓。生活有更多的生活在你的一个公平的眼睛“83 118”hyself之外,我的生活你是保证;“92 13⋮
输入参数
文档
- - - - - -输入文档
tokenizedDocument
数组
输入文件,指定为一个tokenizedDocument
数组中。
词
- - - - - -词来找到
字符串标量|特征向量|标量单元阵列
词在上下文,指定为一个字符串标量,特征向量,或标量单元阵列包含一个特征向量。
数据类型:字符
|字符串
|细胞
ngram
- - - - - -语法找
字符串数组|单元阵列的特征向量
语法在上下文、指定为字符串数组或单元阵列的特征向量。
ngram
有大小1
——- - - - - -N
,在那里N
语法是词的数量。的价值ngram (j)
是j
词的语法。
忽略了落后于空字符串的函数ngram
。
数据类型:字符串
|细胞
contextLength
- - - - - -上下文的长度
25(默认)|正整数
上下文长度指定为一个正整数。
名称-值参数
指定可选的双参数作为Name1 = Value1,…,以=家
,在那里的名字
参数名称和吗价值
相应的价值。名称-值参数必须出现在其他参数,但对的顺序无关紧要。
R2021a之前,用逗号来分隔每一个名称和值,并附上的名字
在报价。
例子:“规划求解”、“真空断路”
指定使用近似变分求解贝叶斯。
源
- - - - - -源文本
字符串数组|单元阵列的特征向量
源文本,指定为逗号分隔组成的“源”
和一个字符串数组或单元阵列的特征向量。如果输入文档预处理和源文本,然后你就可以使用这个选项使输出更加可读。
源文本必须是相同的大小文档
。
IgnoreCase
- - - - - -选项来忽略大小写
假
(默认)|真正的
选项来忽略大小写,指定为逗号分隔组成的“IgnoreCase”
和下列之一:
假
——搜索单词或语法完全匹配的事件。真正的
——搜索出现匹配的单词或语法忽略的情况。
输出参数
T
表的上下文
表
环境与这些表列:
上下文 |
字符串包含查询词或语法在上下文 |
文档 |
数字索引的文档,其中包含单词或语法 |
词 |
数字索引的文档中单词或语法 |
版本历史
介绍了R2017b
MATLAB命令
你点击一个链接对应MATLAB命令:
运行该命令通过输入MATLAB命令窗口。Web浏览器不支持MATLAB命令。万博1manbetx
你也可以从下面的列表中选择一个网站:
表现最好的网站怎么走吗
选择中国网站(中文或英文)最佳站点的性能。其他MathWorks国家网站不优化的访问你的位置。