主要内容

分析日语文本数据

这个例子展示了如何使用主题模型导入、准备和分析日语文本数据。

日语文本数据可能很大,并且可能包含大量对统计分析产生负面影响的噪声。例如,文本数据可以包含以下内容:

  • 词形的变化。例如,“難しい”(“困难”)和“難しかった”(“很困难”)

  • 增加噪音的词语。例如,停止词如“あそこ”(“那里”)、“あたり”(“约”)和“あちら”(“”)

  • 标点符号和特殊字符

这些词云说明了夏目漱石对一些来自“吾輩は猫である”的原始文本数据应用的词频分析,以及相同文本数据的预处理版本。

本例首先展示了如何导入和准备日语文本数据,然后展示了如何使用潜狄利克雷分配(Latent Dirichlet Allocation, LDA)模型分析文本数据。LDA模型是一个主题模型,它发现文档集合中的潜在主题,并推断主题中的单词概率。使用以下步骤来准备文本数据和拟合模型:

  • 从网站上阅读HTML代码。

  • 解析HTML代码并提取相关数据。

  • 使用标准预处理技术准备文本数据进行分析。

  • 拟合主题模型并将结果可视化。

导入数据

由夏目漱石从“吾輩は猫である”读取数据https://www.aozora.gr.jp/cards/000148/files/789_14547.html使用webread函数。

属性指定文本的字符编码weboptions函数。要找到HTML的正确字符编码,请查看HTML代码的头部。对于此文件,将字符编码指定为“Shift_JIS”

url =“https://www.aozora.gr.jp/cards/000148/files/789_14547.html”;选项= weboptions(“CharacterEncoding”“Shift_JIS”);代码= webread(url,options);

查看HTML代码的前几行。

extractBefore(代码,“<脚本”
Ans = ' < !DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.1//EN" "http://www.w3.org/TR/xhtml11/DTD/xhtml11.dtd">      夏目漱石吾輩は猫である




 '

从HTML中提取文本数据extractHTMLText.将文本按换行符字符。

textData = extractHTMLText(代码);textData = string(split(textData,newline));textData (1:10)
ans =10×1字符串数组”吾輩は猫である" "" "夏目漱石" "" "" "" "一" "" "吾輩は猫である。名前はまだ無い。”“どこで生れたかとんと見当がかぬ。何でも薄暗いじめじめした所でニャ,ニャ,泣いていた事だけは記憶している。吾輩はここで始めて人間というものを見た。しかもあとで聞くとそれは書生という人間中で一番獰悪な種族であったそうだ。この書生というのは時々我々を捕えて煮て食うという話である。しかしその当時は何という考もなかったから別段恐しいとも思わなかった。ただ彼の掌に載せられてスと持上げられた時何だかフワフワした感じがあったばかりである。掌の上で少し落いて書生の顔を見たのがいわゆる人間というものの見始であろう。この時妙なものだと思った感じが今でも残っている。第一毛をもって装飾されべきはずの顔がるしてまるで薬缶だ。その後猫にもだいぶ逢ったがこんな片輪には一度も出会わした事がない。のみならず顔の真中があまりに突起している。そうしてその穴の中から時々ぷうぷうと煙を吹く。どうも咽せぽくて実に弱った。これが人間の飲む煙草というものである事はようやくこの頃知った。”

删除文本中的空行。

idx = textData =="";textData(idx) = [];textData (1:10)
ans =10×1字符串数组“吾輩は猫である”“夏目漱石" " " "一”“吾輩は猫である。”名前はまだ無い。”“どこで生れたかとんと見当がかぬ。何でも薄暗いじめじめした所でニャ,ニャ,泣いていた事だけは記憶している。吾輩はここで始めて人間というものを見た。しかもあとで聞くとそれは書生という人間中で一番獰悪な種族であったそうだ。この書生というのは時々我々を捕えて煮て食うという話である。しかしその当時は何という考もなかったから別段恐しいとも思わなかった。ただ彼の掌に載せられてスと持上げられた時何だかフワフワした感じがあったばかりである。掌の上で少し落いて書生の顔を見たのがいわゆる人間というものの見始であろう。この時妙なものだと思った感じが今でも残っている。第一毛をもって装飾されべきはずの顔がるしてまるで薬缶だ。その後猫にもだいぶ逢ったがこんな片輪には一度も出会わした事がない。のみならず顔の真中があまりに突起している。そうしてその穴の中から時々ぷうぷうと煙を吹く。どうも咽せぽくて実に弱った。これが人間の飲む煙草というものである事はようやくこの頃知った。” " この書生の掌の裏でしばらくはよい心持に坐っておったが、しばらくすると非常な速力で運転し始めた。書生が動くのか自分だけが動くのか分らないが無暗に眼が廻る。胸が悪くなる。到底助からないと思っていると、どさりと音がして眼から火が出た。それまでは記憶しているがあとは何の事やらいくら考え出そうとしても分らない。" " ふと気が付いて見ると書生はいない。たくさんおった兄弟が一疋も見えぬ。肝心の母親さえ姿を隠してしまった。その上今までの所とは違って無暗に明るい。眼を明いていられぬくらいだ。はてな何でも容子がおかしいと、のそのそ這い出して見ると非常に痛い。吾輩は藁の上から急に笹原の中へ棄てられたのである。" " ようやくの思いで笹原を這い出すと向うに大きな池がある。吾輩は池の前に坐ってどうしたらよかろうと考えて見た。別にこれという分別も出ない。しばらくして泣いたら書生がまた迎に来てくれるかと考え付いた。ニャー、ニャーと試みにやって見たが誰も来ない。そのうち池の上をさらさらと風が渡って日が暮れかかる。腹が非常に減って来た。泣きたくても声が出ない。仕方がない、何でもよいから食物のある所まであるこうと決心をしてそろりそろりと池を左りに廻り始めた。どうも非常に苦しい。そこを我慢して無理やりに這って行くとようやくの事で何となく人間臭い所へ出た。ここへ這入ったら、どうにかなると思って竹垣の崩れた穴から、とある邸内にもぐり込んだ。縁は不思議なもので、もしこの竹垣が破れていなかったなら、吾輩はついに路傍に餓死したかも知れんのである。一樹の蔭とはよく云ったものだ。この垣根の穴は今日に至るまで吾輩が隣家の三毛を訪問する時の通路になっている。さて邸へは忍び込んだもののこれから先どうして善いか分らない。そのうちに暗くなる、腹は減る、寒さは寒し、雨が降って来るという始末でもう一刻の猶予が出来なくなった。仕方がないからとにかく明るくて暖かそうな方へ方へとあるいて行く。今から考えるとその時はすでに家の内に這入っておったのだ。ここで吾輩は彼の書生以外の人間を再び見るべき機会に遭遇したのである。第一に逢ったのがおさんである。これは前の書生より一層乱暴な方で吾輩を見るや否やいきなり頸筋をつかんで表へ抛り出した。いやこれは駄目だと思ったから眼をねぶって運を天に任せていた。しかしひもじいのと寒いのにはどうしても我慢が出来ん。吾輩は再びおさんの隙を見て台所へ這い上った。すると間もなくまた投げ出された。吾輩は投げ出されては這い上り、這い上っては投げ出され、何でも同じ事を四五遍繰り返したのを記憶している。その時におさんと云う者はつくづくいやになった。この間おさんの三馬を偸んでこの返報をしてやってから、やっと胸の痞が下りた。吾輩が最後につまみ出されようとしたときに、この家の主人が騒々しい何だといいながら出て来た。下女は吾輩をぶら下げて主人の方へ向けてこの宿なしの小猫がいくら出しても出しても御台所へ上って来て困りますという。主人は鼻の下の黒い毛を撚りながら吾輩の顔をしばらく眺めておったが、やがてそんなら内へ置いてやれといったまま奥へ這入ってしまった。主人はあまり口を聞かぬ人と見えた。下女は口惜しそうに吾輩を台所へ抛り出した。かくして吾輩はついにこの家を自分の住家と極める事にしたのである。" " 吾輩の主人は滅多に吾輩と顔を合せる事がない。職業は教師だそうだ。学校から帰ると終日書斎に這入ったぎりほとんど出て来る事がない。家のものは大変な勉強家だと思っている。当人も勉強家であるかのごとく見せている。しかし実際はうちのものがいうような勤勉家ではない。吾輩は時々忍び足に彼の書斎を覗いて見るが、彼はよく昼寝をしている事がある。時々読みかけてある本の上に涎をたらしている。彼は胃弱で皮膚の色が淡黄色を帯びて弾力のない不活溌な徴候をあらわしている。その癖に大飯を食う。大飯を食った後でタカジヤスターゼを飲む。飲んだ後で書物をひろげる。二三ページ読むと眠くなる。涎を本の上へ垂らす。これが彼の毎夜繰り返す日課である。吾輩は猫ながら時々考える事がある。教師というものは実に楽なものだ。人間と生れたら教師となるに限る。こんなに寝ていて勤まるものなら猫にでも出来ぬ事はないと。それでも主人に云わせると教師ほどつらいものはないそうで彼は友達が来る度に何とかかんとか不平を鳴らしている。"

在单词云中可视化文本数据。

图wordcloud (textData);

标记文件

使用标记化文本tokenizedDocument并查看前几个文档。

documents = tokenizedDocument(textData);文档(1:10)
ans = 10×1 tokenizedDocument: 5 token:吾輩は猫である2 token:夏目漱石0 token: 1 token:一11 token:吾輩は猫である。名前はまだ無い。264代币:どこで生れたかとんと見当がかぬ。何でも薄暗いじめじめした所でニャーニャー泣いていた事だけは記憶している。吾輩はここで始めて人間というものを見た。しかもあとで聞くとそれは書生という人間中で一番獰悪な種族であったそうだ。この書生というのは時々我々を捕えて煮て食うという話である。しかしその当時は何という考もなかったから別段恐しいとも思わなかった。ただ彼の掌に載せられてスーと持ち上げられた時何だかフワフワした感じがあったばかりである。掌の上で少し落ちついて書生の顔を見たのがいわゆる人間というものの見始であろう。 この 時 妙 な もの だ と 思っ た 感じ が 今 でも 残っ て いる 。 第 一 毛 をもって 装飾 さ れ べき はず の 顔 が つるつる し て まるで 薬缶 だ 。 その後 猫 に も だいぶ 逢っ た が こんな 片 輪 に は 一 度 も 出会わ し た 事 が ない 。 のみ なら ず 顔 の 真中 が あまりに 突起 し て いる 。 そうして その 穴 の 中 から 時々 ぷうぷうと 煙 を 吹く 。 どうも 咽 せ ぽく て 実に 弱っ た 。 これ が 人間 の 飲む 煙草 という もの で ある 事 は ようやく この 頃 知っ た 。 100 tokens: この 書生 の 掌 の 裏 で しばらく は よい 心持 に 坐っ て おっ た が 、 しばらく する と 非常 な 速力 で 運転 し 始め た 。 書生 が 動く の か 自分 だけ が 動く の か 分ら ない が 無 暗に 眼 が 廻る 。 胸 が 悪く なる 。 到底 助から ない と 思っ て いる と 、 ど さり と 音 が し て 眼 から 火 が 出 た 。 それ まで は 記憶 し て いる が あと は 何 の 事 やら いくら 考え出そ う として も 分ら ない 。 92 tokens: ふと 気 が 付い て 見る と 書生 は い ない 。 たくさん おっ た 兄弟 が 一疋 も 見え ぬ 。 肝心 の 母親 さえ 姿 を 隠し て しまっ た 。 その 上今 まで の 所 と は 違っ て 無 暗に 明るい 。 眼 を 明い て い られ ぬ くらい だ 。 はてな 何 でも 容子 が おかしい と 、 のそのそ 這い出し て 見る と 非常 に 痛い 。 吾輩 は 藁 の 上 から 急 に 笹原 の 中 へ 棄て られ た の で ある 。 693 tokens: ようやく の 思い で 笹原 を 這い出す と 向う に 大きな 池 が ある 。 吾輩 は 池 の 前 に 坐っ て どう し たら よかろ う と 考え て 見 た 。 別に これ という 分別 も 出 ない 。 しばらく し て 泣い たら 書生 が また 迎 に 来 て くれる か と 考え付い た 。 ニャー 、 ニャー と 試み に やっ て 見 た が 誰 も 来 ない 。 そのうち 池 の 上 を さらさら と 風 が 渡っ て 日 が 暮れ かかる 。 腹 が 非常 に 減っ て 来 た 。 泣き たく て も 声 が 出 ない 。 仕方 が ない 、 何 で も よい から 食物 の ある 所 まで ある こう と 決心 を し て そろ り そろりと 池 を 左 り に 廻り 始め た 。 どうも 非常 に 苦しい 。 そこ を 我慢 し て 無理やり に 這っ て 行く と ようやく の 事 で 何となく 人間 臭い 所 へ 出 た 。 ここ へ 這入っ たら 、 どうにか なる と 思っ て 竹垣 の 崩れ た 穴 から 、 とある 邸 内 に もぐり込ん だ 。 縁 は 不思議 な もの で 、 もし この 竹垣 が 破れ て い なかっ た なら 、 吾輩 は ついに 路傍 に 餓死 し た かも 知れ ん の で ある 。 一樹 の 蔭 と は よく 云っ た もの だ 。 この 垣根 の 穴 は 今日 に 至る まで 吾輩 が 隣家 の 三 毛 を 訪問 する 時 の 通路 に なっ て いる 。 さて 邸 へ は 忍び込ん だ ものの これから 先 どうして 善い か 分ら ない 。 その うち に 暗く なる 、 腹 は 減る 、 寒 さ は 寒し 、 雨 が 降っ て 来る という 始末 で もう 一刻 の 猶予 が 出来 なく なっ た 。 仕方 が ない から とにかく 明るく て 暖か そう な 方 へ 方 へ と あるい て 行く 。 今 から 考える と その 時 は すでに 家 の 内 に 這入っ て おっ た の だ 。 ここ で 吾輩 は 彼 の 書生 以外 の 人間 を 再び 見る べき 機会 に 遭遇 し た の で ある 。 第 一 に 逢っ た の が お さん で ある 。 こ… 276 tokens: 吾輩 の 主人 は 滅多 に 吾輩 と 顔 を 合せる 事 が ない 。 職業 は 教師 だ そう だ 。 学校 から 帰る と 終日 書斎 に 這入っ た ぎりほとんど 出 て 来る 事 が ない 。 家 の もの は 大変 な 勉強 家 だ と 思っ て いる 。 当人 も 勉強 家 で ある か の ごとく 見せ て いる 。 しかし 実際 は うち の もの が いう よう な 勤勉 家 で は ない 。 吾輩 は 時々 忍び足 に 彼 の 書斎 を 覗い て 見る が 、 彼 は よく 昼寝 を し て いる 事 が ある 。 時々 読みかけ て ある 本 の 上 に 涎 を たらし て いる 。 彼 は 胃弱 で 皮膚 の 色 が 淡 黄色 を 帯び て 弾力 の ない 不 活溌 な 徴候 を あらわし て いる 。 その 癖 に 大飯 を 食う 。 大飯 を 食っ た 後 で タカジヤスターゼ を 飲む 。 飲ん だ 後 で 書物 を ひろげる 。 二 三 ページ 読む と 眠く なる 。 涎 を 本 の 上 へ 垂らす 。 これ が 彼 の 毎夜 繰り返す 日課 で ある 。 吾輩 は 猫 ながら 時々 考える 事 が ある 。 教師 という もの は 実に 楽 な もの だ 。 人間 と 生れ たら 教師 と なる に 限る 。 こんなに 寝 て い て 勤まる もの なら 猫 に でも 出来 ぬ 事 は ない と 。 それでも 主人 に 云わ せる と 教師 ほど つらい もの は ない そう で 彼 は 友達 が 来る 度 に 何とか かん とか 不平 を 鳴らし て いる 。

获取词性标签

获取令牌的详细信息,然后查看前几个令牌的详细信息。

tdetails = tokenDetails(文档);头(tdetails)
ans =8×8表令牌DocumentNumber LineNumber PartOfSpeech引理实体类型语言  ______ ______________ __________ _______ ________ ______________ ______ __________ " 吾輩“1 1字母ja代词“吾輩“走眼”は“1 1”字母ja adpositionは“走眼”猫“1 1字母是名词“猫“走眼”で“1 1字母ja助动词“だ“走眼”ある“1 1字母ja助动词“ある“走眼”夏目“2 1字母是专有名词“夏目“人”漱石“2 1字母是专有名词“漱石“人”一“4 1字母是数字“一”非实体

PartOfSpeech表中的变量包含标记的词性标记。分别创建所有名词和形容词的词云。

图idx = tdetails。PartOfSpeech = =“名词”;tokens = tdetails.Token(idx);次要情节(1、2、1)wordcloud(令牌);标题(“名词”) idx = tdetails。PartOfSpeech = =“形容词”;tokens = tdetails.Token(idx);次要情节(1、2、2)wordcloud(令牌);标题(“形容词”

为分析准备文本数据

删除停止词。

documents = removeStopWords(文档);文档(1:10)
ans = 10×1 tokenizedDocument: 2 token:吾輩猫2 token:夏目漱石0 token: 0 token: 6 token:吾輩猫。まだ無い。117代币:生れとんと見当かぬ。薄暗いじめじめニャ,ニャ,泣いいた事記憶。吾輩始め人間という。しかも聞く書生という人間一番獰悪種族あっ。書生という時々捕え煮食うという。しかし当時という考なかっ別段恐しいとも思わなかっ。掌載せられス持上げられ何だかフワフワあっ。掌少し落い書生顔いわゆる人間という始あろ。 妙 思っ 残っ 。 毛 をもって 装飾 れ べき 顔 つるつる まるで 薬缶 。 猫 だいぶ 逢っ こんな 片 出会わ 。 のみ なら 顔 真中 あまりに 突起 。 そうして 穴 時々 ぷうぷうと 煙 吹く 。 どうも 咽 せ ぽく 実に 弱っ 。 人間 飲む 煙草 という ようやく 知っ 。 43 tokens: 書生 掌 裏 しばらく よい 心持 坐っ おっ 、 しばらく 非常 速力 運転 始め 。 書生 動く 動く 分ら 無 暗に 眼 廻る 。 胸 悪く 。 到底 助から 思っ 、 ど さり 音 眼 出 。 記憶 いくら 考え出そ として 分ら 。 46 tokens: ふと 付い 見る 書生 。 おっ 兄弟 一疋 見え ぬ 。 肝心 母親 姿 隠し しまっ 。 上今 違っ 無 暗に 明るい 。 眼 明い られ ぬ くらい 。 はてな 容子 おかしい 、 のそのそ 這い出し 見る 非常 痛い 。 吾輩 藁 急 笹原 棄て られ 。 323 tokens: ようやく 思い 笹原 這い出す 向う 大きな 池 。 吾輩 池 坐っ たら よかろ 考え 。 別に という 分別 出 。 しばらく 泣い たら 書生 迎 来 くれる 考え付い 。 ニャー 、 ニャー 試み やっ 来 。 そのうち 池 さらさら 風 渡っ 暮れ かかる 。 腹 非常 減っ 来 。 泣き たく 声 出 。 仕方 、 よい 食物 こう 決心 そろ り そろりと 池 り 廻り 始め 。 どうも 非常 苦しい 。 我慢 無理やり 這っ 行く ようやく 何となく 人間 臭い 出 。 這入っ たら 、 どうにか 思っ 竹垣 崩れ 穴 、 とある 邸 もぐり込ん 。 縁 不思議 、 もし 竹垣 破れ なかっ なら 、 吾輩 ついに 路傍 餓死 かも 知れ 。 一樹 蔭 よく 云っ 。 垣根 穴 今日 至る 吾輩 隣家 毛 訪問 通路 なっ 。 さて 邸 忍び込ん ものの これから どうして 善い 分ら 。 暗く 、 腹 減る 、 寒 寒し 、 雨 降っ 来る という 始末 もう 一刻 猶予 出来 なく なっ 。 仕方 とにかく 明るく 暖か あるい 行く 。 考える すでに 這入っ おっ 。 吾輩 書生 以外 人間 再び 見る べき 機会 遭遇 。 逢っ 。 書生 一層 乱暴 吾輩 見る 否や いきなり 頸筋 つかん 表 抛り出し 。 駄目 思っ 眼 ねぶっ 運 天 任せ 。 しかし ひもじい 寒い どうしても 我慢 出来 。 吾輩 再び おさん 隙 台所 這い 上っ 。 すると 間もなく 投げ出さ れ 。 吾輩 投げ出さ れ 這い 上り 、 這い 上っ 投げ出さ れ 、 遍 繰り返し 記憶 。 おさん 云う つくづく なっ 。 この間 おさん 馬 偸 んで 返報 やっ 、 やっと 胸 痞 下り 。 吾輩 最後 つまみ出さ れよ 、 主人 騒々しい いい ながら 出 来 。 下女 吾輩 ぶら下げ 主人 向け 宿 なし 小 猫 いくら 出し 出し 御台 上っ 来 困り いう 。 主人 鼻 黒い 毛 撚り ながら 吾輩 顔 しばらく 眺め おっ 、 やがて そん なら 置い やれ といった 奥 這入っ しまっ 。 主人 あまり 聞か ぬ 見え 。 下女 口惜し 吾輩 台所 抛り出し 。 かくして 吾輩 ついに 住 極める 。 122 tokens: 吾輩 主人 滅多 吾輩 顔 合せる 。 職業 教師 。 学校 帰る 終日 書斎 這入っ ぎりほとんど 出 来る 。 大変 勉強 思っ 。 当人 勉強 ごとく 見せ 。 しかし 実際 いう 勤勉 。 吾輩 時々 忍び足 書斎 覗い 見る 、 よく 昼寝 。 時々 読みかけ 本 涎 たらし 。 胃弱 皮膚 色 淡 黄色 帯び 弾力 不 活溌 徴候 あらわし 。 癖 大飯 食う 。 大飯 食っ タカジヤスターゼ 飲む 。 飲ん 書物 ひろげる 。 ページ 読む 眠く 。 涎 本 垂らす 。 毎夜 繰り返す 日課 。 吾輩 猫 ながら 時々 考える 。 教師 という 実に 。 人間 生れ たら 教師 限る 。 こんなに 寝 勤まる なら 猫 出来 ぬ 。 それでも 主人 云わ 教師 つらい 友達 来る 何とか かん 不平 鳴らし 。

删除标点符号。

documents = eraspunctuation(文档);文档(1:10)
ans = 10×1 tokenizedDocument: 2令牌:吾輩猫2令牌:夏目漱石0令牌:0令牌:4令牌:吾輩猫まだ無い102令牌:生れとんと見当つかぬ薄暗いじめじめニャーニャー泣いいた事記憶吾輩始め人間というしかも聞く書生という人間一番獰悪種族あっ書生という時々捕え煮食うというしかし当時という考なかっ別段恐しいとも思わなかっ掌載せられスー持ち上げられ何だかフワフワあっ掌少し落ちつい書生顔いわゆる人間という始あろ妙思っ残っ毛をもって装飾れべき顔つるつるまるで薬缶猫だいぶ逢っこんな片出会わのみなら顔真中あまりに突起そうして穴時々ぷうぷうと煙吹くどうも咽せぽく実に弱っ人間飲む煙草というようやく知っ36令牌:書生掌裏しばらくよい心持坐っおっしばらく非常速力運転始め書生動く動く分ら無暗に眼廻る胸悪く到底助から思っどさり音眼出記憶いくら考え出そとして分ら38令牌:ふと付い見る書生おっ兄弟一疋見えぬ肝心母親姿隠ししまっ上今違っ無暗に明るい眼明いられぬくらいはてな容子おかしいのそのそ這い出し見る非常痛い吾輩藁急笹原棄てられ274令牌:ようやく思い笹原這い出す向う大きな池吾輩池坐ったらよかろ考え別にという分別出しばらく泣いたら書生迎来くれる考え付いニャーニャー試みやっ来そのうち池さらさら風渡っ暮れかかる腹非常減っ来泣きたく声出仕方よい食物こう決心そろりそろりと池り廻り始めどうも非常苦しい我慢無理やり這っ行くようやく何となく人間臭い出這入ったらどうにか思っ竹垣崩れ穴とある邸もぐり込ん縁不思議もし竹垣破れなかっなら吾輩ついに路傍餓死かも知れ一樹蔭よく云っ垣根穴今日至る吾輩隣家毛訪問通路なっさて邸忍び込んもののこれからどうして善い分ら暗く腹減る寒寒し雨降っ来るという始末もう一刻猶予出来なくなっ仕方とにかく明るく暖かあるい行く考えるすでに這入っおっ吾輩書生以外人間再び見るべき機会遭遇逢っ書生一層乱暴吾輩見る否やいきなり頸筋 つかん 表 抛り出し 駄目 思っ 眼 ねぶっ 運 天 任せ しかし ひもじい 寒い どうしても 我慢 出来 吾輩 再び おさん 隙 台所 這い 上っ すると 間もなく 投げ出さ れ 吾輩 投げ出さ れ 這い 上り 這い 上っ 投げ出さ れ 遍 繰り返し 記憶 おさん 云う つくづく なっ この間 おさん 馬 偸 んで 返報 やっ やっと 胸 痞 下り 吾輩 最後 つまみ出さ れよ 主人 騒々しい いい ながら 出 来 下女 吾輩 ぶら下げ 主人 向け 宿 なし 小 猫 いくら 出し 出し 御台 上っ 来 困り いう 主人 鼻 黒い 毛 撚り ながら 吾輩 顔 しばらく 眺め おっ やがて そん なら 置い やれ といった 奥 這入っ しまっ 主人 あまり 聞か ぬ 見え 下女 口惜し 吾輩 台所 抛り出し かくして 吾輩 ついに 住 極める 101 tokens: 吾輩 主人 滅多 吾輩 顔 合せる 職業 教師 学校 帰る 終日 書斎 這入っ ぎりほとんど 出 来る 大変 勉強 思っ 当人 勉強 ごとく 見せ しかし 実際 いう 勤勉 吾輩 時々 忍び足 書斎 覗い 見る よく 昼寝 時々 読みかけ 本 涎 たらし 胃弱 皮膚 色 淡 黄色 帯び 弾力 不 活溌 徴候 あらわし 癖 大飯 食う 大飯 食っ タカジヤスターゼ 飲む 飲ん 書物 ひろげる ページ 読む 眠く 涎 本 垂らす 毎夜 繰り返す 日課 吾輩 猫 ながら 時々 考える 教師 という 実に 人間 生れ たら 教師 限る こんなに 寝 勤まる なら 猫 出来 ぬ それでも 主人 云わ 教師 つらい 友達 来る 何とか かん 不平 鳴らし

使用lemmalize文本normalizeWords

文档= normalizeWords(文档);文档(1:10)
ans = 10×1 tokenizedDocument: 2令牌:吾輩猫2令牌:夏目漱石0令牌:0令牌:4令牌:吾輩猫まだ無い102令牌:生れるとんと見当つくぬ薄暗いじめじめニャーニャー泣くいた事記憶吾輩始める人間というしかも聞く書生という人間一番獰悪種族ある書生という時々捕える煮る食うというしかし当時という考ない別段恐いいとも思うない掌載せるられるスー持ち上げるられる何だかフワフワある掌少し落ちつく書生顔いわゆる人間という始ある妙思う残る毛をもって装飾れるべし顔つるつるまるで薬缶猫だいぶ逢うこんな片出会うのみなる顔真中あまりに突起そうして穴時々ぷうぷうと煙吹くどうも咽するぽい実に弱る人間飲む煙草というようやく知る36令牌:書生掌裏しばらくよい心持坐るおるしばらく非常速力運転始める書生動く動く分る無暗に眼廻る胸悪い到底助かる思うどさる音眼出る記憶いくら考え出すとして分る38令牌:ふと付く見る書生おる兄弟一疋見えるぬ肝心母親姿隠すしまう上今違う無暗に明るい眼明くられるぬくらいはてな容子おかしいのそのそ這い出す見る非常痛い吾輩藁急笹原棄てるられる274令牌:ようやく思い笹原這い出す向う大きな池吾輩池坐るたよい考える別にという分別出るしばらく泣くた書生迎来るくれる考え付くニャーニャー試みやる来るそのうち池さらさら風渡る暮れかかる腹非常減る来る泣くたい声出る仕方よい食物こう決心そるりそろりと池り廻る始めるどうも非常苦しい我慢無理やり這う行くようやく何となく人間臭い出る這入るたどうにか思う竹垣崩れる穴とある邸もぐり込む縁不思議もし竹垣破れるないだ吾輩ついに路傍餓死かも知れる一樹蔭よく云う垣根穴今日至る吾輩隣家毛訪問通路なるさて邸忍び込むもののこれからどうして善い分る暗い腹減る寒い寒い雨降る来るという始末もう一刻猶予出来るないなる仕方とにかく明るい暖かいあるく行く考えるすでに這入るおる吾輩書生以外人間再び見るべし機会遭遇逢う書生一層乱暴吾輩見る否や いきなり 頸筋 つかむ 表 抛り出す 駄目 思う 眼 ねぶる 運 天 任せる しかし ひもじい 寒い どうしても 我慢 出来る 吾輩 再び おさん 隙 台所 這う 上る すると 間もなく 投げ出す れる 吾輩 投げ出す れる 這う 上る 這う 上る 投げ出す れる 遍 繰り返す 記憶 おさん 云う つくづく なる この間 おさん 馬 偸 んで 返報 やる やっと 胸 痞 下りる 吾輩 最後 つまみ出す れる 主人 騒々しい いう ながら 出る 来る 下女 吾輩 ぶら下げる 主人 向ける 宿 ない 小 猫 いくら 出す 出す 御台 上る 来る 困る いう 主人 鼻 黒い 毛 撚る ながら 吾輩 顔 しばらく 眺める おる やがて そん だ 置く やる といった 奥 這入る しまう 主人 あまり 聞く ぬ 見える 下女 口惜しい 吾輩 台所 抛り出す かくして 吾輩 ついに 住 極める 101 tokens: 吾輩 主人 滅多 吾輩 顔 合せる 職業 教師 学校 帰る 終日 書斎 這入る ぎりほとんど 出る 来る 大変 勉強 思う 当人 勉強 ごとし 見せる しかし 実際 いう 勤勉 吾輩 時々 忍び足 書斎 覗く 見る よく 昼寝 時々 読みかける 本 涎 たらす 胃弱 皮膚 色 淡い 黄色 帯びる 弾力 不 活溌 徴候 あらわす 癖 大飯 食う 大飯 食う タカジヤスターゼ 飲む 飲む 書物 ひろげる ページ 読む 眠い 涎 本 垂らす 毎夜 繰り返す 日課 吾輩 猫 ながら 時々 考える 教師 という 実に 人間 生れる た 教師 限る こんなに 寝る 勤まる だ 猫 出来る ぬ それでも 主人 云う 教師 つらい 友達 来る 何とか かん 不平 鳴らす

一些预处理步骤,如删除停止词和删除标点符号,将返回空文档。方法删除空文档removeEmptyDocuments函数。

documents = removeEmptyDocuments(documents);

Create预处理命令功能

创建执行预处理的函数对于以相同的方式准备不同的文本数据集合非常有用。例如,可以使用与训练数据相同的步骤使用函数对新数据进行预处理。

创建一个函数来标记和预处理用于分析的文本数据。这个函数preprocessJapaneseText,执行这些步骤:

  1. 使用标记化文本tokenizedDocument

  2. 使用删除标点符号erasePunctuation

  3. 使用删除停止词列表(例如“あそこ”,“あたり”和“あら”)removeStopWords

  4. 使用词汇normalizeWords

方法预处理后删除空文档removeEmptyDocuments函数。使用预处理函数删除文档后,可以更容易地从其他来源删除相应的数据,例如标签。

本例中使用预处理函数preprocessJapaneseText,示例末尾列出,用于准备文本数据。

documents = preprocessjapetext (textData);文档(1:5)
ans = 5×1 tokenizedDocument: 2 token:吾輩猫2 token:夏目漱石0 token: 0 token: 4 token:吾輩猫まだ無い

删除空文档。

documents = removeEmptyDocuments(documents);

拟合主题模型

拟合潜狄利克雷分配(LDA)主题模型的数据。LDA模型发现文档集合中的潜在主题,并推断主题中的单词概率。

要使LDA模型适合数据,首先必须创建单词袋模型。单词袋模型(也称为词频计数器)记录单词在集合的每个文档中出现的次数。使用创建单词袋模型bagOfWords

bag = bagOfWords(文档);

从词袋模型中删除空文档。

bag = removeEmptyDocuments(bag);

拟合7个主题的LDA模型fitlda.若要抑制详细输出,请设置“详细”0

numTopics = 7;mdl = fitlda(包,numTopics,“详细”, 0);

使用词汇云来想象前四个主题。

数字subplot(2,2, I) wordcloud(mdl, I);标题(“主题”+ i)结束

使用堆叠柱状图可视化多个主题混合。随机查看5个输入文档,并可视化相应的主题混合。

numDocuments = numel(文档);idx = randperm(numDocuments,5);文档(idx)
ans = 5×1 tokenizedDocument: 4令牌:細君細君なかなかさばける7令牌:進行せる山々どうしても暮れるくれる困る13标记:来るそんな仙骨相手少々骨折れる過ぎる宛然たり仙伝人物3令牌:先生譜下さる23个标记:立つ月給上がるいくら勉強褒めるくれる郎君独寂寞中学時代覚える詩句細君朗吟細君ちょっと分るかねる返事
topicmixture = transform(mdl,documents(idx));图barh (topicMixtures (1:5),“堆叠”xlim([0 1])“主题混合”)包含(“主题概率”) ylabel (“文档”)传说(“主题”+字符串(1:numTopics),“位置”“northeastoutside”

使用实例预处理

这个函数preprocessJapaneseText,执行这些步骤:

  1. 使用标记化文本tokenizedDocument

  2. 使用删除标点符号erasePunctuation

  3. 使用删除停止词列表(例如“あそこ”,“あたり”和“あら”)removeStopWords

  4. 使用词汇normalizeWords

函数documents = preprocessjapetext (textData)标记文本。documents = tokenizedDocument(textData);删除标点符号。documents = eraspunctuation(文档);删除一个停止词列表。documents = removeStopWords(文档);把这些词简化。文档= normalizeWords(文档,“风格”“引理”);结束

另请参阅

|||||

相关的话题