语法とは——MATLAB - 万博1manbetx,s manbetx 845,万博尤文图斯

マルチワード言語モデルを構築し,機械学習で解析する

语法はテキストドキュメント内の連続するn個のアイテムの集合を意味します。これには単語,数字,記号,句読点などが含まれる可能性があります。语法モデルは感情分析,テキスト分類,テキスト生成など単語の配列が関係するテキスト解析アプリケーションの多くで役立ちます。例として,以下の文章を見てみましょう。

“可以使用文本分析工具箱创建字符串数组中的词云、词袋模型中的词云和LDA主题。”

“云”は2克(バイグラム),“从字符串数组”は3-gram(トライグラム),“使用文本分析工具箱”は4克などのようになります。语法のサイズは,アプリケーションや,そのアプリケーションでよく使用されるフレーズのサイズによって異なります。

语法モデリングは,テキストを非構造化形式から構造化形式に変換する際に使用される多くの手法の中の一つです。语法の代替としては,word2vecなどの単語埋め込み手法があります。语法を組み込んだ言語モデルは、一意の各 n-gram がドキュメント内に出現する回数を数えることで作成できます。これは bag-of-n-grams モデルとして知られています。上記の例では、n=2 の bag-of-n-grams モデルは以下のようになります。

语法	回数
词云	2
字符串数组	1
Bag-of-words模型	1

言語モデルが構築されると,それを機械学習アルゴリズムと共に使用して,テキスト解析アプリケーション用の予測モデルを構築できます。语法やテキストデータを使用するモデルの構築に関しては,文本分析工具箱™でMATLAB^®との使用について詳しくご紹介しています。

製品使用例および使い方

ソフトウェアリファレンス

bagOfNgrams: bag-of-n-gramsモデル- 関数
topkngrams:最も高頻度の语法- 関数
removeNgrams——bag-of-n-gramsモデルからの语法の削除——関数
replaceNgrams——ドキュメント内での语法の置換——関数
背景:ドキュメント内に出現する単語または语法をコンテキストで検索する- 関数
加入:複数のbag-of-wordsまたはbag-of-n-gramsモデルを結合する- 関数
编码:ドキュメントを単語または语法カウントの行列として符号化する- 関数
背景:ドキュメント内に出現する単語または语法をコンテキストで検索する- 関数
加入:複数のbag-of-wordsまたはbag-of-n-gramsモデルを結合する- 関数

参考:自然言語処理，感情分析，word2vec，MATLABによるテキストマイニング，データサイエンス，ディープラーニング，深度学习工具箱™，预见性维护工具箱™

文本分析工具箱とは

MATLABでのテキスト解析入門

ホワイトペーパーをダウンロード