语法はテキストドキュメント内の連続するn個のアイテムの集合を意味します。これには単語,数字,記号,句読点などが含まれる可能性があります。语法モデルは感情分析,テキスト分類,テキスト生成など単語の配列が関係するテキスト解析アプリケーションの多くで役立ちます。例として,以下の文章を見てみましょう。
“可以使用文本分析工具箱创建字符串数组中的词云、词袋模型中的词云和LDA主题。”
“云”は2克(バイグラム),“从字符串数组”は3-gram(トライグラム),“使用文本分析工具箱”は4克などのようになります。语法のサイズは,アプリケーションや,そのアプリケーションでよく使用されるフレーズのサイズによって異なります。
语法モデリングは,テキストを非構造化形式から構造化形式に変換する際に使用される多くの手法の中の一つです。语法の代替としては,word2vecなどの単語埋め込み手法があります。语法を組み込んだ言語モデルは、一意の各 n-gram がドキュメント内に出現する回数を数えることで作成できます。これは bag-of-n-grams モデルとして知られています。上記の例では、n=2 の bag-of-n-grams モデルは以下のようになります。
语法 | 回数 |
词云 | 2 |
字符串数组 | 1 |
Bag-of-words模型 | 1 |