文本分析工具箱

文本分析工具箱

テキストデータの解析とモデル化

詳細を見る:

テキストデータのインポートと可視化

ソーシャルメディア,ニュースフィード,機器のログ,レポート,アンケートなどのソースからテキストデータを抽出します。

テキストデータの抽出

単一のファイルまたは大規模なファイルの集合(PDF、HTML、微软®®、Excel®ファイルなど)からMATLAB®にテキストデータをインポートします。

Microsoft Word文書の集合からテキストを抽出。

テキストの可視化

ワードクラウドとテキスト散布図を使用して,テキストデータセットを視覚的に探索します。

フォントのサイズや色を使用して単語の相対頻度を示すワードクラウド。

言語サポート

文本分析工具箱には,英語や日本語,ドイツ語,韓国語に対応した言語固有の前処理機能が備わっています。ほとんどの機能は,他の言語のテキストでも機能します。

日本語テキストのインポート,準備,解析。

テキストデータの前処理

有意な単語を生テキストから抽出します。

テキストデータのクリーニング

高水準のフィルター処理関数を適用してURL, HTMLタグおよび句読点などの不要なコンテンツを削除し,スペルを修正します。

生テキスト(左)を簡略化し,最も有意な単語(右)を処理し。

ストップワードのフィルター処理と単語の原形への正規化

解析で有意なテキストデータに優先順位をつけるために,一般的な単語や,出現頻度が非常に高い/低い単語,非常に長い/短い単語をフィルター処理により除外します。ボキャブラリを語幹化して原形にするか,レンマ化して辞書の形式にすることで削減し,文書の幅広い意味またはセンチメントに焦点を当てます。

“や”“などのストップワードを文書から削除。

文,トークン品詞の識別

トークン化アルゴリズムを使用して,生テキストを単語の集合に自動的に分割します。コンテキストに合わせて,文の境界や品詞の詳細,その他の関連情報を追加します。

トークン化された文書に品詞や文の詳細を追加。

テキストの数値形式への変換

機械学習およびディープラーニングで使用するために,テキストデータを数値形式に変換します。

単語および语法カウント

テキストデータを数値的に表すために語句の頻度の統計情報を計算します。

モデル内で出現頻度が最も高い単語を識別して可視化。

単語の埋め込みとエンコード

word2vecのCBoW(连续Bag-Of-Words)やskip-gramモデルなどの単語埋め込みモデルの学習を行います。fastTextや手套などの事前学習済みのモデルをインポートします。

単語埋め込みを使用して,テキスト散布図のクラスターを可視化。

テキストデータを使用した機械学習

機械学習アルゴリズムを使用して,トピックのモデル化,感情分析,分類,次元削減,ドキュメント概要の抽出を行います。

トピックモデリング

潜在的ディリクレ配分法(LDA)や潜在意味解析(LSA)などの機械学習アルゴリズムを使用して,大規模なテキストデータセットの基本パターン,傾向,複雑な関連性を発見し,可視化します。

嵐のレポートデータ内のトピックを識別。

文書要約とキーワード抽出

1つ以上の文書から要約や関連キーワードを自動抽出し,文書の類似性および重要性を評価します。

テキストから要約を抽出。

感情分析

テキストデータで表現された態度や意見を特定して,その文章の内容を肯定的,中立的,否定的のいずれかに分類します。感情をリアルタイムで予測できるモデルを構築します。

肯定的な感情および否定的な感情を予測する単語の識別。

テキストデータを使用したディープラーニング

ディープラーニングアルゴリズムを使用して,感情分析,分類,要約,テキスト生成を実行します。

転移モデル

伯特やGPT-2などの転移モデルを活用し,感情分析,分類,要約などのタスクのためにテキストデータを用いて転移学習を実行します。

テキストデータを使用した転移学習用の転移モデル。

テキストデータ分類のためのディープニューラルネットワークの学習。

テキストの生成

ディープラーニングを使用して,観測されたテキストに基づき新しいテキストを生成します。

ジェイン・オースティンの”高慢と偏見“とディープラーニングのLSTMネットワークを使用したテキストの生成。