이번역페이지는최신내용을담고있지않습니다。최신내용을문으로보려면여기를클릭하십시오。
bagOfWords
词汇袋모델
설명
bag-of-words모델(단어빈도카운터라고도함)은단어가문서모음의각문서에서나타나는횟수를기록합니다。
bagOfWords
는텍스트를단어로분할하지않습니다。토큰화된문서로구성된배열을만들려면tokenizedDocument
항목을참조하십시오。
생성
설명
는빈字袋모델을만듭니다。袋
= bagOfWords
는袋
= bagOfWords (uniqueWords
,计数
)uniqueWords
의 단어와计数
의해당빈도수를사용하여字袋모델을만듭니다。
입력marketing수
속성
객체 함수
编码 |
문서를단어개수또는n-gram개수로구성된행렬로코딩 |
tfidf |
Tf-idf(단어빈도-역문서빈도)행렬 |
topkwords |
词袋模型或LDA主题中最重要的词 |
addDocument |
字袋모델또는字袋모델에문서추가 |
removeDocument |
字袋모델또는字袋모델에서문서제거 |
removeEmptyDocuments |
토큰화된문서배열,bag-of-words모델또는bag-of-n-grams모델에서빈문서제거 |
removeWords |
문서또는字袋모델에서선택한단어제거 |
removeInfrequentWords |
词汇袋모델에서개수가적은단어제거 |
加入 |
组合多个单词袋或n-grams袋模型 |
wordcloud |
从文本、单词袋模型、n-grams袋模型或LDA模型创建词云图 |
예제
팁
작업에홀드아웃테스트세트를사용하려면
bagOfWords
를사용하기전에텍스트데이터를분할하십시오。그렇게하지않으면字袋모델에서분석이편향될수있습니다。
버전 내역
R2017b에개발됨