使用朴素贝叶斯的TFIDF
8视图(30天)
显示旧的评论
我建立一个情绪使用TFIDF和朴素贝叶斯分类模型。但该模型将第二类划分。虽然我使用了TFIDf与支持向量机等其他模型和随机森林和工作正常。下面我将描述我的数据和步骤使用:我有2000条评论(1000年1000年积极的,消极的)。我做了以下步骤:1)数据预处理
cleanTextData = erasePunctuation (textData);
cleanTextData =低(cleanTextData);
话说= stopWords;
cleanDocuments = tokenizedDocument (cleanTextData);
cleanDocuments = removeWords (cleanDocuments,单词);
cleanDocuments = normalizeWords (cleanDocuments);
cleanDocuments (1:10)
% %袋的话
cleanBag = bagOfWords (cleanDocuments)
cleanBag = removeInfrequentWords (cleanBag, 2)%删除单词频率小于或等于2
% %去除emplty文件引起的预处理
[cleanBag, idx] = removeEmptyDocuments (cleanBag);
然后我使用TFIDF
预测= tfidf (cleanBag,“归一化”,真的,“TFWeight”,“日志”,“IDFWeight”,“顺利”);
然后我通过了结果我朴素贝叶斯模型
t = templateNaiveBayes (“DistributionNames”,“mvmn”);
CVMdl = fitcecoc(预测、响应“KFold”10“学习者”t“FitPosterior”,真的,“编码”,“onevsone”,“ResponseName”,“响应”);
但混淆矩阵会给下面的结果:
C1C2
______
990年10
1000年0
分类似乎是几乎所有的2000只观察一个类。请建议,我尝试了几乎所有我所知道的和所建议的人。这是有关我的硕士论文,我只有几周提交。