使用朴素贝叶斯的TFIDF

8视图(30天)
莎拉Alduayj
莎拉Alduayj 2018年7月11日
评论道: 奥斯卡绿色2019年5月10日
我建立一个情绪使用TFIDF和朴素贝叶斯分类模型。但该模型将第二类划分。虽然我使用了TFIDf与支持向量机等其他模型和随机森林和工作正常。下面我将描述我的数据和步骤使用:我有2000条评论(1000年1000年积极的,消极的)。我做了以下步骤:1)数据预处理
cleanTextData = erasePunctuation (textData);
cleanTextData =低(cleanTextData);
话说= stopWords;
cleanDocuments = tokenizedDocument (cleanTextData);
cleanDocuments = removeWords (cleanDocuments,单词);
cleanDocuments = normalizeWords (cleanDocuments);
cleanDocuments (1:10)
% %袋的话
cleanBag = bagOfWords (cleanDocuments)
cleanBag = removeInfrequentWords (cleanBag, 2)%删除单词频率小于或等于2
% %去除emplty文件引起的预处理
[cleanBag, idx] = removeEmptyDocuments (cleanBag);
然后我使用TFIDF
预测= tfidf (cleanBag,“归一化”,真的,“TFWeight”,“日志”,“IDFWeight”,“顺利”);
然后我通过了结果我朴素贝叶斯模型
t = templateNaiveBayes (“DistributionNames”,“mvmn”);
CVMdl = fitcecoc(预测、响应“KFold”10“学习者”t“FitPosterior”,真的,“编码”,“onevsone”,“ResponseName”,“响应”);
但混淆矩阵会给下面的结果:
C1C2
______
990年10
1000年0
分类似乎是几乎所有的2000只观察一个类。请建议,我尝试了几乎所有我所知道的和所建议的人。这是有关我的硕士论文,我只有几周提交。
4评论
奥斯卡绿色
奥斯卡绿色 2019年5月10日
我过去做过的一件事是聚合/离散化到对数频率桶和治疗这些特性。它有点黑,但是朴素贝叶斯,和最终的工作很好。

登录置评。

答案(0)

社区寻宝

找到宝藏在MATLAB中央,发现社区如何帮助你!

开始狩猎!