使用朴素贝叶斯的TFIDF

8视图(30天)

显示旧的评论

莎拉Alduayj 2018年7月11日

0
链接

这个问题直接联系

//www.tianjin-qmedu.com/matlabcentral/answers/409922-using-tfidf-with-naive-bayes

评论道: 奥斯卡绿色2019年5月10日

我建立一个情绪使用TFIDF和朴素贝叶斯分类模型。但该模型将第二类划分。虽然我使用了TFIDf与支持向量机等其他模型和随机森林和工作正常。下面我将描述我的数据和步骤使用:我有2000条评论(1000年1000年积极的,消极的)。我做了以下步骤:1)数据预处理

                         cleanTextData = erasePunctuation (textData);
                        
                         cleanTextData =低(cleanTextData);
                        
                         话说= stopWords;
                        
                         cleanDocuments = tokenizedDocument (cleanTextData);
                        
                         cleanDocuments = removeWords (cleanDocuments,单词);
                        
                         cleanDocuments = normalizeWords (cleanDocuments);
                        
                         cleanDocuments (1:10)
                        
                         % %袋的话
                        
                         cleanBag = bagOfWords (cleanDocuments)
                        
                         cleanBag = removeInfrequentWords (cleanBag, 2)%删除单词频率小于或等于2
                        
                         % %去除emplty文件引起的预处理
                        
                         [cleanBag, idx] = removeEmptyDocuments (cleanBag);

然后我使用TFIDF

                         预测= tfidf (cleanBag,“归一化”,真的,“TFWeight”,“日志”,“IDFWeight”,“顺利”);
                        

然后我通过了结果我朴素贝叶斯模型

                         t = templateNaiveBayes (“DistributionNames”,“mvmn”);
                        
                         CVMdl = fitcecoc(预测、响应“KFold”10“学习者”t“FitPosterior”,真的,“编码”,“onevsone”,“ResponseName”,“响应”);

但混淆矩阵会给下面的结果:

分类似乎是几乎所有的2000只观察一个类。请建议,我尝试了几乎所有我所知道的和所建议的人。这是有关我的硕士论文,我只有几周提交。

4评论
显示3年长的评论隐藏3年长的评论

吉姆•大卫 2018年7月27日

在运行代码数据集组成的5000个文档2500特征提取(独特的词),我能获得精度超过95%。重复相同的数据集组成的2000文件的相同数量的特性提取取得了60%的准确性。我希望这个问题基本上得到解决通过增加数据集的大小。

这里有某些因素可能帮助实现你的目标。

1)增加数据集的大小。降维也可能有所帮助。

2)在运行代码在我结束,我遇到了一个警告关于使用“mvmn”作为分布参数。这是由于连续的本质tf-idf值相对于定值“mvmn”是最适合。我将考虑改变“正常”的分布参数,同时确保zero-variance特性进行适当的处理。你会发现这个讨论有用:

https://datascience.stackexchange.com/questions/15526/how-to-handle-a-zero-factor-in-naive-bayes-classifier-calculation

这可以通过删除所有zero-variance和培训所有的数据没有折叠一次。折叠参数作为构建的一部分功能不处理情况下的分区数据集zero-variance。这可能是做用户定义函数。

莎拉Alduayj 2018年8月25日

编辑:莎拉Alduayj 2018年8月25日

                               谢谢对你的支持。万博1manbetx我一直试图解决这个问题在过去几周,部分工作。我只是有一个问题留给分布参数。我曾经尝试过“正常”和“锰”,他们两人将在下面生成相同的使。做的唯一的事就是“mvmn”,我想“锰”来为我工作,因为它是我的项目。这将是伟大的如果我能知道为什么以及如何我可以修复它。
                              
                               谢谢你。

警告:当DistributionNames mn,输入数据必须非负整数。警告:当DistributionNames mn,输入数据必须非负整数。使用classreg.learning.partition错误。PartitionedModel / checkFoldArgs(第327行)折叠的指标必须一个向量与数字1和0之间。

在classreg.learning.partition错误。PartitionedModel / kfoldPredict(第212行)(模式,~,args) = checkFoldArgs(这一点,变长度输入宗量{:});

在classreg.learning.partition错误。分类PartitionedModel/kfoldPredict (line 223) [~,score] = kfoldPredict@classreg.learning.partition.PartitionedModel (这一点,变长度输入宗量{:});

错误F_NaiveBayes1_custom_stopwords_1_2_3gram_TFIDF(56行)预测= kfoldPredict (CVMdl);