分析模式的字符

52视图(30天)
Tei Newman-Lehman
Tei Newman-Lehman 在2023年5月22日
回答: 塞勒斯蒙泰罗2023年6月16日在32
你好,我有一个大的字符串数据(~ 6 k字符串)包含的各种组合字母随机。每个字符串与输出指标(数量)。我怎么能以某种方式使关联的字符串,以确定是否存在任何关联相关输出指标?
5个评论
Tei Newman-Lehman
Tei Newman-Lehman 2023年5月23日在一14
@Image分析师 ,谢谢你的帮助。数据连接的一个片段
谢谢!

登录置评。

答案(1)

塞勒斯蒙泰罗
塞勒斯蒙泰罗 2023年6月16日在32
以确定是否有任何字符串和相关联的输出指标之间的相关性在MATLAB中,您可以使用以下的方法:
  1. 把字符串转换成数值格式,可以使用机器学习算法。一种方法可以使用bag-of-words(弓)模型来表示词的字符串作为向量的频率。例如,您可以使用MATLAB中的“countVector”功能组字符串转换为矩阵的单词频率计数。
  2. 将数据分为训练集和测试集。你可以使用MATLAB中的“cvpartition”功能来创建交叉验证分区的数据。
  3. 监督学习算法在训练集上训练。例如,您可以使用“fitrsvm”功能来训练支持向量回归模型。万博1manbetx
  4. 测试训练模型在测试集和计算预测的输出指标之间的相关系数和真正的输出指标。您可以使用“corrcoef”功能在MATLAB计算相关系数。
这里有一些例子起动器代码:
%加载数据
数据= readtable (“data.csv”);
%将字符串转换成数值格式使用弓模型
countVec = countVectorizer (data.Strings);
X =全(countVec);
%将数据分为训练集和测试集
本量利= cvpartition(长度(数据),“坚持”,0.2);
idxTrain =培训(cvp);
idxTest =测试(cvp);
XTrain = X (idxTrain:);
yTrain = data.OutputMetric (idxTrain);
XTest = X (idxTest:);
欧美= data.OutputMetric (idxTest);
%训练支持向量回归模万博1manbetx型
mdl = fitrsvm (XTrain yTrain);
%预测输出指标的测试设置使用训练模型
XTest yHat =预测(mdl);
%计算预测的输出指标之间的相关系数和真正的输出指标
corrCoef = corrCoef (yHat、欧美);
disp ([的相关系数:num2str (corrCoef (1、2))));
你可以尝试不同的机器学习算法和hyperparameters确定最好的为您的数据模型。此外,您可以使用特征选择技术来识别最重要的词相关的字符串输出指标。

社区寻宝

找到宝藏在MATLAB中央,发现社区如何帮助你!

开始狩猎!