- 你有一组字符串和一个值中的每个条目集,和你想组根据独特的字符串,字符串条目和为每一个独特的确定相应的输出相互“关联”,没有关系的暗示或要求两个字符串,以任何方式有何不同?
- 或者你希望分析某种不同的字符串和值之间的相关性?例如,发现“ing末梢对应于这些属性”,“第二个字母是大写d对应这个子集”,等等?
分析模式的字符
52视图(30天)
显示旧的评论
你好,我有一个大的字符串数据(~ 6 k字符串)包含的各种组合字母随机。每个字符串与输出指标(数量)。我怎么能以某种方式使关联的字符串,以确定是否存在任何关联相关输出指标?
答案(1)
塞勒斯蒙泰罗
2023年6月16日在32
以确定是否有任何字符串和相关联的输出指标之间的相关性在MATLAB中,您可以使用以下的方法:
- 把字符串转换成数值格式,可以使用机器学习算法。一种方法可以使用bag-of-words(弓)模型来表示词的字符串作为向量的频率。例如,您可以使用MATLAB中的“countVector”功能组字符串转换为矩阵的单词频率计数。
- 将数据分为训练集和测试集。你可以使用MATLAB中的“cvpartition”功能来创建交叉验证分区的数据。
- 监督学习算法在训练集上训练。例如,您可以使用“fitrsvm”功能来训练支持向量回归模型。万博1manbetx
- 测试训练模型在测试集和计算预测的输出指标之间的相关系数和真正的输出指标。您可以使用“corrcoef”功能在MATLAB计算相关系数。
这里有一些例子起动器代码:
%加载数据
数据= readtable (“data.csv”);
%将字符串转换成数值格式使用弓模型
countVec = countVectorizer (data.Strings);
X =全(countVec);
%将数据分为训练集和测试集
本量利= cvpartition(长度(数据),“坚持”,0.2);
idxTrain =培训(cvp);
idxTest =测试(cvp);
XTrain = X (idxTrain:);
yTrain = data.OutputMetric (idxTrain);
XTest = X (idxTest:);
欧美= data.OutputMetric (idxTest);
%训练支持向量回归模万博1manbetx型
mdl = fitrsvm (XTrain yTrain);
%预测输出指标的测试设置使用训练模型
XTest yHat =预测(mdl);
%计算预测的输出指标之间的相关系数和真正的输出指标
corrCoef = corrCoef (yHat、欧美);
disp ([的相关系数:num2str (corrCoef (1、2))));
你可以尝试不同的机器学习算法和hyperparameters确定最好的为您的数据模型。此外,您可以使用特征选择技术来识别最重要的词相关的字符串输出指标。