在英语和许多其他语言中,元音后面通常跟着辅音,辅音后面通常跟着元音。这一事实反映在主成分分析中,我将称之为文本样本的图表频率矩阵。(我就是在用这个词双字母组合指任意一对字母,尽管在正字法学科中,这个术语更准确地指代表一个音素的一对字符。英文文本使用26个字母,因此图表频率矩阵是一个26乘26的矩阵,$ a $,有字母对的计数。空格和所有其他标点符号从文本中删除,整个样本被认为是圆形或周期性的,所以第一个字母在最后一个字母后面。矩阵项$a_{i,j}$表示第$i$-个字母后面跟着第$j$-个字母的次数。$A$的行和和和是相同的;他们计算样本中单个字母出现的次数。第五行和第五列的和通常最大,因为第5个字母“E”通常是最常见的。
主成分分析
对$A$的主成分分析产生第一个分量,$$ A \约\sigma_1 u_1 v_1^T $$,它反映了各个字母的频率。第一个右奇异向量$u_1$和$v_1$具有相同符号的元素,并且与相应的频率大致成比例。我们主要感兴趣的是第二个主成分,$$ A \约\sigma_1 u_1 v_1^T + \sigma_2 u_2 v_2^T $$第二项在元音-辅音和辅音-元音位置上有正项,在元音-元音和辅音-辅音位置上有负项。符号模式调整频率计数,以反映语言的元音-辅音属性。
评论
如欲留言,请点击在这里登录您的MathWorks帐户或创建一个新帐户。