【相关系数公式】在统计学中,相关系数是用来衡量两个变量之间线性关系的强度和方向的一个数值。它可以帮助我们判断两个变量是否具有正相关、负相关或无相关性。常见的相关系数包括皮尔逊相关系数、斯皮尔曼等级相关系数和肯德尔等级相关系数等。
以下是对几种常用相关系数公式的总结,并以表格形式展示它们的定义、适用范围及计算方式。
一、相关系数公式总结
| 相关系数名称 | 定义 | 适用范围 | 公式 |
| 皮尔逊相关系数 | 衡量两个连续变量之间的线性相关程度 | 两变量为连续数据,且呈线性关系 | $ r = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum (x_i - \bar{x})^2 \sum (y_i - \bar{y})^2}} $ |
| 斯皮尔曼等级相关系数 | 基于变量的排名进行计算,适用于非正态分布数据 | 变量为有序数据或非正态分布 | $ \rho = 1 - \frac{6 \sum d_i^2}{n(n^2 - 1)} $(当无重复值时) |
| 肯德尔等级相关系数 | 衡量两个变量的排序一致性 | 多个观测者对同一组对象进行排序的情况 | $ \tau = \frac{C - D}{\frac{n(n-1)}{2}} $(其中 C 为一致对数,D 为不一致对数) |
二、公式说明
1. 皮尔逊相关系数(Pearson Correlation Coefficient)
该系数是最常用的线性相关度量,其取值范围为 [-1, 1]。
- 1 表示完全正相关;
- -1 表示完全负相关;
- 0 表示无线性相关。
2. 斯皮尔曼等级相关系数(Spearman Rank Correlation Coefficient)
适用于非参数检验,当数据不服从正态分布或存在异常值时更为可靠。
通过将原始数据转换为等级(如从小到大排序),再计算等级间的相关性。
3. 肯德尔等级相关系数(Kendall’s Tau)
用于评估两个变量的排序一致性,常用于评价多个观察者之间的一致性。
在处理小样本数据时,肯德尔系数比斯皮尔曼更稳健。
三、应用场景建议
| 数据类型 | 推荐相关系数 |
| 连续变量,线性关系 | 皮尔逊相关系数 |
| 非正态分布或有序数据 | 斯皮尔曼相关系数 |
| 排序数据或多个评分者 | 肯德尔相关系数 |
通过合理选择相关系数公式,可以更准确地分析变量之间的关系,为后续的数据分析和建模提供有力支持。


