全国咨询热线123456789
协方差
发布时间:2020-12-04 16:34浏览次数:
  • 协方差
  • 协方差公式

    1.协方差

    定义:

    X,Y为两个随机变量,则它们的协方差值为:

    这个公式的推导很简单,                                                                                                                                                                                                                                                                    

    在特定的样本数据下,E(X),E(Y)都是常值,又由方差的性质E(A+B)=E(A)+E(B)可以展开为:

    Cov(X,Y) = E(XY+E[X]E[Y]-E[X]Y-E[Y]X)

          =E(XY)+E(E[X]E[Y])-E(E[X]Y)-E(E[Y]X)

          =E(XY)+E[X]E[Y]-E[X]E[Y]-E[X]E[Y]

         = E[XY] - E[X]E[Y]

    直观理解:

    如果两个变量的协方差为正,说明它们的变化方向相同

    如果两个变量的协方差为负,说明它们的变化方向相反

    如果两个变量的协方差为0,说明两个变量不相关

    2.协方差矩阵

    假如有X1,X2,X3,...Xn一组变量,

    那么协方差矩阵,矩阵中的第i行第j列的元素X[i,j]表示变量Xi和Xj的协方差

    容易知道协方差矩阵是对称矩阵,因为X[i,j] = X[j,i]

    3.协方差/协方差矩阵的作用

    协方差可以用来衡量两个变量间的相似性,如果协方差越大(正数)两个变量越相似,如果协方差越小(负数),两个变量越相反,如果协方差为0,说明两个变量不相关

    在机器学习中,往往一个样本数据有很多个特征,基于协方差可以用来筛选特征,也就是剔除掉那些很相似的特征

    4.相关系数

    协方差的上界:

       有X,Y变量,直观的我们可以理解,变量X和自己本身的协方差肯定要大于等于变量X和Y的协方差,因为变量X和自己本身的变化趋势是完全一样的,所以给出下面的式子:var(X)代表X变量的方差

    cov(X,Y) = |E(XY) - E(X)E(Y)| <=cov(X,X) = E(X^2) - E(X)*E(X)=var(X)=delta1^2    记为T1

    cov(X,Y) = |E(XY) - E(X)E(Y)| <=cov(Y,Y) = E(Y^2) - E(Y)*E(Y)=var(Y)=delat2^2     记为T2

    当X和Y线性相关时取得等号

    因为T1,T2左右两边都是正数,我们同时对这两个式子左右两边取根号然后乘起来,可以得到

    cov(X,Y) <=delta1*delta2,delta就是方差开方得到的

    这就是协方差的上界

    相关系数:

    定义相关系数为

    由协方差的上界很容易得到:

     <= 1

    相关系数实际上也是用来衡量两个变量之间的变化趋势是否相似,只是相关系数的值限定到<1

    4.相关系数矩阵

    和协方差矩阵的定义类似,只是矩阵中元素的值变位相关系数而已

    下面看一个相关系数矩阵

     

    可以看出主对角线上的相关系数为1,因为对角线上就是某个变量和变量本身的相关系数

    在机器学习中特征数较多时(比如图像处理),可以用相关系数矩阵来筛选特征

  • 协方差
  • -->