オオハタの研究ノート

考えたこととか勉強したこととか、書いていきます。

相関係数観察日記

相関係数は次のように定義される量です。

r = \frac{s_{xy}}{s_x s_y}

ここで、 s_x = \sqrt{\frac{1}{n}\sum_{i=1}^{n} (x_i - \bar{x})^{2}} , s_y = \sqrt{\frac{1}{n}\sum_{i=1}^{n} (y_i - \bar{y})^{2}} , s_{xy} = \frac{1}{n}\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y}) とします。x の分散、y の分散、x と y の共分散です。

2つの量がどれだけ直線的な関係を持っているかを表す指標になります。 共分散とは異なり、データの大きさに影響されません。

相関係数は2つの量に関係があるかを表す指標ではなく、2つの量に直線的な関係があるかを表す指標です。 強い条件なので相関係数0でも互いに関係していることはあります。

ベクトルとしてみる


  \boldsymbol{u} = \left(
    \begin{array}{c}
      x_1 -\bar{x}\\
      x_2 -\bar{x}\\
      \vdots \\
      x_n -\bar{x}
    \end{array}
  \right)
,
  \boldsymbol{v} = \left(
    \begin{array}{c}
      y_1 -\bar{y}\\
      y_2 -\bar{y}\\
      \vdots \\
      y_n -\bar{y}
    \end{array}
  \right)

各要素が各データの平均からのズレを表すベクトル\boldsymbol{u},\boldsymbol{v}を考えると、


s_x = \frac{1}{\sqrt{n}}|\boldsymbol{u}| , \\
s_v = \frac{1}{\sqrt{n}}|\boldsymbol{v}| , \\
s_{xy} = \frac{1}{n}\boldsymbol{u} \cdot \boldsymbol{v}

であることがわかります。すると相関係数は、

 r = \frac{\boldsymbol{u} \cdot \boldsymbol{v}}{|\boldsymbol{u}||\boldsymbol{v}|}

内積の定義を思い出してもらうとこれは\boldsymbol{u}\boldsymbol{v}のなす角の\cosであると捉えることがでかます

相関係数は平均からのズレを表すベクトルのなす角の\cos

これだと値が-1 \leq r \leq 1もすぐわかります。

観察

r=1つまりとても強い正の相関があるときを考えてみます。
 r = \frac{\boldsymbol{u} \cdot \boldsymbol{v}}{|\boldsymbol{u}||\boldsymbol{v}|} = 1
より2つのベクトルのなす角は0です。 つまり、同じ向きで平行であるといえます。

また同じ向きで平行なとき、次の式が成り立ちます。
 \frac{x_1 - \bar{x}}{y_1 - \bar{y}} =\frac{x_2 - \bar{x}}{y_2 - \bar{y}}= \dots =\frac{x_n - \bar{x}}{y_n - \bar{y}} (> 0)
これは x の平均からのズレが大きい時に y も平均からのズレが大きく、x_iの平均からのズレが小さい時にy_iも平均からのズレが小さい、と読むことができます。

同じ向きなので\frac{x_i - \bar{x}}{y_i - \bar{y}}は正になるので互いに同符号です。 つまり、x_iが平均よりプラスの場合はy_iも平均よりプラスで、x_iが平均よりマイナスの場合はy_iも平均よりマイナス。であるといえます。 これは正の相関があるということに他ならないです。

正の相関があることからベクトルが平行であること ベクトルが平行であることから正の相関があること を確認しました。

ざっくりいえば

各要素が各データの平均からのズレを表すベクトル\boldsymbol{u},\boldsymbol{v}を考えると、 相関係数はこのベクトルのなす角のcos

また\cosは2つのベクトルがどのくらい同じ向きかを表す指標と捉えることができるので 平均からのズレ方が似ている(正の相関がある)なら1に近づきます。

標準化された量の積の平均(期待値)として見る

s_{xy}を定義に従い代入すると以下のようになります。
 r = \frac{s_{xy}}{s_x s_y} = \frac{1}{n}\sum_{i=1}^n (\frac{x_i - \bar{x}}{s_x})(\frac{y_i - \bar{y}}{s_y})

\frac{x_i - \bar{x}}{s_x}という部分はよく見ると、 標準化しています。標準化とは、平均を0、分散を1にする変換のことです。

この標準化の部分が相関係数の元データの大きさによらないを作り出しています。 (ベクトルのなす角に注目するのも同じです。)

相関係数は標準化した 2 量の積の平均(期待値)であるといえます。

観察

標準化した 2 量の平均が正だったとき、これは「だいたいこの 2 量は符号をともにすることが多い」といえます。増加、減少を同じようにするということで、それは正の相関があるということです。

負であれば逆で異符号になりやすい、片方が増加しているときにもう一方は減少している。ということになります。

つぶやき。

個人的には 2 つ目の「標準化した 2 量の積の期待値」と見るやり方が今の所好きです。 だいたい、積の符号はこうなるのかーなら相関は〜ってなりやすい気もします。