マローズのCp

MallowsのC_p は、最小二乗法によって推定された回帰モデルの適合度を評価するために用いられる指標である。名前はコリン・リングウッド・マローズにちなむ。モデル選択を行う際に用いられ、ある複数の変数から出力を予測することができるとき、その中から一部の変数を選んで最も良いモデルを見つけることが目的である。C_pの値が小さいほど、モデルが比較的正確であることを意味する。

マローズのC_pは、ガウス線形回帰という特殊な場合において赤池情報量基準に相当することが示されている。

定義と性質

マローズのC_pは、過剰適合の問題に対する方法である。一般にモデルの変数が増えれば増えるほど、残差平方和などのモデル適合度の指標は常に小さくなる。したがって、残差平方和が最小となるモデルを選択する場合、常にすべての変数を含むモデルが選択されてしまう。代わりに、データのサンプルで計算されたC _p統計は、母集団ターゲットとして平均二乗予測誤差（MSPE）を推定する。

E\sum _{j}{\frac {({\hat {Y}}_{j}-E(Y_{j}\mid X_{j}))^{2}}{\sigma ^{2}}}

ただし、 ${\hat {Y}}_{j}$ は j 番目のケースのフィット値、E (Y_j | X_j) は j 番目のケースの期待値であり、σ²は誤差分散（全ケース共通の定数とみなされる）である。変数が追加されても、MSPEは自動的に小さくなることはない。この基準での最適なモデルは、サンプルサイズ、さまざまな予測変数の効果量、および変数間の共線性の程度によって決まる。

P個の変数がK>PであるようなK個の変数から選択された場合、C_pは次のように定義される。

C_{p}={SSE_{p} \over S^{2}}-N 2P,

ただし、

$SSE_{p}=\sum _{i=1}^{N}(Y_{i}-Y_{pi})^{2}$ は、P個の変数を持つモデルの残差平方和
Y _piは、 P リグレッサからのYの i番目の観測の予測値
S ²は、 K個すべての変数を用いて回帰分析を行った場合の残差平均平方（residual mean square）であり、平均二乗誤差（MSE）によって推定される。
Nは標本サイズ

その他の定義

次のような線形モデルがあるとする。

Y=\beta _{0} \beta _{1}X_{1} \cdots  \beta _{p}X_{p} \varepsilon

ただし、

$\beta _{0},\ldots ,\beta _{p}$ は予測変数 $X_{1},\ldots ,X_{p}$ の係数
$\varepsilon$ は誤差を表す

C_p以下のようにも定義される。

C_{p}={\frac {1}{n}}(\operatorname {RSS}  2d{\hat {\sigma }}^{2})

ただし、

RSSは、教師データセットの残差平方和
dは予測変数の数
${\hat {\sigma }}^{2}$ は線形モデルの各応答に関連する分散の推定値を指す（すべての予測子を含むモデルで推定される）

この定義によるC_pの値は、前掲の定義によるC_pの値と等しくないが、いずれの定義においてもC_pを最小にするようなモデルは同一である。

制約

C_p基準には主に2つの制約がある。

C_p近似は大きなサンプルサイズに対してのみ有効である。
C_pは変数選択（または特徴選択）の問題のようなモデルの複雑な集合を扱うことができない。

実用

参考文献

参照

Chow, Gregory C. (1983). Econometrics. New York: McGraw-Hill. pp. 291–293. ISBN 978-0-07-010847-9. https://archive.org/details/econometrics0000chow/page/291
Hocking, R. R. (1976). “The analysis and selection of variables in linear regression”. Biometrics 32 (1): 1–50. doi:10.2307/2529336. JSTOR 2529336.
Judge, George G.; Griffiths, William E.; Hill, R. Carter; Lee, Tsoung-Chao (1980). The Theory and Practice of Econometrics. New York: Wiley. pp. 417–423. ISBN 978-0-471-05938-7

CP紹介次の動画に続く〜 YouTube