モデル選択と予測: その考え方と方法

箱山　洋

2015

データにモデルを当てはめるとは、観察した自然現象を確率変数で表現し、その確率分布を推定することである。頻度論的な立場からは、自然、もしくは、そのメカニズムを確率モデルとして正しく表現した「真のモデル」が、データを発生させたと考える。未知の真のモデルの確率分布をデータと近似モデルから精度よく推定できれば、結果としてよい予測につながる。本質的に、近似モデルのパラメータ数とデータに含まれる情報量が、確率分布の推定精度を決定する。また、一般に利用できるデータの量は限られている。したがって、与えられたデータに対してパラメータ数の異なる複数のモデルを用意し、最善のモデルを選択すること、すなわち、モデル選択が一つの統計学的な問題となる。ここでは、このようなモデル選択と予測に関する基本的な考え方を、ヒストグラム・モデル、線形回帰モデルを例としながら説明する。

Key Words: 不一致; カルバック・ライブラー不一致; TIC; AIC

http://hako.space/pdf/JJE_2015b.pdf