複雑なモデルは予測に適しているか?
箱山 洋生態学の個体群動態や生態系のモデルにおいて、どの程度複雑なモデルが優れているかという議論がある。予測の観点では、データから将来を精度よく予測することがよいモデルの判断の基準となる。このための統計的な枠組みとしてモデル選択があり、データの量とモデルの複雑さに応じて、モデル選択の規準からよいモデルが選ばれる。一般にデータの量が少ない場合には単純なモデルが優れている傾向があり、少ないデータを複雑すぎるモデルに用いると'overfitting'となってしまう。保全生物や水産資源管理では、様々な制約から限られたデータしか利用できない一方で、複雑すぎるモデルが使われる傾向があると言われている。例えば、魚類のバイオマス量や総個体数の変動だけが問題となる場合に、各齢の動態は興味の対象外であるにも関わらず、年齢構成を考慮したモデルを推定・予測に使う場合がよく見られる。バイオマス量だけを扱うモデルも可能であり、年齢構成モデルより予測精度が高い可能性がある。しかし、モデルの一方はスカラーデータで他方はベクトルデータである場合、単純にAICを用いた比較を行うことが難しいことなどから、現実的なデータ量に対して、どの程度単純なモデルを用いるべきか、十分にはわかっていない。そこで、個体群の総バイオマスもしくは総個体数の予測を目標に、動態予測モデルの最適な複雑さに関して、モデル選択の観点で検討を行なう。ここでは、年齢構成を考慮した確率モデル(真の分布:オペレーティングモデル)からモンテカルロデータを発生させて、仮想的に総バイオマスの真の分布を知る状況とする。そのうえで、候補となる年齢構成モデル、非年齢構成モデルの分布を計算し、Kullback-Leibler discrepancyの直接計算によるモデル選択を行い、それぞれのモデルの予測パフォーマンスを調べる。
Key Words: