ころがる狸

ころがる狸のデータ解析ブログ

【回帰モデル使い分け】線形重回帰、SVR、RF...

社会はコロナ禍の最中にありますが、それでも地球は回ると言いますか、コートのいらない気持ちの良い季節になりました。皆様、いかがお過ごしでしょうか?

いきなりですが、シミュレーションデータなり、実測データなりが与えられたとします。それを分析して未来の動向予測に活用したいと思ったら、回帰モデルを立てて今後得られるデータから予測を行うのが一般的な流れでしょう。回帰モデルには線形回帰モデルと非線形回帰モデルに大別できると思います。以下では両者の使い分けを考えてみました。

参考書籍はこちらの多変量解析入門です。2年ほど事あるごとに読み返していますが、その度に新しい発見があります。

多変量解析入門――線形から非線形へ

多変量解析入門――線形から非線形へ

  • 作者:小西 貞則
  • 発売日: 2010/01/27
  • メディア: 単行本(ソフトカバー)
 

 線形回帰モデル

大雑把に行ってしまえば、入力となるデータに係数をかけ、足し算して出力を得るモデルです。この係数が正であれば、入力値が大きいほど出力も大きくなりますし、逆に小さければ出力も比例して小さくなります。パラメータ数が増えると分かりにくくはなりますが、直感的にもイメージのしやすい素朴なモデルです。また、データが与えられたときにまず線形回帰モデルで解析をする、というのは良い戦略だと思います。これにより出力に特に効いているパラメータが何かを見積もることができます。そのためには色々な変数の組み合わせに対してAIC(赤池情報量基準)LOOCV(leave-one-out交差検証)を用いてモデルを評価したり、もしくはLASSOなどの手法を用いて変数選択を行うという作業が必要になってきます。素朴な手法であるが故に、データに潜む大きな特徴を掴むのにはうってつけだといえるでしょう。

非線形回帰

ニューラルネットワーク、ランダムフォレスト、サポートベクター回帰など大層な名前のついている回帰モデルたちはこちらの非線形回帰モデルに属します。線形モデルも強力ですが、例えばある段階を超えると正から負の影響を及ぼし始めるような説明変数があったとすると、線形モデルではそのような変則的な動きはとらえられません。ここで上記のような非線形回帰モデルが効果を発揮します。近年は優れた非線形モデルが既に確立しているため、線形回帰では特徴を捉えられなさそうだと思ったらこれらの手法を検討するのが良いと思います。ビッグデータ解析はもちろん、数十程度の小さなデータセットでも驚くくらい高い予測性能を発揮することがありますし、逆にデータが大きいと計算量がボトルネックとなり、小さいサンプルサイズの方が望ましい場合もあります。私は非線形モデルといったらこれらの手法を頼りに解析をしています。

とかいうと偉そうに聞こえますが、私もまだまだ未熟ものです。勉強しないとな。