Rothman拾い読み：回帰モデルの選定

Rothman先生のModern Epidemiology（4th edition）をパラパラめくって拾い読みしたメモです。今回は回帰についてということで、 "Chapter 20：Regression Analysis Part I: Model Specification"を参考にしています。

この記事では回帰モデルの選定（specification）の概要だけにして、回帰モデルの評価の話はまた別の機会に。

回帰（regression）とは
回帰モデリング（regression modeling）の工程
用語のハナシ
おわりに
参考資料

回帰（regression）とは

Rothmanを引用すると、

A regression of a variable Y on another variable, say an exposure X, is a function that describes how some feature of the distribution of Y changes across population subgroups defined by values of X.

とある。つまり、「ある変数Yの分布の様子が、変数Xの状態で定義される集団内のサブグループごとで、どんなふうに変わるのか」を示した関数（function）が回帰であるとのこと。

ここで、回帰関数（regression function）とは「母集団において、変数Xがある値であるときに変数Yの代表値（多くの場合は平均値）がどんな値になるか」を示したもの。関数（function）と言われると何やら数式をイメージしてしまうが、「Xの値を決めるとYの値が1つに決まる」というのが関数なので、必ずしも方程式で表される必要はない。例えば、母集団において年齢が50歳の人のアウトカムの平均値は、実際に50歳の人全員のアウトカムを調べて平均を取ったら求まるので、方程式で関係性を定める必要がない。 母集団における真の関係性を指したもので、基本的にはノンパラメトリック（=パラメータや方程式に依存しない）であり、概念的なものである。

これに対して回帰モデル（regression model）とは、研究者が研究疑問に答えるために真の回帰関数を近似して選定した関数。回帰モデルは真の関係性を簡略化しているので、大なり小なり不正確であることは避けられないが、簡略化のお陰で事象の理解が助けられる。

下は両者の違いをイラストにしたものです。

回帰モデルを使った解析は、層別解析と比べて同時に多くの変数を扱うことができる反面、強い仮定を必要とするという欠点がある。

回帰モデリング（regression modeling）の工程

解析のために回帰モデルを作る過程を、回帰モデリング（regression modeling）と呼ぶ。回帰モデリングには以下の工程がある。

1. モデル選定（model specification）

モデルの大枠となる形を決める過程。Rothmanでは例として、「地球の公転軌道を正円とみなすか、楕円とみなすか」が書かれていた。楕円の方がより正確ではあるが、推定すべきパラメータが増えて複雑になる。また一般的に言って、複雑なモデルを使った予測の方が、シンプルなモデルによる予測よりも不安定になりやすい。

臨床研究においては、アウトカムにどのような確率分布を想定するかとか、どんな変数を含めるか、交互作用・高次項はどうするか、などを決める過程。得られたデータから選ぶのではなく、その研究テーマの専門家が知見を元に選ぶべきとされる。

2. モデル当てはめ（model fitting）

データをもとにして、設定したモデルに含まれているパラメータの最適な推定値を求める過程。最小二乗法（least square estimation）とか、最尤法（maximum likelihood）とか、擬似尤度（quasi-likelihood）を使って推定する。

3. モデル評価（model assessment）

モデルの当てはまり具合を診断・評価する工程。モデル診断がどの程度必要かは、モデルの用途（目的）による。要因によるリスク増加を要約したいだけの場合もあれば、共変量が与えられた条件下でアウトカムを予測したい場合もあり、後者の方がより詳細な評価を要する。

4. モデル選択（model selection）

モデル同士を比較して、どの共変量を含めるべきか、含めるとしたらどうやって含めるべきか（カテゴリー化・多項化）、どのリンク関数を使うべきか、などを選ぶ過程。統計的有意性に基づいて選ぶ方法は推奨されない。たとえ完全でなくても、因果モデルに関する先行知見が役に立つ。

用語のハナシ

前述の説明の中で登場したXは、説明変数（explanatory variable）、独立変数（independent variable）、予測因子（predictor）、共変量（covariates）などと呼ばれる。Yは応答変数（outcome variable）、従属変数（dependent variable）などと呼ばれる。"Independent/dependent" という用語が最も一般的らしいが、回帰モデルの中での "independent/dependent" と、因果関係の文脈での "Independent/dependent" が一致していないケースもある。

共変量を複数に増やしたモデルは "multiple regression" あるいは "multivariable regression" と呼ぶのに対し、複数のアウトカム変数を同時に扱うモデルは "multivariate regression" と呼ばれる。

このお話は前にまとめました。

necostat.hatenablog.jp