「1つの結果変数と2つ以上の説明変数を含んだ回帰分析」を何と呼ぶべきかについての備忘録。
"Multivariate" と "Multivariable"
この問題については、以下のHidalgo氏とGoodman氏による総説がよく引用されてる。
Multivariate/Multivariableの違いは以下のとおり。
- Multivariate regression:2つ以上の結果変数を含んだ回帰モデル。反復測定やクラスターデータをモデル化するときに使う。
- Multivariable regression:2つ以上の説明変数を含んだ回帰モデル
通常、「多変量解析」といえば「1つの結果変数と2つ以上の説明変数を含んだ回帰分析」を指していることがほとんだと思うので、この場合は "multivariable regression" という用語が適切。
「多変量」と「多変数」
AMEDの医系国際誌が規範とする研究の信頼性にかかる倫理教育プログラムから入手可能な資料(領域:1) データの再現性の確保に向けた行動, d.誤解を生まない統計解析, 単元14, 「多変量解析」)には以下のような説明されています。
説明変数が複数個であることを明示すべく重回帰モデル、多変量回帰モデルとも呼ばれます。英語の表記としては、単変量(univariate)、多変量(multivariate)という表記が慣例的には多く用いられてきましたが、単変数(univariable)、多変数(multivariable)という言い方が正しいと多くの海外誌で主張されています。
説明変数が複数個あるモデルは、英語で "multivariable" が正しいということに加えて、「多変量」ではなく「多変数」という日本語が適切とのこと。
この他、折笠先生の書かれた総論にも、
3つ以上の変数を同時に扱う解析を多変量解析(multivariate analysis)と呼ぶ.(...中略...)結果変数Yが1つであるときは多変数・多重(multivariable/multiple),結果変数Yが2つ以上のときは多変量(multivariate)と使い分けることがある.
とある。
なので、もう1回日本語と対比させてまとめると、
- Multivariate = 多変量:結果変数が2つ以上
- Multivariable = 多変数:説明変数が2つ以上
ということ。本当なら「多変数回帰」と言うべきだけど、「多変量回帰」が 使われていることが多い。今のところ誤解も少ないからいいと思うが、multivariate regressionが使われる増えてくると、日本語でも正確に区別する必要が出てくるかも。
おわりに
Wikipediaには、
In probability and statistics, a random variate or simply variate is a particular outcome of a random variable: the random variates which are other outcomes of the same random variable might have different values (random numbers). Random variate - Wikipedia
とあって、これを読んでしまうといつも正解と逆に考えてしまう。
参考資料
[1] Hidalgo B, Goodman M. Multivariate or multivariable regression? Am J Public Health. 2013 Jan;103(1):39-40. doi: 10.2105/AJPH.2012.300897. Epub 2012 Nov 15. PMID: 23153131; PMCID: PMC3518362.
[2] 研究公正高度化モデル開発支援事業. 医系国際誌が規範とする研究の信頼性にかかる倫理教育プログラム(研究開発代表者:信州大学 市川家國 特任教授)
[3] 折笠 秀樹. 講座 リハビリテーション医学研究で使われる多変量解析・1【新連載】 総論. 総合リハビリテーション 37 (5), 427-431, 2009-05-10. 医学書院.