ねこすたっと

ねこの気持ちと統計について悩む筆者の備忘録的ページ。

neco

カッパ係数でカテゴリー変数の一致度をみる [R]

カッパ係数(Cohen's kappa statistic)とは 定義 解釈 重み付けカッパ係数(weighted kappa statistic) 定義 Rで計算してみる サンプルデータを作成する 方法1:irrパッケージを用いる 方法2:vcdパッケージを用いる 方法3:psychパッケージを用いる おわ…

空間データを可視化する(2)(sfパッケージ) [R]

はじめに GISデータをプロットしてみる 例1:plot( )を使う 例2:geom_sf( )を使う 例3:離散変数に従って塗り分ける 例4:連続変数に従って塗り分ける 例5:複数の図を重ねる おわりに 参考資料 はじめに Rのsfパッケージを使って、神戸市の校区境界と学校…

ZoteroをWebDAV経由で同期させて資料を管理する

以前、Dropbox経由でZoteroを同期させる方法をまとめました。 necostat.hatenablog.jp この方法だとPDFしか同期できず、Webページやパワポは別の方法で管理しなくてはなりませんでした。 WebDAV(ウェブダブ)経由で同期させる方法だと解決したので、備忘録…

分散分析(ANOVA):球面性仮定

分散分析で満たすべき仮定として球面性の仮定(the assumption of sphericity)*1をよく目にしますが、きちんと勉強したことがなかったので(わかるところだけ)読んでみました。 分散分析に必要な仮定 球面性の仮定とは 2水準間の差の分散に基づいた定義方…

rowwise関数を使って複数の列を組み合わせた変数を作成する(tidyverseパッケージ)[R]

臨床現場では、対象者の年齢や症状、検査値などをもとにして計算される「何とかスコア」が使われることがよくあると思います。 臨床研究でも、既に収集された項目からcomposite scoreを計算し、変数に追加したいことはよくあります。 今回はtidyverseパッケ…

across関数を使ってデータフレームの列に対して一括で操作する(tidyverseパッケージ)[R]

以前、データフレームの列(=変数)に対して、追加・名前変更・要約などの操作方法についてまとめました。 necostat.hatenablog.jp necostat.hatenablog.jp 最近は列の操作でacross関数を使うことが多くなってきたので、ここらへんで学び直しておこうと思い…

geom_tileを使って予測確率をヒートマップで表現する(ggplot2パッケージ)[R]

ロジスティック回帰モデルなどから予測されるアウトカム発生確率(=予測確率)をグラフで可視化したいとします。 1つの変数に対して予測確率がどのように変化していくかを示したければ、折れ線グラフにしたり、変数をカテゴリー化して棒グラフで表したりする…

分散分析(ANOVA):固定効果と変量効果

分散分析(Analysis of Variance, ANOVA)を学ぶ目的でKutner先生のApplied Linear Statistical Models(5th edition)を拾い読みし始めました。 前回は二元配置分散分析で分散分析表を作るところまで確認しました。。 necostat.hatenablog.jp 今回は要因の…

分散分析(ANOVA):平方和と自由度の分割

分散分析(Analysis of Variance, ANOVA)を学ぶ目的でKutner先生のApplied Linear Statistical Models(5th edition)を拾い読みし始めました。今回は主に"Chapter 16: Single Factor Studies" から、分散分析の基本となる平方和・自由度の分割についてで…

混合効果モデルで変化点を探す:Stanを使ったベイズ統計モデリング [R]

以前、segmentedパッケージを使って変化点を探す方法を調べました。 necostat.hatenablog.jp segment( )はglmオブジェクト(=glm関数で当てはめたモデル)とlmeオブジェクト(=変量効果を含む線形回帰モデル)には対応しているんですが、lme( )は変量効果を…

「割合」や「率」に対してオフセット項付きポアソン回帰モデルを当てはめる [R]

アウトカムが「割合」、というか「試行数と成功数」として与えられているときに二項回帰モデルを当てはめる方法は以前まとめました。 今回は「オフセット項」を使った回帰モデルに当てはめる方法をまとめてみようと思います。 オフセット項(offset)とは 使…

Hoyle拾い読み:検証的因子分析(CFA)

構造方程式モデリング(Structural Equation Modeling, SEM)の初学者が、 タイトルの "Handbook" に誘われて買ってしまったHoyle先生の分厚い本を拾い読みしたメモです。 といっても、私にとって重すぎる内容は拾い上げられていません。 今回は "Chapter 22…

Hoyle拾い読み:SEMのパス図と構成要素

構造方程式モデリング(Structural Equation Modeling, SEM)の初学者が、 タイトルの "Handbook" に誘われて買ってしまったHoyle先生の分厚い本を拾い読みしたメモです。 といっても、私にとって重すぎる内容は拾い上げられていません。 今回は "Chapter 3…

Hoyle拾い読み:構造方程式モデリング(SEM)とは

構造方程式モデリング(Structural Equation Modeling, SEM)の初学者が、 タイトルの "Handbook" に誘われて買ってしまったHoyle先生の分厚い本を拾い読みしたメモです。 といっても、私にとって重すぎる内容は拾い上げられていません。 まずは "Chapter 1…

多重比較補正に対する考え方 [R]

測定されたデータをもとにして母集団を比較するときには2種類の誤りが生じる可能性があります。 第1種過誤(αエラー):本当は差がないのに「差がある」と判断してしまう誤り 第2種過誤(βエラー):本当は差があるのに「差がない」と判断してしまう誤り エ…

回帰モデルの診断・評価(2):線形性

この記事では回帰モデルが満たすべき前提条件のうち、「線形性」について評価する方法について学んでみるつもりです。回帰モデルの満たすべき仮定の概要については以下の記事を参考にしてください。 necostat.hatenablog.jp 線形性(linearity)の仮定とは C…

回帰モデルの診断・評価(1):正規性・等分散性・外れ値・独立性

Rothman先生のModern Epidemiology(4th edition)の拾い読みシリーズとして"Chapter 21:Regression Analysis Part II: Model Fitting and Assessment" をまとめようと思ったんですが、もう少し統計学寄りの内容を勉強しようと思い、Applied linear statist…

Rothman拾い読み:研究デザインの型

Rothman先生のModern Epidemiology(4th edition)をパラパラめくって拾い読みしたメモです。 今回は "Chapter 6:Epidemiologic Study Design With Validity and Efficiency Considerations" から、研究デザインの型について。 Chapter 6では研究デザインの…

Rothman拾い読み:測定誤差と情報バイアス

Rothman先生のModern Epidemiology(4th edition)をパラパラめくって拾い読みしたメモです。 今回は "Chapter 13:Measurement and Measurement Error" から、測定誤差について。 測定誤差(measurement error)とは 測定における誤差の分類 測定誤差の影響…

Rothman拾い読み:効果・関連の指標

Rothman先生のModern Epidemiology, 4th edition(以下ME)をパラパラめくって拾い読みしたメモです。 今回は "Chapter 5:Measures of Effect and Measures of Association" から、効果・関連の指標について。 効果(effect) 因果効果(causal effect)と…

Rothman拾い読み:“Population”にまつわるエトセトラ

Rothman先生のModern Epidemiology, 4th edition(以下ME)をパラパラめくって拾い読みしたメモです。 今回は "Chapter 4:Measures of Occurrence" から、population(集団)について。 疫学とは 集団(population) 閉じた集団(closed population)と開い…

2×2表で関連性をみるための正確検定(Exactパッケージ)[R]

Fisher正確確率検定(Fisher's exact test) Fisher正確確率検定の問題点 固定されている周辺度数いろいろ 行も列も固定されているケース 行(あるいは列)のみ固定されているケース 合計数のみ固定されているケース Fisher正確確率検定の過剰な保守性に対処…

時間依存性共変量をスーパーランドマークモデルを使って解析する(dynpredパッケージ)[R]

ランドマーク(LM)解析とは スーパーランドマーク解析とは 必要なパッケージとデータの読み込み 使用するスーパーランドマーク解析の概要 cutLM( )を使ってLM解析用データセットを準備する。 おわりに 参考資料 ランドマーク(LM)解析とは Immortal time b…

RでTeX表記を使う(latex2expパッケージ)[R]

Tex( )でLaTeX表記を使う LaTeX表記の方法 おわりに 参考資料 文字や図版などの要素を紙面に配置するという作業を「組版」というが、TeXはこの作業を行うために開発された言語。 LaTeX(ラテフ, ラテク)はTeXを使いやすくした無料の文書処理システムで、数…

反復処理でサブグループ解析を一括で行う(tidyverse系purrrパッケージ)[R]

サブグループ解析とは、全体からある特性を持った一部の集団(例:男性)を取り出して解析をすること。ランダム化が崩れたり、解析対象集団のサイズが小さくなるから検出力が落ちたり、多重検定の問題が生じたり、と色々注意はある。 でもこの記事では、そこ…

幾何平均(geometric mean)の信頼区間を求める(Gmean関数)[R]

はじめに 幾何平均の信頼区間 Gmean( )を使って計算する おわりに 参考資料 はじめに 平均と言えば大体は「算術平均(arithmetic mean, AM)」のこと。全部足して、要素の個数Nで割る。 これに対して、「幾何平均(geometric mean, GM)」は全部掛け合わせて…

因子型データに対する操作(forcatsパッケージ)[R]

因子型データとは 因子型データの作り方 factor( )を作って因子型データを作る 2つの因子型データを統合する 因子型データの内容を確認する 水準の順序を変更する 他の変数に基づいて水準を並べ替える 水準の値を変更する fct_recode( )で水準のラベル名を変…

日付・時間の操作(2):期間を計算する(lubridateパッケージ)[R]

時間型データを丸める(切り上げ・切り捨て・四捨五入) 期間を計算する duration:時間の長さを秒単位に直して計算する period:人間の感覚の年月日で計算する interval:2つの時点の間隔を秒単位で計算する int_length( )を使ってintervalの長さを求める i…

サンプルサイズ計算:1群の連続アウトカム(正規分布)の平均を既知の値と比較する [G*Power]

想定シナリオ 方法:t検定もとにして計算する おわりに 参考資料 自分用のリファレンスとして、サンプルサイズ計算に関する記事をシリーズで書いています。 なるべく体裁を統一するために、以下のように決めています。 群を示す添字について: c, C = 対照群…

サンプルサイズ計算:2群の連続アウトカム(正規分布)を比較する [G*Power]

想定シナリオ 方法:t検定もとにして計算する おわりに 参考資料 自分用のリファレンスとして、サンプルサイズ計算に関する記事をシリーズで書いています。 なるべく体裁を統一するために、以下のように決めています。 群を示す添字について: c, C = 対照群…