解説

P 値を閾値とすることの問題 Ver. 2

このブログではこれから P 値を閾値として統計的に有意であるかどうかを決める検定について解説していく.しかし P < 0.05 の場合は統計的に有意でとする考え方は正しいくない あるいは 訂正すべきであるという考え方が主流になりつつある(1),(2),(3),(4),(5). (1) Ronald L. Wasserstein & Nicole A. Lazar 2016 The ASA Statement on p-Values: Context, Process, and Purpose Ronald L. Wasserstein & Nicole A. Lazar THE AMERICAN STATISTICIAN 2016 70(2) 129 - 133 (2) 三輪哲久 2017 ASA声明 に対する大雑把なコメント 計量生物学 38(2) 163–170 (3) Daniel J. Benjamin et al. Redefne statistical signifcance 2018 Nature Human Behaviour 2 6 – 10 (4) Zachary ...
解説

P 値の書き方 Ver. 5

P 値の記載方法 このブログでは,P 値についての解説はしていない.P 値は 統計的有意性検定(NHST:Null Hypothesis Significance Testing)において閾値となるので,どのような記載をするかは統一しておいたほうがよいと考える.私は 20 年くらいは P = 0.003 (P イタリック・大文字)の記載法をとっていた.この P 値の根拠は,ISO規格に関する統計用語では、「P 値」の「P」は大文字のイタリックで表記されることが推奨されていることによる(1). (1) 清水信博 もう悩まない!論文が書ける統計 2040 オーエムエス出版 P.27 ChatGPT - 4o と P value ChatGPT - 4o は,P value に決まったスタイルはないとし,Natureスタイルガイドとして P (イタリックなし大文字)value (1),APAスタイルガイドとして p (イタリック小文字)value(2),GraphPadでは P (イタリックなし大文字)value (2),Science では P (イタリックなし大文字)value (3) ...
解説

サンプルサイズとサンプル数 Ver. 8

サンプルサイズとサンプル数はまったく異なる概念である.これことを任視しないと統計解析の結果を正しく理解することはできない. サンプルサイズの説明 右の表の Sample Size (サンプルサイズ)は 9 になっている.左の表のIndividual ID (個体番号) は 9 であることから,サンプル数は 9 であることが理解できる.右の表の Sample Size Needed(必要なサンプルサイズ) は 13.89・・・であるから,サンプルサイズは 9 になり,サンプルサイズはすくなくて 14 必要であることが示されている.つまり,サンプル数は統計解析に使用したサンプル数を表し,サンプルサイズは 正確に統計解析するために必要なサンプル数のサイズを示していることになる(1). サンプル数      統計解析に使ったサンプルの数を示す サンプルサイズ    正確に統計解析するために必要なサンプル数がどのくらいサイズを示す    必要なサンプルサイズ 正しく統計解析するために必要なサンプルサイズ (1) 池田郁男 改訂増補版:統計検定を理解せずに使っている人のために Ⅰ 2019 化学と...
解説

生物統計学の書籍 4 冊を紹介する Ver. 3

生物統計学の書籍を 4 冊 紹介する.YouTuber 用語でいう企業案件ではない. 生物統計学 Robert R. Sokal, F. James Rohlf 藤井宏一(訳) 1983 生物統計学 共立出版 Biometry (1969) の縮刷版 Introduction to Biostatistics (1972) の全訳である.数式をできるだけ少なくして言葉で説明するというコンセプトで書かれた名著であり,筆者のバイブルでもある.とても古い書籍ではあるが,生物統計学を学ぶうえでの必読の書になっている.amazon で入手できるが,kindle 版はない. 清水信博 もう悩まない!論文が書ける統計 2004 オーエムエス出版 いずれの統計解析法を使うかがフローチャートで示されており,それぞれの統計解析についても 基礎から実践での利用法まで とても分かりやすく説明されている.統計解析について英語でどのように表記するかの例が多数記載されており,とても役に立つ書籍でもある.amazonで中古本として入手できるが,kindle 版はない.出版社の書籍案内には掲載されているので絶版されては...
解説

生物統計学において反復が意味すること Ver. 7

『 反復 』は統計学にとってデータの信頼性と再現性を担保するために不可欠な概念である.しかし,統計学の多くの書籍をあたっても『 反復 』の明確な定義は記載されていない.『 反復 』とは,① 複数のサンプルを使用すること,② 同じ実験を複数回繰り返すこと をともに意味している. 反復(repetition)とは何を意味するのか? 反復とは,分析・観察などの実験において,同じ条件で複数回データをとることを意味している.注意すべきことは,反復という専門用語は,① 複数のサンプルを使っていること,② 同じ実験を繰り返し行っていること をともに意味しているということである.この ① および ② をともに意味していることは混乱を招く原因になっている. 実験例 生育のそろったトマトを 10 個体を用い,対照,除草剤処理,殺虫剤処理,殺菌剤処理を設け,乱塊法により反復を 3 回として 120 日間栽培した.トマト 1 個体から5個 の果実をサンプリングしてそれぞれフルクトース含量を測定した. 上述の実験で『 反復 』にあたるのは,(1) 対照および各処理の 10 個体のトマト,(2) 乱解法により反復...
解説

箱ひげ図 Ver. 3

箱ひげ図は,①最小値,②最大値,③平均,④四分位範囲,⑤中央値 ⑥外れ値によって,データのばらつきを示している(1). (1) 川瀬雅也・松田史生 生命科学・生物工学のための間違いから学ぶ実践統計解析 R・Python によるデータ処理事始め 2021 日本生物工学会 編 近代科学社 Digital P.10 - 17 ChatGPT-4o が示した箱ひげ図 ChatGPT - 4o が示した箱ひげ図作成の Python スクリプトで描かれたものをもとにし,以下の図をパワーポイントで作成した.左は Python で描いた元の箱ひげ図である. 四分位範囲とはデータの 50%がはいる範囲のことで,この範囲からはずれ値を算出している.このように箱ひげ図は 直観的に データのばらつき を知るにはとても便利な図である.しかし,箱ひげ図は ① 箱ひげ図で示しれる統計量は 平均 および 外れ値 だけであること,② ごちゃごちゃして美しくないこと から 個人的には好みではない. これから解説する P 値を閾値とした検定は否定されつつある これから解説する統計解析のうち t 検定あるいは多重検定などは ...
解説

グラフを用いる意味 Ver. 5

表を用いて統計解析の結果を示すと テキストベースになるため,データ全体をすばやく理解することは困難である.わかりづらいという欠点から,表は エビデンス(科学的な証拠)を示す方法としてとても弱い方法ということになる.テキストでデータを示す表と比べて,イラストで示すグラフを使ったほうが,統計解析結果を理解しやすくなります. 多重検定の結果をグラフで示す 生データとともに Tukey - Kramer 多重検定の結果を示した表を示す. 次に,Tukey - Kramer 多重検定の結果をグラフで示す. グラフのほうが対照,処理 A,処理 B の平均,標準誤差および多重検定の結果を可視的にとられることができる.なお,このグラフは生物学の古典的な形式で書いている.ビジネスではグラフの説明は簡略化して示すことが多いのであるが,統計解析の結果については,このグラフにように必要なすべての情報を示しすほうがよい. 標準誤差と標準偏差の誤差線についての問題 上の左のグラフは誤差線として標準誤差を使っている.標準誤差は統計解析した結果の精度を示している.標準誤差は対象とする集団からデータを複数取り平均を算出...
解説

標準誤差 Ver. 8

多くの統計解析に関する書籍あるいはネットでの解説において,標準誤差はあいまいな表現がされている.その原因は,数学的に正確な表現をしているからである.このブログでは生物統計学を基礎としての標準誤差の解説していく. 生物統計学として標準誤差の解説 ① 対象とする集団からデータをとるサンプルを たとえば 10 個選ぶ. ② この 10 個のサンプルを分析してそれぞれのデータを得る. ③ これら 10 個のデータから平均を算出する. ④ ① ~ ③ の操作を たとえば 5 回 繰り返す. ⑤ 平均が 5 つ 得られる.この 5 つの平均から標準偏差を算出する. ⑥ 得られた 標準偏差 が 標準誤差になる. 標準誤差はサンプルサイズ を同じにして平均を算出し,その平均が母集団の平均からどれだけばらつくかを表した基本統計量ということになる(1).これに対して標準偏差は,母集団の平均からデータが どれだけ ばらついているか を表す. (1) Robert R. Sokal, F. James Rohlf 藤井宏一(訳) 生物統計学 1983 共立出版 P125 処理によってどれだけの影響があったかを...
解説

標準偏差 Ver. 7

標準偏差はデータのばらつき程度を示す指標となる基本統計量である(1).標準偏差は正規分布していないデータでも使用することができる(2).私自身も『 正規分布していない可能性のあるデータには標準偏差は使えない 』と誤解していた. (1) Robert R. Sokal, F. James Rohlf 藤井宏一(訳) 生物統計学 1983 共立出版 P.49 (2) 石居 進 生物統計学入門 1975 培風館 P.23 上述の誤解は,データが正規分布しているときには,データの約68%が平均から1標準偏差以内、約95%が2標準偏差以内、約99.7%が3標準偏差以内に収まる (1),(2),(3),(4),(5),(6)ということが,必ず統計解析の書籍には示されていることによると考えている. (1) Robert R. Sokal, F. James Rohlf 藤井宏一(訳) 生物統計学1983 共立出版 P.61 - 115 (2) 生物統計学入門  培風館 1975 年 P.36 - 64 (3) 清水信博 もう悩まない!論文が書ける統計 2004 オーエムエス出版 P.13 -28 (...
解説

正規分布であることの検定 Ver. 9

分析・観察して得たデータが 『 正規分布しているかどうかを確かめること 』(1) ,(2)は 統計解析の ステップ 3 である.ステップ 1 は 『 特性が均一の個体を選ぶこと』,ステップ 2 は 『 外れ値を除去すること』になる. (1) Robert R. Sokal, F. James Rohlf 藤井宏一(訳) 生物統計学 1983 共立出版 P.106 (2) 池田郁男 改訂増補版:統計検定を理解せずに使っている人のために Ⅰ2019 化学と生物 57(8) P.498  正規分布の検出 正規分布しているかどうかを検定する主なものには,シャピロ・ウィルクス検定,コスモゴロフ・スミルノフ検定,アンダーソン・ダーリング検定などがある.これらの特性を以下に示す. コスモゴロフ・スミルノフ検定を Python スクリプトで示す # Python によるコルモゴロフ・スミルノフ検定 import pandas as pd from scipy.stats import kstest from openpyxl import load_workbook # エクセルファイルのパスを指定 ...