解説

正規分布であることの検定 Ver. 9

分析・観察して得たデータが 『 正規分布しているかどうかを確かめること 』(1) ,(2)は 統計解析の ステップ 3 である.ステップ 1 は 『 特性が均一の個体を選ぶこと』,ステップ 2 は 『 外れ値を除去すること』になる. (1) Robert R. Sokal, F. James Rohlf 藤井宏一(訳) 生物統計学 1983 共立出版 P.106 (2) 池田郁男 改訂増補版:統計検定を理解せずに使っている人のために Ⅰ2019 化学と生物 57(8) P.498  正規分布の検出 正規分布しているかどうかを検定する主なものには,シャピロ・ウィルクス検定,コスモゴロフ・スミルノフ検定,アンダーソン・ダーリング検定などがある.これらの特性を以下に示す. コスモゴロフ・スミルノフ検定を Python スクリプトで示す # Python によるコルモゴロフ・スミルノフ検定 import pandas as pd from scipy.stats import kstest from openpyxl import load_workbook # エクセルファイルのパスを指定 ...
解説

分散 Ver. 7

データが平均から どのくらい ばらついているか の指標 『 分析・観察から得たデータが平均からどのくらい ばらついているか 』を示す指標になるのが分散でる(1). 分散 = (すべてのデータについて(データ - 平均)2 )÷ データの数 データ - 平均 については マイナスの値になることがあるので 2 乗している(1). (1) Robert R. Sokal, F. James Rohlf 藤井宏一(訳) 生物統計学 1983 共立出版 P.47 - 49 ChatGPT - 4 に分散を算出する R スクリプトを示させる 分散を算出する R スクリプトを以下に示す. # エクセルファイルのパス file_path <- "C:/Users/あなたのユーザー名/Desktop/data.xlsx" # エクセルファイルからデータを読み込む data <- read_excel(file_path) # データの列名を指定して、数値データを取得 # ここでは "Column1" という列名を仮定しています numeric_data <- data$Column1 # 分散を算出 v...
解説

平均 Ver. 4

データは平均で示す.平均とは,データすべてを足してその和をデータ数で除する,という算術平均のことである.1 回限りの事象(認識できる形をとって現れることがら)では対象とする特性は確定できない.実験植物(シロイヌナズナ ミヤコグサ)や実験動物(マウス ラット)など個体間の遺伝的特性をそろえるようにした生物でも n = 5 (供試数 5 あるいは サンプル数 5 )は必要である.繰り返しになるが,このブログで取り扱うには小標本統計ですあるから, n = 5 ~ 30 くらいの個体数を扱うことになる. CharGPT - 4 に R および Python で平均を算出させる 平均を算出する R スクリプトを以下に示す. # パッケージの読み込み library(openxlsx) # Excel ファイルのパス file_path <- "C:/Users/a56f3/Desktop/data.xlsx" # Excel ファイルからデータを読み込む wb <- loadWorkbook(file_path) # 特定のシートからデータを読み込む(例えば1番目のシート) data <- re...
解説

正規分布 Ver. 4

Python および R で 正規分布を ChatGPT - 4 で描く ChatGPT - 4 に Python スクリプトおよび 得られた正規分布の図を以下に示した. # Python で 正規分布の図を描く import numpy as np import matplotlib.pyplot as plt # 正規分布のパラメータ mu = 0 # 平均値 sigma = 1 # 標準偏差 # 点の生成 x = np.linspace(mu - 4*sigma, mu + 4*sigma, 100) y = (1 / (np.sqrt(2 * np.pi * sigma**2))) * np.exp(-((x - mu)**2) / (2 * sigma**2)) # 図の作成 plt.figure(figsize=(8, 5)) plt.plot(x, y, label=f'μ={mu}, σ={sigma}') plt.title('正規分布のグラフ') plt.xlabel('X') plt.ylabel('確率密度') plt.grid(True) plt.legend...
解説

外れ値の検出 Ver. 5

外れ値とは測定・観察したデータのうち真の値からかけ離れた数値を示すデータのことである.外れ値はヒューマンエラーで起こることが多いので,統計解析をするうえで,最も大切なことは, 外れ値の検出を使わないですむように分析・観察をすること になる.また,生物は個体差が大きいので分析・観察が正しい方法で行われていても外れ値はデータとして得られてしまう. 外れ値の検出をすることはデータ改ざんではない このブログは「 統計学を道具として使う 」ことを 1 つの目的としている.ヒューマンエラー以外の原因で生じた外れ値については,これらを削除することで,正しい統計解析とそれらの結果による考察をすることが可能になる.外れ値はかならずといってよいほどデータに存在するので,データ補正として外れ値の検出をすることは,データ改ざんに該当しない. 市販の統計解析ソフト JMP では,ロバスト推定の外れ値の検出および分位点範囲の外れ値の検出などが利用できる.外れ値の検出方法を (1) ロバスト推定による外れ値の検出,(2) ロバスト推定によらない外れ値の検出にわけ,それぞれどのような場合に利用するかを表に示した. 外...
解説

外れ値 Ver. 6

外れ値とは測定・観察したデータのうち真の値からかけ離れた数値を示すデータのことである.外れ値の多くのものはヒューマンエラーによって生じる(1).たとえば,入力ミスやサンプル調整のミスなどをがその大きな原因になる. (1) 川瀬雅也・松田史生 生命科学・生物工学のための間違いから学ぶ実践統計解析 R・Python によるデータ処理事始め 2021 日本生物工学会 編 近代科学社 Digital P.48 -55 外れ値は統計解析の結果に大きな影響を与える 以下のエクセルファイルをみてほしい. 外れ値は 処理の 9.1 である.この外れ値をデータとして含めて統計解析したため,外れ値を統計解析に含めなかった場合とは,平均および分散(黄色)が異なってくる.F 検定の P 値も異なってくることになる.平均,分散,F 検定,P 値については,のちほど解説していくので,今回は統計量が異なってくることだけに注目してほしい. 1 ヶ月あたり万単位のサブスクリプションを払っている高性能な統計解析ソフトを使っていても,統合開発環境を使ってがんばってバージョンアップに対応させているオープンソースのプログラム言...
解説

R および Python を 統計解析に使う Ver. 5

オープンソースのプログラム言語が初心者に困難な理由 統計解析のプログラム言語としてよく用いられているのは R および Python である(1).これらは,オープンソースのプログラム言語なので,ユーザーはソースコードの閲覧、変更、利用、再配布を自由することができる.このようなオープンソースのプログラム言語は無料であるが,これを使い続けるためには,① 専門的な知識の習得,② ユーザーコミュニティによって継続的な開発と改善が続けられているので,絶え間ないアップデートが必要になります.今回は R および Python を使って統計解析のプログラムをすることついて解説する. (1) 川瀬雅也・松田史生 2021 生命科学・生物工学のための間違いから学ぶ実践統計解析 R・Python によるデータ処理事始め 日本生物工学会 編 近代科学社 Digital 2021 年 統合開発環境を利用して絶え間ないアップデートに対応する 統合開発環境というと土木開発企業を連想してしまうが,総合環境開発とはプログラムをするときに便利な機能をまとめたソフトウェアのことである.私は R には RStudio,Pyt...
解説

ChatGPT- 4 と 統計解析 Ver. 3

ChatGPT - 4.0 の公開は大学教育にとって大きな影響を与えた.レポートや試験に対する教員の対策のような小さな問題から,学問とはなにか ?という哲学的な大問題にいたるまで,大学教員は大きな衝撃を覚えた.なお,学生さんへの対策として一番良い方法は,学生さんよりも ChatGPT - 4 を使いこなせるようになること である. 市販の統計解析ソフトとオープンソースのプログラム言語による統計解析 これまでの大学教員としての研究生活では SAS 社の JMP を使用してきた.もう 1 つのメジャーな統計解析ソフトとしては IBM 社の SPSS がある.Python および R で統計解析のプログラムをしていると,これらのオープンソースのプログラム言語では,ライブラリ(Python)あるいはパッケージ(R)のバージョンが月単位で更新されることに気がつく.このような更新に対応するためには,PyCharm(Python)あるいは RStudio(R)などのような統合開発環境を使うとよい. しかし,このような(1)ライブラリあるいはパッケージへの更新への対応 や (2)統合開発環境(ソフトウ...
解説

対象とする集団 Ver. 8

生物統計学では対象は生物なので個体差が大きく,たとえば,ある栽培方法が特定の植物にどのような影響を与えるかを調べるときには,対象とする生物集団の形質を均一にする必要がある.具体的には,対照と処理の品種・系統をそろえて遺伝的に均一で,しかもサイズのそろった集団構成することが求められる. 供試数,個体数,サンプル数,データ数および標本数について 供試数,個体数,サンプル数およびデータ数という専門用語は生物統計学にとっても,解釈に齟齬を招く用語なので,ここでこれらを改めて定義しておくことにする. 供試数 分析・観察など実験に使用した生物の数のことを供試数という.ChatGPT - 4o に供試数を定義させたところ,同じ実験を何回繰り返したかという反復を供試数として定義してきたが,これは間違っていると考える. 個体数 分析・観察などの実験に使用した生物の数のことを個体数という.供試数 = 個体数 と考えてよい. サンプル数 分析・観察などの実験に使用したサンプルの総数をサンプル数という.メロン 10 個体(園芸学では 10 株と表記)を対照および処理に用い,1 個体第4本葉から第 6 本葉まで...
解説

統計解析をする意味 Ver. 7

生物統計学はパワフルなツールである このブログでは,①なぜ統計解析をする必要があるか? ②統計解析の結果を正しく考察するにはどうすればよいのか? を解説していくことにする.私は大学教員として情報処理・生物統計学の演習を通算 20 年くらい 担当していた.生物統計学との出会いは大学2年生のときの学生実験である.『 統計学を使うと平均値間において統計的に有意な差があるかどうかを示すができるのか・・・ 』と深く感動したことを覚えている. 上級国家公務員試験に合格して農林水産省に入省し,特許事務所,2 つの企業の研究所を経て,母校の農学部助手に採用され,講師になって生物統計学を担当することになった.それから大学を定年退職した今日にいたるまで,(1) 生物統計学を科学的な証拠(エビデンス)として利用するにはどうすればよいか? (2) 統計解析した結果を深く考察するためにはどのようなツールを使えばよいか? について研究している. 『 工学の研究者は数学を道具として利用する 』と 教えてくれた先輩がいた.このブログでは『 統計学を道具として利用する 』ことを解説していきたいと思う.具体的にいうと,む...