本日も、りけいのりからお届けします。
今回のテーマでは、統計学的なデータ処理について扱います。
以前の記事では、りけいに大切な"たちつてと"で統計学的な裏付けの大切さについて簡潔に紹介しました。
- "りけい"になりたい
- "りけい"である
皆さんにとって、データを取得して考察する、という行為は非常に重要です。そんなとき、あなたのデータは信頼に足るものなのか、分析する必要があります。この行為は、あなたの研究、そしてあなた自身を守ることに繋がります。
そこで、本記事ではExcelを通した統計処理についてご紹介します。
統計処理は誰を守るため?
まず、統計処理の意義について考えてみましょう。
統計処理とは、あなたの取得したデータを統計学を用いて分析し、
- データそのものの信頼性を担保
- データ間での比較
を可能にする操作を指します。データの取得とは、研究において、次のように位置付けられます。
順を追って説明いたします。
まず、1.については、研究を行う背景に関係します。例えば、
- 近年の〇〇は××な傾向がある。
- 現代社会において、○○は大きな問題である。
などなど、研究の種の部分です。
続いて、2.については、研究意義に関係します。例えば、
- この研究を行うことで、○○を明らかにする。結果として、××となることが予測され、これは△△の観点から有用である。
- 以上の問題には、○○が1つの要因として考えられる。よって、××を用いて分析を行うことで、問題点を詳らかにできると考えられる。
などなど、研究意義の明文化、仮説設定に該当します。
そして、3.については、本記事の中心テーマである、データ取得についてです。自身の研究で立てた仮説を検証するために必要なデータを収集します。つまり、やみくもにデータをとるのでは無いのです。
勿論、研究においては、仮説には沿わない実験データを集めることで、
- かえって仮説の輪郭を明確にできたり
- 自分の想像を超えるデータを得られる
事もあります。ですので、以上のような姿勢を否定するつもりはありません。あくまでも、基本的な姿勢としては、仮説検証のためにデータが存在するということです。
そこから、このデータを基礎として仮説検証を行い、論文執筆や学会を通して研究成果を発表します。ここで、一つ問題提起。
ここが大切になってくるのです。何故なら、このデータがしっかりしていないと、その後の考察や仮説検証が、無に帰すことになります。帰無仮説って感じです。
いや、参考データ程度にはなるのかもしれませんが、論文執筆や学会発表に耐えうるデータの信頼度か聞かれたら、少し発表をためらうのではないでしょうか? そんな、サイエンスに関するモラルが、あなたの中に少しでもあるのであれば、統計処理について学ぶ必要があるでしょう。
統計処理は、
- 研究を守るため
- あなたの研究人生を守るため
に重要なことなのです。
続いて、実際に統計処理の具体例を扱ってみましょう。
EXCELで統計処理を施してみよう!!
ここでは、サンプルデータとして、"りけいのりの体温"を扱います。以下、生データです(※サンプル数に応じて整理しました。本来の生データは, 体温のみが並ぶテキストです)。
りけいのりは、過去3カ月以上にわたって、自信の起床後30分の体温を測定しておりました。新型コロナウイルス感染拡大の情勢を受けてのことです。
過去3カ月を通して、外気温は大きく変化ていたのですが、体温は35.0~36.5に収まっています。生物のホメオスタシスを感じるところであります。
では、これらのデータは、どのような分布をとるのでしょうか。
と、このように、正規分布のようなきれいな分布が得られるわけではありません。
データの分布関数は、そのデータに固有であり、それが集団としての特徴の一つとなります。分布関数が未知であるにも関わらず、正規分布を仮定することに、数学的根拠は無いのです。
ここで、体温のデータのエラーバー(誤差範囲)を求めてみましょう。エラーバーは、他のデータ群が存在した場合に、データ間の比較を行う上で重要になります。
必要なパラメータ、および記述するExcel関数は以下の通りです。
ここで、データとそのエラーバーは以下に示されます1)。
ここで重要になるのが、最後に示したパラメータ t(Z%)値です。分散が未知である正規分布の母集団から得たサンプルの分布は、数学的に自由度N-1を持つStudentのt分布に従うことが示されています1)。ここが、本記事の核心です。
標本集団がStudentのt分布をとることを利用して、エラーバーを求めることができるのです。ここで、Excelでt値を求めるための関数は次の通りです。
- t(Z%): =T.DIST.2T(信頼度, 自由度)
これにより、次のようなエラーバー付きのグラフを得ることができました。
両側5%信頼区間におけるデータです。
以上のプロセスを踏めば、あなたのデータは統計処理を潜り抜けたデータとなります。
主観的では無く、客観的なデータの評価を行えるようになります。
おわりに
本記事では、実験データの統計処理、特にエラーバーの設置について扱いました。胸を張って、自分のデータを公に発信するために、自分のデータの信頼性を担保するために、再現性を意識したデータの取得を行いましょう!!
以上、りけいのりがお届けしました。
参考文献
1) 化学同人編集部 (2010), 実験データを正しく扱うために 第4刷, 株式会社東京化学同人, 第6章 繰返し測定における数値の扱い.
↑↑とってもおすすめです!!! りけい必携の書↑↑