りけいのり

かがくをやさしくおもしろく

【科学一般】あなたのデータは大丈夫?

本日も、りけいのりからお届けします。

 

今回のテーマでは、統計学的なデータ処理について扱います。

以前の記事では、りけいに大切な"たちつてと"で統計学的な裏付けの大切さについて簡潔に紹介しました。

www.rek2u.com

  • "りけい"になりたい
  • "りけい"である

皆さんにとって、データを取得して考察する、という行為は非常に重要です。そんなとき、あなたのデータは信頼に足るものなのか、分析する必要があります。この行為は、あなたの研究、そしてあなた自身を守ることに繋がります。

 

そこで、本記事ではExcelを通した統計処理についてご紹介します。

f:id:ReK2Science:20200924071155p:plain

統計処理は誰を守るため?

まず、統計処理の意義について考えてみましょう。

 

統計処理とは、あなたの取得したデータを統計学を用いて分析し、

  • データそのものの信頼性を担保
  • データ間での比較

を可能にする操作を指します。データの取得とは、研究において、次のように位置付けられます。

f:id:ReK2Science:20200924072828p:plain

実験データは研究の基礎を成す。

順を追って説明いたします。

 

まず、1.については、研究を行う背景に関係します。例えば、

  • 近年の〇〇は××な傾向がある。
  • 現代社会において、○○は大きな問題である。

などなど、研究の種の部分です。

 

続いて、2.については、研究意義に関係します。例えば、

  • この研究を行うことで、○○を明らかにする。結果として、××となることが予測され、これは△△の観点から有用である。
  • 以上の問題には、○○が1つの要因として考えられる。よって、××を用いて分析を行うことで、問題点を詳らかにできると考えられる。

などなど、研究意義の明文化仮説設定に該当します。

 

そして、3.については、本記事の中心テーマである、データ取得についてです。自身の研究で立てた仮説を検証するために必要なデータを収集します。つまり、やみくもにデータをとるのでは無いのです。

 

勿論、研究においては、仮説には沿わない実験データを集めることで、

  • かえって仮説の輪郭を明確にできたり
  • 自分の想像を超えるデータを得られる

事もあります。ですので、以上のような姿勢を否定するつもりはありません。あくまでも、基本的な姿勢としては、仮説検証のためにデータが存在するということです。

 

そこから、このデータを基礎として仮説検証を行い、論文執筆や学会を通して研究成果を発表します。ここで、一つ問題提起。

f:id:ReK2Science:20200924074049p:plain

ここが大切になってくるのです。何故なら、このデータがしっかりしていないと、その後の考察や仮説検証が、無に帰すことになります。帰無仮説って感じです。

 

いや、参考データ程度にはなるのかもしれませんが、論文執筆や学会発表に耐えうるデータの信頼度か聞かれたら、少し発表をためらうのではないでしょうか? そんな、サイエンスに関するモラルが、あなたの中に少しでもあるのであれば、統計処理について学ぶ必要があるでしょう。

 

統計処理は、

  • 研究を守るため
  • あなたの研究人生を守るため

に重要なことなのです。

 

続いて、実際に統計処理の具体例を扱ってみましょう。

EXCELで統計処理を施してみよう!!

ここでは、サンプルデータとして、"りけいのりの体温"を扱います。以下、生データです(※サンプル数に応じて整理しました。本来の生データは, 体温のみが並ぶテキストです)

f:id:ReK2Science:20200924075208p:plain

生データ

りけいのりは、過去3カ月以上にわたって、自信の起床後30分の体温を測定しておりました。新型コロナウイルス感染拡大の情勢を受けてのことです。

 

過去3カ月を通して、外気温は大きく変化ていたのですが、体温は35.0~36.5に収まっています。生物のホメオスタシスを感じるところであります。

 

では、これらのデータは、どのような分布をとるのでしょうか。

f:id:ReK2Science:20200924075942p:plain

体温のデータ分布

と、このように、正規分布のようなきれいな分布が得られるわけではありません

データの分布関数は、そのデータに固有であり、それが集団としての特徴の一つとなります。分布関数が未知であるにも関わらず、正規分布を仮定することに、数学的根拠は無いのです。

 

ここで、体温のデータのエラーバー(誤差範囲)を求めてみましょう。エラーバーは、他のデータ群が存在した場合に、データ間の比較を行う上で重要になります

 

必要なパラメータ、および記述するExcel関数は以下の通りです。

  • 標本の数N: =count(データ区間)
  • 標本の平均値xBar: =Average(データ区間)
  • 標本の不偏分散U^2の算出:
  1. データの残差平方和算出: = sum (データ区間 (標本の値-平均値)^2 )
  2. 不偏分散の算出: 1.で受けたデータを自由度(標本の数N-1)で除する

ここで、データとそのエラーバーは以下に示されます1)

f:id:ReK2Science:20200924085352p:plain

エラーバーの算出方法1)

ここで重要になるのが、最後に示したパラメータ t(Z%)値です。分散が未知である正規分布の母集団から得たサンプルの分布は、数学的に自由度N-1を持つStudentのt分布に従うことが示されています1)。ここが、本記事の核心です。

 

標本集団がStudentのt分布をとることを利用して、エラーバーを求めることができるのです。ここで、Excelでt値を求めるための関数は次の通りです。

  • t(Z%): =T.DIST.2T(信頼度, 自由度)

 これにより、次のようなエラーバー付きのグラフを得ることができました。

f:id:ReK2Science:20200924092320p:plain

温度データまとめ

両側5%信頼区間におけるデータです。

 

以上のプロセスを踏めば、あなたのデータは統計処理を潜り抜けたデータとなります。

主観的では無く、客観的なデータの評価を行えるようになります。

おわりに

本記事では、実験データの統計処理、特にエラーバーの設置について扱いました。胸を張って、自分のデータを公に発信するために、自分のデータの信頼性を担保するために、再現性を意識したデータの取得を行いましょう!!

 

以上、りけいのりがお届けしました。

参考文献

1) 化学同人編集部 (2010), 実験データを正しく扱うために 第4刷,  株式会社東京化学同人, 第6章 繰返し測定における数値の扱い. 

実験データを正しく扱うために

実験データを正しく扱うために

  • 発売日: 2007/12/01
  • メディア: 単行本
 

↑↑とってもおすすめです!!! りけい必携の書↑↑