統計

読み: とうけい

トウケイ:データを集めて要約し、母集団の傾向を推測・判断する学問

統計

概要

統計は、データから「全体として何が言えそうか」を整理し、根拠をもって判断するための方法です。感覚や印象ではなく、数や不確実さも含めて説明できるのが強みです。

統計が扱う2つの仕事

記述統計

集めたデータを「見やすく要約」します。
  • 平均・中央値・最頻値
  • 分散標準偏差(ヒョウジュンヘンサ:ばらつきの大きさ)
  • ラフ化(ヒストグラム、箱ひげ図など)

推測統計

一部のデータから全体を「推測」します。
  • 母集団(ボシュウダン:調べたい対象全体)を、標本(ヒョウホン:そこから取り出した一部)から推定
  • 不確実さを「信頼区間(シンライクカン:推定値が入る範囲の目安)」で示す
  • 仮説検定(カセツケンテイ:差や効果が偶然かを検証する枠組み)

よく出る基本用語

変数と尺度

  • 変数(ヘンスウ:人や物ごとに値が変わる項目)
例:年齢、売上、満足度
  • 尺度:数値の意味の違い
例:カテゴリ(性別など)、順位(ランキング)、間隔(温度のように差が意味を持つ)など

分布とばらつき

  • 分布:値がどのあたりに多いかの形
  • 平均だけでなく、ばらつきや外れ値も一緒に見るのが基本です。

相関と因果の注意

  • 相関(ソウカン:一緒に増減しやすい関係)があっても、因果(インガ:原因と結果)とは限りません。
例:アイス売上と熱中症は相関しやすいが、原因は気温の可能性が高い

データの集め方が結論を左右する

  • サンプリング(サンプリング:全体から一部を選ぶこと)が偏ると、結果も偏ります。
  • よくある偏り
- 選択バイアス(バイアス:偏り):特定の人だけが回答してしまう - 欠測(ケッソク:データの抜け):都合の悪い値が抜けやすい

よく使う指標・手法(ざっくり)

  • 回帰(カイキ:複数要因と結果の関係を式で表す)
  • p値(ピーち:観測された差が偶然でも起きる度合いの指標の一つ)
  • 効果量(コウカリョウ:差の大きさを尺度として表す)

実務でのコツ

  • 「目的→指標→集め方→分析→解釈」の順で設計する
  • 平均だけで結論を出さず、分布・ばらつき・サンプル数も確認する
  • 比較するときは条件(期間、母数、定義)を揃える
  • 統計結果は「前提(データ品質・収集方法)」とセットで書く