データ

読み: でーた

データ:観測や記録で得た事実の数値・文字・画像などの情報の集合

データ

概要

データ(データ)とは、測定・観測・調査・取引・ログなどで得られた「記録された情報」を指す。数値だけでなく、文章、画像、音声、位置情報なども含む。分析や意思決定、機械学習の材料になる。

データの種類

形式による分類

  • 構造化データ(コウゾウカデータ:表形式で項目が揃ったデータ)
- 例:売上表、顧客台帳、センサー値の時系列
  • 非構造化データ(ヒコウゾウカデータ:表に収まりにくいデータ)
- 例:メール本文、画像、動画、音声
  • 半構造化データ(ハンコウゾウカデータ:一定の型はあるが自由度が高いデータ)
- 例:JSON、XML、ログ

内容による分類

  • 定量データ(テイリョウデータ:数値で測れるデータ)
- 例:温度、売上、クリック数
  • 定性データ(テイセイデータ:言葉やカテゴリで表すデータ)
- 例:満足度コメント、カテゴリ分類、自由記述

時間との関係

  • 断面データ:ある時点の集計や状態
  • 時系列データ:時間に沿って並ぶデータ(売上の推移など)

データと情報の違い(使い分け)

  • データ:素材(記録そのもの)
  • 情報(ジョウホウ:意味づけされた内容):データを整理・解釈して意思決定に使える形にしたもの
例:売上データ → 「前年比+10%で伸びている」という情報

重要な観点(品質)

  • 正確性:誤りが少ないか
  • 完全性:欠損が少ないか
  • 一貫性:表記や単位が揃っているか
  • 適時性:古すぎないか(更新頻度が適切か)
  • 代表性:偏りがないか(サンプルの偏り)

注意点

  • 収集方法や前提(定義・期間・母数)が違うと比較できない
  • データが多くても、目的に合わないと判断を誤る(ノイズが増える)
  • 個人情報・機密情報は取り扱いルール(匿名化、権限管理など)が必須