データ
読み: でーた
データ:観測や記録で得た事実の数値・文字・画像などの情報の集合
概要
データ(データ)とは、測定・観測・調査・取引・ログなどで得られた「記録された情報」を指す。数値だけでなく、文章、画像、音声、位置情報なども含む。分析や意思決定、機械学習の材料になる。データの種類
形式による分類
- 構造化データ(コウゾウカデータ:表形式で項目が揃ったデータ)
- 非構造化データ(ヒコウゾウカデータ:表に収まりにくいデータ)
- 半構造化データ(ハンコウゾウカデータ:一定の型はあるが自由度が高いデータ)
内容による分類
- 定量データ(テイリョウデータ:数値で測れるデータ)
- 定性データ(テイセイデータ:言葉やカテゴリで表すデータ)
時間との関係
- 断面データ:ある時点の集計や状態
- 時系列データ:時間に沿って並ぶデータ(売上の推移など)
データと情報の違い(使い分け)
- データ:素材(記録そのもの)
- 情報(ジョウホウ:意味づけされた内容):データを整理・解釈して意思決定に使える形にしたもの
重要な観点(品質)
- 正確性:誤りが少ないか
- 完全性:欠損が少ないか
- 一貫性:表記や単位が揃っているか
- 適時性:古すぎないか(更新頻度が適切か)
- 代表性:偏りがないか(サンプルの偏り)
注意点
- 収集方法や前提(定義・期間・母数)が違うと比較できない
- データが多くても、目的に合わないと判断を誤る(ノイズが増える)
- 個人情報・機密情報は取り扱いルール(匿名化、権限管理など)が必須