Invitation Vectors by Vecteezy
データ分析をすると思い立った時に、聞いた事のない言葉の数々に戸惑いました。「統計学」「多変量解析」「データマイニング」「機械学習」・・・この言葉の違いは何のか。もとい、、一体自分がやりたい事はこの言葉のどれに当たるのかすら分かりません。それでは何から勉強したらいいか、分かりません。本当に困りました。 書籍やネットで色々調べて、落とし込んだ結果を少しずつ残しておきます。
統計学とかデータマイニングって??
統計学とデータマイニングが比較される事が多いようです。統計学は、少ないサンプル・データを統計的な手法で分析し、傾向や予測を立てたりする際に利用する、大量のデータを収集、処理できなかった時代の時のもの。データマイニングは、大量のデータを統計学や人工知能などの分析手法を駆使して、「知識」を見出すための技術。というものです。
そうなんです。統計学とデータマイニングを比較する事自体にしっくり来なかったのです。統計学が古典的で基礎的、データマイニングが現代的で応用的。そんな風に捉えたのです。みなさんはいかがでしょうか。
データマイニングで使われる手法
データマイニングは「統計的分析」「非統計的分析」に分けられます。統計的分析は目的変数があり、非統計的分析はないものを言います。さらに、統計的分析の中で「単変量解析」と「多変量解析」に分けられます。「単変量解析」とは,目的変数が1つの場合の解析を言います。平均値や標準偏差などの基本統計量、t検定、カイ2乗検定等があります。目的変数が2つ以上ある場合は、「多変量解析」と言います。互いに関係のある多変量(多変数,多種類の特性値)のデータが持つ特徴を要約し、かつ、目的に応じて総合するための手法です。
データマイニング | ||
---|---|---|
非統計的分析(目的変数なし) | 主成分分析 | |
因子分析 | ||
クラスター分析 | ||
数量化Ⅲ類 | ||
統計的方法(目的変数あり) | 多変量分析(目的変数2つ以上) | 重回帰分析 |
コンジョイント分析 | ||
数量化Ⅰ類 | ||
線形判別分析 | ||
数量化Ⅱ類 | ||
単変量解析(目的変数1つ) | X二乗検定 | |
Fisherの正確検定 | ||
Wilcoxonの検定 | ||
F-検定 | ||
Welchのt-検定等 | ||
多重検定 |
多変量解析
上記表の「多変量解析」について手法を細かく分類してみます。
目的変数 | 説明変数 | 解析手法 | 分かること |
---|---|---|---|
量的 | 量的 | 重回帰分析 | ①予測 ②説明変数の重要度 ③説明変数の影響度 |
質的 | コンジョイント分析 | ↑ | |
数量化Ⅰ類 | ↑ | ||
質的 | 量的 | 線形判別分析 | ①予測 ②説明変数の重要度 |
質的 | 数量化Ⅱ類 | ①予測 ②説明変数の重要度 ③目的変数と説明変数の関連性 |
目的変数と説明変数
「目的変数」とは何らかの要因によって変化する変数のことを言います。「説明変数」は興味のある対象の変化を説明する変数のことを言います。例えば天気によって売上が変化する場合、目的変数(y):売上、説明変数(x):天気となります。機械学習ではよく教師あり学習、教師なし学習に分けられますが、教師あり学習とは目的変数(y)と説明変数(x)の関係を学習するアルゴリズムです。
量的データと質的データ
「量的データ」とは、年齢など数値に意味のあるものを言います。「質的データ」とは、分類のために数値が与えられているデータで、例えば性別を1:男性、2:女性とした場合、1,2,に意味はありません。数値として量的な意味はなく、分類のための数値を質的データと言います。年齢は量的データですが、1:20~29歳、2:30~39歳、3:40~49歳と分類したとすると、質的データとなります。
コメント