ロゴ
テキスト/経営情報システム/データ分析の技術

データ分析の技術

データベース

データの山から宝を見つけ出す技術!DWHに貯めて、OLAPで分析して、マイニングで発見するのが基本の流れ!

1

データ分析の技術

簡単にいうと

データの山から宝を見つけ出す技術!DWHに貯めて、OLAPで分析して、マイニングで発見するのが基本の流れ!

① BI(ビジネスインテリジェンス)の概念

BI(Business Intelligence)とは、企業内外の事実に基づくデータを体系的に蓄積・分類・検索・分析・加工して、各種の意思決定に有用な知識を生み出したり役立てたりする仕組みの総称です。これらを実現するためのソフトウェアをBIツールとよびます。BIツールの代表的な機能には、オンライン処理分析(OLAP)、業績管理市場分析販売分析などがあります。

② ビッグデータの分類

ビッグデータとは、大量かつリアルタイムに発生する構造化データおよび非構造化データ(半構造化データも含む)を蓄積し、それらを処理・分析するための技術の総称です。近年はデジタルデータの多様化に伴い、構造化データに加えて半構造化データならびに非構造化データの利活用の重要性が高まっています。

特性構造化データ半構造化データ非構造化データ
形式定義されたスキーマ、テーブル構造一定の構造(キーやタグなど)特定の形式やルールなし
リレーショナルデータベースのテーブルXML、JSON、YAML、HTMLテキスト、画像、音声、動画
データ収集の容易性低い中程度高い
操作・分析の容易性高い(SQLなどで操作)中程度(特殊なツールが必要)低い(特殊な技術が必要)
柔軟性(目的以外の用途)低い高い高い
主な用途トランザクション処理、レポート作成などWebAPI、ログファイルの記録など画像認識、音声認識、自然言語処理など

③ データウェアハウス(DWH)

データウェアハウス(DWH: Data WareHouse)とは、企業のさまざまな活動を介して得られた大量のデータを目的別に整理・統合して蓄積し、意思決定支援などに利用するために基幹業務用のデータベースとは別に作成するデータベースシステム環境のことです。

DWHの4つの特徴:

  • 時系列に蓄積: データを時系列に蓄積し、過去のデータも保持する
  • 一元化: データのネーミングルールや形式を統一して一元化する
  • 参照専用: データの蓄積に主眼を置いており、格納されているデータは更新されない
  • 意思決定支援: 経営判断や分析に活用することが主目的

④ OLAP(オンライン分析処理)

OLAP(Online Analytical Processing)は、BIツールの1つで、業績管理、市場分析、販売分析などの用途に使われます。DWHに蓄積されたデータを多次元的に分析するための技術で、以下の4つの操作があります。

操作内容
スライシングDWHスキーマ内の中心に位置するファクトテーブルをある断面で切り取り、2次元の表にする操作
ダイシングファクトテーブルについて、縦軸と横軸を自由に指定することで、サイコロの転がすように視点を切り替える操作
ドリルダウン参照するデータをより深く掘り下げて詳細化する操作。反対に集約化したデータを見る操作をロールアップ(ドリルアップ)とよぶ
ドリルスルー集計データから関連付けられた別のレポート(詳細ページなど)へのリンクやナビゲーションを指す。別のデータセットにある関連情報へページ間を移動する点がドリルダウンとの違い

⑤ OLAP実装方式

OLAPには3つの実装方式があります。

項目ROLAPHOLAPMOLAP
データストレージリレーショナルデータベースリレーショナルデータベースと多次元データベースの両方多次元データベース
レスポンス遅い中程度速い
最新情報の参照(リアルタイム性)優れている中程度劣る

ROLAP(Relational OLAP)はデータストレージにリレーショナルデータベースを使用してオンライン分析処理を行う方式です。MOLAP(Multidimensional OLAP)はデータストレージに多次元データベースを使用してオンライン分析処理を行う方式です。HOLAP(Hybrid OLAP)はデータストレージにリレーショナルデータベースと多次元データベースの両方を使用してオンライン分析処理を行う方式です。

⑥ ETL(Extract・Transform・Load)

ETLとは、さまざまなデータソースからデータを抽出(Extract)し、扱いやすいフォーマットに変換(Transform)し、データウェアハウスに書き出し(Load)て統合して格納する処理です。これら3つの処理の頭文字をとってETLとよび、ETLを実施するにはETLツールとよばれるソフトウェアを用います。

⑦ データクレンジング

データクレンジングとは、ETLツールを使い、データ形式や値の統一、異常値や欠損値の処理などを自動化することです。多様な形式で蓄積されている生データに対し、データ形式統一、単位統一などの処理を行い、横断的な解析ができるようにデータを整えることを指します。具体的には、データの誤り、重複、表記の揺れなどを洗い出し、異質なデータ(外れ値など)を取り除いてデータの品質を高める作業などを指します。

⑧ データマイニング

データマイニングとは、大量のデータを分析して、これまで知られなかった傾性や傾向など、何らかの知見を得ることです。データマイニングで利用される具体的な分析手法には、相関分析などがあります。

⑨ その他の用語

用語内容
データマッピング異なるシステム間において、同じ内容を示している項目同士を関連付けたり当てはめたりするルールや処理のこと。データマッピングを行うことで、あるシステムの特定項目を変更すると、関連付けられた別のシステムの項目に自動で反映される
データマイグレーション異なる種類のストレージ、フォーマット、コンピュータなどの間でデータを移行することです
データレイク構造化データ・半構造化データ・非構造化データを含む多様なデータをそのままの形式で格納する一元化されたリポジトリ(データやプログラムの情報が蓄積されたデータベース)です。データをそのままの形で保存できるため、スキーマをあらかじめ定義する必要がなく、データを構造化しておく必要がありません。また、データの可視化、ビッグデータ処理、リアルタイム分析、機械学習など、さまざまなタイプの分析を実行して、より的確な意思決定に役立てることができます
データスワンプどこにどのようなデータがあるかわからず、欲しいデータを把捉することができない状態のこと。管理不全のデータレイクが陥る状態

具体例

ある小売企業がデータ分析の技術をどのように活用しているか、流れに沿って見てみましょう。

この企業には全国100店舗のPOSデータ、ECサイトの購買ログ、顧客アンケートなど、複数のデータソースがあります。

ステップ1: ETLでデータを収集

まず、ETLツールを使って各システムからデータを抽出(Extract)します。次に、日付形式の統一や商品コードの名寄せなどの変換(Transform)を行い、最後にDWHに格納(Load)します。この過程でデータクレンジングも実施し、重複データの除去や表記揺れの統一を行います。

ステップ2: DWHに時系列で蓄積

DWHには過去5年分の売上データが時系列で蓄積されています。基幹システムのDBとは別に存在し、分析専用(参照専用)として運用されます。データはネーミングルールが統一され、一元管理されています。

ステップ3: OLAPで多次元分析

マーケティング担当者がBIツールでOLAP分析を行います。まずスライシングで「2025年の東京エリア」という断面を切り出し、次にダイシングで縦軸を「商品カテゴリ」、横軸を「月」に変えて売上傾向を確認します。気になるカテゴリがあればドリルダウンで「食品→菓子→チョコレート」と詳細レベルまで掘り下げます。

ステップ4: データマイニングで知見発見

さらにデータマイニングの相関分析を行うと、「チョコレートとコーヒーの同時購買率が高い」という知見が得られました。これを元に店舗レイアウトの改善やクロスセル施策を展開できます。

試験のポイント

  • 要は「DWH=データの倉庫(時系列蓄積・参照専用)、OLAP=多次元分析(ドリルダウン=詳細化が頻出)、ETL=抽出→変換→格納の3ステップ」
  • ROLAP=RDB利用(リアルタイム性高)、MOLAP=多次元DB(レスポンス速い)、HOLAP=ハイブリッド
  • データレイク=構造問わず格納、データスワンプ=管理不全のデータレイク
  • データクレンジング=形式統一・異常値処理でデータ品質向上

独学で診断士合格を目指すなら

過去問演習・AI添削・テキストPDFまで

すべて揃ったプレミアムプランで合格を掴む!

予備校代の1/10以下で、独学の不安をまるごと解決

  • 📝1次試験 過去問演習(全7科目・年度別)無制限プレミアム限定
  • 🤖2次試験 AI添削(事例I〜IV・無制限)最適なフィードバックで実力アッププレミアム限定
  • 📄科目別テキストPDFダウンロード。印刷して好きな使い方で学習できるプレミアム限定
  • 🔖ブックマーク機能で苦手分野・何度も確認したい部分を管理プレミアム限定
  • 📊学習記録・成績管理で自分の進捗を可視化プレミアム限定

プレミアムプラン

¥9,800(税込)

買い切り

自動更新なし / 1年間有効

決済は Stripe(PCI-DSS準拠)で安全に処理されます。カード情報は当サービスに保存されません。