SHARE

COPY

Know-how / 2020.02.19

DWHとは?定義や導入のメリット、データベースとの違いについて解説

この記事ではDWHの役割、要件、利用するメリット、活用の流れについてご紹介します。

目次

DWHとは

DWHはData Warehouse(データウェアハウス)の略で、直訳するとデータの倉庫という意味です。利用するシーンによって定義範囲は異なりますが、一般的には企業活動の過程で発生したさまざまな情報を時系列に整理して保管した大量の業務データ、あるいはその管理システムを指します。

ここではDWHとデータベースの違い、DWHとBIとの関係について解説します。

DWHとデータベースとの違い

DWHでは情報を時系列に保管し、現在は使われていないデータも含めて格納します。

一方、データベースでは現在進行中のデータを格納し、必要に応じて情報を取り出せるようになっており、日常の業務を円滑に進めることが目的なので日次、週次、月次といったデータ算出サイクルがあらかじめ決められています。

データベースは、データの保存容量や処理能力の制約から一定期間が過ぎたデータは消去されてしまいます。一方、DWHは格納されたデータを分析しやすいように最適化します。これにより、集計・分析が容易になります。

また、データが大きくなるとデータベースでは処理容量の限度を超えるため、明細データではなく集計データで保管せざるを得ないのに対し、DWHは大量のデータを保管して長期的な運用が可能です。

DWHとBIとの関係

DWHは、複数のシステムからエクスポートされたデータを一元管理できるように、最適化された形式で保管します。BI(ビジネス・インテリジェンス)を活用すると、DWHに保管されているデータを統合・集計・分析して、データを見やすい形で出力することができます。

BIによってデータをレポートで出力したりグラフ化し可視化することで、専門家でなければできかったような分析や長い時間をかけていた分析を、経営陣やマーケティング担当者が短時間で容易に多角的に分析できるようになります。

近年ではDWHとBIを一貫した形でサービスを提供されることもあるので、DWHをBIのツールの一部として認識される場合もあります。

なお、DWHとBIを活用する際にはETLというツールが必要です。ETLはExtract(抽出)、Transform(変換)、 Load(格納)を行うツールで、複数のシステムから抽出されたデータをBIで分析できるように集約するものです。

DWHの要件

ここではDWHの4つの要件について解説します。

データをサブジェクト別に分類

DWHではデータをサブジェクト別に分類・整理して格納します。サブジェクトとは、顧客や商品などのようにデータとして分野を紐づけできるものを指します。目的別に格納するのではないところがポイントです。

これは図書館の書籍整理の仕方に似ています。図書館では書棚は本の内容によって分類されており、海外旅行の情報収集のためとか、卒業論文の参考文献探しのためというような目的別には分類されていないのと同じことです。

複数の基幹系システムのデータを集約し、整理して、例えば顧客についてのデータや商品についてのデータなどをそれぞれにわかりやすくまとめるというのが、サブジェクト別に分類するということになります。

DWHではこのようにデータを再編成することでアプリケーションごとではなくサブジェクトごとに格納し、データをさまざまな角度から分析できるようになります。

データを統合

DWHはさまざまなデータを集めますので、部署やデータベースによって使われているアプリケーションの種類やデータの保存形式、名称、情報の内容はばらばらです。したがって、DWHで一括して管理するためにはそれらの差異を統一化する必要があります。

例えば、顧客についてのデータを集める場合、複数のシステムからデータを集めて合わせただけでは重複が発生します。つまり、1人しかいない筈の顧客が複数人いるというデータになってしまい、データ取り扱い上不都合になります。また、取引先の会社名のデータが、あるデータでは「顧客名」の欄に入っていて、別のデータでは「会社名」の欄に入っているなど、項目名が異なっている場合も不都合が発生します。そのままでは、同じ会社を指しているのに別々の会社の項目として取り扱われてしまいます。

このような問題を解決するために、データの統合によってデータ上の項目名の統一を図ったり、重複している項目を削除したりして整合性を取ります。

時系列データを持つ

DWHは現在のデータだけではなく、過去のデータも全て時系列で整理・保存します。

前半でもご紹介しましたが、通常のデータベースは現在進行中のデータを取り扱います。

例えば銀行口座の照会を行う際、銀行の基幹系システムは応答速度を重視するのでデータベースでは直近の入出金記録と現在の預金残高が表示されます。これは、過去のデータを読み込んでいると処理に余計な時間がかかるためです。

一方、この場合DWHでは、顧客が口座を開設してから現在までの全ての入出金履歴を時系列に保存します。それにより、現在の状態だけではなく、全体の流れを把握できるので大局的に経営判断するための材料になります。

データベースは記録されているデータが現状の最新データであることを重視しますが、DWHではデータの履歴を元に過去のある任意の時点における状態を再現できるようになります。

このように過去のデータが全て時系列に保存されているのがDWHの重要なポイントです。

データは消さない

DWHは原則としてデータを永続的に保存し、消すことはありません。過去のデータを時系列に履歴として残すためです。過去のデータを保存するものなので、上書きしたり、更新したりすることはありません。

データを膨大に保存することで後々の業務改善のための材料として、履歴の分析に利用するのがDWHの目的です。過去と現在のデータを比較するためにも基本的にデータの消去は行いません。

しかしながら、これはあくまでも原則です。どのようなシステムでもデータを無制限に保存できるわけではないので、データ保存容量が一杯になれば使用頻度などに応じてある一定の期間を過ぎたものや、データを業態などのセグメント別に整理して不要と判断されたデータを消去することもあります。

DWHを利用するメリット

続いて、DWHを活用するメリットについて解説します。

データ収集を効率化

長年蓄積されたデータを全社的に分析する場合、営業部門の顧客データと開発部門の製品データが別々の場所に保管されていたら、それぞれのデータを集める所から始めなければいけません。また、必要なデータが揃ったとしても、データのフォーマットが部門ごとにバラバラだった場合、分析できる状態にするために加工する手間がかかります。

DWHは社内のあらゆる部門のデータを集積して保存するので、データ収集の工数がかかりません。また、同じ顧客の情報が部門ごとで「男性」と登録されていたり、「Male」と登録されていたりするように異なるデータが使用されていても、DWHでは統一したフォーマットで保管されるので、加工の手間がかかりません。

DWHは複数の部門にまたがって散らばっているデータを、1つのプラットフォームの上で管理することができます。したがって、データ分析担当者は余計な工数をかけることなくデータ分析に集中できます。

時系列順にすべてのデータが残る

前述の通り、DWHは時系列順に全てのデータが残ります。時系列で残っているということは、それぞれの個々のデータについて、いつインプットされたかという時間情報も紐づけられて、全て時系列に保管されるということです。細かく過去のデータを残すことで総合的な分析を可能にしています。

また、データの上書きによる変更が行われた場合も、DWHは元データと修正後のデータを両方とも保存します。

通常の基幹系データベースでは業務遂行上必要とされるデータだけが保持されていれば運用できるので、インプットされてから長期間が経過した古いデータや、上書き変更される前の元のデータなど、業務遂行に必要ないデータは保存容量の制約や処理速度の能力上の理由から逐次消去されていきます。そのため、長いスパンでデータを分析しようと思っても、該当する期間のデータが消去されていてできないことがあります。

このような問題に対して、大規模なデータの蓄積・分析に特化したDWHは解決の方法を与えてくれます。先述した銀行口座の例のように、現在の預金残高だけではなく過去の全ての入出金記録が残っていることがDWHでは重要なのです。

意思決定に活用できる

DWHの提唱者であるアメリカのビル・インモンは、1990年に発表した自著の中で、DWHは「意思決定のため目的別に編成され、統合された時系列で、削除や更新しないデータの集合体」であると定義しています。データ集積の目的を意思決定に活用するため、としているところがポイントです。

DWHは十分な情報を基に適切な意思決定を下すための分析が可能なデータの中央保管場所、あるいは中央管理システムのセントラルリポジトリです。DWHでは過去のデータから現状を分析し意思決定するのを目的としているので、データの更新や消去はされません。

DWHによるデータ活用の流れ

ここではDWHによるデータ活用の流れについて解説します。

データベースの情報をETLによってDWHへ

DWHの利用において、重要な役割を果たすのが「ETL」です。

ETLは、

・Extraxt 抽出
・Transform 変換
・Load 書き出し

の3つの処理の頭文字からなるシステムです。

ETLは、データを記録する各種システムに散在するデータを抽出し、DWHに取り込みやすいデータへと変換、そしてDWHへと書き出しを行います。

これにより、個別のシステムでばらばらに管理されていた情報が、分析しやすい形になり、DWHというひとつの場所にまとめられます。

DWHにまとめられた情報は、BIツールによって分析・可視化することができます。

さまざまな組み合わせのデータを分析することにより、今まで気が付かなかった新たな関連性や傾向を発見し、精度の高い計画立案ができるようになります。

データマートによって情報を選別

DWHに関係する言葉としてデータマートがあります。データマートは、DWHに蓄積されているデータの中から、特定の目的に合わせて必要なものだけを抽出して集約し、利用しやすい形にしたデータベースのことです。データマートによって、利用する目的に応じて情報を選別し、素早い集計が可能になります。

データの倉庫を意味するDWHに対し、データマートはデータの小売店とも言えます。データマートとDWHを比較すると、データマートは100GB以下のサイズで、取り扱う主題は1つ、範囲は1部門、データソースはいくつかのソース、データソース統合は1つ、構築時間は分・週・月という特徴があります。一方、DWHは100GB以上のサイズで、取り扱う主題は複数、範囲は会社全体、データソースは多くのソース、データソースは統合は全てのデータソース、構築時間は数ヶ月から数年という特徴があります。

BIツールにて可視化

ETLでデータを加工してDWHにロードしたら、BIツールでDWHにアクセスしてデータを分析し、可視化します。BIツールを活用することで、さまざまなデータを分析してリアルタイムにレポートを更新できるようになります。

これまではレポート作成に多大な時間を要していたのが、BIツールを用いることでタイムリーにデータを確認して迅速に経営判断などの意思決定が行えるようになるのです。

企画部門では、従来は複数のシステムに分散しているデータをエクセルなどを使って相関関係を確認していたのが、BIツールを用いることで短時間のうちにデータを集計・分析し可視化することが可能になります。営業部門でも、BIツールで過去の実績を元に個々の社員の営業成績達成見込みと受注見込みを立てることができるようになります。

まとめ

1990年に概念が提唱されたDWHは、それまで主流だったデータを複数の表として管理するRDB(Relational Database)とは異なり、大量のデータを保管するためのデータの倉庫です。社内の各部署に散在しているデータを統合し、蓄積します。RDBよりも高速に目的のデータを抽出し、種々の分析や意思決定の判断材料として用いられます。

DWHは1990年代にハードディスクの価格が下がり、パソコンやサーバーで安価なCPUが使用可能になったことで実現し、2010年代に高性能なDWHが提供されようになって急速に普及が進みました。社内に貴重なデータが眠っているような場合、DWHでデータ資産として有効活用されてはいかがでしょうか。

  • メルマガ登録

    engagemateの最新情報を
    お届けします。

  • SNSで情報を受け取る

    engagemateやReproに関する情報を
    お届けします。

Recommend

- おすすめの記事 -

What’s New

- 最新記事 -

  • メルマガ登録

    engagemateの
    最新情報をお届けします。

  • SNSで情報を受けとる

    engagemateやReproに関する情報を
    お届けします。