─ クラウド型データ分析基盤のすすめ─ データ分析の精度と柔軟性を確保する 1/2

kisoec

機械学習やディープラーニングなど、大量のデータに基づいた分析に注目が集まっているが、このような分析を業務に取り入れる場合に欠かせないのがデータの運用という視点である。そこで本稿では、データ分析の精度と柔軟性を確保するためのデータ運用をシステムとしてどう考えるべきか解説する。


クラウド事業推進部 アーキテクチャデザイン課長代理 喜早 彬

欠かせないデータ運用の視点

世はまさにデータ分析の時代である。生活者は商品・サービスについてインターネットで調べ、気に入ればそこから購入するし、スマートフォンにダウンロードしたアプリを使って購入することも普通になった。また、オンライン上のデータにとどまらず、機械の稼働状況や人の活動データを収集することも容易となった。これを背景に、企業は、生活者に自社の商品・サービスを認知させ、購入への動機づけを行うために、さまざまなデータから価値ある知見を導き出す取り組みをこぞって進めている。

データ分析の取り組みが進むとともに、分析手法への注目も高まっている。統計学的手法や、機械学習・ディープラーニングといったアルゴリズムを使った手法である。こうした手法の進化がデータ分析の価値を高めることは言うまでもないが、忘れてならないのは、データ分析は1 回実行すればよいものではなく、継続的に日々の業務へ価値をもたらさなければならないということだ。そのためには、データ分析の精度を保ち続けることが重要である。

データ分析の精度に影響を及ぼすポイントは、「データの鮮度」と「データを使う際の柔軟性」である。データは“生き物” であり、収集されるデータは日々変わっていく。データが新しいほど、分析対象の今の姿を的確に捉えることができる。データの新しさに加えて、分析の前処理となるデータの加工が重要となる。加工とは、収集したデータを分析に適した形にしたり、データを集計したりするなど、扱いやすい形に変形させることである。このように、データを新しく保ったり、データを柔軟に加工して価値のあるものにしたりすることを、ここではデータ運用と呼ぶ。データ運用は、データ分析作業の8 割ほどを占めると言う人もいるくらい、非常に重要である。

鍵となるデータ分析基盤

的確なデータ運用を可能にする仕組みを、ここではデータ分析基盤(以下、分析基盤)と呼び、必要な機能や構築方法について解説する(図1 参照)。

(1)分析基盤の構成

分析基盤は大きく分けて3 つの層で構成される。

①ETL 層

ETL とはExtract(抽出)、Transform(変換)、Load(書き出し)の略であり、分析したいデータをファイル形式などに抽出し、データが欠けている部分に対する穴埋め処理や、データ構造の変更など、データに対する編集処理を必要に応じて行い、次のデータレイク層に書き出すことを意味する。

②データレイク層

データレイクとは文字通りデータの湖を意味し、ETL 層で処理されたデータが集積される場所となる。対象となるすべてのデータを集約することで、1 つのシステムにとどまらない横断的なデータ分析を行うための拠点とすることができる。

③アウトプット層

データレイク層に集約されたデータを、要件に応じて使いやすい形に整形するのがこのアウトプット層である。例えば、データレイク層に保存されているデータから、分析に使用したいデータだけをデータウェアハウスのデータベースへ投入する、といった使い方ができる。

分析基盤を以上の3 層構成とすることにより、データを使用する際の柔軟性を確保できる。また、ETL の処理の速さと、アウトプット層での適切なサービスの利用により、素早い運用を行うことができるため、データの鮮度も保たれる。

(2)クラウドサービスの活用

分析基盤はクラウドサービスとの相性が良い。理由は以下の3 点である。

①データ容量に制限がない

分析基盤は、他の一般的なシステムに比べて桁違いのデータ量を扱うが、クラウドサービスは事実上、容量の上限がないため、将来的にデータサイズが増大しても対応できる。ただし、クラウドサービスのストレージは従量課金制であることが多い。これは、使用したデータ量のみのコストで済むことを意味するが、逆に言えばデータ量が増えた分だけコストが増えていくことになるので、そのバランスを考える必要はある。

②データ利用サービスが豊富

クラウドサービスでは、システム構築に必要なものがパーツのような形で多数提供されている。例えば、データウェアハウスに適した高速な検索を行えるデータベースや、機械学習を簡単に利用できるAPI(プログラムやデータを他のプログラムから利用するためのインターフェース)などがある。また、大量のデータをバッチ処理で分析する用途には、分散処理のサービスが提供されている。これらは、いずれもWeb ブラウザーから簡単に行えるようになっている。これらのサービスを組み合わせて使うことで、基盤構築に必要だった時間を大幅に削減でき、データを活用した価値創出という本来の目的にリソースを集中できるようになる。

③柔軟なリソース確保が可能

分析基盤に求められる性能は、基幹系や情報系といった通常のシステムとは異なる。通常のシステムであれば、常時ある程度の負荷がかかる想定でシステムの構成を検討するが、分析基盤の場合は、データ分析を行う短い時間に大量の負荷がかかる(リソースが必要になる)。しかも、この負荷はユーザーが分析を行うタイミングで発生するため、いつリソースが必要になるかを想定することが難しい。このような不明確な要件に対しても、クラウドサービスを使ってシステムを構築しておけば、負荷に応じて自動的にリソースの増減が行える。いつ使うかもわからない大量のリソースを、前もってずっと保有し続けておく必要はない。

お問い合わせ

当社のサービス・製品に関するご相談やご質問、お見積りのご依頼など、こちらからお問い合わせください。