統計解析を活用したデータアナリティクスの基本 第3回(柳下亮平) デジタルマーケティングの時系列データ解析 概論編

1102

デジタルマーケティングにおける時系列データ

第2回のコラムでは架空のアクセスログデータを題材に、抽出したデータ(標本)から母集団について推測するといった基礎的な統計手法について触れてきた。統計手法の多くは同一の確率分布から得られた互いに独立である標本の集まりとした独立同一分布に従うデータを対象とすることが一般的な考え方にはある。そのため、独立同一分布に従う標本はデータに前後の関連性を認めないデータとなる。一方で、前後の関連性を認めるデータとして一定の間隔で観測をした一連のデータである時系列データがある。例えば気温や売上、株価などが時系列データとして扱われる場合が多い。時系列データは時間的な前後関係が存在するため、それに応じた統計手法を選択し、評価をする術が求められる。また、目的のデータに自己相関があるなどの時間的な関連性が考えられる場合は、統計モデルに組み込むことで現象を説明することに活用したい。

ビジネスでは時系列データを集計し、今後の意思決定に繋げることがある。例えば、売上の推移とそれに付随するデータ(来客数や販売数量など)の推移から関連性を考察し、意思決定をすることは一般的なアプローチである。そして、同様に企業のデジタルマーケティングにおいても広告出稿やサイトのアクセスログを時系列データとして扱い、今後の方向性について考えることが多い。例えば広告の場合、広告の対象とする商材にもよるため一概には言えないが、認知から購入までのプロセスには時間経過を考慮して、その寄与や役割を考える場合がある。つまり、広告は時間的な前後関係を仮定し、施策の検討やその結果を判断することがある。一方、広告出稿より得られるデータより、認知から購入のどのプロセスに広告の寄与を認めるかについては困難であり、各企業がその立証に力を注いでいる。本項では時系列解析の観点から広告の効果について可能な限り説明をし、広告の効果について評価していきたい。


時系列解析の手法について

一般的に時系列解析は統計的手法の工夫が必要となる。そのため、詳細は参考文献を参照されたい。本項では時系列解析の手法としてBox-Jenkins法による自己回帰和分移動平均モデル(ARIMAモデル)と状態空間モデルを扱うことで、広告効果の説明を行う。また、今回はBox-Jenkins法を中心に説明としたい。Box-Jenkins法は古典的ではあるが現在でも活用する機会が多い時系列解析のフレームワークと言える。また、予測精度も高いことや、R言語をはじめとして自動化が可能なことから汎用的な活用が期待できる。そこでまずは、時系列解析の基礎としてBox-Jenkins法によるARIMAモデルから説明する。

Box-Jenkins法による時系列解析にはデータの定常性(本項では弱定常性を意味とする)が前提条件となる。それは、Box-Jenkins法で扱う各時系列モデルは定常なデータに対して高い説明力をもつためである。時系列データの定常性と非定常性について説明をする。平易な表現をするならば、定常性に従う時系列データ(定常過程)は性質が一定であり、時間的に変化をしないものである。一方で、非定常に従う時系列データ(非定常過程)は性質が時間と共に変化するものである。



上記のプロットから分かるように、定常過程は一定の範囲内にデータの推移が収まっている。また、非定常過程はデータの推移は一定ではなく、データの推移はトレンドの存在や、推移の増減は不確かとなる。時系列データの表記として時点1から時点Tまでの観測されたデータをとして表し、簡略的にと表記する。そして、定常過程では任意のtとkに対して以下が成り立つ。

上記から期待値は時点によらず一定であり、自己共分散と自己相関は時間差のみに依存する。また、観測されたデータに対して一切手を加えていない状態を原系列と呼ぶ。そして、時系列データは一般的に原系列に対して自然対数の底をeとした対数変換をし、対数系列に変換することが多い。対数変換によるメリットは加法モデルと乗法モデルの切り替えや、データのばらつきを一定の範囲で表せるなどのことなどが挙げられる。また、対数系列に対して差分を取った対数差分系列は近似的に変化率とみなすことができる。

本項で扱うARIMAモデルなどの時系列モデルは定常過程でないと扱うことが出来ないため、非定常過程から定常過程へと変換する必要がある。そして、原系列が非定常過程であり、差分系列が定常過程であるとき、それを単位根過程と呼ぶ。また、1階差分を取ることにより定常過程となる場合は1次和分過程と呼び、拡張してd階差分ではd次和分過程と呼ばれI(d)と表す。重要なことは、単位根がないとみなせるまで差分を取る必要があるということである。原系列が非定常過程な時系列データの場合、定常過程に変換することがBox-Jenkins法の第一歩である。


ARIMAモデルについて

ARIMAモデルを理解するには自己回帰モデル(ARモデル)と移動平均モデル(MAモデル)、自己回帰移動平均モデル(ARMAモデル)の理解が必要となる。それは、ARIMAモデルはARモデルとMAモデルが組み合わさったARMAモデルに、d次和分過程I(d)が合わさったモデルと解釈できるためである。

まず、ARモデルから説明をおこなう。例えば1次の自己回帰モデルはAR(1)と表記し、1時点前と自身との回帰関係を表している。そして、以下のように定式化される。

cは定数項であり、は係数、は時点tにおけるホワイトノイズである。また、にはが含まれることからが相関をもつことは明確である。そのため、ARモデルは前時点の自身を説明変数とする回帰関係から自己回帰モデルと呼ばれる。上記の式は単回帰であるが、複数の説明変数としてp時点前のデータとが回帰関係にある場合はAR(p)として以下のように定式化される。

また、ホワイトノイズは時系列モデルにおいて重要な構成要素となる。ホワイトノイズは期待値が0であり、分散が一定で同時点以外の自己相関が無い純粋な雑音から、未来を予測する情報は含まれていない。定式化すると以下となる。

そして、平均0で、分散がである正規分布に従うホワイトノイズをのように表記する。加えて、正規分布に従うホワイトノイズの累積和はランダムウォークと呼ばれる。上記のホワイトノイズとランダムウォーク、ARモデルの係数には重要な関係があることからARモデルが定常である条件に関わってくる。

続いてMAモデルについて説明をする。例えば1次の移動平均モデルはMA(1)と表記し、1時点前のホワイトノイズとの回帰関係を表している。そして、以下のように定式化される。

μは定数項であり、は係数、は時点tにおけるホワイトノイズである。MA(1)を拡張し、q時点のMA(q)は以下で定式化される。

MAモデルは前時点のホワイトノイズを含むことで自己相関を表現し、ARモデルは前時点の自身のデータを含むことで自己相関を表現している。この両者は密接な関係があり、MAモデルの反転可能性などに関わってくる。
続いてARMAモデルについて説明をする。ARMAモデルはARモデルとMAモデルを組み合わせたモデルであり、自己相関を柔軟に表現することができる。また、p次のARモデルとq次のMAモデルを組み合わせたARMAモデルはARMA(p,q)と表せる。そして、定式化すると以下となることからARモデルとMAモデルの組み合わせであることも分かる。

では最後にARIMAモデルの説明をする。和分過程に対してまずは差分を取りARMAモデルを適用したものがARIMAモデルとなる。d次和分過程であるI(d)においてARMA(p,q)を適用し、ARIMA(p,d,q)と表記する。


Box-Jenkins法のARIMAモデルを用いたリスティング広告の時系列解析

本項では第2回のコラムを踏襲するとし、架空のリスティング広告のアクセスログより、Box-Jenkins法のARIMAモデルを用いることで考察を行ってゆく。まず、第2回のコラムでCVsに寄与があると考えられたリスティング広告について時系列データを用いて別の視点で考えてゆく想定とする。加えて、ある時期にリスティング広告と連動するようにTVCMがおこなわれたとし、TVCM出稿がリスティング広告のコンバージョン数(以下、CVs)獲得に対する寄与についても考えてみたい。そこで、本項で扱う時系列データはR言語の{forecast}パッケージのarima.sim関数からリスティング広告のCVsデータを生成し、付随するアクセスログ(クリック数、平均セッション時間、ページ/セッション)を作成した2014/1から2018/12までの時系列データである。また、TVCM出稿のデータはダミー変数として定義し、『0』はTVCMの出稿を行っていないことを示し、『1』はTVCMの出稿を行っていることを示す。各指標の推移は以下のグラフとなる。


次に、各アクセスログの指標に対して購買決定プロセスのAIDAを仮定することで、広告の効果について考えてみたい。AIDAはマーケティングや広告などのビジネスフレームワークとして一般的に浸透している購買決定プロセスの考え方である。そこで、AIDAと各アクセスログの指標は以下の対応関係を仮定する。

  • Attention(注意・認知)⇒『TVCM出稿』はTVCMによる認知獲得の指標とする。

  • Interest(興味・関心)⇒『クリック数』はリスティング広告のクリックによる能動的な興味・関心の行動と仮定した指標とする。
  • ※リスティング広告の場合は検索する対象が既に存在していると仮定している。
    ※クリック数が増えることでCVs獲得に対してプラスの寄与が認められると仮定することで、リスティング広告の興味・関心の喚起を説明する。

  • Desire(欲求)⇒『『平均セッション時間・ページ/セッション』は広告のクリックにより遷移したサイトで滞在し、ページを閲覧することが理解や欲求の喚起を促すと仮定する。
  • ※サイト内の行動による指標のため、純粋に広告の効果として切り出すことは難しい。ここでは、広告によるサイトへの誘導の結果、サイト内の行動を含めて広告の効果と定義する。
    ※一概には言えないが、平均セッション時間・ページ/セッションの場合、増加すると理解や欲求の喚起を促していると仮定する場合が多い。そのため、平均セッション時間・ページ/セッションが増えることでCVs獲得に対してプラスの寄与が認められると仮定することで、リスティング広告の理解や欲求の喚起を説明する。

  • Action(行動)⇒『CVs』は広告によるCVs獲得の指標とする。
  • これらの定義のもと、CVsに寄与を与えていると考えられる要因を現在あるデータの範囲で推測し、広告の寄与について評価していきたい。次回のコラムではBox-Jenkins法のARIMAモデルを中心に具体的な内容について解説する。


参考文献
沖本竜義.(2010).経済・ファイナンスデータの計量時系列分析.朝倉書店.
馬場真哉.(2018).時系列解析と状態空間モデルの基礎:RとStanで学ぶ理論と実装.プレアデス出版.
横内大介, 青木義充.(2014)現場ですぐ使える時系列データ分析~データサイエンティストのための基礎知識.技術評論社

柳下亮平

執筆者 柳下亮平

データアナリティクスを中心とした、デジタルマーケティングのコンサルティングを専門に行っています。

お問い合わせ

当社のサービス・製品に関するご相談やご質問、お見積りのご依頼など、こちらからお問い合わせください。