第2回データサイエンティストオブザイヤーにも輝いた、日本航空Web販売部の渋谷直正氏による3回の連載講座。渋谷氏は「企業のマーケティング担当者は自ら分析できるようになったほうがいい」と語る。
「明日からデータサイエンティストになってください」──もしあなたがこんな風に会社から命じられたらどうすればいいだろう。あなたは専門職でも技術者でもなく、一般の事業会社の企画部門に所属するマーケッターだと考えてほしい。
たいていの人は、「分析の手法を知りません」「文系出身なので・・・」と言って尻込みするかもしれない。「データサイエンティスト」という言葉には統計学の博士号を持っていて高度な分析をする専門家というイメージがある。確かにそんな専門家もいるが、私はマーケッターの人たちこそ分析を武器にしてビジネスで成果を出せるし、そうすべきだと考えている。
どんなに分析スキルがあっても、ビジネス課題をきちんと把握していなかったり、問題解決への熱い思いが欠けていたりすると、単なる「分析のための分析」や「自己満足の分析」に終わって、良い結果につながらない。そして何よりもその業務に対する深い知識や経験がないと、データの解釈も表面的なものになってしまう。
その意味で日々ビジネスに接して企画業務を行っているマーケッターこそ、データサイエンティスト候補として最適だ。言い換えると、「自分で分析ができるマーケッター」を育てることが、企業の分析力を高める正攻法なのだ。この連載で、マーケッターが分析力を身につけて実務に生かせるようになるためのヒントを提供したい。
最初にグラフを描く
分析すべきデータがそろったら、最初にグラフを描くことから始めよう。Excelなどに数字が並ぶと、いきなり平均値を求めて、そこから思考を始める人が多い。少し統計を学んだ人は、標準偏差や中央値、四分位範囲も出すかもしれない。しかし、このような要約値にしてしまうと消されてしまう情報がとても多い。連続値のデータなら、必ずヒストグラムを描こう。分布を目で眺めると、偏りや規模感、極端な外れ値などが一目瞭然となる。
マーケティングで出てくるデータはきれいな正規分布をしていないのが普通である。平均値や標準偏差は当てにならないし、2山の分布であれば中央値でも把握できない。グラフで見るのが一番簡単で効率的だ。
2変数の場合は、双方が連続値であれば必ず散布図を描くこと。一方が性別や既婚・未婚のようなカテゴリカル変数の場合は、箱ひげ図(箱で中央値や四分位を示し、箱の両側から伸びるひげでデータの広がり方を示す)や複数のヒストグラムを描く。双方がカテゴリカル変数の場合はクロス集計表だ。
分析の8割を占めるもの
マーケティングで使うデータはカテゴリカル変数のものが多いので、クロス集計は特に重要だ。クロス集計をする際のコツは、できるだけ単純な形にすること。望ましいのは2×2の表に落とし込むことだ。下の図は、Webサイトでの商品Aを説明する特集ページの閲覧有無と商品Aの購入有無の人数をクロス集計表にした例だ。
クロス集計表はさらなる分析への出発点だ。例えば、購入に至らなかった原因を探る手がかりを与えてくれる。「特集ページを閲覧した後、購入フローに進んだ人は多かったのか。それとも少なかったのか」「購入フローに進んだ人が少なかったのなら、原因は何か」というふうに、検討すべき課題が次々に浮かび上がる。
クロス集計は簡単な手法でありながらビジネスの成果に結びつくことが多いので、私は「クロス集計は分析の8割を占める」とよく言っている。直接施策につながらなくても、現状把握や仮説の導出、ターゲットの絞り込みなど、分析に重要なヒントを与えてくれるからだ。
分析手法は非常にたくさんあるが、私の経験から言って会社のビジネス課題を解決するのに必要な手法は、5つで十分だ。その5つとは、「クロス集計」「ロジスティック回帰分析」「決定木分析」「アソシエーション分析」「クラスター分析(k-平均法)」だ。これらの手法はほとんどの統計分析ツールやデータマイニングツールに搭載されており、簡単なトレーニングを受ければExcelを操作する感覚で使うことができる。
最近は統計学がブームなので、統計学を一から勉強する人が多い。ところが最初のうちはグラフを描いたりして楽しくても、確率論が登場するあたりで挫折する人が多いようだ。
私も当初、統計学は積み重ねの学問なので基礎から学ぶべきだと考えていたが、今は考えが変わった。実務で使うのは5つの手法で十分なのに、それらにたどり着く前に統計学の勉強で挫折してしまうのでは意味がない。ツールと5つの手法を身につけて、直ちにビジネスの問題に取りかかろう。
本物のデータで練習しよう
分析手法を習得するためにはデータを使った練習が欠かせない。ただ、ありがちな教科書的なサンプルデータを使って練習するのはお勧めできない。手法のロジックを理解するために簡単で答えの出やすいきれいなデータを使うのは一理ある。しかし、実際に自分の業務で使うデータはたいていきれいなデータではないし、何よりも教科書的なサンプルデータでは興味が湧かないのではないか。確率の勉強をするときに必ずと言っていいほど登場するサイコロの目や壺の中の赤い玉と白い玉といった話がつまらないのと同じである。
自分の業務に関係するビジネスデータであれば、データの意味する内容やその背景を十分知っている。このため分析結果の解釈や考察のレベルが格段に違う。これができるのは、そのデータに関する業務知識や勘と経験を有するマーケッターならではの強みである。マーケッターは自ら分析をすべきと私が主張する大きな理由でもある。
加えて、練習のつもりで始めた分析であっても興味深い結果が得られれば、それを施策にして生かすことができる。これが練習に取り組むモチベーションを自然と高めてくれる。
例えばメールマガジンの担当者の目の前に過去数回分のメール配信の詳細データ(個人ごとの開封、コンテンツごとのクリック有無やコンバージョンなど)があったとしよう。このデータを練習材料に、「どういうコンテンツの組み合わせをクリックする人がコンバージョンしやすいのか」「過去のクリック傾向からメルマガ会員をいくつかのセグメント(クラスター)に分類できないか」などの目的を設定して実際にデータを使って分析の練習をするのである。
データ分析を通じてビジネスで成果を出すことは、エキサイティングで楽しい。次回は分析の肝となる変数の選び方を解説する。