経済・企業ビジネスに効くデータサイエンス

今さら聞けない！データマーケティング：ビッグデータで「タピオカ大流行」は予測できたのか（前編）＝松本健太郎（データサイエンティスト＆マーケター）

2020年5月27日

データサイエンティストは稼ぎ放題？

約１年ほど前、東京都内某所で開催された飲み会での出来事です。

横に座った男性に職業を問われたので「データサイエンスを少し」と答えたら、大げさに「凄いねぇ！」と返され、羨ましそうに言われました。

「データサイエンティストなら、色んなデータ集めて、タピオカの次に何が流行るか分かるでしょ！　いーねぇ、楽できて！　稼ぎ放題だ！」

そう言われて正直返答に困りました。この方は冗談で言ったつもりかもしれませんが、データを仕事とする筆者から見るとけっこう「言われて辛い台詞」だったりもしたからです。

「ハッハッハッ、冗談が過ぎます。データに幻想を持ち過ぎですよ！」

なんて冷静に言い返せれば良かったのですが、筆者はまだまだ人間ができていませんね。押し黙ってしまいました。

ちなみにこの男性はそれなりのキャリアを持つビジネスパーソンで、日経新聞も読み、社会情勢には詳しい人です。いや、むしろ日経新聞を読む人だからこその発言とも言えなくもないのですが。

ビッグデータ、データサイエンスそしてAIと、日経新聞のようなメディアが持ち上げてくれるのはありがたいのですが、実際にできること以上に期待値を上げてしまっているとも思います。

その結果、「データサイエンティスト」について多くの人が「どうやらとんでもない魔法使いがいるらしい」なんて催眠に掛かってしまっている気がします。

どのメディアも、

「ビッグデータを集めれば、今まで見えなかったつながりが現れる！」

「データサイエンスがあれば、意思決定の精度はより向上する！」

「データ！データデータ！！データデータデータデータ！！！」

データサイエンスを専門とする人の間では、こういったことはすべて「寓話」です。

しかし冒頭の「タピオカ事件」以来、大半の人はこうした「寓話」を信じ込んでしまっているのではないかと考えるようになりました。

このままで良いのでしょうか。いや、良いはずが無い。

そもそも「データ」は真実ではない！

データを、以下図のように計測対象・方法の２軸４象限で考えてみます。

計測を「機械・自動」しているなら、設定ミスやバグでも無い限り、データに誤りは殆ど生じません。

人間が対象なら心拍数の計測、人間以外が対象なら製造における不具合チェックなどが思い浮かびますね。

言い換えれば「人力・手動」は必ず誤りが生じます。しかも誤りとは、何も「入力ミス」とは限りません。計測している本人が、誤っている自覚も無しにデータを計上する場合があります。

厄介ですが、それでも「人力・手動」に頼らざるを得ないデータがあるのです。代表的な例としてフィギュアスケートの採点、野球のストライクゾーンなどのスポーツ競技、目には見えない人間の心理の計測も挙げられます。

私が「駆け出しデータサイエンティスト」だった頃、とある単品通販系企業の分析に参加した経験を思い出します。

その企業では、オフラインのコールセンター、オンラインのWEBサイト、それぞれの予算を横断して配分すると受注件数はさらに最大化できるのではないかと検討していました。いわゆるO2O（Online to Offline）のハシリだったやもしれません。

なんやかんやと分析していたのですが、コールセンターや商品購入ページで「弊社を何で知りましたか？」と聞いたら「ネット広告」と答えた消費者がオン・オフ全体の8割をしめる、というデータが決め手の1つになり、オンライン強化が決まりました。

その結果、全体の売上は…下がりました。落ちました。私は「えぇっ！」と思いました。クライアントも感じたでしょう。

何が起きたのか調べてみました。当時の私たちは、新聞広告やTVCMに接した消費者がコールセンターへ電話をするか、決めきれなければ次にWEBサイトへ遷移すると考えていました。（かなり説明は間引いています）

しかし粒度を細かくして分析すると、オフラインの広告に接触した消費者はまずGoogleやYahoo!で検索して、検索結果からECサイトに結構な人が流入していると分かりました。（この当たり前が抜け落ちていた…）

この結果から想定するに、シニア世代は「弊社を何で知りましたか？」と質問されれば、本当は新聞やTVを見ているのに、回答では「ネット広告（つまりYahooやGoogle検索を広告に含めている）」と答えている、とも考えられます。

データ自体は間違っていないけど、読み方を誤ってしまっていたわけです。

どこから消費者は流入するのかを考えていれば当たり前過ぎる結果なのですが、当時は「消費者がネット広告を見たと言っている調査結果データ」を真に受けすぎました。リアルに「うぐぐ…」と言った案件です。

この結果から、データサイエンティストとして２つの教訓を得ました。

１つ目は、データは事実だが、真実とは限らない。

２つ目は、データの「意味」を考えなければならない。

なぜ「データは嘘をつく」のか？

例えば、最近流行りのHRテック。私も経験がありますが、簡易なアンケートに答えるだけで従業員のモチベーションや仕事への満足度がチェックできる便利なツールが多く登場しています。

私も生真面目に回答していたのですが、転職の決意をキッカケにオール５、全て調子が良いにマルを付けるようになりました。ヘタに本音を書いて人事部や上長に悟られるのが面倒だったからです。

会社に最高評価をつけていた社員が突然やめるのですから、データ的には「突然の退職」のような扱いになるでしょう。異常値扱いになってしまうかもしれません。

データを盲目的に信じ過ぎてはいけないと痛感します。

「モチベーションや満足度を教えて下さい」と問うて「最高です！」と答えが返ってきても、真実かどうかは分かりません。会社に信頼が無ければ本音は伝えないからです。

「マクドナルドで何を食べたいですか？」と問うて「ヘルシーです！」と答えが返ってきても、真実かどうかは分かりません。実際にヘルシーを求めるなら、そういう店に行く人が大半だからです。

データが生まれた背景、消費者が"その項目"を選択する理由、行動の背景にある「意味」を読み取らなければ、データは役に立ちません。私は何度もデータに騙されてきました。

そもそも「データ」とは何ですか？

ここまでデータ、データと繰り返しました。ところで、そもそも「データ」って何でしょうか。

工業規格を作成する国際的な非政府組織「国際標準化機構」（通称ISO）は「データ」を以下のように定義しています。

「情報の表現であって、伝達、解釈または処理に適するように形式化され、再度情報として解釈できるもの。」

データ＝数字だと捉えている人が多くいます。冒頭に紹介したタピオカのオッサンも、そう思っていたでしょう。

正解ですが、正解ではありません。万国共通で、誰もが認識の齟齬なく、伝達・解釈・処理が行える表現として最適な形が「数字」なだけです。

正確には「データ ⊃ 数字」だと言えるでしょう。

数字は、伝達・解釈・処理に捉え違いを起こす確率は極めて少ない。以下の写真からリンゴが何個かを問うて「２」が最適な表現なのは、２が日本人だろうと何人だろうと解釈違いも処理違いも起きないからです。

一方で、適・不適はともかくとして、絵や写真、言語、そしてダンスなんかも表現として形式化されています。絵や写真であれば同様に情報が伝わりますが、言語だと「リンゴが前にあって、その後ろもあって、その後ろには何も無いし、前にも何も無い」みたいな表現でしょうか。違うかな。

データ＝数字と考えるのは、少し範囲が狭過ぎると思います。情報の表現なのだとすれば、もう少し幅広くデータを捉えられるはずです。

では、さらに深く考えます。「情報」とはどういう定義なのでしょうか。こちらも同じくISOの定義を確認します。

事実、事象、事物、過程、着想などの対象物に関して知り得たことであって、概念を含み、一定の文脈中で特定の意味をもつもの。

つまり「知り得たこと＋特定の意味を内包する表現」がデータなのです。数字だろうが言葉だろうが写真だろうが、特定の意味が無ければ情報とは言えず、もちろん"数字だけ"では情報とは呼べません。

つまり、データとはその定義からして数学的要素だけでなく、国語的要素も含まれています。むしろ意味解釈がメインである以上、国語的要素が強い。

先ほどのHRテックの例で、私は「データが生まれた背景、消費者が"その項目"を選択する理由、行動の背景にある「意味」を読み取らなければデータは役に立ちません」と言い切りました。

それは「一定の文脈中で特定の意味をもつ」とする大前提の理解無しには、データとは呼べないからです。数字だけで「そういえば兵庫県姫路市の人口も53万だよ」「おっ、じゃあフリーザ様は姫路だね」みたいな会話をしても全く的外れです。

ところが、そんな会話が飛び交うんですよ。現場でも、会議室でも。

マーケティングの場合、特に「特定の意味」が重要になります。目には見えない「人間の心理」に関するデータが多いからです。

「この商品が好きです」なんて文章があったとしても、好きと言わなきゃいけないプレッシャーがあったか、インフルエンサーの影響を受けているだけで購入経験は無いか、好きって言えば良いと思っているだけか、本当にファンで好きか。意味は全く変わってきます。

なのに5段階中の評価が4と数字になるだけで、あとは平均値で纏めれば良い100人のうちの1人の声に変化します。果たしてそれで良いのでしょうか？

（「後編」へ続く）

松本健太郎（まつもと・けんたろう）

1984年生まれ。データサイエンティスト。

龍谷大学法学部卒業後、データサイエンスの重要性を痛感し、多摩大学大学院で統計学・データサイエンスを〝学び直し〟。デジタルマーケティングや消費者インサイトの分析業務を中心にさまざまなデータ分析を担当するほか、日経ビジネスオンライン、ＩＴｍｅｄｉａ、週刊東洋経済など各種媒体にＡＩ・データサイエンス・マーケティングに関する記事を執筆、テレビ番組の企画出演も多数。SNSを通じた情報発信には定評があり、noteで活躍しているオピニオンリーダーの知見をシェアする「日経COMEMO」メンバーとしても活躍中。

2020年７月に新刊『人は悪魔に熱狂する　悪と欲望の行動経済学』（毎日新聞出版）を刊行予定。

著書に『データサイエンス「超」入門』（毎日新聞出版）『誤解だらけの人工知能』『なぜ「つい買ってしまう」のか』(光文社新書) 『グラフをつくる前に読む本』（技術評論社）など多数。