I
N
T
A
G
E
INTAGE

既存データ利活用の限界と学習用アノテーションデータのコスト

既存データ利活用の限界と学習用アノテーションデータのコスト

前回(第1回)はディープラーニングが変えるマーケティングの未来について述べた。しかし、未来実現に向け、日本企業にはいくつかのハードルがあることを最後に示唆したところで終えた。今回はその“ハードル”について掘り下げていく。

 

 

既存オペレーションデータの利活用の限界

多くの企業で自社の持つ大量のデータと人工知能を組み合わせれば、何か新しいことができるのではないかと期待されている。実際、いろいろな企業がそのような相談をAIスタートアップやデータアナリティクス企業に打診している。しかしながら、オペレーション上の理由から自動的に収集されたデータが、そのまま他の目的に活用できることは極めて稀である。

例えば、ポイントや電子マネー、決済サービスなどを提供している会社がオペレーション上、自動的に収集される取引データを活用して、マーケティングデータとしてユーザー分析に利用したいというケースがある。しかしながら、ユーザーID・決済日時・金額・店舗しか記録されておらず(オペレーション上はそれで十分)、何を購入したのかが分からないため具体的な分析を行うことができない。

他にも消費者がコールセンターに問い合わせるとその内容がオペレーション上の理由から自動的に記録されることがある。このデータを他のマーケティング目的で活用することは可能なのだろうか。これも、問い合わせ行為をしている時点でセレクションバイアスがあり、その回答に代表性がないので、他の消費者も含めて多くの人が同意する内容なのかを確かめることができない。コールセンター業務では問い合わせを記録するだけで十分だが、それを一般ユーザー含めたマーケティングに利用するには、問い合わせていない消費者の声も取り込む必要がある。

近年のIoT化の流れは更にこのオペレーションデータの自動収集を加速させるだろう。ネット接続されたテレビから収集されるテレビ視聴ログも、番組やCMのメタデータがなければただの時系列の波形でしかない。ネット接続された自動車から収集される走行関連データも、ワイパーの速さやブレーキの履歴など興味深いデータではあるが、直ちになにか他の目的に活用できるかと言われると、なかなか難しい問題である。

このようにオンラインもオフラインもデジタル化され、IoT化の流れも相まって、今後、大量のオペレーションデータが自動的に収集されることは間違いない。しかし、これらのオペレーションデータを、マーケティングを含めた他の目的にも活かすためには、当初より意図を持ってデータを設計する必要がある。その点を見落として、既存データとディープラーニングを使って何か新しい取り組みを実現しようと思っても、思ったような成果が出ないだろう。

 

学習用アノテーションデータのコスト

精度の高いディープラーニングモデルを構築するためには大量のデータが必要である。これは従来の統計解析が少数のサンプルからでも統計的な有意差を検出する性能が高いのに比べて、ディープラーニングの対照的な点である。また、ディープラーニングを含めた機械学習では、教師付き学習を行う場合、各データに対して正解値をラベリングするというアノテーション作業(例えば、犬が写っている1万枚の画像に対し、犬の部分を枠で指定して犬とラベリングするなど)が必須になる。このアノテーション作業の精度やコストもディープラーニング活用の大きなハードルである。

アノテーションデータが偏っていると、そのバイアスがそのままモデルに学習されてしまう(例えば、Googleの画像認識がアフリカ系の人々をゴリラとして認識してしまったケースなど)ので、より偏りのないデータ群を意識して準備する必要がある。また、正確にアノテーションされていないと精度の高いモデルが作れないので、もしアノテーションに専門的な知識や訓練が必要な場合(例えば、レントゲン写真から病巣を発見するなど)、数千や数万と言ったアノテーションデータを用意するのはコスト的にもかなりハードルが高くなるだろう。

現在、アノテーション業務を外注する市場が世界的にも急成長しており、国内でもアノテーションを請け負う会社が増えてきている。多くの場合、その作業は更に中国やフィリピン、ベトナムなどの人件費の安い国に再委託されているようであるが、この方法も専門性を必要としない場合にのみ有効なアプローチとなるだろう。

そのような専門性を必要としない汎用的なモデルであれば、Googleなど第三者が提供する学習済みモデルを利用するという方法もある。ただし、画像認識や音声認識などの汎用性の高い領域においては米国や中国の企業が圧倒的に先行しており、これらの学習済みモデルはコモディティ化しつつある。
つまり、それを活用したところで競争優位につながるようなものでもなくなってきていることは留意すべきである。

そんな中で国内の事例として面白いのは株式会社ジンズ(JINS Inc.)の取り組みで、ディープラーニングでメガネが似合っているかの度合いを瞬時に判定するというものだ。店員に似合っていると言われても客観性がないので顧客の納得感が低いという課題に対して、AIが客観的に判定するため顧客にも満足度の高い購買体験を提供できたそうだ。メガネが似合うとはどういうことか、必ずしも言語化できていなくてもディープラーニングならそれをモデル化することができる。アノテーションデータもおそらく長年メガネを生産販売してきた同社だからこそ納得感の高いものが作れたと考えられる。

このようにコモディティ化した部分は当たり前の要素として取り入れつつ、独自性を活かしたアノテーションの方法をいかに発見できるかが、自社のユーザー体験を他社と差別化し競争優位につなげるためには重要になる。

さて、第2回はここまでとさせていただき、次回(第3回)は、ディープラーニングをマーケティング領域で有効に活用するために大事なことについて触れていきたいと思う。

 

巳野 聡央(みの あきひさ)
MINO COMPANY 代表

慶應義塾大学総合政策学部卒。 調査会社にてキャリアをスタート。その後、コンテンツ投資会社を経て2007年に独立。さまざまなプロジェクトに参画しながら、2011年にGoogle入社。同社ではエンジニアや統計専門家を含むグローバルチームと共に広告効果測定プロダクトの開発、およびAPAC・日本国内における普及活動に従事。アドテクノロジーを活用した実験計画、多次元時系列データから因果を推論するベイジアンモデリング、深層学習や機械学習を使ったオンラインログデータの解析など、最先端のマーケティング・サイエンスのプロジェクトを主導。2018年末にコンサルティングおよび新規事業開発・投資事業を行うMINO COMPANY(正式名称:MINO合同会社)を設立。

Data Science, Research Areas