Confluent Japan Community Blog

Confluent Japan Community が提供するストリーミングデータを扱うConfluent、Apache Kafkaに関する情報を提供します。

Confluent Japan Community が提供する apache Kafka および Confluent に関するブログ

データドリブンとリアルタイムデータ

- データ処理の変化とその課題 -

 

・Big Dataが生み出す新しいビジネス

前回では、ストリーミングデータがどういったものであり、それに関する課題について書きました。本章からは技術的なさまざまな課題について書きます。

Big Dataという言葉が2010年代から様々なところで使われるようになり、Big Dataに関するソフトウェアも次々と生まれてきました。当時から他社に先行して桁違いのデータ量を処理していたGoogleから発表されたMapReduceGoogle File Systemについての論文に影響されたオープンソースMapReduce行基盤であるApache Hadoopなどが生まれ、その後分散処理システムの基盤として発展し続けながら多くの企業に利用されてきました。

Big Dataの利用も当初は種々様々なデータを集め分析することから始まりました。デジタルのデータや店舗で集められたリアルのデータを全てストックし、それらをTableauなどのデータ分析、ビジネスインテリジェンスツールを利用することでユーザーをリアル、バーチャルなど様々な角度で分析します。その結果をビジネス策定や新たな戦略などに活かしてきました。

マーケティングメソッドが進化し、「モノ」から「コト」に変化していく中で、より素早く分析する、もしくはあらかじめユーザー像を定義し、その定義に当てはめるユーザーへ必要なアクションを行うようになりました。ユーザーはモノ自体のスペックや機能などではなく、購入した後の利用までも含めた一連の体験を通じてそのサービスや製品などを評価するようになりました。

企業はこの一連の体験を高める為に様々な対応を行う必要があり、そのためにデータが必要になります。

Big Data として保持されるデータが多くなればなるほど、活用のスピードが上がれば上がるほど様々なビジネスが生み出されてきています。よく目にする事象では、Googleで検索したワードに関連する情報がその後すぐにFacebookでレコメンドされることは多くあると思います。

これらはBig Dataが共有されることで行われるサービスであり、前章で記載した金融機関においては、ユーザーのアクティビティをリアルタイムで集め、今までではできなかった高い品質の金融サービスを提供しています。

現在のビジネスにおいて重要視される部分は

  • どれだけの有益なデータを保持しているか
  • 有益なデータをどのように活用しているか

にフォーカスされます。

これまでのマーケティングは仮説を立てて実行し、その実行結果のデータを分析して再度仮説を立てる流れで行われてきました。Big Data活用が進んだことにより、このマーケティングの仮説でもデータを活用し、より精度の高い仮説を作ることでマーケティングを実施するようになりました。分析だけではなく、そのままマーケティングにもデータが使われて今まで難しかったリアルタイムのレコメンドも可能になりました。

これらBig Dataの活用はマーケティングだけではなく、さまざまな場面で利用されています。基礎研究などの元となるものとして利用されたり、AIの分析における大量の基礎データとして利用されたり、効率化などを実現するための分析データとしても利用されます。

参考資料:

Apache Kafkaを最先端の機械学習に利用する
https://www.confluent.io/blog/using-apache-kafka-drive-cutting-edge-machine-learning


・データドリブンで始まるビジネス

ビジネスの様々な側面においてデータを利用することが当たり前になってきました。それはマーケティングだけではなく、サポートやサービスの拡張に至るまでほぼ全てに及びます。

これは今後より加速されていきます。IoTや低レイテンシーのネットワークが当たり前のように使われる世の中になることからより詳細なデータやより素早いデータ収集、活用が可能になってきます。今後はどんどん顧客のデータ(パーソナルな情報だけではなく行動データなどを含むさまざまなデータ)を元にマーケティングやサービスを提供するデータドリブン型の対応に変化します。

 

活用するデータや取得できるデータは逐次変化、進化しています。そのため、単純にデータを集めれば有効活用できるわけではなく、一度活用したら終わりでもないのです。すべての事柄がデータで始まるようになり、ビジネスにはデータが不可欠になります。しかし、データの活用には多くの課題があります。

 

・課題:データを保持する

当初、課題の一番のポイントは柔軟に出し入れが可能な箱を作ることでした。これについては、解決する手法がすでにあり、広く活用されています。そのいくつかはHadoopであったり、AWSが提供するインフラです。大規模な分散処理が可能なファイルシステムがそれを解決しました。

 

・課題:データを分析する

巨大なデータの分析には非常に多くの時間を有していました。昔は膨大なアクセスデータを解析するにも半日とか数日という単位で時間がかかっていました。Big Dataを解析するには膨大なデータを素早く解析することが重要な課題になっていました。今では、Hadoopなどの分散処理基盤が広く使われることで、Google Data StudioやTableauなどといった分析システムを利用しスピーディーな分析ができます。また、データを保持しているファイルシステムと容易に連携できます。データを保持し、分析することはそれほど大きな課題ではなくなりました。

 

・課題:データを活用する

最後の課題としてはデータを活用することになります。この課題についてはマーケティングなど一部では解決できているのかもしれません。しかし、まだ活用は始まった状態であり、まだまださまざまな活用があると考えます。そのためには、活用の幅を広げるソリューションが必要になります。このソリューションは一部の先端企業で活用が始まっています。

 

データを保持し、分析し、活用するまでの流れはすでに始まっていますが、一番大きな課題が残っています。それはデータを『柔軟に』活用することになります。一つのソリューションですべて完結することはほぼあり得ず、複数のソリューションを組み合わせてビジネスを展開していきます。そのためには、一つのデータを複数のシステムで利用する、複数のソリューションから受け取るなどが必要になります。さらにその連携はどんどん増えていきます。その度に一から連携を構築するには時間がかかります。スピーディーな連携やデータを様々な形で活用を行えるようにすることが必要になります。

 

f:id:Confluent:20190214192152p:plain

リクエストドリブンとイベントドリブン

 

参考資料:

ウォルマートによるリアルタイムデータの活用

https://www.confluent.io/blog/apache-kafka-item-setup/

 

・リアルタイムがビジネスを左右する

リアルタイムデータは、ビジネスを左右する大きな要因であることを多くの企業は認識しており、その為のプラットフォームの構築を進めています。プライベートDMPなどのデータ基盤を各社構築し、データを活用しています。しかし、現在における重要な問題はデータを貯めることや活用することではありません。時代とともに増えていくデータの種別や活用方法を素早く取り入れ実行していくことになります。現在重視されているリアルタイムデータという要件からもたらされる課題があります。

 

企業は送られてくるデータを利用してマーケティング、サービスを行っています。そのため、データの取得や活用を止めることができません。リアルタイムデータの活用がビジネスを左右している現在において、システムを止めることができません。そのため、2つの課題があります。

 

・新しい種別のデータを組み込めない

・新しい処理を追加できない

 

新たなことをする際に、システムを停止して追加しなくてはいけないことが多くあります。今までの処理を実行したまま、新たなことへ対応することは重要な課題であり、ビジネスに直結します。

 

リアルタイムデータの活用を実行するには大きく3つのパートにおけるプラットフォームを保持していく必要があります。

  • データを貯めるプラットフォーム
  • データを活用するプラットフォーム
  • データを連携するプラットフォーム

 

このデータを連携するプラットフォームをどのように実現するかがポイントになります。今まではデータを連携するプラットフォームを組織内でも別々に作成して、それぞれが連携していないことから数多くのシステムが構成されてしまっていました。この構成で行った場合、同じような処理を複数構築することがあったり、一つのシステムに複数のシステムを接続する際に何度も処理を止めたり、同じような処理が何度も実行されることになるため、パフォーマンスにおいても無駄が多く発生します。

Data Flow Graphic

システムをより柔軟に連携する為には、データを連携するプラットフォームを活用する必要があります。連携するシステムは、活用側と貯める側を1対1でつなぐのではなく、多対多のつながりを効率よく、高い信頼性を保って可能にするものでなければなりません。効果的なハンドリングができればよりうまくデータの活用が可能になり、状況に応じて様々なシステムを追加していくことができます。

このシステムに何を選定するかが、リアルタイムデータの活用におけるもっとも重要なポイントになります。

 

まとめ

 

リアルタイムデータを活用することは企業のビジネスを左右します。企業が想定するべき大きなポイントはデータを連携するシステムになります。貯めること、活用することにフォーカスされている現在において、連携することにフォーカスしてシステム構成を構築することが重要になります。

リアルタイムデータという新たな動きとその活用について次章で説明します。