戻る
はじめに

 この「当たるも八卦」システム(以下、本システム)は、膨大なデータの山から新たな法則を見出す手法である「データマイニング」の一部の機能を利用しています。

 本システムが「データマイニング」の普及に少しでも役に立てば幸いです。また、企業や研究機関などで、Webや社内イントラネットを利用して何か有益な情報を掘り出そうと考えている方へのヒントになれば幸いです。

データマイニングと本システムとの関係

 膨大なデータの山から隠された有益な法則等を得る統計手法を、データマイニングという場合があります。データマイニングの語源は、DATA (データ)から鉱脈を MINE (採掘)する、から来ています。

 現在、POSやインターネットなどを通じてあらゆるデータが大量に蓄積されており、データマイニング専用のツールもいくつか存在しています。ところが、高い費用と統計的な専門知識が必要とされることなどから、個人はもとより企業にもあまり普及していないと思われます。

 データマイニングの手法には、主に、重回帰分析、バスケット分析、ニューラルネットワーク、決定木がありますが、本システムでは重回帰分析が使われています。

 さて、本システムは、アンケート方式でいくつかの質問に答えると、いくつかの予想が表示されますが、予想するのは無理と思われるものが設定されています。

例えば、「睡眠時間」や「食べ物の好き嫌い」や「スポーツとの関わり」などから、これらとは因果関係など全くなさそうな「犬好きか猫好きか」や「理系か文系か」などを予想しようとしているわけで、的中させることは極めて難しいと思います。

 それを承知で、わざわざ困難な予想対象を設定した理由は、当たって当然で新たな発見が期待できないような分析は、データマイニングの趣旨ではないからです。つまり、高い的中率を狙っているのではなく、アンケートを作った人が予想もつかないような結果が出るかもしれない、という可能性のほうに重きを置いているのです。

 例えば、【良く寝る】だけの人や、【偏食家】だけの人はそれぞれ予想対象とは無相関(無関係)だが、【良く寝る】且つ【偏食家】の人は猫好きの傾向がある、という隠れた法則が・・・もしかしたら見つかるかもしれませんよね。ちなみにこれを仮説の生成と言います。
 また、箱根駅伝の選手は文科系の学生が多いようですが、スポーツ全般に「アスリートは文科系が多い」と言えるのかを調べる、という使い方もできます。これは仮説の検証と言います。もしそうだとしたら、何かビジネスに生かせるかもしれませんよね。まさに黄金の法則の大発見となるわけです。

 以上のとおり、データマイニングの醍醐味はこの辺りにあります。多くの方にご協力を頂くことにより、本システムで新たな発見が見出せるかもしれません。分析の結果はこのWeb上で逐次ご報告致します。

動作原理など

 全体としてはWebアプリ側(データを収集)と、リモートPC側(予想モデル作成)の連携動作で動いています。

 Webサーバー側では、アンケート形式で入力されたデータ(独立変数)を、リモートPC側から送信される予想式に代入し、算出された推定値を表示しています。そして、推定値が的中していればそのまま、外れた場合は訂正された値が(従属変数として)ファイルに追加されます。
 リモートPC側ではこの累積データを定期的に読み込み、筆者製作のデータマイニングツールの予想モデル作成機能(重回帰分析)を使って予想式を決定(つまり偏回帰係数と定数項を決定)し、この係数等をWebサーバーに送信します。

 本システムではWebアプリとリモートPC上のアプリの作業分担をこのようにしたわけですが、形態はいろいろ考えられます。例えば作業を分離しないでWeb側で全ての処理をしても良いわけです。ただ、重回帰分析(主に逆行列の計算)では計算量が莫大なため、データが巨大化してしまうとWebサーバのCPU負荷が大きくなる恐れがあります。それで、このサンプルシステムではリモートPC側に重回帰分析を分担させています。

今後の予定

 筆者が製作中の「お手軽マイニング for Windows(仮称)」は、近い将来 Web上に公開する予定です。現状では、重回帰分析による予想系のマイニング機能しかありませんが、今後はPOSデータの解析で使われるバスケット分析(同時に購入される商品の組合せを分析する手法)などにも対応する予定です。

特記事項

 このプログラムは独立行政法人情報処理推進機構(IPA)の「未踏ソフトウェア創造事業」の支援を受けて作成されました。
 また、絵でプログラムを作る先進的なツール:ビスケットの原田様の技術指導を頂いています。

戻る