契約予測モデル作成のチュートリアル
この記事では、VARISTAを活用しテレマーケティングの成功を予測するモデルを構築する方法を解説します。
データセットについて
このチュートリアルではUCI Machine Learningにて公開されているポルトガル銀行の2008年5月から2013年6月までのテレマーケティングキャンペーンにて収集されたデータセットを使用します。
チュートリアルでよく利用されるデータセットですので、ご覧になられた方もいるかもしれません。
このデータセットには、電話キャンペーンに基づき実際に定期預金を申し込んだかどうかの情報が記録されています。
データセットには、以下の表1に示すように21の特徴で構成された41,188件の顧客情報が含まれています。
表1
データセットはこちらからダウンロードします。
Bank Marketing Data Set
ページ遷移後に、Data Folderに移動しdata-additional.zipをダウンロードします。
VARISTAへのデータアップロード
プロジェクトを新規作成し、ダウンロードしたデータをアップロードします。
データの解析が完了したら、予測列を「y」に設定します。
データの理解
VARISTAのビジュアライズ機能を使い、データを確認します。
アップロードしたデータを選択して、ビジュアライズを選択します。
ビジュアライズを確認すると年齢分布や職業、既婚・未婚などの情報を確認する事ができます。
相関関係を選択すると、目的変数とそれぞれの特徴との相関を確認する事ができます。
housingやloanは契約にはあまり影響しないようです。
durationを確認してみると、通話時間が長くなるほど契約に影響しているようです。
このように、VARISTAのビジュアライズ機能はすぐに可視化してデータの分布や相関を確認する事ができます。
予測モデルの作成
VARISTAに搭載されているAutoMLで実際に予測モデルを作成します。
今回は契約する、契約しないの2値分類です。
回帰・分類(2値・多値)モデルを作成するかはVARISTAが自動で判断します。
左メニューのモデルから、モデルを選択し「AIモデル作成」ボタンを押下します。
bank-additional-full.csvが選択されている事、予測する列がyになっていることを確認し「学習開始」ボタンを押下します。
あとはVARISTAがAutoML機能を使い自動でモデルを作成します。
しばらくすると学習が完了します。
学習が完了すると、モデルの詳細が表示されます。
各パネルを確認してみましょう。
VARISTAが算出したモデル自体のスコアは65と表示されています。
全体のスコアや 契約する事を当てられた割合、契約しない事を当てられた割合が表示されています。
VARISTAはモデルを生成する際に、クロスバリデーションを行いますのでその結果がここに表示されています。
定期預金に申し込むかどうかに影響が高かった特徴はdurationと表示されています。
クロスバリデーションのデータ分割割合及び、混同行列もこのように表示されます。
このモデルは全体の20%をテストデータとして使用しています。
(割合は学習設定から変更する事ができます。)
混同行列を確認すると、実際には契約した顧客を「契約しない」と予測してしまっている件数が218件あるようです。これは全体の約23.5%で比較的大きな数値です。
原因はデータに偏りがあるためです。
以上がVARISTAを用いてモデルを作る流れです。
ぜひ、データセットをダウンロードして実際にVARISTAでお試しください。