VARISTA
ドキュメント
テンプレート

テンプレート

2021.02.26 (金)

テンプレートはモデルトレーニング時に、トレーニングの設定を記録して保存する概念です。
VARISTAでは分類用に3つ、多値分類用に3つ、回帰用に3つ、合計9つのテンプレートが用意されています。

テンプレートはプロジェクトごとに新しく作成、または複製してオリジナルものを作ることが可能です。別のプロジェクトで使用したい場合は、プロジェクトを跨いで複製することができます。


テンプレートを利用した学習

VARISTAはテンプレートを用いてモデルトレーニングを行います。

VARISTA Documents Template Management 0

分類モデルを作る場合の例

  • Basic Ensemble Classifier
  • XGBoost Classifiter

回帰モデルを作る場合の例

  • Autopilot for Regression
  • XGBoost Regressor
  • Basic Ensemble Regressor

テンプレートの管理

テンプレートの作成や編集を行うには、任意のプロジェクト内から以下の操作を行いテンプレート管理画面に移動します。

モデリング › テンプレート(タブ)

VARISTA Documents Template Management 1

テンプレートの新規作成

テンプレート管理画面に移動すると 新規作成 からテンプレートを新しく作成することができます。
VARISTA Documents Template Management 2

基本設定

  • Objective: 分類 / 回帰
  • データ前処理:
    • 欠損値の扱い: 削除 / 簡易補完(平均、最頻値で補完)
      削除: 欠損がある列を削除します
      簡易保管: 数値列は平均、カテゴリ列は最頻値を用いて補完します
    • カテゴリ列の変換: Label Encoding / One-Hot Encoding
      カテゴリ列をいずれかの手法を使い変換します
  • 検証データの分割設定
    • 分割サイズ: (数値) 訓練データとテストデータを分割する割合を指定します
    • シャッフル: (Boolean) データをシャッフルするか指定します
    • ランダムシード: (数値) データをシャッフルする場合のRandomStateを指定します
      VARISTAにおける最大値は9999999999です。

モデル設定

VARISTA Documents Template Management 3

  • 学習タイプ
    • Single: 単一のアルゴリズムを利用してモデルトレーニングを行います。
    • Auto Selection: VARISTAのAutoML機能を使いモデルトレーニングを行います。
      アンサンブル学習に利用できる最大モデルは32モデルですが、データサイズによっては学習中にメモリエラーとなる場合がござます。
    • Ensemble: 複数のモデルを融合するアンサンブル学習を使いモデルトレーニングを行います。
      現在サポートしているアンサンブル学習は、Stacking と __Voting__です。
      Boosting (ブースティング)およびBagging(バギング)については、Singleを用いてXGBoostなどのアルゴリズムをご利用ください。
      アンサンブル学習に利用できる最大モデルは32モデルですが、データサイズによっては学習中にメモリエラーとなる場合がござます。
  • アルゴリズム: モデル作成に使用するアルゴリズムを指定します。利用できるアルゴリズムは以下の通りです。
    • XGBoost
    • LightGBM
    • CatBoost
    • Linear
    • Ridge
    • Ridge CV (CV: Cross Validation)
    • AdaBoost
    • Extra Tree
    • Gradient Boosting
    • Random Forest
    • Hist Gradient Boosting
  • パラメータ: ハイパーパラメータのチューニング設定を指定します。
    AutoTuneを指定しない場合は、全ての項目について任意のパラメータを設定することができます。AutoTuneを指定した場合はハイパーパラメータを自動探索するため、探索する範囲を指定します。
    • Auto Tune: ハイパーパラメータの自動探索アルゴリズムを指定します。
      • Grid Search Optimization: グリッドサーチを利用してハイパーパラメータの探索を行います
      • Randomized Search Optimization: グリッドサーチを利用してハイパーパラメータの探索を行います
      • TPE Optimization with Hyperopt[1]: Hyperoptを利用してハイパーパラメータの探索を行います
      • TPE Optimization with Optuna[2]: Optunaを利用してハイパーパラメータの探索を行います
    • AutoTune rounds: ハイパーパラメータ自動探索時の試行回数を指定します。
    • AutoTune CV Settings: ハイパーパラメータ自動探索時のクロスバリデーションの設定を行います。
      n_splits: (数値) クロスバリデーションの分割数 (1-10)
      Shuffle: (Boolean) クロスバリデーション時にデータをシャッフルするか否かの設定 (True/False)
      random_state: (数値) データをシャッフルする場合のrandom_stateを設定(最大値: 9999999999)

テンプレートの複製

テンプレート一覧から任意のテンプレートの右に表示されているミートボール メニューを選択して、複製を選択してください。
VARISTA Documents Template Management 4
複製先のプロジェクトを選択することで、任意のプロジェクトに複製することができます。
VARISTA Documents Template Management 5


テンプレートの編集

テンプレートを編集するには、テンプレート一覧から任意のテンプレートを選択します。
値を変更したら 保存 を選択して変更内容を保存します。


テンプレートの削除

テンプレートを削除するには、テンプレート一覧から任意のテンプレートのミートボール メニュー
を選択して 削除 を選択するか、テンプレート詳細を開き、画面最下部にある テンプレートを削除 を選択します。
一度削除したテンプレートは復元できないのでご注意下さい。


  1. Hyperopt
    https://github.com/hyperopt/hyperopt ↩︎

  2. Optuna
    株式会社Preferred Networksが開発するオープンソースのオープンソースのハイパーパラメータ自動最適化フレームワークです。Optunaは株式会社Preferred Networksの商標または登録商標です。
    https://www.preferred.jp/ja/projects/optuna/ ↩︎

Made with
by VARISTA Team.
© COLLESTA, Inc. 2021. All rights reserved.