不均衡データ


クラスごとのサンプル数が均一ではないデータのこと。
例えば、サービスに契約するかどうかを分類するモデルを作成しようとする場合に、実際には全体サンプルのうち契約をする顧客数よりも、契約しない顧客数の方が多くなるケースが大半だと思います。
VARISTA AI ML Knowledge Class Imbalance
サンプル数が均一ではない場合、少数クラスを分類する際の汎化性能に悪い影響が出てしまいます。
このような 不均衡データの問題 を解決するには、アンダーサンプリングやオーバーサンプリング、SMOTE (Synthetic Minority Over-Sampling Technique)、重み付けなどの手法を使います。


VARISTAは機械学習モデルの開発、管理をノーコードで効率的に行うことができる新しいプラットフォームです。
データをお持ちでしたらすぐに始められますので、是非ともお試しください。

または

Made with
by VARISTA Team.
© COLLESTA, Inc. 2021. All rights reserved.