ML| 데이터 불균형을 위한 SMOTE
in Blog / ML on Smote
SMOTE
한줄정리 SMOTE 불균형 데이터 오버샘플링을 위한 5가지 SMOTE 기술
SMOTE란?
데이터 불균형을 해결하기 위한 오버샘플링 기법 중 하나로 소수 클래스의 샘플을 합성하여 데이터셋을 균형있게 만드는 방법
데이터 불균형셋에서는 정확도가 높아도 재현율이 급격히 작아짐
방식
KNN이나 부트스트래핑 모델 기법을 기반
소수 클래스에서 각각의 샘플들의 KNN을 찾고 각각의 군집을 선으로 이은 후 선 위의 임의의 점에 새로운 점을 생성
소수 데이터 중 특정 벡터(샘플)와 가장 가까운 이웃 사이의 차이를 계산
이 차이에 0과 1사이의 난수를 곱하고 타겟 벡터에 추가
두 개의 특정 기능 사이의 선분을 따라 임의의 점을 선택
한계점
일반적일 경우 성공적으로 작동
소수 데이터들 사이를 보간하여 작동하기에 모델링셋의 소수 데이터들 사이의 특성만을 반영하고 새로운 사례의 데이터 예측엔 취약