갈루아의 반서재

서포터 벡터 머신과 이미지 인식 (1) - 정의 및 장점


서포터 벡터 머신(SVM, Support Vector Machine) 이란?


데이터셋의 인스턴스가 다차원 공간의 점이라고 생각할 때, 서로 다른 범주에 속한 인스턴스 간의 거리를 최대한 크게 만드는 인스턴스들을 선택하는 방법으로 초평면을 얻는 지도 학습 기법으로 새 인스턴스는 놓여진 초평면의 축을 기반으로 특정범주로 분류된다



위의 이미지를 보면 빨간색 초평면과 파란색 초평면은 오류 없이 흑/백을 구별하지만, 이 중 빨간색 초평면이 최대한 넓은 폭으로 두 범주를 구별한다. 두 범주에서 가까운 인스턴스간 거리가 가장 먼 초평면이다. 이러한 접근법은 일반화 오차를 낮추고 모델이 과적합화되지 않도록 하는 장점이 있다.

※ 이러한 접근법은 고차원 속성 공간으로 매핑하는 커널 트릭kernel trick 을 활용해 다항polynominal  과 방사 기저 함수 radial basis function 와 같은 비선형 평면도 사용할 수 있다.

https://people.eecs.berkeley.edu/~jordan/courses/281B-spring04/lectures/lec3.pdf


SVM 의 장점


1) 학습할 공간이 고차원 속성 공간일 때 매우 효율적 (적은 인스턴스와 다차원 공간)

2) 메모리 공간의 관점에서도 효율적 (학습공간에서 점의 부분 집합을 결정 평면으로 표현)


SVM은 매우 커다란 차원 공간을 가지는 이미지 인식에 적용된다(이미지 각 픽셀의 값을 속성으로 고려한다). 사람의 얼굴을 고려해 그 사람이 속한 리스트를 예측하고자 한다. 학습 데이터는 레이블된 사람 얼굴 이미지인 인스턴스 그룹이고 보지 못한 새로운 인스턴스의 레이블을 예측하는 모델을 학습시킨다.