기본미션
<aside>
💡 k-평균 알고리즘 작동방식 설명하기
</aside>
- 무작위로 k개의 클러스터 중심을 정합니다.
- 각 샘플에서 가장 가까운 클러스터 중심을 찾아 해당 클러스터의 샘플로 지정합니다.
- 클러스터에 속한 샘플의 평균값으로 클러스터 중심을 변경합니다.
- 클러스터 중심에 변화가 없을 때까지 2번으로 돌아가 반복합니다.
먼저 3개의 클러스터 중심(빨간 점)을 랜덤하게 지정합니다(①). 그리고 클러스터 중심에서 가장 가까운 샘플을 하나의 클러스터로 묶습니다. 왼쪽 위부터 시계 방향으로 바나나 2개와 사과 1개 클러스터, 바나나 1개와 파인애플 2개 클러스터, 사과 2개와 파인애플 1개 클러스터가 만들어졌습니다. 클러스터에는 순서나 번호는 의미가 없습니다.
그 다음 클러스터의 중심을 다시 계산하여 이동시킵니다. 맨 아래 클러스터는 사과 쪽으로 중심이 조금 더 이동하고 왼쪽 위의 클러스터는 바나나 쪽으로 중심이 더 이동하는 식입니다.
클러스터 중심을 다시 계산한 다음 가장 가까운 샘플을 다시 클러스터로 묶습니다(②). 이제 3개의 클러스터에는 바나나와 파인애플, 사과가 3개씩 올바르게 묶여 있습니다. 다시 한번 클러스터 중심을 계산합니다. 그다음 빨간 점을 클러스터의 가운데 부분으로 이동시킵니다.
이동된 클러스터 중심에서 다시 한번 가장 가까운 샘플을 클러스터로 묶습니다(③). 중심에서 가장 가까운 샘플은 이전 클러스터(②)와 동일합니다. 따라서 만들어진 클러스터에 변동이 없으므로 k-평균 알고리즘을 종료합니다.
용어정리
- 비지도 학습
- 머신러닝의 한 종류로 훈련 데이터에 타깃이 없습니다. 타깃이 없기 때문에 외부의 도움 없이 스스로 유용한 무언가를 학습해야 합니다. 대표적인 비지도 학습 작업은 군집, 차원 축소 등입니다.
- 히스토그램
- 구반 별로 값이 발생한 빈도를 그래프로 표시한 것
- 군집
- 비슷한 샘플끼리 하나의 그룹으로 모으는 대표적인 비지도 학습 작업
- 군집 알고리즘으로 모은 샘플 그룹을 클러스터라고 부릅니다.
- k-평균 알고리즘
- 처음에 랜덤하게 클러스터의 중심을 정하고 클러스터를 만듭니다. 그다음 클러스터의 중심을 이동하고 다시 클러스터를 만드는 식으로 반복해서 최적의 클러스터를 구성하는 알고리즘입니다.
- 클러스터의 중심
- k-평균 알고리즘이 만든 클러스터에 속한 샘플의 특성 평균값입니다. 센트로이드(centroid)라고도 부릅니다. 가장 가까운 클러스터 중심을 샘플의 또 다른 특성으로 사용하거나 새로운 샘플에 대한 예측으로 활용할 수 있습니다.
- 엘보우 방법
- 최적의 클러스터 개수를 정하는 방법 중 하나입니다. 이너셔는 클러스터 중심과 샘플 사이 거리의 제곱 합입니다. 클러스터 개수에 따라 이너셔 감소가 꺾이는 지점이 적절한 클러스터 개수 k가 될 수 있습니다. 이 그래프 모양을 따서 엘보우 방법이라고 부릅니다.
- 차원 축소
- 원본 데이터의 특성을 적은 수의 새로운 특성으로 변환하는 비지도 학습의 한 종류
- 차원 축소는 저장 공간을 줄이고 시각화하기 쉬움. 또한 다른 알고리즘의 성능을 높일 수 있음
- 주성분 분석
- 차원 축소 알고리즘의 하나로 데이터에서 가장 분산이 큰 방향을 찾는 방법