비지도학습 - ho4607

비지도학습 : 군집(Clustering)

비지도 학습은 고정된 레이블이 없어 학습 데이터 중에서 유사한 특성을 가진 데이터끼리 그룹화 하여 분석하는 학습 모델이다. 다른 이름으로 군집(Clustering)모델 이다.

비지도 학습도 크게 두가지로 나눌 수 있다.

1.

분할 기반(partition-based) 군집

2.

계층 기반(hierarchical) 군집 → 병합적군집, 분할적 군집으로 또 나뉜다.

비지도 학습은 입력 데이터를 구별할 수 있는 특징을 정량화 한 것으로, 알고리즘 보다 적절한 특성(feature)으로 효과적인 기계학습이 가능하다.

Partition-based Clustering

평할, 분할 기반의 군집 모델이며, 같은 레벨에서 쪼개지는 느낌이다.

처음에 군집수인 k를 지정한 후, 관측치들을 무작위로 k개의 집단으로 분할하고 다양한 기준(평균값, 최빈값 등)을 이용하여 centroid를 수정해나가며 집단을 다시 재분류 하는 방법이다.

K-means

K-medoids

DBSCAN

K-means Clustering

개념이 매우 정확하고 직관직이며, 데이터 계산이 빠르다. - O(k.n.t)

데이터가 중심에 모여있는 구형 볼록(convex)한 데이터에는 잘 적용되나, 바깥에 모여있는 오목(concave) 데이터에는 군집화되지 않는 문제가 발생한다.

동 떨어진 데이터 및 노이즈에 민감하며, 초기 중심은 의존 global minimum에 도달 불가능하다.

방법

1.

클러스터의 개수 k로, 각 클러스터에 초기 중심 initial centroid를 설정한다.

2.

각 데이터는 가장 k 개 중 가까운 중심을 자기 클러스터 중심 및 소속으로 설정한다.

3.

각 k개 클러스터는 소속 데이터 좌표값 평균으로 새로운 중심 계산하고, 다시 2번으로 돌아간다.

4.

데이터가 소속 클러스터를 변경하는 경우 없으면 학습 완료된다.

K-medoids Clustering

K-means 와 유세한 개념이면서 클러스터의 중심을 임의의 점이 아니라 데이터 세트중 하나를 선정한다.

medoids는 다음의 합성어 이다. medoids = median(중간값) + centroid(중심)

k-means와 다르게 실제 데이터 중 1개로 중심(centroid)이 이동한다.

실제 데이터가 중심(centroid)으로 설정되기 때문에 동 떨어진 데이터 및 노이즈 처리에 우수하다.

하지만 새로운 중심을 실제 데이터에서 선정하므로 계산량이 크게 증가하며. - O(k.(n-k)^2.t) 초기에 k를 지정해주어야 하며, 처리비용이 k-means에 비해 고비용이라는 단점을 갖고있다.

E = \sum^k_{j=1}\sum_{p∈C_j}

k-means와 마찬가지로 구형 볼록(convex) 데이터에 잘 적용되며, 오목(concave) 데이터에 적용 할때는 문제가 발생한다.

입력 : 클러스터의 개수 k, 데이터 세트 D 출력 : k개의 군집

방법

1.

데이터세트(D)에서 각 군집을 대표할 k개의 객체들을 선택한다.

2.

남아있는 각 객체들은 가장 근접한 대표객체가 속한 클러스터에 할당한다.

3.

임의로 비대표 객체인 O_{random}을 선택한다.

4.

대표 객체 O_j와 O_{random}을 교환에 대한 총 비용(S)을 계산한다.

5.

만약 S <0 이라면 O_j 와 O_{random} 값을 바꿔 새로운 k 대표객체의 집합을 형성한다.

6.

이후 O_j와 O_{random}이 바뀌지 않을 때까지 2.~ 5.의 과정을 반복한다.

Hierarchical Clustering

연관문서 바로가기

인공지능 개론

기계학습의 개요

AI 홈으로 돌아가기

인공지능 개론

메인으로 돌아가기

비지도학습 : 군집(Clustering)

비지도 학습은 고정된 레이블이 없어 학습 데이터 중에서 유사한 특성을 가진 데이터끼리 그룹화 하여 분석하는 학습 모델이다. 다른 이름으로 군집(Clustering)모델 이다.

비지도 학습도 크게 두가지로 나눌 수 있다.

1.

분할 기반(partition-based) 군집

2.

계층 기반(hierarchical) 군집 → 병합적군집, 분할적 군집으로 또 나뉜다.

비지도 학습은 입력 데이터를 구별할 수 있는 특징을 정량화 한 것으로, 알고리즘 보다 적절한 특성(feature)으로 효과적인 기계학습이 가능하다.

Partition-based Clustering

평할, 분할 기반의 군집 모델이며, 같은 레벨에서 쪼개지는 느낌이다.

처음에 군집수인 k를 지정한 후, 관측치들을 무작위로 k개의 집단으로 분할하고 다양한 기준(평균값, 최빈값 등)을 이용하여 centroid를 수정해나가며 집단을 다시 재분류 하는 방법이다.

K-means

K-medoids

DBSCAN

K-means Clustering

개념이 매우 정확하고 직관직이며, 데이터 계산이 빠르다. - O(k.n.t)

데이터가 중심에 모여있는 구형 볼록(convex)한 데이터에는 잘 적용되나, 바깥에 모여있는 오목(concave) 데이터에는 군집화되지 않는 문제가 발생한다.

동 떨어진 데이터 및 노이즈에 민감하며, 초기 중심은 의존 global minimum에 도달 불가능하다.

방법

1.

클러스터의 개수 k로, 각 클러스터에 초기 중심 initial centroid를 설정한다.

2.

각 데이터는 가장 k 개 중 가까운 중심을 자기 클러스터 중심 및 소속으로 설정한다.

3.

각 k개 클러스터는 소속 데이터 좌표값 평균으로 새로운 중심 계산하고, 다시 2번으로 돌아간다.

4.

데이터가 소속 클러스터를 변경하는 경우 없으면 학습 완료된다.

K-medoids Clustering

K-means 와 유세한 개념이면서 클러스터의 중심을 임의의 점이 아니라 데이터 세트중 하나를 선정한다.

medoids는 다음의 합성어 이다. medoids = median(중간값) + centroid(중심)

k-means와 다르게 실제 데이터 중 1개로 중심(centroid)이 이동한다.

실제 데이터가 중심(centroid)으로 설정되기 때문에 동 떨어진 데이터 및 노이즈 처리에 우수하다.

하지만 새로운 중심을 실제 데이터에서 선정하므로 계산량이 크게 증가하며. - O(k.(n-k)^2.t) 초기에 k를 지정해주어야 하며, 처리비용이 k-means에 비해 고비용이라는 단점을 갖고있다.

E = \sum^k_{j=1}\sum_{p∈C_j}

k-means와 마찬가지로 구형 볼록(convex) 데이터에 잘 적용되며, 오목(concave) 데이터에 적용 할때는 문제가 발생한다.

입력 : 클러스터의 개수 k, 데이터 세트 D 출력 : k개의 군집

방법

1.

데이터세트(D)에서 각 군집을 대표할 k개의 객체들을 선택한다.

2.

남아있는 각 객체들은 가장 근접한 대표객체가 속한 클러스터에 할당한다.

3.

임의로 비대표 객체인 O_{random}을 선택한다.

4.

대표 객체 O_j와 O_{random}을 교환에 대한 총 비용(S)을 계산한다.

5.

만약 S <0 이라면 O_j 와 O_{random} 값을 바꿔 새로운 k 대표객체의 집합을 형성한다.

6.

이후 O_j와 O_{random}이 바뀌지 않을 때까지 2.~ 5.의 과정을 반복한다.

Hierarchical Clustering

연관문서 바로가기

인공지능 개론

기계학습의 개요

AI 홈으로 돌아가기

인공지능 개론

메인으로 돌아가기

비지도학습 : 군집(Clustering)

비지도 학습은 고정된 레이블이 없어 학습 데이터 중에서 유사한 특성을 가진 데이터끼리 그룹화 하여 분석하는 학습 모델이다. 다른 이름으로 군집(Clustering)모델 이다.

비지도 학습도 크게 두가지로 나눌 수 있다.

1.

분할 기반(partition-based) 군집

2.

계층 기반(hierarchical) 군집 → 병합적군집, 분할적 군집으로 또 나뉜다.

비지도 학습은 입력 데이터를 구별할 수 있는 특징을 정량화 한 것으로, 알고리즘 보다 적절한 특성(feature)으로 효과적인 기계학습이 가능하다.

Partition-based Clustering

평할, 분할 기반의 군집 모델이며, 같은 레벨에서 쪼개지는 느낌이다.

처음에 군집수인 k를 지정한 후, 관측치들을 무작위로 k개의 집단으로 분할하고 다양한 기준(평균값, 최빈값 등)을 이용하여 centroid를 수정해나가며 집단을 다시 재분류 하는 방법이다.

K-means

K-medoids

DBSCAN

K-means Clustering

개념이 매우 정확하고 직관직이며, 데이터 계산이 빠르다. - O(k.n.t)

데이터가 중심에 모여있는 구형 볼록(convex)한 데이터에는 잘 적용되나, 바깥에 모여있는 오목(concave) 데이터에는 군집화되지 않는 문제가 발생한다.

동 떨어진 데이터 및 노이즈에 민감하며, 초기 중심은 의존 global minimum에 도달 불가능하다.

방법

1.

클러스터의 개수 k로, 각 클러스터에 초기 중심 initial centroid를 설정한다.

2.

각 데이터는 가장 k 개 중 가까운 중심을 자기 클러스터 중심 및 소속으로 설정한다.

3.

각 k개 클러스터는 소속 데이터 좌표값 평균으로 새로운 중심 계산하고, 다시 2번으로 돌아간다.

4.

데이터가 소속 클러스터를 변경하는 경우 없으면 학습 완료된다.

K-medoids Clustering

K-means 와 유세한 개념이면서 클러스터의 중심을 임의의 점이 아니라 데이터 세트중 하나를 선정한다.

medoids는 다음의 합성어 이다. medoids = median(중간값) + centroid(중심)

k-means와 다르게 실제 데이터 중 1개로 중심(centroid)이 이동한다.

실제 데이터가 중심(centroid)으로 설정되기 때문에 동 떨어진 데이터 및 노이즈 처리에 우수하다.

하지만 새로운 중심을 실제 데이터에서 선정하므로 계산량이 크게 증가하며. - O(k.(n-k)^2.t) 초기에 k를 지정해주어야 하며, 처리비용이 k-means에 비해 고비용이라는 단점을 갖고있다.

E = \sum^k_{j=1}\sum_{p∈C_j}

k-means와 마찬가지로 구형 볼록(convex) 데이터에 잘 적용되며, 오목(concave) 데이터에 적용 할때는 문제가 발생한다.

입력 : 클러스터의 개수 k, 데이터 세트 D 출력 : k개의 군집

방법

1.

데이터세트(D)에서 각 군집을 대표할 k개의 객체들을 선택한다.

2.

남아있는 각 객체들은 가장 근접한 대표객체가 속한 클러스터에 할당한다.

3.

임의로 비대표 객체인 O_{random}을 선택한다.

4.

대표 객체 O_j와 O_{random}을 교환에 대한 총 비용(S)을 계산한다.

5.

만약 S <0 이라면 O_j 와 O_{random} 값을 바꿔 새로운 k 대표객체의 집합을 형성한다.

6.

이후 O_j와 O_{random}이 바뀌지 않을 때까지 2.~ 5.의 과정을 반복한다.

Hierarchical Clustering

연관문서 바로가기

인공지능 개론

기계학습의 개요

AI 홈으로 돌아가기

인공지능 개론

메인으로 돌아가기

비지도학습 : 군집(Clustering)

비지도 학습은 고정된 레이블이 없어 학습 데이터 중에서 유사한 특성을 가진 데이터끼리 그룹화 하여 분석하는 학습 모델이다. 다른 이름으로 군집(Clustering)모델 이다.

비지도 학습도 크게 두가지로 나눌 수 있다.

1.

분할 기반(partition-based) 군집

2.

계층 기반(hierarchical) 군집 → 병합적군집, 분할적 군집으로 또 나뉜다.

비지도 학습은 입력 데이터를 구별할 수 있는 특징을 정량화 한 것으로, 알고리즘 보다 적절한 특성(feature)으로 효과적인 기계학습이 가능하다.

Partition-based Clustering

평할, 분할 기반의 군집 모델이며, 같은 레벨에서 쪼개지는 느낌이다.

처음에 군집수인 k를 지정한 후, 관측치들을 무작위로 k개의 집단으로 분할하고 다양한 기준(평균값, 최빈값 등)을 이용하여 centroid를 수정해나가며 집단을 다시 재분류 하는 방법이다.

K-means

K-medoids

DBSCAN

K-means Clustering

개념이 매우 정확하고 직관직이며, 데이터 계산이 빠르다. - O(k.n.t)

데이터가 중심에 모여있는 구형 볼록(convex)한 데이터에는 잘 적용되나, 바깥에 모여있는 오목(concave) 데이터에는 군집화되지 않는 문제가 발생한다.

동 떨어진 데이터 및 노이즈에 민감하며, 초기 중심은 의존 global minimum에 도달 불가능하다.

방법

1.

클러스터의 개수 k로, 각 클러스터에 초기 중심 initial centroid를 설정한다.

2.

각 데이터는 가장 k 개 중 가까운 중심을 자기 클러스터 중심 및 소속으로 설정한다.

3.

각 k개 클러스터는 소속 데이터 좌표값 평균으로 새로운 중심 계산하고, 다시 2번으로 돌아간다.

4.

데이터가 소속 클러스터를 변경하는 경우 없으면 학습 완료된다.

K-medoids Clustering

K-means 와 유세한 개념이면서 클러스터의 중심을 임의의 점이 아니라 데이터 세트중 하나를 선정한다.

medoids는 다음의 합성어 이다. medoids = median(중간값) + centroid(중심)

k-means와 다르게 실제 데이터 중 1개로 중심(centroid)이 이동한다.

실제 데이터가 중심(centroid)으로 설정되기 때문에 동 떨어진 데이터 및 노이즈 처리에 우수하다.

하지만 새로운 중심을 실제 데이터에서 선정하므로 계산량이 크게 증가하며. - O(k.(n-k)^2.t) 초기에 k를 지정해주어야 하며, 처리비용이 k-means에 비해 고비용이라는 단점을 갖고있다.

E = \sum^k_{j=1}\sum_{p∈C_j}

k-means와 마찬가지로 구형 볼록(convex) 데이터에 잘 적용되며, 오목(concave) 데이터에 적용 할때는 문제가 발생한다.

입력 : 클러스터의 개수 k, 데이터 세트 D 출력 : k개의 군집

방법

1.

데이터세트(D)에서 각 군집을 대표할 k개의 객체들을 선택한다.

2.

남아있는 각 객체들은 가장 근접한 대표객체가 속한 클러스터에 할당한다.

3.

임의로 비대표 객체인 O_{random}을 선택한다.

4.

대표 객체 O_j와 O_{random}을 교환에 대한 총 비용(S)을 계산한다.

5.

만약 S <0 이라면 O_j 와 O_{random} 값을 바꿔 새로운 k 대표객체의 집합을 형성한다.

6.

이후 O_j와 O_{random}이 바뀌지 않을 때까지 2.~ 5.의 과정을 반복한다.

Hierarchical Clustering

연관문서 바로가기

인공지능 개론

기계학습의 개요

AI 홈으로 돌아가기

인공지능 개론

메인으로 돌아가기

비지도학습 : 군집(Clustering)

비지도 학습은 고정된 레이블이 없어 학습 데이터 중에서 유사한 특성을 가진 데이터끼리 그룹화 하여 분석하는 학습 모델이다. 다른 이름으로 군집(Clustering)모델 이다.

비지도 학습도 크게 두가지로 나눌 수 있다.

1.

분할 기반(partition-based) 군집

2.

계층 기반(hierarchical) 군집 → 병합적군집, 분할적 군집으로 또 나뉜다.

비지도 학습은 입력 데이터를 구별할 수 있는 특징을 정량화 한 것으로, 알고리즘 보다 적절한 특성(feature)으로 효과적인 기계학습이 가능하다.

Partition-based Clustering

평할, 분할 기반의 군집 모델이며, 같은 레벨에서 쪼개지는 느낌이다.

처음에 군집수인 k를 지정한 후, 관측치들을 무작위로 k개의 집단으로 분할하고 다양한 기준(평균값, 최빈값 등)을 이용하여 centroid를 수정해나가며 집단을 다시 재분류 하는 방법이다.

K-means

K-medoids

DBSCAN

K-means Clustering

개념이 매우 정확하고 직관직이며, 데이터 계산이 빠르다. - O(k.n.t)

데이터가 중심에 모여있는 구형 볼록(convex)한 데이터에는 잘 적용되나, 바깥에 모여있는 오목(concave) 데이터에는 군집화되지 않는 문제가 발생한다.

동 떨어진 데이터 및 노이즈에 민감하며, 초기 중심은 의존 global minimum에 도달 불가능하다.

방법

1.

클러스터의 개수 k로, 각 클러스터에 초기 중심 initial centroid를 설정한다.

2.

각 데이터는 가장 k 개 중 가까운 중심을 자기 클러스터 중심 및 소속으로 설정한다.

3.

각 k개 클러스터는 소속 데이터 좌표값 평균으로 새로운 중심 계산하고, 다시 2번으로 돌아간다.

4.

데이터가 소속 클러스터를 변경하는 경우 없으면 학습 완료된다.

K-medoids Clustering

K-means 와 유세한 개념이면서 클러스터의 중심을 임의의 점이 아니라 데이터 세트중 하나를 선정한다.

medoids는 다음의 합성어 이다. medoids = median(중간값) + centroid(중심)

k-means와 다르게 실제 데이터 중 1개로 중심(centroid)이 이동한다.

실제 데이터가 중심(centroid)으로 설정되기 때문에 동 떨어진 데이터 및 노이즈 처리에 우수하다.

하지만 새로운 중심을 실제 데이터에서 선정하므로 계산량이 크게 증가하며. - O(k.(n-k)^2.t) 초기에 k를 지정해주어야 하며, 처리비용이 k-means에 비해 고비용이라는 단점을 갖고있다.

E = \sum^k_{j=1}\sum_{p∈C_j}

k-means와 마찬가지로 구형 볼록(convex) 데이터에 잘 적용되며, 오목(concave) 데이터에 적용 할때는 문제가 발생한다.

입력 : 클러스터의 개수 k, 데이터 세트 D 출력 : k개의 군집

방법

1.

데이터세트(D)에서 각 군집을 대표할 k개의 객체들을 선택한다.

2.

남아있는 각 객체들은 가장 근접한 대표객체가 속한 클러스터에 할당한다.

3.

임의로 비대표 객체인 O_{random}을 선택한다.

4.

대표 객체 O_j와 O_{random}을 교환에 대한 총 비용(S)을 계산한다.

5.

만약 S <0 이라면 O_j 와 O_{random} 값을 바꿔 새로운 k 대표객체의 집합을 형성한다.

6.

이후 O_j와 O_{random}이 바뀌지 않을 때까지 2.~ 5.의 과정을 반복한다.

Hierarchical Clustering

연관문서 바로가기

인공지능 개론

기계학습의 개요

AI 홈으로 돌아가기

인공지능 개론

메인으로 돌아가기

비지도학습 : 군집(Clustering)

비지도 학습은 고정된 레이블이 없어 학습 데이터 중에서 유사한 특성을 가진 데이터끼리 그룹화 하여 분석하는 학습 모델이다. 다른 이름으로 군집(Clustering)모델 이다.

비지도 학습도 크게 두가지로 나눌 수 있다.

1.

분할 기반(partition-based) 군집

2.

계층 기반(hierarchical) 군집 → 병합적군집, 분할적 군집으로 또 나뉜다.