전통문화대전망 - 전통 미덕 - 05 EM 알고리즘-가우스 혼합 모델 -GMM
05 EM 알고리즘-가우스 혼합 모델 -GMM
GMM (가우스 혼합 모델) 은 여러 가우스 모델의 선형 중첩 혼합으로 구성된 알고리즘을 나타냅니다. 각 가우스 모형을 구성요소라고 합니다.
GMM 알고리즘은 데이터 자체의 분포, 즉 샘플 피쳐 속성의 분포를 설명하며, 예측 값 Y 와는 무관합니다. GMM 알고리즘은 클러스터 응용 프로그램에서 일반적으로 사용되는 감독되지 않은 알고리즘입니다. 컴포넌트 수는 범주 수로 간주될 수 있습니다.
어제의 예로 돌아가겠습니다. 무작위로 1000 명의 사용자를 추출하여 키를 측정합니다. 샘플에 남성과 여성이 있는 경우 키는 가우스 분포 N(μ 1, σ 1) 과 N(μ2, σ2) 의 분포에 따라 달라집니다. 예상 매개 변수: μ 1, σ 1, μ 2, σ 2;
1. 샘플 상황이 명확하게 알려진 경우 (즉, 남녀 데이터가 분리되어 있는 경우), 우리는 이 매개변수 값을 큰 우도 추정으로 추정한다.
2. 샘플이 혼합되어 명확하게 구분할 수 없는 경우 최대 우도 추정은 매개변수를 추정하는 데 직접 사용할 수 없습니다.
현재 1000 개의 데이터로 구성된 집합 X 는 두 개의 가우스 분포 (남성 분포와 여성 분포) 로 구성되어 있다고 생각할 수 있습니다.
각 가우스 분포에 해당하는 매개변수 π, μ, σ 를 찾을 수 있는 방법을 찾으면 해당 모델이 해결됩니다.
모델이 해결되면 데이터를 클러스터링하려면 어떻게 해야 합니까?
이 공식은 남성과 여성의 높이 분포의 확률 밀도를 각각 계산한다. π, μ, σ 모두 계산되면, 우리는 앞으로 샘플의 특성에 따라 남성 또는 여성에게 속한 샘플을 만들 수 있습니다.
샘플을 실제로 분류할 때 샘플 X 의 특징인 x 1~xn 을 각각 두 공식으로 대체해 샘플 X 의 성별이 남자나 여자일 가능성을 두 가지 결과로 얻었다. 만약 남자의 가능성이 여자의 가능성보다 크다면, 우리는 샘플 X 를 남자로 분류할 것이다.
GMM 이 K 가우스 분포의 선형 오버레이로 구성되어 있다고 가정하면 확률 밀도 함수는 다음과 같습니다.
분석 방정식 1:
P(x): k 가우스 분포 선형 오버레이로 구성된 확률 밀도 함수입니다.
σ p (k) p (x | k): k 개 모델이 겹치는 확률 밀도 함수입니다.
P(k): 각 모델의 무게, 즉 위에서 언급한 π.
P(x|k): 주어진 클래스 k, x 에 해당하는 확률 밀도 함수입니다.
두 번째 방정식 분석: 목표-공식을 가우스 분포로 씁니다.
π k: p(k)
P (x : μ k, σ k): 다 변수 가우스 (정규) 분포. 관측 데이터 x 를 사용하면 주어진 조건에서 가우스 분포가 발생합니다. 이 조건은 1, K 번째 분류의 평균 μ K 입니다. 2. k 번째 분류의 분산 σ k;
심층 분석 p (x; μ k, σ k) 매개 변수:
샘플에 N 개의 피쳐가 있는 경우 모든 피쳐 x 1~xn 은 다원 가우스 분포 (정규 분포) 를 따르며 모든 피쳐의 평균은 벡터 (μ1~ μ n) 여야 합니다. 을 눌러 섹션을 인쇄할 수도 있습니다
μ k: K 번째 분류의 경우 (K 번째 가우스 분포에 해당하는 각 열의 평균) μ k = (μ k 1 ~μ kn)
σ k: 공분산 행렬 (대칭 행렬). 이제 N 개의 특징이 있습니다. 공분산 행렬은 n×n 행렬입니다. 이제 우리는 다음과 같이 계산해야 합니다.
Cov(x 1, x 1), cov(x 1, x2), ..., 표지 (x/kloc)
Cov(x2, x 1), cov(x2, x2), ..., cov(x2, xn)
....
Cov(xn, x 1), cov(x 1, x2), ..., cov(xn, xn)
여기서 대각선 cov(x 1, x 1), cov(x2, x2), ..., cov(xn, xn), x 즉 cov (x 1, x1) = var (x1); 따라서 대각선에 있는 두 피쳐의 공분산 = 해당 피쳐의 분산입니다.
공분산은 확률론과 통계학에서 두 변수의 총 오차를 측정하는 데 사용된다. 분산은 공분산의 특수한 경우입니다. 즉, 두 변수가 같을 때.
공분산은 단 하나의 변수 오류만 있는 분산과는 달리 두 변수의 총 오류를 나타냅니다. 두 변수의 추세가 일치하면, 즉 하나는 자신의 기대보다 크고 다른 하나는 자신의 기대보다 크면 두 변수 사이의 공분산은 양수입니다. 두 변수의 추세가 반대인 경우, 즉 하나는 기대치보다 크고 다른 하나는 기대치보다 작으면 두 변수 간의 공분산은 음수입니다.
공식을 이해한 후, 공식이 이미지에 어떻게 반영되는지 봅시다.
샘플 x 에 x 1 이라는 하나의 피쳐만 있는 경우 2d 좌표계로 표시됩니다. 특성 x 1 N 개의 단변수 샘플의 가우스 분포가 겹쳐져 있습니다. 벡터 x1k= σ k (x1(1), X 1 (2), ~,;
그림의 빨간색 곡선은 원시 데이터의 분포를 보여 줍니다. 이 원시 데이터는 여러 개의 대비되는 가우스 분포가 겹쳐져 있고, 파란색 곡선은 단일 가우스 분포의 분포를 보여 줍니다. 벡터 x 1 = (x 1 (1), x 1 (2), ~, x/kloc
PS: 파란색 1+ 파란색 2= 빨간색은 공식 p (x) = σ π p (x; μ, σ k);
데이터 x=(x 1~xn) 의 특징을 알고 데이터를 한 범주로 합리적으로 클러스터링하려면 어떻게 계산해야 하나요?
이제 k 가우스 분포에 해당하는 확률 밀도 함수 (이제 k=3 및 ***3 분류 가정) 를 얻었으므로 현재 피쳐의 x=(x 1~xn) 를 확률 밀도 함수 p (x) = σ μ, σ k);
우리는 각각 P (파란색 1), P (블루 2), P (블루 3) 를 계산했다. 세 개의 파란색 선은 각각 K 개 범주 중 하나에 해당하는데, 어느 숫자가 더 큰지, 나는 현재 샘플이 어느 범주로 분류되어야 한다고 생각한다.
GMM 알고리즘의 두 가지 전제 조건:
1, 데이터는 가우스 분포를 따릅니다.
우리는 인위적으로 분류 수 k 를 정의했습니다.
Q: 클러스터링할 때 가우시안 분포의 분류 수 K 와 클러스터 센터 수가 비슷하다고 인위적으로 가정했습니다. 매개 변수 π, μ, σ 찾기 방법?
A: K-Means 알고리즘과 마찬가지로 EM 알고리즘을 사용하여 이 문제를 해결할 수 있습니다. GMM 은 또한 EM 알고리즘의 클러스터링 아이디어와 일치합니다. 먼저 클러스터 수 K 를 수동으로 정의하여 데이터 피쳐 X 에서 잠재적 관계를 마이닝하는 모델을 제안합니다. 또한 기본 데이터는 다중 가우스 분포를 따릅니다.
GMM 알고리즘의 암시적 조건은 k 번째 모델의 가중치, k 번째 가우스 분포에 해당하는 각 열의 평균, 공분산 행렬 CoV (Xi, XJ) 입니다. 본질적으로, 우리는 데이터의 원래 분류를 알고 있기 때문에, 우리는 데이터에 숨겨진 이러한 특성을 관찰할 수 없습니다. EM 의 사상을 이용하여, 우리는 이러한 숨겨진 변수들을 반복적으로 해결할 수 있다.
공동 확률 밀도 함수의 로그 우도 함수를 찾습니다.
결합 확률 밀도 함수가 로그를 취하면 원래 연속 곱셈의 최대 우도 추정이 연속 가산의 함수 상태가 됩니다.
EM 알고리즘 솔루션 -E 단계:
공식을 적용한 후 암시적 변수 z 의 분포를 가정할 수 있습니다. q (z (I) = j);
I 차 관찰에 해당하는 분포 wj (i) = 암시적 분류는 Z (I) 라고 생각합니다. = (보이지 않는 매개변수 π, μ, σ) 를 매개변수로 사용하여 I 번째 관찰의 피쳐 x 에서 얻은 클래스 z (I) 를 입력합니다.
EM 알고리즘 솔루션 -M 단계:
단계 m 의 1 행은 이전 장의 단순화를 통해 하한을 찾는 함수입니다.
1. 평균 결과:
2, 부분 파생 상품의 또 다른 차이점:
라그랑주 승수 방법을 사용하여 확률 해결:
06 EM 알고리즘-사례 1- EM 분류에 대한 예비 이해 및 GMM 알고리즘 구현