전통문화대전망 - 전통 미덕 - 데이터 마이닝을위한 클러스터링 알고리즘의 장점과 장점은 무엇입니까?
데이터 마이닝을위한 클러스터링 알고리즘의 장점과 장점은 무엇입니까?
1..1클러스터 집계
1. 1. 1 유사성 거리에 따라 다름: 단일 체인: 가장 가까운 거리, 전체 체인: 가장 먼 거리, 평균 체인: 평균 거리.
1..1.2 가 가장 대표적인 알고리즘입니다.
1) 경화 알고리즘
특징: 고정된 수의 대표 점 * * * * 은 같은 대표 클래스에 속합니다.
장점: 모양이 복잡하고 크기가 다른 클러스터를 식별하고 고립된 점을 필터링합니다.
2)ROCK 알고리즘
특징: CURE 알고리즘의 개선
장점: 위와 마찬가지로 범주 속성의 데이터에 적용됩니다.
3) 카멜레온 알고리즘
특징: 동적 모델링 기술을 사용합니다.
1.2 클러스터 분해
1.3 의 장단점
장점: 모든 모양 및 속성에 적합한 데이터 세트 다양한 수준의 클러스터링 세분성을 유연하게 제어, 클러스터링 기능 향상
단점: 알고리즘의 실행 시간이 크게 길어지고 백트래킹할 수 없습니다.
2. 분할 클러스터링 알고리즘
2. 1 밀도 기반 클러스터링
2.1..1기능
인접한 영역을 충분히 높은 밀도로 연결하면 비정상적인 데이터를 효율적으로 처리할 수 있으며 주로 공간 데이터 클러스터링에 사용됩니다.
2. 1.2 일반적인 알고리즘
1)DBSCAN: 밀도가 충분히 높은 영역을 계속 성장시킵니다.
2)DENCLUE: 속성 공간에서 데이터 포인트의 밀도에 따라 클러스터링하고 밀도와 메쉬를 결합하여 처리합니다.
3)OPTICS, DBCLASD, cud:DBS can 은 공간의 데이터 밀도에 따라 개선되지 않습니다.
2.2 그리드 기반 클러스터
2.2. 1 특성
속성 공간의 다차원 그리드 데이터 구조를 사용하여 공간을 제한된 수의 셀로 분할하여 그리드 구조를 형성합니다.
1) 이점: 처리 시간은 데이터 객체 수 및 데이터 입력 순서와 무관하며 모든 유형의 데이터를 처리할 수 있습니다.
2) 단점: 처리 시간은 차원당 공간 구분 단위 수와 관련이 있어 클러스터의 품질과 정확도가 어느 정도 떨어집니다.
전형적인 알고리즘
1)STING: 메시 다중 해상도를 기준으로 공간을 서로 다른 해상도에 해당하는 사각형 단위로 나눕니다.
2)STING+: 동적으로 진화하는 공간 데이터를 처리하기 위한 향상된 STING.
3)CLIQUE: 메시 및 밀도 클러스터링의 개념을 결합하여 대규모 고차원 데이터를 처리할 수 있습니다.
4)WaveCluster: 신호 처리에 기반한 생각.
2.3 그래프 이론에 기반한 클러스터링
2.3. 1 특성
이를 조합 최적화 문제로 변환하고 그래프 이론 및 관련 휴리스틱 알고리즘을 사용하여 해결하고 데이터 세트의 최소 생성 수를 구성한 다음 가장 긴 가장자리를 점진적으로 삭제합니다.
1) 이점: 유사성 계산은 필요하지 않습니다.
2.3.2 두 가지 주요 응용 프로그램 형태
하이퍼 그래프 기반 1) 분할
2) 스펙트럼 기반 그래픽 분할
2.4 제곱 오차에 기반한 반복 재분배 클러스터링
2.4. 1 사상
클러스터 결과를 점진적으로 최적화하고 최적의 솔루션을 위해 대상 데이터 세트를 개별 클러스터 센터에 지속적으로 재할당합니다.
특정 알고리즘
1) 확률 클러스터링 알고리즘
최대화, 이기종 데이터 처리 능력, 구조가 복잡한 기록 처리 능력, 대량 데이터 연속 처리 능력, 온라인 처리 능력, 생성된 클러스터 결과를 쉽게 해석할 수 있습니다.
2) 가장 가까운 이웃 클러스터링 알고리즘-* * * 가장 가까운 이웃 알고리즘 SNN 을 즐기십시오
특징: 밀도 기반 방법과 ROCK 사상을 결합하여 K 개의 가장 가까운 이웃을 보존하여 유사 행렬과 수를 단순화합니다.
단점: 시간 복잡성이 O (n 2) 로 증가했습니다.
3)K- 중간 배아 알고리즘
특징: 클래스의 한 점으로 클러스터를 나타냅니다.
장점: 모든 유형의 속성을 처리할 수 있습니다. 비정상적인 데이터에 민감하지 않다
4) k-means 알고리즘
"1" 특징: 클러스터 센터는 각 범주에 있는 모든 데이터의 평균으로 표시됩니다.
2. 기존 K-Means 알고리즘의 결함: 결과는 초기 클러스터 센터의 선택에 따라 로컬 최적 솔루션에 쉽게 빠져들고, K 값 선택에 대한 지침이 없고, 비정상적인 데이터에 민감하며, 숫자 속성의 데이터만 처리할 수 있으며, 클러스터 구조의 균형이 맞지 않을 수 있습니다.
3 "k 평균의 변형"
브래들리와 파예즈 등등. : 센터에 대한 의존도를 줄이고 대규모 데이터 세트에 적용할 수 있습니다.
Dhillon 등: 반복 중 재계산 센터 방법을 조정하여 성능을 향상시킵니다.
장 등: 가중치 소프트 할당 조정의 반복 최적화 프로세스
Sarafis: 유전자 알고리즘을 사용하여 목표 함수 구축
Berkh in 등: 분산 클러스터로 응용 프로그램 확장.
또한 그래프 이론의 분할 사상을 사용하여 클러스터 결과의 균형을 맞추는데, 원래 알고리즘의 목표 함수는 등방성 가우스 혼합 모델에 해당합니다.
5) 장점과 단점
장점: 가장 널리 사용됩니다. 수렴 속도가 빠르다. 대규모 데이터 세트로 확장할 수 있습니다.
단점: 볼록 분포, 크기 및 밀도가 유사한 클러스터를 식별하는 경향이 있습니다. 중심 선택 및 노이즈 클러스터링은 결과에 큰 영향을 미칩니다.
제약 기반 클러스터링 알고리즘
3. 1 제약 조건
개별 객체 및 클러스터 매개 변수에 대한 제약 조건 관련 분야의 경험과 지식에서 비롯된다.
3.2 중요 애플리케이션
데이터를 기준으로 2 차원 공간을 장애물 데이터로 클러스터링합니다 (예: COD (폐색 거리가 있는 클러스터): 일반 유클리드 거리 대신 두 점 사이의 장애물 거리를 사용합니다.
3.3 부족
일반적으로 특정 애플리케이션의 특정 요구사항만 처리할 수 있습니다.
고차원 데이터 클러스터링 알고리즘.
4. 1 어려움 요인
1) 무관한 속성의 출현으로 인해 데이터가 클러스터링되는 추세가 손실되었습니다.
2) 경계선이 흐려졌다.
4.2 솔루션
1) 원시 데이터를 차원화합니다.
2) 부분 공간 클러스터링
선인장: 2d 평면에 원래 공간 투영
CLIQUE: 밀도와 그리드 기반 클러스터링 아이디어를 결합하여 Apriori 알고리즘을 활용합니다.
3) 공동 클러스터링 기술
특징: 로그 데이터 포인트와 속성을 동시에 클러스터링합니다.
이진 그래프에 기반한 대수적 방법과 최소 분할
4.3 단점: 불가피하게 원시 데이터 정보의 손실과 클러스터 정밀도의 감소가 발생합니다.