pca 분석 예제

Uncategorized by nrhpadmin

데이터에 변수가 있는 주 성분만큼 많기 때문에 주 성분은 첫 번째 주 성분이 데이터 집합에서 가능한 가장 큰 분산을 차지하는 방식으로 구성됩니다. 예를 들어, 데이터 집합의 분산형 플롯이 아래와 같이 첫 번째 주성분을 추측할 수 있다고 가정해 보겠습니다. 예, 그것은 원점을 통과하기 때문에 보라색 마크와 일치하는 대략 라인이며 점 (빨간색 점)의 투영이 가장 많이 분산되는 선입니다. 또는 수학적으로 말하자면 분산을 최대화하는 선입니다(투영된 점(빨간색 점에서 원점까지의 제곱 거리의 평균). 따라서 예제에서 보았듯이 원하는 항목에 따라 모든 구성 요소를 유지할지 또는 덜 중요한 구성 요소를 폐기할지 선택하는 것은 당신에게 달려 있습니다. 차원을 줄이려고 하지 않고 상관관계가 없는 새 변수(주 성분)의 관점에서 데이터를 설명하려는 경우 덜 중요한 구성 요소를 제외할 필요가 없기 때문입니다. 이 단계의 목적은 연속 초기 변수의 범위를 표준화하여 각 변수가 해석에 동일하게 기여하도록 하는 것입니다. 우리는 우리가 이전 예제에서와 같은 주성분, 특이값 및 투영을 달성하는 몇 가지 매우 사소한 부동 점 반올림을 볼 수 있습니다. 아래 예제에서는 먼저 인스턴스를 만들고, 3×2 행렬에 피팅하고, 투영의 값과 벡터에 액세스하고, 원래 데이터를 변환하여 이 클래스를 사용하는 것을 보여 줍니다. 주요 구성 요소 분석(PCA)의 목적은 차원이 완전히 비관련되지 않은 데이터 집합의 차원 수를 줄이는 것이 일반적입니다.

PCA는 새로운 차원 세트, 주요 구성 요소 (PC)를 제공합니다. 첫 번째 PC는 가장 큰 분산을 갖는 차원입니다. 또한, 각 PC는 앞의 PC에 직교이다. 직교 벡터는 도트 생성물이 $0$와 같다는 것을 의미합니다(2.6 참조). 즉, 각 PC는 앞의 PC와 관련이 있습니다. 많은 정보를 느슨하게하는 기능 선택보다 훨씬 낫습니다. 주 성분을 가진 후, 각 구성 요소에 의해 차지하는 분산 (정보)의 비율을 계산하기 위해, 우리는 고유 값의 합으로 각 구성 요소의 고유 가치를 나눈다. 위의 예제에서 이를 적용하면 PC1과 PC2가 각각 데이터 분산의 96%와 4%를 차지한다는 것을 확인할 수 있습니다. 이제 주요 구성 요소의 의미를 이해되었으므로 고유 벡터와 고유 값으로 돌아가보겠습니다. 당신이 먼저 그들에 대해 알아야 할 것은 모든 고유 벡터가 고유 가치를 가지고 있도록, 그들은 항상 쌍으로 와서 있다는 것입니다. 그리고 그 수는 데이터의 차원 의 수와 같습니다.