Mulitvariate Analysis of Variance (MANOVA)

#Mulitvariate-Analysis-of-Variance-(MANOVA)
  • Rencher의 다변량 통계학의 정리 및 R로의 구현
  • 다변량 통계학에서의 분산분석 (MANOVA)

목차

#목차
1
2
3
4
5
6
7
1. One-way Model


2. Contrast


3. TESTS ON INDIVIDUAL VARIABLES FOLLOWING REJECTION OF  𝐻0  BY THE OVERALL MANOVA TES

1. One-way Model

#1.-One-way-Model

1) 일변량

@@0@@개의 모집단에서 각각 n개의 관측치를 얻음

각각의 @@1@@를 그룹이라고 하며 실험에서는 Treatment라고도 함

가정1) 각각의 random sample은 갖은 정규분포에서 나옴

@@2@@

@@3@@

...

@@4@@

가정2) 각 분포의 분산은 같음(동분산)

가정3) 샘플간에는 독립임

각 그룹의 총합 및 평균

@@0@@

@@1@@는 그룹, @@2@@는 샘플

모델

@@0@@

@@1@@

표본 평균 @@0@@의 차이를 통해 그룹간의 모집단의 평균이 다른지 보고 싶음

@@1@@

가정이 참이라고 했을 때 @@0@@

@@1@@의 추정량은 두 가지로 구할 수 있음

1) Within sample estimator of @@2@@

각 그룹의 표준편차 @@3@@를 이용

@@4@@

=> 각 sample내의 변동성을 이용하여 가설이 참이든 영향을 받지 않음

2) Variance of the sample mean estimator of @@5@@

각 그룹의 표본평균 @@6@@을 이용

@@7@@

=> 그룹 간의 변동성을 이용하여 가설이 참이 아니면 커짐

@@0@@

2) 다변량

@@0@@개의 모집단에서 각각 n개의 관측치를 얻음, 각 관측치는 p개의 변수가 있음

가정1) 각각의 random sample은 갖은 정규분포에서 나옴

@@1@@

@@2@@

...

@@3@@

가정2) 각 분포의 분산은 같음(동분산)

가정3) 샘플간에는 독립임

모델

@@0@@

@@1@@

@@2@@

@@0@@

<=>

@@1@@

Between Matrices (H)

@@0@@

@@1@@

여기서

@@2@@

@@3@@

Within Matrices (E)

@@0@@

3) Wilk's Test Statistic

@@0@@의 LRT는

@@1@@

Reject @@2@@=> 작을 수록 기각

여기서 모수는

@@3@@: 변수의 갯수 (차원)

@@4@@: 가설에 대한 자유도

@@5@@: 에러에 대한 자유도

Wilk's Test의 특징

  • within sums of square @@0@@와 total sums of squares @@1@@를 비교하는 방법
  • @@2@@와 @@3@@의 순서는 바뀌어도 됨
  • @@4@@

@@5@@

  • @@6@@의 범위는 0에서 1
  • @@7@@가 커질 수록 critical value가 작아져 추가한 변수가 가설의 기각에 유의하게 기여하지 않으면 변수를 추가할 수록 power가 작아짐
  • @@8@@가 1이나 2이면 F-test로 정확하게 변환할 수 있음
  • 그렇지 않다면 F-test로 근사해야 됨

@@9@@

@@10@@

@@11@@

@@12@@

@@13@@

  • Chiquared 분포로 근사도 가능하지만 덜 정확함

@@14@@

4) Roy's Test

union-intersection 방법으로 변환된 평균 @@0@@를 찾는 방법

@@1@@

  • 결국 @@0@@를 찾으려면 @@1@@의 첫 번째 eigenvector를 찾으면 됨

@@2@@

  • 하지만 @@3@@

Reject @@4@@

  • F 분포를 사용하려면 F의 upperbound를 사용해야 됨

@@5@@

5) Pillai's Test

@@0@@의 eigenvalue를 이용

@@1@@

Roy's test의 확장

6) Lawley–Hotelling statistic__

@@0@@

7) 4개의 방법 비교

  • 모두 @@0@@여야 됨
  • 4개의 test가 다른 결과를 보여줄 수 있음
  • @@1@@일 때는 서로가 서로의 함수이므로 같은 결과
  • 그룹이 두 개일 때 @@2@@ statistic라고 불리움
  • @@0@@가 참일 때 4개의 방법 모두 Type 1 error rate이 같음
  • 하지만 @@1@@가 참이 아닐 때 power가 모두 다름
  • 하지만 @@2@@가 참이어도 샘플이 주어졌을 때 4개의 결과가 모두 다를 수 있음

  • Wilk의 방법이 가장 먼저 유도됐고 카이스퀘어나 F 분포의 근사가 가능하기 때문에 가장 많이 사용됨

  • 하지만 power가 가장 약함
  • mean vector가 collinear할 때 Roy의 방법이 가장 powerful (가장 큰 eigenvalue 하나만 사용했기 때문에)
  • mean vector가 diffuse할 때 (몇 개의 차원으로 흩어질 때) Roy의 방법의 power가 떨어짐
  • collinear 할 때 :@@3@@
  • diffuse 할 때 :@@4@@
  • population covariance가 다를 때:@@5@@
  • 그룹 간의 샘플 사이즈가 같으면 Covariance의 heterogeneity에 robust해짐
  • 그룹 간의 샘플 사이즈가 다르고 Covariance의 heterogeneity 존재할 때
  • 큰 변동성과 covariance가 샘플의 수가 큰 그룹에서 오면 @@6@@의 수준이 감소해 test가 보수적이 됨( 기각을 잘 안 함)
  • 큰 변동성과 covariance가 샘플의 수가 작은 그룹에서 오면 @@7@@의 수준이 증가해 test가 자유롭게 됨( 기각을 많이해 유의한 결과과 자주 나옴)
  • 따라서 roy의 방법은 collinear할 때가 아니면 사용하지 않는 것이 좋음
  • Skewness나 positive kurtosis가 있을 때 다른 세가지 방법은 꽤 좋은 편
  • Heterogeneity of Covariance가 있을 때 Pillai의 방법이 가장 좋음

8) 예제

Rootstocks data

6개의 다른 장소에서 심어진 사과 나무를 비교

각각의 장소에는 8그루의 나무가 심어지고 4가지 변수가 측정됨

y1 = trunk girth at 4 years (mm ×100)

y2 = extension growth at 4 years (m)

y3 = trunk girth at 15 years (mm ×100)

y4 = weight of tree above ground at 15 years (lb ×1000).

@@0@@

장소에 따른 사과 나무의 차이가 있을까?

Hypothesis Matrix and Error Matrix

Loading output library...

Wilk Test

Loading output library...

@@0@@, Approximate F분포 이용하면 @@1@@로 @@2@@

장소에 따라 사과 나무의 차이가 있음

Roy's Test

Loading output library...

@@0@@, 근사 F 분포의 upperbound는 13.50483로 @@1@@ 기각

R과 자유도가 다름

Pillai's Test

Loading output library...

@@0@@ 기각

Lawley–Hotelling

Loading output library...

@@0@@

Loading output library...
Loading output library...

6차원의 Mean vector를 4차원의 공간에서 보면 첫 번째 eigenvalue의 비율은 64.2퍼센트로 압도적이지는 않음

하지만 첫 두개의 율은 91.27퍼센트로 압도적이어서 6차원의 Mean vector는 대부분 2개의 차원에 놓여 있음

Fisher’s correlation ratio

@@0@@

  • 그룹간의 평균의 차이 때문에서 종속 변수 @@1@@에서 발생하는 변동성의 비율
  • @@2@@와 유사
  • @@3@@와 그룹 @@4@@의 변수 @@5@@의 관계를 측정할 수 있음
  • k개의 그룹에 대해 @@6@@개의 더미 변수 만들 수 있음

@@7@@th group

Manova에서는 grouping variable(independent variable)과 종속 변수 사이에 연관성의 강도를 측정할 수 있음

  • Wilk: @@0@@
  • Roy: @@1@@

=> root 씌우면 canonical correlation

2. Contrast

#2.-Contrast

1) 일변량

Treatment 평균 간의 비교

@@0@@

예를들어 @@1@@로 첫 번째 평균과 나머지 평균의 평균이 같은지 검증

Test Statistic:

@@2@@

@@3@@

2) 다변량

여러 개의 Mean vector를 비교하는 cotrast (element를 비교하는게 아님)

@@0@@

Test Statistic: @@1@@

3. TESTS ON INDIVIDUAL VARIABLES FOLLOWING REJECTION OF @@0@@ BY THE OVERALL MANOVA TEST

#3.-TESTS-ON-INDIVIDUAL-VARIABLES-FOLLOWING-REJECTION-OF-@@0@@-BY-THE-OVERALL-MANOVA-TEST

@@0@@은

@@1@@와 같은 의미

@@2@@개의 가설을 각각 단변량 ANOVA F-test로 검정 가능

하지만 @@3@@번의 test를 하기 때문에 @@4@@-level은 증가해서

Loading output library...
Loading output library...
Loading output library...
Loading output library...
Loading output library...

출처: Rencher, A. C. (2003). Methods of multivariate analysis (Vol. 492). John Wiley & Sons.