Tests on One or Two Mean Vectors

#Tests-on-One-or-Two-Mean-Vectors
  • Rencher의 다변량 통계학의 정리 및 R로의 구현
  • 다변량 통계학에서의 두 집단 간의 비교

목차

#목차
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
1. 평균 수준 검정


2. 두 집단의 비교


3. 가설을 기각하는데의 기여도


4. Paired Observation Test


5. TEST FOR ADDITIONAL INFORMATION


6. PROFILE ANALYSIS

MULTIVARIATE VERSUS UNIVARIATE TESTS

  1. Multivariate test에서는 변수 간에 correlation까지 고려해야 되서 parameter의 갯수가 훨씬 많아 Univariate일 때 보다 복잡

=> Mulitivariate Normal의 파라미터 수 = Mean +Variance + Correlation= @@0@@

  1. p번의 Univariate test 보다 power가 높음

1. 평균 수준 검정

#1.-평균-수준-검정

1.TESTS ON @@0@@ WITH @@1@@ KNOWN

1) 일변량

@@0@@

@@1@@

Random samples of n observation: @@2@@

Test statistic: @@3@@

<=> @@4@@

2) 다변량

@@0@@

@@1@@

@@2@@

<=>

@@3@@

@@4@@

Random samples of n observation: @@5@@

Test statistic: @@6@@

2. TESTS ON @@0@@ WITH @@1@@ UNKNOWN

1) 일변량

@@0@@

@@1@@

Random samples of n observation: @@2@@

Test statistic: @@3@@

<=> @@4@@

Reject @@5@@

2) 다변량: Hotelling's @@0@@-Test

@@0@@

@@1@@

@@2@@

<=>

@@3@@

@@4@@

Random samples of n observation: @@5@@

Test statistic: @@6@@

@@7@@을 파라미터로 하는 Hotelling's t distribution

@@8@@

Reject @@9@@

@@0@@여야 됨

3) 예제

Calcium Data

남부에서 10개지역의 토양과 turnip 등에서 calcium 측정

변수1: available soil calcium

변수2: exchangeable soil calcium

변수3: turnip green calcium

변수1, 2, 3의 바람직한 수준이 15,6,2.85일 때 바람직한 수준을 만족할까?

Loading output library...
Loading output library...

@@0@@를 기각

=>변수 중에 바람직한 수준이 아닌 것이 최소 하나는 존재

2. 두 집단의 비교

#2.-두-집단의-비교

1) 일변량

@@0@@

@@1@@

가정

(1)Random samples of n observation:

@@2@@

@@3@@

(2) Two samples are independent

(3) @@4@@

Test statistic: @@5@@

pooled variance: @@6@@

<=> @@7@@

Reject @@8@@

2) 다변량

@@0@@

@@1@@

(1) Random samples of n observation:

@@2@@

@@3@@

(2) Two samples are independent

(3) @@4@@

Test statistic: @@5@@

@@6@@을 파라미터로 하는 Hotelling's t distribution

Reject @@7@@

@@0@@여야 됨

3) 예제

Psychological tests data

32명의 남성과 32명의 여성에 대해 심리 실험을 진행

변수1: pictorial inconsistencies

변수2: paper form board

변수3: tool recognitiony

변수4: vocabulary

남녀의 각각의 심리적 변수는 서로 같을까?

Loading output library...

@@0@@ 기각

남녀간의 심리적 차이가 있는 변수가 최소한 하나는 있다

3. @@0@@ 기각하는데의 기여

#3.-@@0@@-기각하는데의-기여

@@0@@인 서로 같은 변수는 없을까?

어떤 변수 간의 차이가 두 그룹의 차이에 기여하는지 보고 싶을때

@@0@@

@@1@@

@@2@@

@@3@@가 최소 하나 존재

@@4@@

@@5@@

@@6@@가 음수가 될 수 있기 때문에 @@7@@가 최대가 되기 위해서는 같은 방향으로 projection해야 되므로

@@8@@를 discriminant function이라고 함

따라서 만약 @@9@@를 기각하게 만듦

이 때 @@10@@를 볼 수 있음

Loading output library...

@@0@@

남녀의 차이가 발생하는데 변수 1과 변수 3이 크게 기여

4. Paired Observation Test

#4.-Paired-Observation-Test
  • 두 표본이 independent 하지 않은 paired observation인 경우
  • 같은 대상에 대해 두 번 측정 했을 때
  • 같은 기준에 의해 두 대상을 비교할 때 (예를 들어, IQ, 집안 배경)
  • sampling pairing 간에 correlation이 있을 때 Two-sample test로 independent 하다고 가정해버리면 Test statistic이 t분포를 따르지 않게 되어 실제 t-value를 underestimate 해버림
  • 두 집단의 variance가 같다는 가정 필요 없어짐

1) 일변량

@@0@@ )

@@1@@

@@2@@

@@3@@

<=>

@@4@@

@@5@@

Test statistic: @@6@@

2) 다변량

@@0@@ )

@@1@@

@@2@@

@@3@@

Test statistic: @@4@@

Reject @@5@@

3) 예제

coating for resistance to corrosion data

부식에 대해 두 종류의 코팅이 얼마나 버티는지 보고 싶어함

15개의 장소에 파이프를 2개씩 묻고 같은 시간 동안 두 종류의 변수를 측정

y1 = maximum depth of pit in thousandths of an inch,

y2 = number of pits

Loading output library...

@@0@@ 기각

두 코팅 방법은 부식한 효과에 차이가 있음

5. TEST FOR ADDITIONAL INFORMATION

#5.-TEST-FOR-ADDITIONAL-INFORMATION

두 그룹을 나누는데 필요 없는 변수가 있을까?

@@0@@

두 샘플이 같은 covariance matrix를 가진 MVN에서 나왔다고 가정

@@1@@

@@2@@

@@3@@ redundant for separating two groups

@@4@@가 스스로 두 그룹을 나눌 수 있는지 보는게 아니라 @@5@@로 이미 두 그룹을 나눌 수 있을 때 @@6@@가 추가적인 정보를 줄 수 있는지 보는 것

Full set of @@0@@ variables

@@1@@

Reduced set of @@2@@ variables

@@3@@

@@4@@으로의 the significance of the increase

@@5@@

Reject @@6@@

3번째 4번째 변수가 추가 됐을 때 유의한지 검증

예제

Loading output library...

@@0@@ 기각

3번째 4번째 변수는 두 그룹을 나누는데 추가적인 정보를 제공

각 변수 하나하나는 추가적인 정보를 제공할까?

Loading output library...

2번째 변수를 뺐을 때만 통계량이 작아짐

3번째 변수가 가장 크게 기여

6. PROFILE ANALYSIS

#6.-PROFILE-ANALYSIS

1) One-sample

@@0@@를 비교해보고 싶음

Profile: @@1@@를 plot에 찍고 연결한 점

Profile이 같은지 검정(flat한지 혹은 level인지)

@@0@@

@@1@@는 independent할 수 없음

@@0@@

@@1@@

where @@2@@

2) Two-sample

Parellelism Hypothesis

두 profile이 평행인지 (기울기가 같은지)

@@0@@

@@1@@

where @@2@@

Test Statistic: @@3@@

@@4@@는 @@5@@의 row의 갯수

두 그룹의 level은 같을까?

@@0@@

<=>

@@1@@

Test statistic: @@2@@

reject @@3@@

Profile은 flat 할까?

@@0@@

<=>

@@1@@

Test statistic: @@2@@ both true

3) 예제

Loading output library...

검정색은 남자의 평균, 빨강색은 여자의 평균으로 plot을 봤을 때는 parallelism이 없어 보임

Parallel test

Loading output library...

@@0@@ 기각하여 두 집단의 차이는 평행하지 않다

Loading output library...

Contribution을 봤을 때 가설을 기각하는데 세 번째 부분에서의 기여도가 높음

즉 3번째와 4번째의 기울기가 같지 않음

Equal level test

Loading output library...

@@0@@, @@1@@을 기각하여 두 집단의 level은 같지 않음

Flatness test

@@0@@을 기각하지만 해보면

Loading output library...

@@0@@ 기각하여 두 집단의 차이는 flat하지 않다

출처: Rencher, A. C. (2003). Methods of multivariate analysis (Vol. 492). John Wiley & Sons.