DAILY PAPER REVIEW

1001_Determination of the optimal parameters in regression models for the prediction of

 

 

1. Title & Journal
- Determination of the optimal parameters in regression models for the prediction of
chlorophyll-a: A case study of the Yeongsan Reservoir, Korea / Science of the Total Environment, Vol. 407, 2536-2545 (2009)

2. Author's Background
- Kyung Hwa Choa, Joo-Hyon Kanga, Seo Jin Kia, Yongeun Parka, Sung Min Chaa,
Joon Ha Kima,b,*
a Department of Environmental Science and Engineering, Gwangju Institute of Science and Technology (GIST), 261 Cheomdan-gwagiro, Buk-gu, Gwangju 500-712, South Korea
b Sustainable Water Resource Technology Center, Gwangju Institute of Science and Technology (GIST), 261 Cheomdan-gwagiro, Buk-gu, Gwangju 500-712, South Korea

3. Summary.
- 연구의 배경은 통계학적 회귀모델, 특히 선형식에서 바르지 못한 통계학적 안정성과 정확성에 의해서 발생하는 문제점에 대해서 이해하고 해결하기 위한 동기에서 시작되었다. 이러한 문제점은 다중공선성 (종속변인에 따른 예측 모델값의 상관관계를 의미, SPSS내에서 VIF로 판단하며, VIF값이 10을 초과하면 다중공선성을 의심한다.) 으로부터 의심되며, 이러한 문제점은 효과적인 수 자원관리 (정책적인 측면)를 위한 실천계획에 있어서 어떤 식으로 물 관리 계획을 세우고 실천해야 하는지에 대해 큰 영향을 미치게 된다. 본 논문은, MLR과 PCR분석방법을 이용한 기존의 과학적 연구 페이퍼에서 일어나는 부정확성과 오류들은 통계학적인 기본 가정들을 (예를 들면, non-outliers, normality, random variables, etc.) 충실하게 지키지 않음에서 비롯된다고 지적하고
회귀모델의 통계학적 불안정성과 부정확성을 개선시킬 수 있는 새로운 방법론을 제시하고 어떻게 통계학적 함정에 빠지지 않고, 최적 파라미터들을 선정함과 동시에 예측가능한 변수들의 수를 줄이고자 한다.

4. method
- 본 연구에서는 한반도의 남서부에 위치한 영산호 내의 클로로필-a 농도를 예측하기 위한 연구로 수행되었으며, 샘플링을 대신하여 국립환경과학원 산하 영산강물환경연구소에서 1992년부터 측정한 18개 항목의 수질데이터를 이용하였다. 또, 2002-2003년 사이의 수질데이터는 408개의 데이터 포인트의 17개 수질 항목이 조사되어있는 수질 데이터를 활용하였다 (즉, 24개월, 17개의 항목).
- non-parametric Kolmogorov?Smirnov 는 18개의 수질 항목 파라미터들의 normality를 확인하기 위해 실시되었다. 이 결과 chl-a, SS, TC, 그리고 FIB 항목이 정규분포를 따르지 않은
것으로 확인되었지만, 이를 극복하기 위해 로그 변환 데이터를 이용하였다. 이 결과는 위의 4가지의 파라미터들이 p-value가 0.05 이상으로 정규분포를 따르는 것으로 확인되었다.
- 본 연구는4단계로 구성되어있다. Part1과 2는 MLR모델을 만들어 내고, 이에 사용된 실험변수들을 다중공선성 테스트(VIF값 확인) 와 F-(partial 값)에 기반하여 선택하는 과정이다. Part 3과 4는 PCR모델들을 만들어 내고, F-partial 값에 기초해서 주 성분 파라미터들을 선정하는 작업을 수행한다. 이렇게 part 1부터 4까지를 진행하게 되면, 각각 네 개의 타입의 모델이 완성되는 데 이는 각각, 2개의 MLR모델과 2개의 PCR모델이며, 각각 R2와 F-overall 값을 고려한 모델이다. 이를 다음과 같이 표시하였다. MLR-r (MLR with maximum R2), MLR-F (MLR with maximum F-overall), PCR-r (PCR with maximum R2), and PCR-F (PCR with maximum F-overall).

- part 1. 클로로필-a를 종속변인으로, 나머지 수질 항목들을 설명가능한 독립변수로 지정하여 MLR모델을 만들었다. 또, VIF(Variance Inflation Factor)를 이용하여 공선성을 확인하였다.

- part 2-1. Backward stepwise method 방법을 이용하여 진행하였는데, 이는 F-partial 값을 추정함으로서 시작되는 데 F-partial 값이 기준이 된다. 이 때, 낮은 F-partial 값을 보이는 수질 항목을 순차적으로 제외한다. 이렇게 수질 항목 독립변수를 줄여나감으로서 다시 공선성 테스트를 진행해 나간다.

- part 2-2. 위와 같은 방법으로 MLR 분석을 이용하고, R2와 F-overall 값을 이용하여 평가된다. 또 F- overall 값이 통계적으로 유의한 결과임을 확인하기 위해서 MSE(Mean Square Error) 와 MSR (Mean Square Regression)를 이용한다. 결국, MLR모델과 가장 높은 R2와 F-값을 선정하여 최적의 회귀모델로 선정하는 하나의 후보로 만들어낼 수 있다.

-part 3. 이 단계에서는 PCR모델에 PCA를 결합하는 과정이다. 주성분 분석 결과 새로운 변수들과 그 값들을 오리지날 데이터의 직교 선형 형태로 부터 얻어 낼 수 있다. 그리고 주성분 SCORE 들은 회귀분석에서 독립변수로서 이용되었다.

-part 4. 주성분 독립변수가 역방향 단계법 (part 2-1)을 반복하여 감소 될 때, PCR 모델은 새로이 갱신된다. R2 및 이 단계의 반복 동작에서 PCR 모델의 F-전체적인 값을 산출함으로써, 최적 회귀 모델 (즉, PCR-R 및 PCR-F) 를 위한 또 다른 후보들이 선택된다.

-part 5. 모델의 성능 비교를 실시하기 위하여, 표준 불확실성 분석을 실시한다. 우선 불확실성을 계산하는 방법인 Law of Propagation of Uncertainties(LPU)의 법칙에 따른 MLR 및 PCR 모델에
적용 하였EK. 여기서, 표준 불확실성 U (Y) (U는 불확실성을 의미) 도 일차적인 불확실성 분석으로 알려진 LPU방법에의해 계산된다. 이 요건을 충족하기위한 불확실성 계수는 커버리지 인수 C와 U (Y)를 곱함으로써 얻어진다. 더 넓은 범위의 확장된 불확실성은 U로 지칭되며, 따라서, U의 세제곱은 (Y)이다.. 네 개의 후보 모델의 확장 된 불확실성을 비교함으로써, 클로로필-a 위한 최선 회귀 모델을 선택 하였다. 본 단계를 좀 더 이해하기 쉽게 하기 위해서, 좀 더 보면, 불확실성은 민감도*표준편차로 이루어진다. 그리고 민감도는 상수 C (Coverage)로 나타내었고, U (Y)는 변수들의 표준편차를 의미한다.

5. Result
본 연구의 결과로서, 클로로필-a를 예측하는 모델에 있어서 주성분회귀분석방법들이 모델의 정확성을 높일 수 있는 콤팩트한 방법으로 제시될 수 있음을 보여주었고, 각각의 4가지 타입의 다중선형회귀분석방법은 지속적인 완전공선성 (Colinearity) 문제에 의해 정확성을 향상시킬 수 있는 대안이 될 수 없는 것으로 판단되었다. 연구의 결과를 판단하는 지표로서 활용되는 R2(goodness of fit), F-값(confidence of regression), 그리고 설명변수의 수 (Number of explanatory variables를 이용한 R-F-N 커브를 이용한 결과는 주성분회귀분석 방법에서 분석 방법 PCR-7 (즉, 독립변수를 7개로 설정한 분석 방법)이 클로로필-a를 예측하는 데 있어 4가지 회귀모델중에 가장 우수한 것으로 나타났다. 또 클로로필-a분석하는 데 있어서 주 성분분석으로부터 얻어낸 결과에 따르면 최적 파라미터의 개수는 7개이며, 이때 7개의 변수는 각각 pH, BOD5, Total coliform, fecal indicator bacteria, COD, 암모니아성 질소, 총인, 그리고 DO였다.
(각각의 테이블과 도표를 참고하여 공부한다.)

 

6. Creativity
- 통계학적인 지식을 공부하는 데 너무 유용한 논문이었다.
Reviewer : 박지환 (jhjeeh@gist.ac.kr)

첨부 (1)
1001_ daily review - Jihwan Pak1.pdf
184.8KB / Download 1