용존유기물질 형광 특성 비교를 위한 PARAFAC 기법의 순차적 적용

Application of PARAFAC Technique to Compare Fluorescence Property of Different Dissolved Organic Matters

Article information

J Korean Soc Environ Eng. 2023;45(2):81-89
Publication date (electronic) : 2023 February 28
doi : https://doi.org/10.4491/KSEE.2023.45.2.81
1Department of Environment & Energy Engineering, School of Smart & Green Engineering, Changwon National University, Republic of Korea
2Institute of Industrial Technology, Changwon National University, Republic of Korea
3Department of Smart Environmental Energy, Changwon National University, Republic of Korea
임도경1orcid_icon, 최미진2orcid_icon, 박종관1,3,orcid_icon
1창원대학교 스마트환경에너지공학과정
2창원대학교 산업기술연구소
3창원대학교 스마트그린공학부
Corresponding author E-mail: jkpark2019@changwon.ac.kr Tel: 055-213-3742 Fax: 055-213-3749
Received 2023 January 24; Revised 2023 February 6; Accepted 2023 February 6.

Abstract

목적

PARAFAC 기법을 통해 용존 유기물질을 분석하는 순차적 방법을 제공하며 다양한 기원에서 발생하는 유기물 성분을 파악하고 비교하는 것을 목적으로 한다.

방법

총 160개의 습지, 강, 하수 유입수, 하수 유출수 형광분석 데이터를 활용하여 PARAFAC 모델링을 수행하였다. PARAFAC 모델링을 할 때 고려해야 하는 데이터 전처리, 초기 모델 생성 및 이상치(outlier) 분석, 분할 분석(split-half analysis), Core consistency, SSE(sum of squared error) 분석 등의 방법을 설명하였으며, 모델의 검증을 통해 최종적으로 PARAFAC 모델의 구성 성분 개수를 결정하였다. 완성된 모델을 활용하여 160개의 시료에 대한 해석을 진행하였다.

결과 및 토의

2~4개의 구성 요소 수를 가지는 초기 모델을 생성하였으며 이상치 분석을 통해 4개의 하수 처리장 유입수 샘플이 제거되었다. SSE분석 결과, 2개의 구성 요소 수를 가지는 모델은 SSE 값이 방출 파장 280 nm~400 nm 영역에서 구성 요소 수가 3, 4개인 모델보다 높은 것으로 나타나 구성 요소 수가 2개 이하의 모델을 제외하였으며, Core consistency의 경우 2, 3, 4개의 구성 요소를 가지는 모델이 각각 99.6%, 94.9%, 65.7%을 얻어 구성 요소 수가 3개일 때의 모델이 적절하다 판단하였다. 또한 분할 분석 결과에서도 3개의 구성 요소를 가지는 모델의 스펙트럼이 동일하여 최종적으로 3개의 구성 요소 수가 해당 모델에서 적합하다고 판단하였다. 개발된 PARAFAC 모델을 활용하여 기원별 유기물 특성을 비교하였을 떄, 휴믹 성분 비율이 하수처리장 유출수≈ 습지> 강> 하수처리장 유입수의 순서로 높은 것을 확인할 수 있었고, 미생물 활동 영향이 있는 단백질 성분의 비율은 하수처리장 유입수> 강> 습지≈ 하수처리장 유출수의 순서로 나타났다.

결론

본 논문을 통해 PARAFAC 수행과정을 서술하고 형광 특성을 이용하여 기원별 유기물 특성을 비교해보았다. 이를 통해 수처리분야에서 PARAFAC 모델의 연구 활용도를 높이고, 환경처리시설에서의 효율적인 유기물 제어를 위한 기초자료로 활용될 수 있을 것으로 사료된다.

Trans Abstract

Objectives

It provides a detailed procedure for analyzing dissolved organic matter (DOM) by the PARAFAC technique and aims to identify compare different fluorescent components of DOM with various water sources.

Methods

PARAFAC modeling was performed based on the PARAFAC tutorial by Stedmon et al. [11] using a total of 160 samples originated from wetlands, river, wastewater treatment plant influent and effluent. The procedure includes data preprocessing, initial model creation, outlier analysis, split-half analysis, core consistency, and sum of squared error analysis (SSE). After finishing the model validation step, the samples were analyzed through the verified PARAFAC model.

Results and Discussion

An initial model with 2 to 4 components was created, and as a result of outlier analysis, the four WWTP Influent samples were removed as outliers. As a result of SSE analysis, the model with two components has a relatively higher SSE value than the model with three or four components. In the case of core consistency, the model with 2, 3, and 4 components scored 99.6%, 94.9%, and 65.7%, respectively. As a result of the split-half analysis, the spectra of the model having the three components of the split data were the same, so it was finally determined that the number of three components was appropriate in the model. The DOM samples were analyzed by the developed PARAFAC model. It was confirmed that the ratio of humic components was higher in the order of WWTP effluent ≈ wetland > river > WWTP influent, and the ratio of protein components affected by microbial activity was in the order of WWTP influent > river > wetland ≈ WWTP effluent.

Conclusion

In this paper, the procedure of PARAFAC modeling was described and the DOM fluorescence properties were compared. This research provides a practical method for increasing the utilization of the PARAFAC model in the water treatment research field. In addition, the result of the PARAFAC model is useful data to control DOM efficiently in water treatment facilities.

1. 서 론

용존유기물질(dissolved organic matter, DOM)은 복잡한 화학 구조와 다양한 분자량 분포를 가지는 방향족 및 지방족 분자의 혼합물로서 하천, 호수, 지하수, 하・폐수 등 모든 수환경에 존재한다. 발생원에 따라 달라지는 DOM의 구성 성분은 편재성과 비균질적인 구조적 특성으로 수환경 내 물질 간에 상호작용에 다양한 영향을 미친다. 예를 들어, DOM과 금속 및 소수성 유기 오염물질의 착화 및 흡착은 담수 내 오염물질의 이동을 증가시키며, 친수성 DOM은 기존 음용수 처리장의 응집 과정에서 유기물질 제거 효율을 감소시킬 수 있다. DOM 내 quinone과 hydroquinone 성분은 전자 전달체 역할을 하며 수환경 내에서 일어나는 산화-환원 반응을 촉진시킨다[1]. DOM은 수처리 시 염소 소독제와 반응하여 소독부산물(disinfection by-products, DBPs)을 발생시킬 수 있다. 또한, 막 여과 시 파울링 주요 원인 물질, 상하수도 공급망에서 생물막 형성, 흡착제 표면 변화 등의 문제를 일으킬 수 있기 때문에 발생원에 따른 수중 유기물의 특성을 파악하여 이를 제어하는 것은 수질 관리 및 수처리 시스템에서 중요하다.

DOM 특성을 파악하기 위한 방법으로 물질 내 유기탄소의 농도를 정량하는 총 유기탄소(total organic carbon, TOC) 분석과 방향족 탄소 화합물의 성분을 반영하는 고유 흡광도(specific UV absorbance, SUVA) 분석, 유기물질 내 단백질, 펄빅산, 휴믹산계의 성상 변화를 특정 파장 구간대에서 측정하는 형광 분광법(fluorescence spectroscopy) 등이 활용되고 있다. 특히, 형광 분광법은 간단한 전처리 과정 및 짧은 측정 시간만으로 DOM의 여기-방출 파장 스펙트럼(excitationemission matrix, EEM)의 형광 성분을 구별하여 구성 성분을 파악할 수 있다는 장점 때문에 많은 연구자들이 사용하고 있다[2-4]. 그러나 형광 분광법은 형광 중첩 현상 및 샘플 희석에 의한 피크 이동 가능성 등 여러 가지 한계점을 가지고 있다. 이러한 단점을 보완하기 위해 EEM 형광 스펙트럼을 이용하여 중첩된 형광 현상을 분리하고 구별하기 위한 평행 인자 분석(Parallel Factor Analysis, PARAFAC) 기법이 활용되고 있다[5]. PARAFAC은 스펙트럼상에서 중첩되는 형광 성분을 수학적으로 분리하여 여러 개의 독립적인 형광 요소로 분해하는 기법으로 환경공학에서는 수질 및 오염 모니터링을 포함하는 다양한 응용분야에서 유용하게 활용되고 있다. 예를 들어 Shutova 등[6]은 정수 공정에서 유기물을 모니터링하는데 활용하였으며, Yang [7]등은 정수 및 폐수 처리 공정에서 PARAFAC을 이용해 공정별 유기물의 제거 효율을 연구하였다. 국내에서도 다양한 연구 결과들이 발표되었으나, PARAFAC을 활용해 얻은 결과에 대한 해석을 논문에서 주로 다루고 있으며, 이를 도출하기 위해 사용된 PARAFAC 방법론에 대한 설명은 부족한 실정이다[8]. 따라서, 본 연구에서는 PARAFAC 모델링 절차를 순서에 따라 구체적으로 설명하고, 다양한 기원에서 발생하는 유기물 특성을 분석하고자 하였다. 수계 내 유기물 특성에 영향을 줄 수 있는 습지, 강, 하수처리장 유입수 및 유출수를 채취하여 수질 특성을 분석 한 후, PARAFAC tutorial을 기반으로 모델링 절차를 수행하여 다양한 기원에 존재하는 유기물 특성을 비교 분석하였다.

2. 재료 및 방법

2.1. 연구 대상 지역 및 시료 채취

본 연구는 수계 내 유기물 성상에 영향을 줄 수 있는 습지, 강, 하수처리장 등 다양한 기원을 대상으로 하였다. 습지 시료는 우포늪(35°33′1′′N 128°24′43′′E)의 총 20지점에서 2022년 3월 11일에 채취하였다. 강물 시료는 본포 생태공원(35°2 2′12′′N 128°38′56′′E)을 대상으로 총 20지점에서 채취가 진행되었다(2022년 3월 27일). 하수처리장 시료는 2022년 3월 4일과 2022년 3월 7일에 걸쳐 샘플링이 진행되었으며, 하수처리장 유입수 및 유출수를 대상으로 분당 1회씩 각 20개의 시료를 채취하였다. 채취된 시료는 곧바로 실험실로 옮겨져 분석 전까지 4℃ 냉장 보관되었다.

2.2. 수질 특성 분석

용존 유기물질의 TOC의 경우, 마이크로 필터(0.45 um, cellulose acetate)를 이용하여 여과한 후 TOC analyzer (TOC-L, Shimadzu, Japan)을 이용하여 분석하였다. 물질의 소수성을 나타내는 SUVA를 계산하기 위해 UV spectrometer (UV-1800, Shimadzu, Japan)를 사용하였고 측정 파장은 254 nm로 설정하였다. SUVA는 유기물에 포함된 방향족 유기탄소의 상대적 함량을 나타내는 지표로, 시료의 UV 254 nm 흡광도를 용존 유기탄소 농도로 나눈 것이다. SUVA값이 높을수록 humic substance와 같은 소수성의 방향족 유기물질이 우세하다는 것을 의미한다[9]. EEM은 Shimadzu RF-6000 (Kyoto, Japan) 형광 분광광도계를 사용하여 여기 파장은 5 nm 간격으로 230~450 nm, 방출 파장은 2 nm 간격으로 250~600 nm 범위에서 측정하였다. 광원은 Xenon lamp를 이용하였고, 형광 분광계에서 여기 파장과 방출 파장 형광 세기를 조절하는 슬릿인 excitation-emission slit width는 5 nm로 설정하였다.

2.3. PARAFAC 원리

PARAFAC은 Fig. 1와 같이 3차원 또는 그 이상의 배열로 구성된 데이터를 각 차원의 벡터로 분해할 수 있는 분석 기법이다. 여기서, 분해되지 않는 부분은 잔차 배열로 남겨둔다. 3차원 배열 데이터의 예로는 형광 EEM (샘플 (I)×여기 파장 (J)×방출 파장 (K))데이터, 크로마토그래피 데이터 (GC-MS: 샘플×용출 시간×M/Z구조) 등이 있다. EEM 데이터를 이용한 PARAFAC 모델링 시, I×J×K의 크기를 가지는 3차원 텐서 Xijk 를 I, J, K 각각 독립적인 차원으로 구성된 인수 행렬(factor matrix)인 A, B, C로 분해할 수 있다. 여기서, Xijk 는 i번째 샘플에서 측정된 방출 파장 j와 여기 파장 k의 형광 강도이며 성분(component)별로 농도, 방출 스펙트럼(emission spectra)과 여기 스펙트럼(excitation spectra)에 해당하는 인수(factor) aif, bjk, ckf의 곱과 잔차 Eijk로 나타낼 수 있다. PARAFAC 모델링은 분해된 형광 성분인 component을 이용하여 초기 데이터 세트를 최대한 구현하고 잔차의 제곱의 합을 최소화하는 방식(최소제곱법)으로 진행되며 이를 최적화하기 위해 Alternating Least Square (ALS) 알고리즘을 적용한다. PARAFAC-ALS 알고리즘은 각 차원을 나타내는 A, B, C 중 두 개의 값을 고정하고 나머지 값을 계산해가면서 오차를 줄여나가는 알고리즘이다[10].

Fig. 1.

Schematics of Parallel Factor Analysis.

2.4. PARAFAC 분석 방법

본 연구에서는 Stedmon 등[11]의 PARAFAC tutorial에서 제공한 데이터 전처리 및 검증에 대한 권장사항에 따라 DOMFluor toolbox 1.7을 이용하여 모델링을 수행하였다. PARAFAC 모델링은 데이터수집 및 전처리, 초기 모델 생성 및 이상치 분석, 모델검증, 모델결과 해석 순으로 진행되었다. 그러나 모델링의 특성상 다양한 종류의 시료를 대상으로 하기 때문에 시료의 특성과 모델링의 목적에 따라 반복적인 검증을 통해서 PARAFAC 모델링을 진행하게 된다. 즉, 초기 모델을 생성한 후에 모델링에 사용한 데이터 전처리를 적용하여 다시 모델을 생성하는 방식으로 정확도 높은 모델을 재생성하게 된다.

2.4.1. 데이터 수집 및 전처리

PARAFAC 모델을 얻기 위해 필요한 EEM 샘플은 일반적으로 20-100개의 샘플로 모델링을 진행하는 것이 바람직하며 100개의 샘플에 가깝거나 훨씬 더 높으면 모델링하기에 더욱 적합해진다[11]. PARAFAC 결과는 EEM 샘플의 수뿐만 아니라 모델링에 활용하는 EEM dataset을 구성하는 샘플의 종류에도 영향을 크게 받는다. 분석을 통해 얻은 EEM 결과는 물 분자 활동에 의해 나타나는 라만 스펙트럼(Raman spectrum)과 장파장에서의 2차원 레일리 산란(Rayleigh scattering) 효과는 DOM 형광 특징 분석을 방해 요인으로 알려져 있다. 이를 해결하기위해 측정 시마다 3차 증류수의 형광 세기를 측정하고, 분석 시료의 형광 세기로부터 이를 차감하여 물 분자 활동에 의한 값을 제거한다. 또다른 간섭 효과는 내부필터효과(Inner Filter Effect, IFE)로 형광이 왜곡되거나 검출되는 농도가 감소하는 것으로, IFE는 일반적으로 DOM농도가 높은 경우 광원에서 조사된 빛이 큐벳(cuvette) 내 모든 형광단과 반응하지 못하고, 큐벳 전면 근처에서만 흡수되어 버리게 된다. 또한, 큐벳의 중앙에서 발생한 형광이 분광계의 검출기로 이동하는 과정에서 주변 DOM에 의해 흡수되거나 재방출되는 경우가 발생하여 분석 결과를 왜곡하고 실제 특성을 파악하게 하지 못하는 문제가 발생한다[12]. 이에 대한 보정(Inner-filter effect correction)을 위해 모든 시료 농도를 DOC 기준 1 mg/L로 희석하여 측정하였다. 본 연구에서는 활용되지는 않았지만 Miller등이 제시한 바와 같이 SUVA 값이 높을 경우를 대비하여 UV254 값을 일정 수준 이하(<30m-1)로 낮추어 희석하는 방법 또한 고려해볼 수 있다[13]. 분석에 사용되는 형광 세기는 습도, 램프 수명 등에 따라 변동이 있을 수 있기 때문에 기기 조건에 따른 영향을 배제하기 위하여 3차 증류수의 라만 스펙트럼 중 여기 파장 350 nm로 고정한 후 방출 파장 370 nm에서 700 nm에 해당하는 형광 영역을 매번 측정하여 적분한 값을 시료의 형광 세기 값에 대해 나누어 줌으로써 모든 샘플에 대해 표준화된 형광 세기를 사용하였다.

2.4.2. 초기 모델 생성 및 이상치(outlier)분석

PARAFAC 분석에서 첫 번째 단계는 임의의 구성 요소 수를 가지는 초기 모델을 생성하고 생성된 초기 모델에 대한 이상치를 검사하는 것이다[5,11]. 이상치는 시료를 채취하는 단계 또는 분석 단계 등에서 발생할 수 있는 오차가 포함된 값으로 모델 개발시 성능을 저하시키는 원인이 된다. 모델링을 위해 준비된 EEM 데이터를 활용해서 구성요소의 개수가 2개 이상인 모델을 생성하고, 이 단계를 통해서 모델의 스펙트럼이나 잔차에 영향을 미치는 이상치 데이터를 식별하고 제거한다. 모델이 생성되면 각 시료 데이터를 계산하여 얻은 레버리지(leverage)를 통해 이상치를 확인하게 되는데 레버리지 값은 0에 가까울수록 평균에 가까운 샘플을 나타내고, 1에 가까워질수록 이상치를 나타낸다. 이상치로 추정되는 시료를 제외하면서 모델을 재생성하고 모델의 잔차(residual)를 확인한다. 생성된 모델의 잔차가 줄어들도록 이상치 제거를 반복하며 모델을 최적화하게 된다. 즉, 이상치를 처리하기 전에 올바른 구성요소 수를 결정할 수 없으며 이상치를 제거하고 구성요소 수를 추정하는 과정을 반복하여 초기 모델을 결정하게 된다. 본 연구에서는 이상치를 식별하기 위해 2~4개의 구성 요소 수를 가지는 모델을 초기 모델로 설정하여 분석을 진행하였다.

2.4.3. 모델 검증

모델 검증은 이상치가 제거된 데이터 세트를 가지고 임의의 구성요소 수를 가지는 모델을 생성한후 검증을 통해 최적 구성요소 수를 결정하는 단계이다. 본 연구에서는 잔차 SSE 분석, Core consistency, 분할분석을 이용하여 검증하고, 구성요소 수를 결정하였다.

2.4.3.1. SSE 분석

SSE 분석은 실제 측정된 데이터에서 모델링 된 데이터를 차감한 값인 잔차를 이용하여 모델의 유효성을 평가하는 방법이다. 잔차 제곱의 합이 최소화될수록 모델의 정확도가 높은 것으로 간주할 수 있다. 구성 요소 수가 다른 모델들의 잔차 제곱의 합을 나타낸 자료를 확인하고, 가장 작은 값을 보이는 모델을 확인한 후 해당 모델의 구성요소 숫자를 최적값으로 판단할 수 있다.

2.4.3.2. Core consistency

Core consistency [14]는 PARAFAC 모델의 구조를 다차원적 인자분석이 가능한 Tucker3 model기본형인 인수 행렬 A, B, C와 core array (G)의 연산으로 변형하여 얻은 core array 값을 비교함으로써 모델의 적절성을 평가할 뿐만 아니라 실제로 모델의 복잡성을 판단하는 효과적인 방법이라고 할 수 있다(Fig. 2). Core consistency 값은 모델의 구성요소 숫자가 커짐에 따라 점점 작아지는 경향을 보이며 분석 값이 70%보다 낮을 경우 모델이 적합하지 않은 것으로 판단한다. 따라서 일반적으로 구성요소의 숫자가 크게 나오면서 Core consistency 값이 높은 모델을 적절한 PARAFAC 모델로 선택하게 된다.

Fig. 2.

Schematics of Core consistency.

2.4.3.3. 분할 분석

분할 분석은 Fig. 3와 같이 전체 EEM 데이터를 무작위로 절반을 나누어 다양한 모델을 생성한 후 비교하여 동일한 지평가하는 방법이다. 한 종류 시료의 다양한 데이터 세트를 활용하여도 동일한 형태의 모델이 생성되는 것을 확인함으로써 모델의 적합성을 검증할 수 있다. 본 연구에서는 EEM 데이터 세트를 무작위로 A, B, C, D의 4개 그룹으로 분할하였다. 4개의 분할은 2개씩 묶어 서로 다른 샘플로 구성된 AB, CD, AC, BD 4개의 분할된 데이터 세트가 생성하였고, 2개의 데이터세트는 쌍을 이루어서 모델을 생성하였다. 발생된 PARAFAC 모델들을 비교함으로써 모델이 시료의 대표성을 잘 표현하는 것을 확인할 수 있다.

Fig. 3.

The mechanism of Split-Half analysis.

2.4.4. 모델결과 해석

검증을 통해 최적의 구성 성분 수를 결정하고 최종 모델에 대한 구성요소의 파장과 최대 형광 강도인 Fmax 값을 얻을 수 있다. 최대 형광 강도가 나타나는 형광 피크의 위치를 기존 연구에서 보고된 성분의 여기 및 방출 파장의 위치와 비교하여 구성 성분의 특성을 파악하였다.

3. 결과 및 고찰

3.1. 수질분석 결과

본 연구에서 활용된 EEM 데이터에 대한 용존 유기 탄소와 그에 따른 자외선 흡광도 및 SUVA254Table 1에 정리하였다. DOC 농도범위는 습지는 5.2~8.8 mgC/L로 평균 7.0 mgC/L, 강의 경우 3.0~4.6 mgC/L범위에서 평균 3.8 mgC/L, 하수처리장 유입수의 경우 29.0~32.4 mgC/L로 평균 30.7 mgC/L, 하수처리장 유출수의 경우 5.9~6.1 mgC/L범위에서 평균 6.0 mgC/L로 나타났다. DOC와 UVA254의 특성을 모두 반영한 고유 흡광도인 SUVA254의 경우, 유기물의 방향족 함량을 나타내는 지표로써 습지의 평균 SUVA254값은 2.7L/mg・m, 강의 평균 SUVA254 값은 1.9 L/mg・m로 습지가 강에 비해 높은 SUVA254 값을 보였다. 이는 습지가 강에 비해 방향족 화합물이 주를 이루는 휴믹 물질을 많이 함유하고 있는 것을 나타내고 있으며 본 연구에서 진행한 샘플링 시기가 3월로 강우기가 아닌 시기인 것이 반영된 것으로 판단된다. 하수처리장 유입수 시료의 평균 SUVA254값은 1.4 L/mg・m, 하수처리장 유출수 시료의 경우 2.2 L/mg・m로 분석되었다. 하수처리장 유출수의 SUVA254가 높은 이유는 유입수에 비해 전체 유기물 양 대비 이중 결합을 보유한 유기물의 비율이 높은 것을 확인할 수 있었으며, 이는 하수 처리 과정에서 친수성 저분자 물질이 우선적으로 분해되기 때문에 이중결합구조를 가진 난분해성 유기물질의 비중이 높아졌기 때문으로 판단된다.

Sample analysis results.

3.2. PARAFAC 모델 개발

본 연구에서는 총 160개의 EEM 데이터를 이용하여 PARAFAC 모델링을 수행하였으며 각 그룹별 데이터 개수는 습지 40개, 강 40개, 하수 40개, 하수 유입수 40개로 구성된다. 160개 시료를 모두 사용하여 초기 PARAFAC 모델을 생성하여 이상치를 제거를 진행한 후, SSE, core consistency, 분할분석을 통해 최종적으로 모델을 선정하였다.

3.2.1. 초기 모델 생성 및 이상치 생성

이상치 분석은 구성 요소 수를 결정하기 전 EEM의 시각적 분석으로 쉽게 식별할 수 없는 이상치 샘플, 노이즈 파장 등과 같은 이상이 있는 데이터를 제거하는 단계이다. DOMFluor toolbox 1.7을 사용할 경우 레버리지에 대한 결과 그래프는 총 3개의 Mode를 보여주게 된다. 여기서 나오는 Mode는 3가지의 인자를 보여주는 것으로 Mode 1은 모델에 사용된 시료들에 대한 레버리지를 나타낸다. Mode 2는 시료의 방출파장을 보여주고 Mode 3는 시료의 여기파장들의 레버리지를 보여준다. 데이터 이상치는 시료 레버리지, 즉 Mode 1의 결과로 확인이 가능하며, 구성요소를 2, 3, 4 개로 설정하고 만든 초기 모델에서 계산된 레버리지 값을 비교하면 시료 번호 158번(하수 유입수)이 이상치인 것을 확인할 수 있다(Fig. 4a). 1차로 158번 시료 정보를 제거 후에 다시 모델을 생성하여 레버리지를 확인하였고 127, 129, 137, 157 시료를 추가로 제외한 후에 모델링을 진행하였다(Fig. 4b).

Fig. 4.

Leverage plots at Mode 1; a) 1st leverage result b) 2nd leverage result.

3.2.2. SSE 분석

Fig. 5은 구성 요소 수가 다른 세 가지 모델에 대한 여기 및 방출 파장의 SSE를 비교한 결과이다. 여기파장(Ex.) 와 방출파장(Em.)의 SSE 값을 나타내었는데, 구성요소 2개의 경우는 파란색, 3개는 빨란색, 4개는 노란색으로 표시하였다. 방출파장에 대한 그래프에서 2개의 구성 요소 수를 가지는 모델이 280 nm~400 nm 영역에서 구성 요소 수가 3, 4개인 모델보다 높은 SSE 값을 나타내는 것으로 분석되었다. 낮은 SSE 값이 모델의 정확도를 나타내기 때문에 SSE 분석에서는 2개 구성 요소 모델이 부적합한 것으로 판단되었다.

Fig. 5.

Result of Comparison Sum of Squared Errors for component 2, 3 and 4.

3.2.3. Core consistency

Core consistency는 Table 2과 같이 2~4개의 구성요소 수를 가지는 PARAFAC 모델에 대해 각각 99.6%, 94.9%, 65.7%로 계산되었다. 구성요소가 3개에서 4개로 늘어날 때 Core consistency가 급격히 감소하는 것을 확인할 수 있었다. Core consistency는 일반적으로 모델 구성요소 수가 증가함에 따라 감소하며, 하나의 구성요소를 포함하는 모델의 경우는 100%를 나타낸다. 하지만 적절한 구성요소 수에 도달한 후 구성요소가 추가되면 상당한 감소를 보인다. 또한, Core consistency가 약 70% 이하이면 너무 많은 구성 요소 수가 사용되었거나 모델링이 잘못되었다는 것을 나타낸다. 구성요소 수가 4개일 때 core consistency 가 급격이 감소하는 것으로 나타나기 때문에 4개 이상의 구성요소 수는 과적합으로 판단된다. 따라서, Core consistency를 활용한 검증에서는 3개 이하의 구성요소 수가 적절하다는 것으로 확인되었다.

Core consistency resulting from PARAFAC models.

3.2.4. 분할 분석

160개의 데이터 세트를 A, B, C, D 4개의 그룹으로 무작위로 나눈 후, AB, CD, AC, BD로 half split 형태로 합쳐주었다. 1차 테스트를 위해 AB로 모델을 만들 결과와 CD로 만든 모델 결과를 비교하였고, 2차 테스트로 AC 와 BD 로 각각 만든 모델결과를 서로 비교하였다. 이때 모델의 구성요소는 앞에서 진행한 SSE 분석결과와 core consistency 결과를 반영하여 개로 선택하였다.

Fig. 6를 통해 1차 분할 분석 시 AB 그룹의 스펙트럼(Fig. 6a)과 CD 그룹의 스펙트럼이 유사하고, 2차 분할 분석(Fig. 6b) 시 AC그룹과 BD 그룹의 스펙트럼이 동일한 것을 확인할 수 있다. 따라서 half split analysis 분석 결과 3개의 구성요소 수를 가지는 모델이 적합하다고 판단하였다.

Fig. 6.

Emission(Em.) and Excitation(Ex.) spectrum loading comparision. a) 1st Split Half analysis (AB vs CD), b) 2nd Split Half analysis (AC vs BD).

3.2.5. PARAFAC 모델에 따른 시료분석 결과

PARAFAC 모델 개발 결과에 따라 최적 구성요소의 수는 3개로 결정하였고, 이를 활용하여 습지, 강, 하수처리장 유입수, 하수처리장 유출수의 유기물에 대해 3개의 개별 형광 성분을 얻을 수 있었다(Fig. 7). Component 1은 각각 270 nm의 여기 파장과 314 nm의 방출 파장에서 피크를 보였으며 티록신(Tyrosine-like) 구조와 유사하다[15]. Component 2는 255 nm 및 345 nm 최대 여기 파장을 나타내고 462 nm에서 최대 방출파장을 나타낸다. 이 구성 요소는 식물 및 퇴적물이 분해되어 발생한 토양 기원의 휴믹 유사(Humic-like) 형광단으로 알려져 있다[16]. Component 3는 235 nm 및 305 nm 최대 여기 파장을 나타내고 406 nm에서 최대 방출 파장을 나타낸다. Component 3은 Component 2와 비교하여 흡수 파장이 좁고, 방출 파장은 315~400 nm 범위의 좁은 파장으로 확장되는 것을 확인할 수 있다. 이 성분은 미생물 활동에 의해 발생한 청색 편이된 휴믹 유사 형광단으로서, 담수에서 일반적으로 발생하는 휴믹산(Humic-like acids)이나 휴믹 유사(Humic-like) 형광단으로 분류하는 것으로 보고되었다[16-17].

Fig. 7.

Contour plots of 3 components identified from the PARAFAC model; a) component 1, b) component 2, c) component 3.

3.3. PARAFAC을 이용한 기원별 특성 비교

Fig. 8는 각 기원별 구성 요소의 Fmax 값에 대한 상대적 성분 비율을 나타낸 것이다. Fmax는 PARAFAC 구성 요소의 상대 농도에 비례하기 때문에 절대적 값은 하수처리장 유입수가 가장 높다. 그러나 유기물질의 정성적인 특성 파악을 위해 상대적 성분 비율로 계산하여 각 시료를 분석하였다. 습지는 단백질 유사 성분인 Component 1, 토양 기원의 휴믹 유사 성분인 Component 2, 미생물에 의해 분해된 휴믹 물질인 Component 3는 각각 35.3%, 22.4%, 42.3%로 나타났으며 강의 경우 Component 1, Component 2, Component 3는 각각 40.2%, 19.6%, 40.3%로 나타났다. 습지에 비해 강에서 미생물에 의해 분해된 휴믹 성분이 상대적으로 낮은 비율을 차지하는 것을 확인할 수 있었다. 이는 습지가 물의 흐름이 정체되어 있고 미생물 활동에 의해 유기물 분해가 활발해져 휴믹 성분 유기물질 축적이 높아졌기 때문으로 판단된다. 또한 토양 기원의 휴믹 물질은 강우기 하천에 많이 존재하는 성분으로 샘플링 시점을 고려해보았을 때 강우기가 아닌 시점에서 샘플링이 진행되었으므로 Component 2가 강보다 습지에서 높은 비율로 나타난 것으로 보인다. 하수처리장 유입수는 Component 1의 비율 57.8%로 상대적으로 높은 것으로 나타났다. 이는 일반적으로 하수처리장 유입수 특성상 생분해도가 높은 오수의 영향으로 보인다. 하수처리장 유출수와 유입수를 비교하면, 분해성 물질인 Component 1의 비율이 57.8%에서 35.9%로 많이 제거되었으나, 미생물계 휴믹 성분인 Component 3의 비율은 30.9%에서 42.5%로 증가한 것을 확인할 수 있었다. 이러한 결과는 단백질계 등 저분자량 유기물이 생물학적 처리과정에 의해 상대적으로 쉽게 제거되고, 방류수에서는 휴믹산 등 방향족 탄소성분이 증가한 것으로 기존 연구 결과와 일치한다[18].

Fig. 8.

F max percentages of depending on samples.

4. 결 론

본 연구에서는 PARAFAC tutorial을 기반으로 한 PARAFAC 수행과정을 구체적으로 서술하고 기원별 유기물 특성을 비교하였다. PARAFAC 모델링은 160개의 습지, 강, 하수처리장 유입수, 하수처리장 유출수 EEM 샘플을 이용하여 모델링하였으며 2~4개의 구성요소 수를 가지는 PARAFAC 모델들 중 최적 모델을 선택하기 위해 위해 SSE, Core consistency, 분할분석를 수행하였다. 초기에 생성한 PARAFAC 모델을 활용하여 이상치 분석을 하였고, 160개 시료 중 4개를 제외하게 되었다. 이후에 2, 3, 4개의 구성요소를 가지는 모델들을 생성한 후, SSE, core consistency, 그리고 분할분석을 통해 최적 구성요소 개수를 결정하였다. SSE 결과, 2개의 구성 요소 수를 가지는 모델은 구성 요소 수가 3, 4개인 모델보다 SSE 값이 높은 것으로 나타나 제외하였고, Core consistency 분석을 통해 3개 구성 요소를 가지는 모델의 값이 94.9%로 65.7% 가지는 구성요소 4개 모델보다 높았다. 마지막 분할분석을 통해 3개의 구성요소 수를 가지는 PARAFAC 모델이 적합을 확인하였고, 이를 통해 통한 기원별 유기물 특성 비교 결과, 토양 기원의 휴믹 성분의 비율이 습지 ≈ 하수처리장 유출수> 강 > 하수처리장 유입수의 순서로 높은 것을 확인할 수 있었다. 또한, 미생물 기원의 휴믹 성분의 경우 하수 유출수 ≈ 습지> 강> 하수처리장 유입수 순으로 나타났으며, 미생물 활동 영향이 있는 단백질 성분의 비율은 하수처리장 유입수 > 강 > 습지 ≈ 하수처리장 유출수의 순서로 나타났다. 본 연구는 3월의 시료만을 사용하여 연구를 진행하여 계절적 영향인자는 고려되지 않은 한계점이 있다. 특히, 습지와 하천의 시료의 경우 유기물 형광 특성이 계절적 영향을 많이 받기 때문에 추후 연구 시 이를 고려하여 진행할 필요가 있다. 본 연구에서는 PARAFAC을 이용하여 기원별 유기물 특성을 비교하였으며 PARAFAC 수행 절차를 순차적으로 서술하였다. 이를 통하여 PARAFAC 모델의 연구 활용도를 높이고 처리시설에서의 유기물을 효율적으로 제어를 위한 기초자료로 활용될 수 있기를 기대해본다.

Acknowledgements

본 연구는 한국연구재단의 우수신진연구자지원사업으로 수행되었습니다(NRF-2020R1C1C1007350). 이에 감사드립니다.

Notes

Declaration of Competing Interest

The authors declare that they have no known competing financial interests or personal relationships that could have appeared to influence the work reported in this paper.

References

1. Cory R. M, McKnight D. M. Fluorescence spectroscopy reveals ubiquitous presence of oxidized and reduced quinones in dissolved organic matter. Environ sci. & tech 39(21):8142–8149. 2005;
2. Chen J, LeBoeuf E. J, Dai S, Gu B. Fluorescence spectroscopic studies of natural organic matter fractions. Chemosphere 50(5):639–647. 2003;
3. Lee S. J, Park J. K. Identification of dissolved organic matter origin using molecular level analysis methods. Water 14(9):1317. 2022;
4. Yu H, Qu F, Chang H, Shao S, Zou X, Li G, Liang H. Understanding ultrafiltration membrane fouling by soluble microbial product and effluent organic matter using fluorescence excitation-emission matrix coupled with parallel factor analysis. International Biodeterioration & Biodegradation 102:56–63. 2015;
5. Murphy K. R, Stedmon C. A, Graeber D, Bro R. Fluorescence spectroscopy and multi-way techniques. PARAFAC. Analytical Methods 5(23):6557–6566. 2013;
6. Shutova Y, Baker A, Bridgeman J, Henderson R. K. Spectroscopic characterisation of dissolved organic matter changes in drinking water treatment: From PARAFAC analysis to online monitoring wavelengths. Water research 54:159–169. 2014;
7. Yang L, Hur J, Zhuang W. Occurrence and behaviors of fluorescence EEM-PARAFAC components in drinking water and wastewater treatment systems and their applications: a review. Environ Sci. and Pollution Research 22:6500–6510. 2015;
8. Youn S. M, Choi J. H. Spatial distribution analysis of dissolved organic matter upstream of Ipo-Dam. Journal of the Korean Soc. of Water Environ 34(4):400–409. 2018;
9. Leenheer J. A, Croue J. P. Peer reviewed: characterizing aquatic dissolved organic matter. Environ. sci. & tech 37(1):18A–26A. 2003;
10. Jeon I. A, Yu G. Massive tensor mining: Algorithms and applications. Communications of the Korean Institute of Information Scientists and Eng 32(7):33–39. 2014;
11. Stedmon C. A, Rasmus B. Characterizing dissolved organic matter fluorescence with parallel factor analysis: a tutorial. Limnology and Oceanography: Methods 6(11):572–579. 2008;
12. Kim J. H. Domestic research trends on fluorescent dissolved organic matter in the marine environment. Ocean and Polar Research 43(4):353–363. 2021;
13. Miller M. P, Simone B. E, McKnight D. M, Cory R. M, Williams M. W, Boyer E. W. New light on a dark subject: comment. Aquatic Sci 72(3):269–275. 2010;
14. Bro R. Exploratory study of sugar production using fluorescence spectroscopy and multi-way analysis. Chemometrics and Intelligent Laboratory Systems 46(2):133–147. 1999;
15. Zhou L, Zhou Y, Tang X, Zhang Y, Jeppesen E. Biodegradable dissolved organic carbon shapes bacterial community structures and co-occurrence patterns in large eutrophic Lake Taihu. Journal of Environ Sci 107:205–217. 2021;
16. Sanchez N. P, Skeriotis A. T, Miller C. M. A PARAFAC-based long-term assessment of DOM in a multi-coagulant drinking water treatment scheme. Technol 48(3):1582–91. 2014;
17. Stedmon C. A, Markager S. Resolving the variability in dissolved organic matter fluorescence in a temperate estuary and its catchment using PARAFAC analysis. Limnology Oceanography 50(2):686–697. 2005;
18. Lee G. C. Characteristics of organic matter in influent and effluent of public sewage treatment facilities in Gyeongbuk area. Journal of the Korean Soc. of Environ. Eng 43(5):367–376. 2021;

Article information Continued

Fig. 1.

Schematics of Parallel Factor Analysis.

Fig. 2.

Schematics of Core consistency.

Fig. 3.

The mechanism of Split-Half analysis.

Fig. 4.

Leverage plots at Mode 1; a) 1st leverage result b) 2nd leverage result.

Fig. 5.

Result of Comparison Sum of Squared Errors for component 2, 3 and 4.

Fig. 6.

Emission(Em.) and Excitation(Ex.) spectrum loading comparision. a) 1st Split Half analysis (AB vs CD), b) 2nd Split Half analysis (AC vs BD).

Fig. 7.

Contour plots of 3 components identified from the PARAFAC model; a) component 1, b) component 2, c) component 3.

Fig. 8.

F max percentages of depending on samples.

Table 1.

Sample analysis results.

Sample DOC (mg/L) UV254 Abs. SUVA254 (L/mg·m)
Wetland 7.0±1.8 0.191±0.082 2.7±0.6
River 3.8±0.8 0.073±0.018 1.9±0.2
WWTP influent 30.7±1.7 0.437±0.036 1.4±0.1
WWTP effluent 6.0±0.1 0.133±0.015 2.2±0.2

Table 2.

Core consistency resulting from PARAFAC models.

No. of Components 2 3 4
Core consistency(%) 99.6 94.9 65.7