尹授老, 遠藤靖典, 木下尚彦, “許容範囲付きデータに対する多項式回帰モデル”, 筑波大学, 2016
한국어로 하면 “허용 범위를 추가한 데이터의 다항식 회귀 모델” 정도로 설명 할 수 있다.
그리고 사실 더 낫다고 생각하는 건
尹 授老, 遠藤 靖典, 木下 尚彦, “ペナルティベクトル二次正則化を用いた不確実データの線形回帰について”, 第32回ファジィシステムシンポジウム (FSS2016), TC1-2 (佐賀県佐賀市, 2016.9.1).
기존의 회귀 분석 알고리즘이 관측 데이터를 신뢰하고, 모델 파라미터에 regularization을 추가하였다면
이 논문에선 아래와 같이 관측 데이터의 Uncertainty를 전제로 모델을 구성한다.

Fig1: Uncertainty를 포함한 데이터
Uncertainty의 upper-bound를 $\xi$ 라고 하면 실제 데이터($x+\delta$)는 관측 데이터($x$)의 반경 $|\xi|$ 내에 존재한다고 가정한다.
2차원 데이터를 가정하면
\[\|(x+\delta,y+\varepsilon)\| \le \|(x+\xi, y+\eta)\|\]로 표기할 수 있다.
OLS의 Loss Fucntion
\[J = \sum\limits_{k=1}^n (y_k-\^T x_k- \_0)^2\]을 이용하여, REQ(Regression with Quadratic penalty-vector)의 손실 함수는
\[\begin{align} J_{\text{REQ}}(\,\varepsilon,\Delta) =& \sum\limits_{k=1}^n((y_k+\varepsilon)-\^T(x_k+\delta_k)-\_0)^2\\ &+\varepsilon^TQ\varepsilon+\sum\limits_{k=1}^n{\delta_k}^T W_k \delta_k \end{align}\]- 데이터 갯수: $n$
- 데이터 차원(Feature): $p$
- $\varepsilon, \delta_k$ 각각의 regularization weight: $Q, W_k$
알고리즘
- 임의의 $\, \delta, \varepsilon$ 을 선택한다.
-
$\delta, \varepsilon$ 을 고정하고 $$ 를 다음과 같이 계산한다.
\[\^\prime = \left( \sum\limits_{k=1}^n z_k {z_k}^T \right) ^{-1}\sum\limits_{k=1}^n (y_k+\varepsilon_k) z_k.\]단,
\[\begin{align} z_k&= \begin{pmatrix} x_k+\delta_k\\ 1 \end{pmatrix},\\ \^\prime&= \begin{pmatrix} \\\ \_0 \end{pmatrix}. \end{align}\]로 둔다.
-
$\, \varepsilon$ 을 고정하고 $\delta$ 를 다음과 같이 계산한다.
\[\delta_k = ((y_k+\varepsilon_k)-\^T x_k -\_0)(W_k+\\^T)^{-1}\.\] -
$\, \delta$ 을 고정하고 $\varepsilon$ 를 다음과 같이 계산한다.
\[\begin{align} \varepsilon_k &= -\frac{y_k-\^T(x_k+\delta_k)-\_0+D(k)}{1+q_{kk}},\\ D(k) &= \sum\limits_{h=1,h\not= k}^p(q_{kh}+q_{hk})\varepsilon_h. \end{align}\] - 종료 조건(ex. $\Delta J \le$ 1e-10)을 만족하면 종료, 아닐 경우 2. 로 돌아간다.
결과
\[y=x+1\]을 따르는 2차원 (x,y)데이터의 임의의 랜덤 노이즈를 추가한 데이터를 준비했다.

Fig2: Artificial Data

Fig3: $W_k=Q_k=I$ ($I$ 는 단위 행렬)

Fig4: $W_k=Q_k=10I$
화살표는 $(\delta,\varepsilon)$을 나타낸다.

Fig5: $W_k=I$로 고정한 뒤 $Q_k=qI$에 따른 변화

Fig6: $Q_k=I$로 고정한 뒤 $W_k=wI$에 따른 변화
총평
일단은 단순히 least square를 계산하는 방법보단 적절한 parameter 선택과 함께 유용하다고 볼 수 있겠다.
학사 때는 눈 앞에 급급해서 급하게 써내려갔는데, 지금 석사 졸업하고 여러가지 실험 방법 같은걸 경험하고 나니, 여러번 시행해서 기존 방법보다 통계적으로 유의한지 이런 부분을 좀 더 신경쓸 수 있었지 않나 싶다.