혹시 몰라 정리하는 Bachelor논문

尹授老, 遠藤靖典, 木下尚彦, “許容範囲付きデータに対する多項式回帰モデル”, 筑波大学, 2016

한국어로 하면 “허용 범위를 추가한 데이터의 다항식 회귀 모델” 정도로 설명 할 수 있다.

그리고 사실 더 낫다고 생각하는 건

尹授老, 遠藤靖典, 木下尚彦, “ペナルティベクトル二次正則化を用いた不確実データの線形回帰について”, 第32回ファジィシステムシンポジウム (FSS2016), TC1-2 (佐賀県佐賀市, 2016.9.1).

기존의 회귀 분석 알고리즘이 관측 데이터를 신뢰하고, 모델 파라미터에 regularization을 추가하였다면
이 논문에선 아래와 같이 관측 데이터의 Uncertainty를 전제로 모델을 구성한다.

fig1

Fig1: Uncertainty를 포함한 데이터

Uncertainty의 upper-bound를 $\xi$ 라고 하면 실제 데이터($x+\delta$)는 관측 데이터($x$)의 반경 $|\xi|$ 내에 존재한다고 가정한다.

2차원 데이터를 가정하면

\[\|(x+\delta,y+\varepsilon)\| \le \|(x+\xi, y+\eta)\|\]

로 표기할 수 있다.

OLS의 Loss Fucntion

\[J = \sum\limits_{k=1}^n (y_k-\^T x_k- \_0)^2\]

을 이용하여, REQ(Regression with Quadratic penalty-vector)의 손실 함수는

\[\begin{align} J_{\text{REQ}}(\,\varepsilon,\Delta) =& \sum\limits_{k=1}^n((y_k+\varepsilon)-\^T(x_k+\delta_k)-\_0)^2\\ &+\varepsilon^TQ\varepsilon+\sum\limits_{k=1}^n{\delta_k}^T W_k \delta_k \end{align}\]

데이터 갯수: $n$
데이터 차원(Feature): $p$
$\varepsilon, \delta_k$ 각각의 regularization weight: $Q, W_k$

알고리즘

임의의 $\, \delta, \varepsilon$ 을 선택한다.
$\delta, \varepsilon$ 을 고정하고 $$ 를 다음과 같이 계산한다.
\[\^\prime = \left( \sum\limits_{k=1}^n z_k {z_k}^T \right) ^{-1}\sum\limits_{k=1}^n (y_k+\varepsilon_k) z_k.\]
단,
\[\begin{align} z_k&= \begin{pmatrix} x_k+\delta_k\\ 1 \end{pmatrix},\\ \^\prime&= \begin{pmatrix} \\\ \_0 \end{pmatrix}. \end{align}\]
로 둔다.
$\, \varepsilon$ 을 고정하고 $\delta$ 를 다음과 같이 계산한다.
\[\delta_k = ((y_k+\varepsilon_k)-\^T x_k -\_0)(W_k+\\^T)^{-1}\.\]
$\, \delta$ 을 고정하고 $\varepsilon$ 를 다음과 같이 계산한다.
\[\begin{align} \varepsilon_k &= -\frac{y_k-\^T(x_k+\delta_k)-\_0+D(k)}{1+q_{kk}},\\ D(k) &= \sum\limits_{h=1,h\not= k}^p(q_{kh}+q_{hk})\varepsilon_h. \end{align}\]
종료 조건(ex. $\Delta J \le$ 1e-10)을 만족하면 종료, 아닐 경우 2. 로 돌아간다.