Eliminating all bad Local Minima from Loss Landscapes without even adding an Extra Unit

https://arxiv.org/abs/1901.00279

소개

파라미터 $\theta$일때의 Loss function $L(\theta)$,

$min_\theta L(\theta)=0$ 일때,
Loss function을 변형하여 $\tilde{L}(\theta,a,b)=L(\theta)\big(1+(a\exp (b)-1)^2\big)+\lambda a^2$ 으로 모든 Local optima를 회피가능
선행연구와 차이점

선행논문은 https://arxiv.org/abs/1901.00279

아직 확실히 정리된건 아니지만 output다음에 뉴런을 하나 더 둠으로써 Local minima를 회피가능

선행연구에서는 $min_\theta L(\theta)=0$ 가 아니더라도 적용가능
주요기술

$\tilde{L}(\theta, a, b)$ 의 극점은 $\frac{\partial \tilde{L}}{\partial a} = 2L(\theta)(a\exp(b)-1)\exp(b)+2\lambda a =0$
\[\frac{\partial \tilde{L}}{\partial b} = 2L(\theta)(a\exp(b)-1)a\exp(b)=0\]
두식을 정리하면 $a=0$이 얻어지고 $\frac{\partial \tilde{L}}{\partial a}|_{a=0} = -2L(\theta)\exp(b)\\\geq0$ $L(\theta)=0$ 을 만족하는 $\theta^$ 가 있을때 $\tilde{L}(\theta, a, b)$ 의 모든 critical point는 $(\theta^, 0, b)$위에 존재($b\in\mathbb{R}$)
- Local optima가 존재하는 함수를 변형해서 $\frac{dL}{d\theta}=0$ 에서도 $\tilde{L}$의 기울기는 0이 아닌게 포인트
검증방법

생략
의문점

Deep Learning(Reinforcement Learning쪽)에선 State가 무한하니까 좋을텐데

Supervised Learning쪽이면 training set에 대해 100%를 달성 할 수 있다면 거꾸로 overfitting이 될텐데 어떻게 써먹을수 있을까
관련논문

선행논문을 아직 확인안해서 https://arxiv.org/abs/1901.00279

Related Posts

2025 AWS Summit Seoul 2025-05-19

gymnasium obs_space errors 2024-07-27

HP노트북 Windows 11 알림창 반복 2024-05-07