Eliminating all bad Local Minima from Loss Landscapes without even adding an Extra Unit

https://arxiv.org/abs/1901.00279

  • 소개

    파라미터 $\theta$일때의 Loss function $L(\theta)$,

    $min_\theta L(\theta)=0$ 일때,
    Loss function을 변형하여 \(\tilde{L}(\theta,a,b)=L(\theta)\big(1+(a\exp (b)-1)^2\big)+\lambda a^2\) 으로 모든 Local optima를 회피가능

  • 선행연구와 차이점

    선행논문은 https://arxiv.org/abs/1901.00279

    아직 확실히 정리된건 아니지만 output다음에 뉴런을 하나 더 둠으로써 Local minima를 회피가능

    선행연구에서는 $min_\theta L(\theta)=0$ 가 아니더라도 적용가능

  • 주요기술

    $\tilde{L}(\theta, a, b)$ 의 극점은 \(\frac{\partial \tilde{L}}{\partial a} = 2L(\theta)(a\exp(b)-1)\exp(b)+2\lambda a =0\)

    \[\frac{\partial \tilde{L}}{\partial b} = 2L(\theta)(a\exp(b)-1)a\exp(b)=0\]

    두식을 정리하면 $a=0$이 얻어지고 \(\frac{\partial \tilde{L}}{\partial a}|_{a=0} = -2L(\theta)\exp(b)\\\geq0\) $L(\theta)=0$ 을 만족하는 $\theta^$ 가 있을때 $\tilde{L}(\theta, a, b)$ 의 모든 critical point는 $(\theta^, 0, b)$위에 존재($b\in\mathbb{R}$)

    • Local optima가 존재하는 함수를 변형해서 $\frac{dL}{d\theta}=0$ 에서도 $\tilde{L}$의 기울기는 0이 아닌게 포인트
  • 검증방법

    생략

  • 의문점

    Deep Learning(Reinforcement Learning쪽)에선 State가 무한하니까 좋을텐데

    Supervised Learning쪽이면 training set에 대해 100%를 달성 할 수 있다면 거꾸로 overfitting이 될텐데 어떻게 써먹을수 있을까

  • 관련논문

    선행논문을 아직 확인안해서 https://arxiv.org/abs/1901.00279