Training Neural Networks
2020. 2. 24. 00:18
Activation Functions Sigmoid $f(x) = \frac{1}{1+e^{-x}}$ S 모형 곡선 인간의 뉴런에서 firing 하는 거랑 비슷하다고 여겨짐 (과거, 현재는 relu) 모든 입력을 0에서 1사이의(squashing) 양수로 출력 (학습속도에 영향(느리게 함)) exp계산이 많이 들어가서 속도 느려짐 saturation → kill the gradients (가장 큰 문제) 결과가 0 중심으로 분포하지 않음 (0~1) w가 모두 양수거나 모두 음수가 됨 우상향 방향으로만 움직여야 하므로 지그재그로 움직이고 따라서 학습이 느려짐 배치단위기 때문에 큰 영향은 없음 exp() → compute expensive (결정적인 문제는 아님) Tanh $f(x) = tanh x = \f..