Rnn Bptt
서론
RNN에서 파라미터가 어떻게 학습하는지 알아볼 것 입니다.
BPTT이란?
RNN에서 사용하는 오차역전파법은 시간 방향으로 펼친 신경망의 오차전역파법
이란 뜻으로 BPTT
라고 합니다.
- BPTT의 문제점
- 시간 크기가 커지는 것에 비례해 소비하는 컴퓨팅 자원이 증가합니다.
- 기울기를 구하기 위해 RNN계층의 중간 데이터를 메모리에 유지해 둬야 합니다.
Truncated BPTT 그래서 문자열
데이터를 적당히 끊어서
사용하는Trucated BPTT
가 있습니다. 1000개 짜리 말뭉치를 학습 시키기 위해서 계층이 가로로 1000개나 늘어선 신경망이 됩니다. 계산량과 메모리에 문제길 뿐만 아니라 기울기 소실 문제가 있습니다.역전파의 연결을 잘라버리면, 그보다 미래의 데이터에 대해서는 생각할 필요가 없어집니다.