[책 요약] 밑바닥부터 시작하는 딥러닝2-Chapter 6. LSTM(게이트가 추가된 RNN)
Intro바닐라 RNN은 과거의 정보를 기억할 수 있었으나 성능이 조지 못하다. 그 이유는 시계열 데이터에서 시간적으로 멀리 떨어진, 장기(long term)의존 관계를 잘 학습할 수 없다는 데 있다(장문의 첫 단어와 끝단어의 관계를 이해하지 못함)따라서 LSTM이나 GRU 등의 계층이 등장했다. LSTM이나 GRU는 ‘게이트’라는 구조가 더해지는데, 이 게이트 덕분에 장기 의존 관계를 학습 할 수 있다.RNN의 문제점RNN은 시계열 데이터의 장기 의존 관계를 파악하기 어려운데, 그 이유는 기울기 소실 혹은 기울기 폭발(explosion) 때문이다.기울기 소실 또는 기울기 폭발RNN이 언어 모델로서 다음 문제를 풀어야 하는 경우를 생각해보자.Mary가 인사를 한 사람은 ‘Tom’이기 때문에 ‘Tom’이라..