본문 바로가기

딥러닝

강화학습 deadly triad

반응형

불안정성을 높이는 치명적 삼위일체

* 함수근사: 메모리와 컴퓨터의 계산 능력을 훨씬 능가하는 상태 공간으로부터 일반화를 수행하는 강력하고 측정 가능한 방법(선형 함수 근사 또는 ANN)

* 부트스트랩: mc 방법처럼, 실제 보상 및 완전한 이득에 전적으로 의존하기 보다는 (동적 프로그래밍이나 TD방법처럼) 이미 존재하는 추정값을 포함하고 있는 목표를 갱신하는 것

* 비활성 정책 훈련: 목표 정책에 의해 만들어진 분포보다는 전이의 분포에 대해 훈련하는 것. 동적 프로그래밍에서처럼 상태 공간에 있는 모든 상태를 균일하게 일괄적으로 갱신하는 것은 목표 정책을 따르지 않는다. 이것이 비활성 정책 훈련의 예제이다.

함수근사를 피하는 게 가장 어렵다. 규모가 큰 문제로의 확장성 및 굉장히 많은 것을 표현할 수 있는 능력을 갖춘 방법이 필요하기 때문이다. 최소한 많은 특징과 파라미터를 갖는 선형 함수 근사는 있어야 한다. 데이터의 양에 따라 복잡도가 증가하는 상태 결집이나 파라미터에 기반하지 않는 방법은 너무 약하거나 너무 비용이 많이 든다. LSTD같은 최소 제곱법은 2차식을 따라 증가하는 복잡도를 갖기 때문에, 규모가 큰 문제에서는 너무 복잡하다

부트스트랩 없이 하는 것은 가능하다. 다만 계산의 효율성과 데이터 사용의 효율성은 포기해야 한다. 어쩌면 가장 중요한 것은 계산의 효율성을 잃어버리는 것이다. (부트스트랩이 아닌) 몬테 카를로 방법은 예측을 하고 최종 이득을 얻는 사이에 일어나는 모든 것을 저장하기 위한 메모리를 필요로 한다. 그리고 몬테카를로 방법에서의 계산은 최종 이득을 얻고 나서 한번만 수행된다. 이러한 계산 비용의 이슈가 시리얼 폰 노이만, 컴퓨터에서는 분명하지 않지만, 특별한 하드웨어에서는 분명하게 드러날 것이다. 부트스트랩과 적격 흔적을 이용하면 데이터는 그것이 생성되는 시점에서 생성되는 곳에서 다뤄질 수 있고?, 이후 사용되지 않는다. 부트스트랩을 통해 계싼량과 메모리를 절약 가능하다.

하지만, 부트스트랩을 포기함으로써 잃게 되는 데이터 사용의 효율성도 증가한다.

무작위 행보 예측 문제에 대해 어느 정도 부트스트랩이 몬테카를로 보다 훨씬 더 좋은 성능을 보여주기도 한다.

행동 적책이 많은 목표 정책과, 부분적으로 공유하는 부분이 있을 수도 있기 때문에, 동시학습 개념적으로는 가능하다. 이러한 장점을 최대한 활용하려면 비활성 정책이 필요하다. 

반응형