2024/08/16 썸네일형 리스트형 강화학습 deadly triad 불안정성을 높이는 치명적 삼위일체* 함수근사: 메모리와 컴퓨터의 계산 능력을 훨씬 능가하는 상태 공간으로부터 일반화를 수행하는 강력하고 측정 가능한 방법(선형 함수 근사 또는 ANN)* 부트스트랩: mc 방법처럼, 실제 보상 및 완전한 이득에 전적으로 의존하기 보다는 (동적 프로그래밍이나 TD방법처럼) 이미 존재하는 추정값을 포함하고 있는 목표를 갱신하는 것* 비활성 정책 훈련: 목표 정책에 의해 만들어진 분포보다는 전이의 분포에 대해 훈련하는 것. 동적 프로그래밍에서처럼 상태 공간에 있는 모든 상태를 균일하게 일괄적으로 갱신하는 것은 목표 정책을 따르지 않는다. 이것이 비활성 정책 훈련의 예제이다.함수근사를 피하는 게 가장 어렵다. 규모가 큰 문제로의 확장성 및 굉장히 많은 것을 표현할 수 있는 능력을.. 더보기 이전 1 다음