CH 1. Introduction

『Reinforcement Learning』, Richard S.Sutton and Andrew G.Barto

Posted Jan 2, 2025 Updated Jan 2, 2025

By Cheong seolmo

10 min read

CH 1. Introduction

1.1 Reinforcement Learning

학습자, 주변 환경 외 나머지 주요한 구성 요소
- 정책(policy): 특정 시점에 학습자가 취하는 행동 정의
- 보상 신호(reward signal): 강화학습이 성취해야할 목표 정의. 순간의 상태에 내재된 고유의 장점
- 가치 함수(value function): 장기적 관점으로 평가한 상태의 장점(보상에 대한 예측) ⟶ 앞으로 주요하게 다뤄질 가치 추정
- 모델(model): 환경의 변화를 모사. 계획(planning, 가능성만을 고려하여 일련의 행동 결정)을 위해 사용

상태(state): 특정 시각에 환경이 어떤 모습을 하고 있는지에 대한 정보를 학습자에게 전달하는 신호
정책과 가치 함수의 입력, 혹은 모델의 입력과 출력
학습자가 사용할 수 있는 환경에 대한 모든 정보
강화학습 방법
- 가치 함수를 추정하기 위한 것. 환경과 상호작용하며 학습습
- 유전자 알고리즘, 유전자 프로그래밍, 모의 담금질 같은 최적화 방법
  - 다수의 정적 정책(statice policy) 적용: 오랜시간 불연속적 상호작용
  - 진화적(evolutionary) 방법: 진화를 통해 생산된 유기체는 학습 없이도 노련한 행동

미니맥스(minimax, 게임 이론의 전통적 방법)의 경우: 상대방이 특정한 방법으로 게임을 한다는 가정 필요
동적 프로그래밍(dynamic programming, 순차적 결정 문제에 대한 전통적 최적화 방법)의 경우: 상황에 따라 특정 선택을 할 확률 등 상대방에 대한 완벽한 정보 필요
진화적 방법의 경우: 정책(규칙)을 평가하고 더 향상된 정책을 찾아감
가치 함수 사용(강화학습)의 경우:
1. ‘상태’에 숫자 부여 ⟶ 숫자 표 생성 ⟶ 전체 표는 학습된 가치 함수
2. 여러 번의 게임 진행: 탐욕적 선택, 탐험적 선택
  ⟶ 탐욕적 선택 이후 결정될 상태의 가치를 선택 이전의 상태에 보강(backup)
  ⟹ 가치 함수를 이용하는 방법은 진화적 방법과 달리 개별적인 상태들을 평가
  - 갱신 규칙: 시간차 학습
  - \(V(S_{t})\)로 표현되는 \(S_{t}\) 추정값의 갱신: \(V(S_{t}) \leftarrow V(S_{t}) + \alpha \left [V(S_{t+1}) - V(S_{t}) \right ]\)
    \(S_{t}\): 탐욕적 선택 이전의 상태, \(S_{t+1}\): 탐욕적 선택 이후의 상태, \(\alpha\): 시간 간격 파라미터(step-size parameter)
  - \(\alpha\) ↓ ⟶ 표의 확률값이 참값으로 수렴
  - 강화학습의 핵심 특성:
    1__ 주변 환경과 상호작용하며 학습하는 것 강조
    2__ 확실한 목표 존재, 행동의 지연된 효과 고려하는 계획 또는 예지 필요

최적 이득 함수(optimal return function) ⟶ 동적 프로그래밍(차원의 저주 문제)
마르코프 결정 과정(MDP, 확률론적 최적 제어의 문제) 해결 방식
- 이산 확률론적(discrete stochastic)
- 정책 반복(policy iteration)
최적 제어: 어떤 동역학 싯트메의 시간에 따른 결과를 측정하고 그 측정값을 최대 또는 최소화
- 동적 프로그래밍: 시간의 역순으로 진행하는 계산
- 학습: 시간 순으로 진행하는 과정
- 동적 프로그래밍과 학습의 연결: ex. 신경동역학 프로그래밍(neurodynamic programming) = 근사적 동적 프로그래밍(approximate dynamic programming)

‘더듬기와 실험(groping and experiment)’에 의한 학습
효과의 법칙(Low of Effect): 행동 선택의 경향을 강화하는 사건의 효과를 나타냄
전기 기계식 학습 장치 cyberneticzoo.com
논문 ｢인공지능을 향한 단계들(Step Toward Artificial Intelligence)｣: ‘강화’, ‘강화학습’이 시행착오 학습의 공학적 사용을 설명하기 위해 사용
STeLLA: 내적 독백(internal monologue), 누출 과정(leakback process)
MENACE / GLEE-BOXES
선택적 부트스트랩 적응(selective bootstrap adaptation): learning with a critic
학습로봇(learning automata): 다중 선택(K-armed bandit)
- 확률론적 학습로봇(stochastic learning automata): Alopex 알고리즘의 영향
게임이론과 경제학 모델에 적용
분류 시스템(classifier system): 양동이 집합(bucket-brigade) 알고리즘, 유전자(genetic) 알고리즘
헤리 클로프: 지도학습에 초점을 맞추면 적응하는 행동의 본질적 측면을 잃어버린다.

특정 값을 시간에 따라 연속적으로 추정하고 연속한 두 추정값 사이의 차이로부터 학습 방법을 도출
2차 강화자(secondary reinforcer) / 2차 강화 이론
지역 강화(local reinforcement): 전체 학습 시스템의 하위 요소들이 서로 강화
일반화된 강화학습(generalized reingorcement): 모든 구성요소가 모든 입력을 강화의 측면에서 인식
시간차 학습에 기반한 고전적 조건화(conditioning)

This post is licensed under CC BY 4.0 by the author.