'PPO' 태그의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

글쓰기
방명록
RSS
관리

목록PPO (1)

Dreaming Deve1oper

PPO 알고리즘

Parameters Hyperparameters: trainer_type - 학습에 사용할 강화학습 기법 (기본값=ppo) - ppo, sac, poca 설정 가능 batch_size - 네트워크를 한번 학습할 때 몇개의 데이터를 이용할 것인가? - 일반적으로 continuous action 알고리즘 값을 크게 설정 (128 ~ 2048) - Discreate action 알고리즘은 값을 작게 설정 (32~512) buffer_size - 네트워크 학습하기 위해 저장하는 전체 데이터의 수 (2048~409600) - buffer_size 클수록 안정적인 학습 수행 가능하지만 많은 데이터를 사용하므로 큰 메모리를 차지하게 된다. learning_rate - 기본값 = 3e-4 (일반적으로 1e-5 ~ 1e..

유니티 2022. 2. 26. 01:41

Prev 1 Next

목록PPO (1)

Dreaming Deve1oper

티스토리툴바