Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
Tags
- 레지스터
- 반도체 엔지니어
- 반도체 취업
- 던전앤파이터
- MLAgent
- 메타마스크
- 게임기획
- 아두이노
- 유니티에러
- 아두이노함수
- 면접
- MuchineRunning
- 이더리움
- neople
- 아두이노우노
- 메모리
- 던파
- 인터럽트
- 유니티
- 네트워크보안
- 컴퓨터구조
- 네트워크
- 암호화
- 에러
- Unity
- 보안
- 머신러닝
- 반도체
- 네오플
- memory
Archives
- Today
- Total
목록PPO (1)
Dreaming Deve1oper

Parameters Hyperparameters: trainer_type - 학습에 사용할 강화학습 기법 (기본값=ppo) - ppo, sac, poca 설정 가능 batch_size - 네트워크를 한번 학습할 때 몇개의 데이터를 이용할 것인가? - 일반적으로 continuous action 알고리즘 값을 크게 설정 (128 ~ 2048) - Discreate action 알고리즘은 값을 작게 설정 (32~512) buffer_size - 네트워크 학습하기 위해 저장하는 전체 데이터의 수 (2048~409600) - buffer_size 클수록 안정적인 학습 수행 가능하지만 많은 데이터를 사용하므로 큰 메모리를 차지하게 된다. learning_rate - 기본값 = 3e-4 (일반적으로 1e-5 ~ 1e..
유니티
2022. 2. 26. 01:41