https://www.quora.com/How-is-reinforcement-learning-related-to-genetic-algorithms
RL은 에이전트로부터 얻은 reward의 합계를 최대하기 위해 시도한다. Q function을 사용해서.
GA는 무작위로 생성된 solution으로 시작해서 자연 선택 원리를 사용하여 솔루션을 발견한다. 그 선택은 다음 세대에 선발될 확률이 높아진다. mutation이나 crossover 영향을 받는다.
GA는 heuristics, RL은 gradient-based update
experience replay는 RL에만 있다. (stored and recalled)
둘 다 nature-inspired, gooood soultion을 찾기 위해 시도함
'개발 > Deep learning' 카테고리의 다른 글
Stock Price Prediction | AI in Finance (0) | 2019.04.22 |
---|---|
TF-Lite uses gemmlowp for matrix multiplication (0) | 2019.04.18 |
Quantization and Training of Neural Networks for EfficientInteger-Arithmetic-Only Inference (0) | 2019.04.18 |
밑바닥 딥러닝_7장 합성곱 신경망(CNN) (1) | 2019.01.27 |