Reinforcement Learning

/ · esc

5 rehber

RL Temelleri — MDP & Q-Learning

Agent-environment döngüsünden Bellman denklemine, tabular Q-learning'den TD(λ)'ya. Epsilon-greedy keşif, FrozenLake üzerinde sıfırdan Q-tablosu ve convergence analizi.

10 bölüm Python · Gymnasium NumPy · Matplotlib

Rehbere git

02 Temel

Deep RL — DQN, A2C, PPO

Tabular Q'dan derin ağa geçiş. DQN replay buffer ve target network, Dueling/Double DQN. Actor-Critic, A3C, PPO clipping ve GAE. SB3 ile LunarLander-v2 çözümü ve WandB takibi.

10 bölüm PyTorch · SB3 WandB · Gymnasium

Rehbere git

03 İleri

Model-Based RL — World Models & Planning

Model-based vs model-free tradeoff. Dyna-Q, MuZero MCTS, Dreamer latent dynamics ve RSSM. Pendulum üzerinde dynamics model + MPC ile sample-efficient kontrol.

10 bölüm PyTorch · Gymnasium MPC · MCTS · RSSM

Rehbere git

04 İleri

Multi-Agent RL — MARL & Koordinasyon

Cooperative/competitive ortamlar, CTDE paradigması. QMIX ve MAPPO algoritmaları, PettingZoo API, self-play, MARL iletişim mekanizmaları ve emergent davranış.

10 bölüm PettingZoo · PyTorch QMIX · MAPPO

Rehbere git

05 Robotik

Robotik RL — Sim-to-Real Transfer

Isaac Gym GPU paralel sim, MuJoCo ortamları, domain randomization. Sim-to-real pipeline, behavior cloning, DAgger ve RLHF. OpenAI Dactyl ve ETH ANYmal başarı hikayeleri.

10 bölüm MuJoCo · Isaac Gym PPO · Domain Rand.

Rehbere git

◌

Aramanla eşleşen rehber bulunamadı.

Rehber

~50

Bölüm

Harici Bağımlılık

∞

Kez Çalıştırılabilir