RL Temelleri — MDP & Q-Learning
Agent-environment döngüsünden Bellman denklemine, tabular Q-learning'den TD(λ)'ya. Epsilon-greedy keşif, FrozenLake üzerinde sıfırdan Q-tablosu ve convergence analizi.
Deep RL — DQN, A2C, PPO
Tabular Q'dan derin ağa geçiş. DQN replay buffer ve target network, Dueling/Double DQN. Actor-Critic, A3C, PPO clipping ve GAE. SB3 ile LunarLander-v2 çözümü ve WandB takibi.
Model-Based RL — World Models & Planning
Model-based vs model-free tradeoff. Dyna-Q, MuZero MCTS, Dreamer latent dynamics ve RSSM. Pendulum üzerinde dynamics model + MPC ile sample-efficient kontrol.
Multi-Agent RL — MARL & Koordinasyon
Cooperative/competitive ortamlar, CTDE paradigması. QMIX ve MAPPO algoritmaları, PettingZoo API, self-play, MARL iletişim mekanizmaları ve emergent davranış.
Robotik RL — Sim-to-Real Transfer
Isaac Gym GPU paralel sim, MuJoCo ortamları, domain randomization. Sim-to-real pipeline, behavior cloning, DAgger ve RLHF. OpenAI Dactyl ve ETH ANYmal başarı hikayeleri.
Aramanla eşleşen rehber bulunamadı.