KURSPLAN
Förstärkningsinlärning, 7,5 högskolepoäng
Reinforcement Learning, 7.5 credits
Kursplan för studenter höst 2025
Kurskod: | TFSS25 |
Fastställd av: | VD 2024-08-14 |
Reviderad av: | Utbildningschef 2024-11-28 |
Gäller fr.o.m.: | 2025-08-01 |
Version: | 2 |
Utbildningsnivå: | Avancerad nivå |
Utbildningsområde: | Tekniska området
|
Ämnesgrupp: | DT1
|
Fördjupning: | A1F
|
Huvudområde: | Datavetenskap |
Lärandemål
Efter genomgången kurs sks studenten
Kunskap och förståelse
- visa kunskap om centrala teorier, algoritmer och evalueringskriterier inom förstärkningsinlärning (RL),
- ha kännedom om möjligheter och begränsningar inom RL,
- visa kunskap om vanligt förekommande verktyg och ramverk inom RL,
- ha kännedom om betydande bidrag i RL forskningslitteraturen,
Färdighet och förmåga
- visa färdighet i att formulera problem som Markovska beslutsprocesser (MDP),
- visa färdighet i att välja lämpliga RL-algoritmer för specifika MDP:er,
- visa färdighet i att utveckla och implementera RL-lösningar till olika problem med hjälp av vanligt förekommande verktyg och ramverk,
Värderingsförmåga och förhållningssätt
- visa sunt omdöme vid formulering av problem som MDP:er, valet av lämpliga RL-algoritmer för lösning av dessa, samt utvärdering av lösningar över flera evalueringskriterier.
Innehåll
Strävan att fullt realisera potentialen av Artificiell Intelligens (AI) kräver autonoma system som kan lära sig att ta bra beslut genom att interagera med sin omgivning. Förstärkningsinlärning (Reinforcement Learning) är ett paradigm som uppfyller dessa krav, och kan appliceras på olika problem, inklusive inom spel, sjukvård, ekonomi och robotik. Kursen ger en solid introduktion till förstärkningsinlärning med centrala tillvägagångssätt och utmaningar, samt är strukturerad kring ett antal föreläsningar, inlämningsuppgifter och ett projekt.
Kursen innehåller följande moment:
• Markovska beslutsprocesser (MDPs)
• Modellbaserad och modellfri prediktion och kontroll
• On-policy och off-policy metoder
• Monte Carlo, Temporal Difference, Policy-Gradient, och Actor-Critic metoder
• Avvägning mellan utforskning och utnyttjande, inklusive ånger
• Avvägning mellan bias och varians, inklusive stabilitet
• Funktionsapproximering, inklusive djup förstärkningsinlärning
• Imitation Learning och Reinforcement Learning där flera agenter interagerar
Undervisningsformer
Föreläsningar, övningar och seminarier.
Undervisningen bedrivs på engelska.
Förkunskapskrav
Godkända kurser om minst 90 hp inom huvudområdet Datateknik, Datavetenskap, Elektroteknik (med relevanta kurser i Datateknik) eller motsvarande, eller avklarade kurser om minst 150 hp från Civilingenjörsprogrammet i Datateknik, och genomgångna kurser i Artificiell Intelligens, 7,5 hp, Maskininlärning, 7,5 hp och Djupinlärning, 7,5 hp eller motsvarande. Dessutom krävs kunskaper i Engelska 6 eller motsvarande kunskaper.
Examination och betyg
Kursen bedöms med betygen 5, 4, 3 eller Underkänd.
Poängregistrering av examinationen för kursen sker enligt följande system:
Examinationsmoment | Omfattning | Betyg |
---|
Inlämningsuppgift1 | 5 hp | 5/4/3/U |
Projekt | 2,5 hp | U/G |
1 Bestämmer kursens slutbetyg vilket utfärdas först när samtliga moment godkänts.
Kurslitteratur
Kurslitteraturen fastställs 8 veckor innan kursstart.
Titel: Reinforcement Learning, 2nd Edition
Författare: Richard S. Sutton and Andrew G. Barto
Förlag: Bradford Books, 2018
ISBN: 9780262039246
Titel: Grokking Deep Reinforcement Learning
Författare: Miguel Morales
Förlag: Manning, 2020
ISBN: 9781617295454