
English: 
Dear Fellow Scholars, this is Two Minute Papers
with Károly Zsolnai-Fehér.
Reinforcement learning is a learning algorithm
that chooses a set of actions in an environment
to maximize a score.
This class of techniques enables us to train
an AI to master a large variety of video games
and has many more cool applications.
For instance, in the game of Q*bert, at every
time step, the AI has to choose the appropriate
actions to control this orange character and
light up all the cubes without hitting the
purple enemy.
This work proposes an interesting alternative
to reinforcement learning and is named evolution
strategies and it aims to train not one agent,
but an entire population of agents in parallel.
The efficiency of this population is assessed,
much like how evolution works in nature, and
new offsprings are created from the best performing
candidates.
Note that this is not the first paper using
evolution strategies - this is a family of
techniques that dates back to the 70s.

German: 
Sehr geehrte Lernende, das ist Two Minute Papers mit Károly Zsolnai-Fehér.
Reinforcement learning ist ein Algorithmus der eine Reihe an Aktionen in seiner Umgebung auswählt um
einen Score zu maximieren
Diese Methode erlaubt es uns, eine AI zu trainieren, um eine Vielfalt an Videospielen zu meistern
aber besitzt auch viele weitere Anwendungen.
Zum Beispiel im Spiel Q*bert, muss die AI in jedem Moment die richtigen Aktionen wählen
um diese orange Figur zu kontrollieren und alle Würfel einzufärben ohne die Violetten Gegner zu berühren
Diese Arbeit schlägt eine Alternative zu reinforcement learning vor. Sie wird "evolution strategies" (Evolutionäre Strategien) genannt
und es versucht nicht nur einen Agenten zu trainieren, sondern gleich eine ganze Gruppe an Agenten parallel  zu trainieren
Die Effizienz (bzw Qualität) dieser Gruppe wird in ähnlicher Weise bestimmt wie auch in der Natur
und neue Abkömmlinge werden von den am besten funktionierenden Agenten erzeugt
Man muss erwähnen, dass dies nicht das erste Paper ist, dass diese evolutionären Strategien verwendet
- Dieses Feld der KI datiert zurück in die 70er Jahre

German: 
Neu an dieser Arbeit ist, dass sie kein langwieriges Ausprobieren benötigt um einen Diskontfaktor zu bestimmen
Aber halt, was heißt Diskontfaktor eigentlich genau?
Das ist die Zahl die beschreibt, ob sich die KI ausschließlich auf Kurzeitziele fokusieren soll
oder ob sie bereit sein soll, temporär schlechtere Entscheidungen zu treffen
um über längere Zeit bessere Ergebnisse zu erreichen
Der optimale Wert ist unterschiedlich für jedes Spiel und hängt davon ab wie viel Langzeitplanung notwendig ist.
Mit diesem evolutionären Algorithmus können wir diesen Schritt komplett auslassen.
Das wirklich tolle daran ist, dass es nicht nur in der lage ist viele Spiele zu meistern,
Nach nur 5 Stunden Training konnte es die Spiel-mechanik in Q*Bert auf kreative Art missbrauchen
Es fand ein Schlupfloch, in dem es sich selbst opferte um den violetten Blob dazu zu bringen ihm nachzuspringen
Und zu unserer Überraschung fand es einen Bug (Fehler im Spiel), wenn es von dieser Position springt
Es sollte ein Leben verlieren, aber wegen eines Bugs passiert das nicht

English: 
However, an advantage of this variant is that
it doesn't require long trial and error sessions
to find an appropriate discount factor.
But wait, what does this discount factor mean
exactly?
This is a number that describes whether the
AI should focus only on immediate rewards
at all costs, or whether it should be willing
to temporarily make worse decisions for a
better payoff in the future.
This optimal number is different for every
game, and depends on how much long-term planning
it requires.
With this evolutionary algorithm, we can skip
this step entirely.
And the really cool thing about this is that
it is not only able to master many games,
but after only 5 hours of training, it was
able to find a way to abuse game mechanics
in Q*bert in the most creative ways.
It has found a glitch where it sacrifices
itself to lure the purple blob into dropping
down after it.
And much to our surprise, it found that there
is a bug - if it drops down from this position,
it should lose a life for doing it, but due
to a bug, it doesn't.

English: 
It also learned another cool technique where
it waits for the adversary to make a move
and immediately goes the other way.
Here's the same scene slowed down.
It had also found and exploited another serious
bug which was to the best of my knowledge,
previously unknown - after completing the
first level, it starts jumping around in a
seemingly random manner.
A moment later, we see that the game does
not advance to the next level, but cubes start
blinking and the AI is free to score as many
points as it wishes.
After this video, a human player was able
to reproduce this, I've put a link to it in
the video description.
It also found out the age-old trick in breakout,
where we dig a tunnel through the bricks,
lean back, start reading a paper, and let
physics solve the rest of the level.
One of the greatest advantages of this technique
is that instead of training only one agent,
it works on an entire population.

German: 
Es lernte auch eine andere Technik in der es wartet bis ein Gener sich bewegt
und dann sofort in die andere Richtung geht.
Hier ist die selbe Szene verlangsamt.
Es fand auch einen anderen ausnutzbaren Fehler, den - soweit ich weiß - gefunden hatte
Nach dem Absolvieren des ersten Levels, fängt es an scheinbar zufällig herumzuspringen
Sofort sehen wir, dass das Spiel nicht das nächste Level startet,
sondern stattdessen alle Blöcke zum blinken anfangen und die KI kann beliebig viele Punkte sammeln.
Nach der Aufnahme des Videos war ein menschlicher Spieler in der Lage diesen Fehler selbst auszunutzen
Einen Link dazu findet ihr unter dem Video.
Es fand auch den alten Trick im Spiel Breakout, in dem man einen "Tunnel" durch die Steine gräbt,
sich zurücklehnt und während man ein Paper liest dem Ball zusieht, wie er das restliche Level löst
Einer der größten Vorteile dieser Technik ist, dass statt einen einzelnen Agenten zu trainieren
man an einer großen Gruppe arbeitet.

German: 
Diese Agenten können unabhängig von einander trainiert werden, was uns den Algorithmus leichter parallelisiert ausführen lässt
Das bedeutet die Methode ist schnell und läuft gut
auf modernen Prozessoren und Grafikkarten mit mehreren Kernen
Und diese Algorithmen gewinnen nicht nur das Spiel, sie "zerstören" es
Großartig
Was für eine Zeit in der wir leben.
Ich finde alle sollten diese unglaubliche Geschichte hören.
Wenn du uns auf unserer Mission helfen willst und exklusive Perks willst,
unterstütze uns auf Patreon
Man findet uns über patreon.com/TwoMinutePapers. Ein Link mit den Details ist in der Videobeschreibung zu finden.
Ein Teil der Unterstützungen geht zurück an die Community um Forschungsprojekte und Konferenzen zu finanzieren
Zum Beispiel haben wir vor kurzem eine Konferenz unterstützt, die jungen Wissenschaftlern helfen soll,
ihre Papers zu schreiben uns sie international zu präsentieren.
Wir hoffen, dass wir bald etwas mehr in die Bearbeitung unserer Videos stecken können
Wir unterstützen auch Cryptowährungen wie Bitcoin, Ethereum und Litecoin.
Ich bin sehr dankbar für eure Unterstützung
was der Grund ist, warum jedes Video aufhört mit..

English: 
These agents can be trained independently,
making the algorithm more parallelizable,
which means that it is fast and maps really
well to modern processors and graphics cards
with many cores.
And these algorithms are not only winning
the game, they are breaking the game.
Loving it.
What a time to be alive!
I think this is an incredible story that everyone
needs to hear about.
If you wish help us with our quest and get
exclusive perks for this series, please consider
supporting us on Patreon.
We are available through patreon.com/TwoMinutePapers,
and a link with the details is available in
the video description.
We also use part of these funds to give back
to the community and empower research projects
and conferences.
For instance, we recently sponsored a conference
aimed to teach young scientists to write and
present their papers at international venues.
We are hoping to invest some more into upgrading
our video editing rig in the near future.
We also support cryptocurrencies, such as
Bitcoin, Ethereum and Litecoin.
I am really grateful for your support.
And this is why every video ends with...

English: 
Thanks for watching and for your generous
support, and I'll see you next time!

German: 
Danke fürs Ansehen, eure großzügige Unterstützung und wir sehen uns im nächsten Video!
