
Spanish: 
Queridos compañeros de estudio, esto es Two Minute Papers con Károly Zsolnai-Fehér.
Hace poco más de dos años, el equipo de DeepMind creó un algoritmo que podía jugar
Atari Breakout a niveles superhumanos solo con ver el siguiente video.
Y las noticias inmediatamente llegaron a todo el mundo.
Este documento original tiene apenas más de 2 años y ya se ha hecho referencia
de él en más de mil documentos de investigación.
Es un poderoso documento!
El algoritmo está basado en la combinación de redes neuronales y y el aprendizaje reforzado.
La red neuronal fue usada para entender el video, y el aprendizaje reforzado
está ahí para que se le ocurra cómo actuar apropiadamente.
Ésta es la parte que comienza a jugar.
El aprendizaje reforzado es muy adecuado para tareas en las que el ambiente está en constante transformación
y tenemos que elegir cómo actuar en base a nuestros alrededores para lograr alcanzar
algún tipo de puntaje.
Este puntaje puede ser por ejemplo, qué tan lejos llegamos en un laberinto, o cuántas veces evitamos

English: 
Dear Fellow Scholars, this is Two Minute Papers
with Károly Zsolnai-Fehér.
A bit more than two years ago, the DeepMind
guys implemented an algorithm that could play
Atari Breakout on a superhuman level by looking
at the video feed that you see here.
And the news immediately took the world by
storm.
This original paper is a bit more than 2 years
old and has already been referenced in well
over a thousand other research papers.
That is one powerful paper!
This algorithm was based on a combination
of a neural network and reinforcement learning.
The neural network was used to understand
the video feed, and reinforcement learning
is there to come up with the appropriate actions.
This is the part that plays the game.
Reinforcement learning is very suitable for
tasks where we are in a changing environment
and we need to choose an appropriate action
based on our surroundings to maximize some
sort of score.
This score can be for instance, how far we've
gotten in a labyrinth, or how many collisions

Spanish: 
chocar con un helicóptero, o cualquier tipo de puntaje que refleje qué tan bien
estamos en un momento dado.
Y éste algoritmo funciona bastante similar a la forma en la que los animales aprenden cosas nuevas.
Observa el ambiente, prueba diferentes cosas y se fija si le funcionaron.
Si lo hicieron, las vuelve hacer, sino, bueno, probemos otra cosa.
El perro de Pavlov y la campana es un excelente ejemplo de eso.
Hay muchas obras existentes en esta área y funciona notablemente bien para una serie de problemas
y juegos de computadora, pero solo si la recompensa está relativamente pronta
a la acción.
Por ejemplo, en Breakout, si le erramos a la pelota, perdemos una vida inmediatamente, pero si
le pegamos, casi instantáneamente rompemos algún ladrillo y aumenta nuestra puntuación.
Esto es más que adecuado para un algoritmo de aprendizaje reforzado bien construido.
Sin embargo, a este algoritmo no le fue tan bien en otros juegos donde se requiere
planificación a largo plazo.
Si Pavlov le hubiera dado a su perro un premio por algo que hizo dos días antes, el animal

English: 
we have avoided with a helicopter, or any
sort of score that reflects how well we're
currently doing.
And this algorithm works similarly to how
an animal learns new things.
It observes the environment, tries different
actions and sees if they worked well.
If yes, it will keep doing that, if not, well,
let's try something else.
Pavlov's dog with the bell is an excellent
example of that.
There are many existing works in this area
and it performs remarkably well for a number
of problems and computer games, but only if
the reward comes relatively quickly after
the action.
For instance, in Breakout, if we miss the
ball, we lose a life immediately, but if we
hit it, we'll almost immediately break some
bricks and increase our score.
This is more than suitable for a well-built
reinforcement learner algorithm.
However, this earlier work didn't perform
well on any other games that required long-term
planning.
If Pavlov gave his dog a treat for something
that it did two days ago, the animal would

Spanish: 
no hubiera tenido idea de qué acción llevó a esa sabrosa recompensa.
Y el tema de este juego es que nosotros controlamos a este personaje verde
y nuestro objetivo es empujar las cajas hasta los puntos rojos.
Este juego es particularmente complicado, no solo para algoritmos, también para humanos, por
dos motivos importantes: uno, requiere planificación a largo plazo, que como sabemos,
es un gran asunto para para algoritmos de aprendizaje reforzado.
Solo porque una cada esté al lado de un punto rojo no significa que pertenezca allí.
Ésta es una cualidad particularmente difícil del juego.
Y dos, porque algunos errores que hacemos son irreversibles, por ejemplo,
empujar una caja hasta una esquina hace que sea imposible completar el nivel.
Si tenemos un algoritmo que prueba distintas acciones y analiza si funcionan,
bueno, eso no va a funcionar aquí.
Acá es muy fácil ver que éste es un problema obscenamente complejo, y que
el equipo de DeepMind tuvo que crear un Agente de Imaginación-Aumentada para solucionarlo .

English: 
have no clue as to which action led to this
tasty reward.
And this work's subject is a game where we
control this green character and our goal
is to push the boxes onto the red dots.
This game is particularly difficult, not only
for algorithms, but even humans, because of
two important reasons: one, it requires long-term
planning, which, as we know, is a huge issue
for reinforcement learning algorithms.
Just because a box is next to a dot doesn't
mean that it is the one that belongs there.
This is a particularly nasty property of the
game.
And two, some mistakes we make are irreversible,
for instance, pushing a box in a corner can
make it impossible to complete the level.
If we have an algorithm that tries a bunch
of actions and sees if they stick, well, that's
not going to work here!
It is now hopefully easy to see that this
is an obscenely difficult problem, and the
DeepMind guys just came up with Imagination-Augmented
Agents as a solution for it.

Spanish: 
Qué está detrás de este nombre tan cool?
La parte interesante de esta nueva arquitectura es que utiliza la imaginación, que es una rutina
para crear no solo una acción,  sino que re plantea el plan que consiste de varios pasos, y finalmente elije
el que tenga la mayor recompensa posible en el largo plazo.
Toma información del presente e imagina posibles futuros, luego elije
el del premio más atractivo.
Y como puedes ver, ésta es solo la primer publicación de esta nueva arquitectura
y ya puede resolver un problema con siete cajas.
Simplemente irreal.
Magnífico trabajo.
Y noten que es un algoritmo bastante general y que puede
ser usado para resolver distintos problemas.
Éste juego en particular es una forma de demostrar las características más atractivas de esta nueva técnica.
El documento contiene más resultados y es una excelente lectura, no se olviden de pegarle un vistazo.
Además, si disfrutaste el video, por favor considerá apoyar a Two Minute Papers en Patreon.
Los detalles están disponibles en la descripción, fijate!

English: 
So what is behind this really cool name?
The interesting part about this novel architecture
is that it uses imagination, which is a routine
to cook up not only one action, re plans consisting
of several steps, and finally, choose one
that has the greatest expected reward over
the long term.
It takes information about the present and
imagines possible futures, and chooses the
one with the most handsome reward.
And as you can see, this is only the first
paper on this new architecture and it can
already solve a problem with seven boxes.
This is just unreal.
Absolutely amazing work.
And please note that this is a fairly general
algorithm that can be used for a number of
different problems.
This particular game was just one way of demonstrating
the attractive properties of this new technique.
The paper contains more results and is a great
read, make sure to have a look.
Also, if you've enjoyed this episode, please
consider supporting Two Minute Papers on Patreon.
Details are available in the video description,
have a look!

English: 
Thanks for watching and for your generous
support, and I'll see you next time!

Spanish: 
Gracias por ver y por su generoso aporte, hasta la próxima!
