
English: 
what's up YouTube Matt Voke, Callsign
Jerry the last couple of videos we
learned how a eye learns with supervised
learning and unsupervised learning I
don't have any favorite algorithms but
my favorite way of teaching AI is
reinforcement learning. Do you remember
that one time that human said there was
no way AI was able to do stuff? Well
reinforcement learning is behind many of
those breakthroughs and every day there
is less and less that humans maintain
dominance and near the end of this video
I'll show you some crazy examples of AI
dethroning humans in dominant areas
stick around for about two minutes this
stuff is great! Just like reinforcing
learning in a dog interesting behaviors
result when you reward good behavior and
punish bad behavior the same training
can and is being done with AI in very
powerful ways in reinforcement learning
the artificial intelligence learns in an
interactive environment through trial

Spanish: 
¡Hola Youtube!
Matt Voke Callsign Jerry
Los últimos dos videos aprendimos cómo aprende IA.
Con el aprendizaje supervisado y no supervisado.
No tengo un algoritmo favorito
pero mi forma favorita de enseñar IA
es con el aprendizaje reforzado.
¿Recuerdas que hubo una época del tiempo que la gente decía que no había forma que IA hiciera cosas?
Bueno, el aprendizaje reforzado está detrás de estas penetraciones.
Y cada vez, hay menos
donde los humanos mantienen el dominio
Al final de este video, te mostraré ejemplos locos de IA
sustituyendo humanos en áreas dominantes.
Quédate conmigo por dos minutos
Esto es genial.
Tal como educar a un perro,
Comportamientos interesantes surgen cuando premias el buen comportamiento,
y castigas el mal comportamiento.
El mismo entrenamiento debe y puede ser hecho
con IA de maneras muy poderosas.
En el aprendizaje reforzado, la IA aprende
en un ambiente interactivo de prueba y error

English: 
and error using reinforcement loops form
its own actions the AI agent takes some
action in its environment which either
improves or degrades it's score or
chance of winning that behavior is
reinforced or dampened so there's more
or less likely to take that action in
the future while supervised learning and
unsupervised learning try to find
similarities in data reinforcement
learning teaches an AI to maximize its
cumulative reward the main things needed
to train AI using this learning style
are in an interactive environment the
ability for that AI to sense that
environment a reward function
creating feedback and an AI's ability
to act in this environment all right all
right enough talk Jerry you promised us
great AI victory why yes yes I did in
2013 Q-learning learn to play and
defeat some of the most classic games

Spanish: 
utilizando ciclos reforzados de sus propias acciones.
El agente de IA toma algunas acciones en su entorno
ya sea para mejorar o degradar
su puntaje
o posibilidad de ganar.
Ese comportamiento es reforzado
así será más o menos tomar esa acción en el futuro.
Mientras que el aprendizaje supervisado y no supervisado buscan similitudes en datos
el aprendizaje reforzado le enseña a la IA su recompensa máxima.
Los principales aspectos que necesita AI para enseñar este estilo de aprendizaje son:
Un ambiente interactivo,
la habilidad para que la IA siente ese ambiente,
una función de premio
crear retroalimentación,
y la habilidad de la IA para interactuar en este ambiente.
De acuerdo Jerry, mucho hablar.
Nos prometiste grandes victorias de IA.
Si, así fue.
En 2013,
Q Learning aprendió a jugar y ganar unos de los juegos clásicos
tales como Breakout, Space Invadors, 
Pong y Qbirth.

Spanish: 
Si, sé que Atari es antiguo
pero estos son grandes ambientes para que IA aprenda.
Principalmente porque hay un marcador a ser optimizado
aún cuando la IA no sepa nada del juego
ni siquiera las reglas.
Puede ver solamente los pixeles en la pantalla
y aprender a aumentar su marcador.
Luego de dos horas de entrenamiento,
La IA se pone mejor, ¿no?
Este es mi nivel de juego luego de dos horas
¿No?
Pero espera.
Luego que la IA tiene 4 horas de entrenamiento, solamente 4 horas
Puede maximizar su marcador si puede crear un agujero en la esquina de los ladrillos.
para mantener la bola rompiendo los ladrillos.
Esto es increíble.
Ni siquiera sabe lo que es una bola o un ladrillo.
Pero puede rendir a un gran nivel humano.
En 2013, este reporte utiliza el aprendizaje reforzado en 7 juegos
En 2015 Q Learning le ganó a jugadores profesionales en 49 juego de Atari
Breakout no es muy difícil

English: 
like Breakout Space Invaders Pong and
Q*bert yes I realized that Atari is old
but these are great environments for AI
to learn mainly because there's a score
to be optimized even if the AI knows
nothing about the game
not even the rules it can just see that
pixels on the screen and learn to
increase its score after two hours of
training the AI is getting pretty good
right
this is probably my level of play after
about two hours right but wait now after
the AI has about four hours of training
this is just after four hours
it learns it can maximize its score by
digging a hole in the corner of the
bricks to keep the ball in the air just
pinging off the bricks this is
incredible
it doesn't even know what a ball or a
brick are but it's able to perform at
such a superhuman level in 2013 this
paper used reinforcement learning on
seven games in 2015
cue learning could defeat professional

English: 
gamers at 49 Atari games breakout isn't
very hard though of course AI can be it
well how about Dota 2 how about
Starcraft 2 these are the most complex
games we have kids they require a long
time horizon planning large action space
we're talking more options per move than
all the stars in the universe and
partially observable environments these
games demonstrate one more strength of
reinforcement learning learning to
balance the exploration of uncharted
behavior and the exploitation of knowing
what works click above to watch my
in-depth coverage of open AI defeating
the world champs "OG" AI has moved from
defeating Atari games to defeating the
most complex games humans have in six
years, Astounding!
Click here to watch DeepMind's
Alphastar crushing team liquids
TLO and MaNa what is reinforcement
learning possible of when we take these
lessons of Awesomeness in complex
simulation environments and we apply
them in the real world man I'm glad you

Spanish: 
Claro que AI puede ganarlo.
Bueno, que tal Doda 2
Que tal Starcraft 2?
Estos son los juegos más complejos que tenemos.
Requieren una gran planeación
grandes espacios de acción
Hablamos de muchas opciones que pueden haber en el universo.
Y un ambiente de observación.
Estos juegos demuestran la fortaleza del aprendizaje reforzado.
Saber el equilibrio del comportamiento de exploración
y la explotación de lo que funciona.
Haz clic arriba para ver mi reseña completa de cómo Open AI le gana al campeón OG
IA se mueve de ganar en juegos de Atari,
a ganar en los juegos más complejos que tienen en 6 años.
¡Asombroso!
Haz clic aquí como el equipo AlphaStar le gana a Liquids
TLO y MaNA.
De qué es capaz el aprendizaje reforzado
cuando tomamos esas lecciones asombrosas
en ambientes de simulación complejos
y las aplicamos en el mundo real.
Genial que lo preguntaste.

English: 
asked thanks Johnny here's a brief
example the same deepmind AI that beat
Atari these lessons were applied to
Google's data centers intense cooling
requirements using reinforcement
learning deep mine was able to quote
consistently achieve 40% reduction in
the amount of energy used for cooling
that is HUGE just think how huge this is
in terms of dollars and environmental
impact this is great stuff
hit the thumbs up and subscribe do both
and you'll get a reward of some awesome
bite-sized AI thanks for watching keep
learning this is Jerry, SEEYA!

Spanish: 
Gracias Jhonny.
Aquí un pequeño ejemplo.
El mismo IA que le ganó a Atari,
estas lecciones se aplicaron en los datacenter de google para el enfriamiento
Utilizando el aprendizaje reforzado,
Deep mind fue capaz la reducción en un 40% de la energía utilizada para el enfriamiento.
Eso es grande
Solamente piensa lo grande que es en dinero
y en el ambiente ambiental.
Esto es genial.
Dale al pulgar arriba y suscríbete.
Haz ambos y obtendrás premio de cosas asombrosas de IA.
Gracias por ver, continúa aprendiendo
Soy Jerry
¡Adiós!
