
Spanish: 
Estimados colegas académicos, 
 esto es "Artículos en dos minutos"
con el Dr. Károly Zsolnai-Fehér.
Hoy intentaré contarles una gloriosa
historia sobre la generación de música basada en IA.
Sabrán que no hay escasez de métodos
basados en redes neuronales
que puedan realizar simulaciones físicas,
transferencia de estilo, deepfakes 
y mucha más aplicaciones
donde los datos de entrenamiento son típicamente imágenes o video.
Si los datos de entrenamiento para una red neuronal
está en texto puro, puede aprender sobre eso.
Si los datos de entrenamiento ondasde audio y música,
¡también puede aprender eso!
Espera, en serio?
¡Si!
De hecho, veamos dos ejemplos y luego,
sumergámonos en el increíble artículo de hoy.
En este trabajo anterior 
con el nombre "Mira, Escucha y Aprende", 
dos científicos de DeepMind
se pusieron a buscar en una gran cantidad
de videos con sonido.
Vean que aquí hay una red neuronal
para procesar la imagen,
y una para la información de audio.

English: 
Dear Fellow Scholars, this is Two Minute Papers
with Dr. Károly Zsolnai-Fehér.
Today, I will attempt to tell you a glorious
tale about AI-based music generation.
You see, there is no shortage of neural network-based
methods that can perform physics simulations,
style transfer, deepfakes, and a lot more
applications where the training data is typically
images, or video.
If the training data for a neural network
is in pure text, it can learn about that.
If the training data is waveforms and music,
it can learn that too!
Wait, really?
Yes!
In fact, let’s look at two examples and
then, dive into today’s amazing paper.
In this earlier work by the name Look, Listen
and Learn, two scientists at DeepMind set
out to look at a large number of videos with
sound.
You see here that there is a neural network
for processing the vision, and one for the
audio information.

Spanish: 
Eso suena genial, pero 
¿qué son estos mapas de calor?
Estos fueron creados por este algoritmo de aprendizaje,
y nos muestran qué parte de la imagen
es responsable de los sonidos 
que escuchamos en el video
Cuanto más caliente es el color, 
más sonidos se esperan de una región determinada
Fue realmente sorprendente
que no buscara automáticamente a los humanos
para colorearlos de rojo en el mapa de calor
hay casos en que se espera 
que los humanos sean la fuente del ruido,
por ejemplo, en conciertos, mientras que en otros
casos, no emiten ningún ruido en absoluto
Podría identificar con éxito estos casos.
Esto todavía me parece ciencia ficción,
y cubrimos este documento en 2017,
aproximadamente hace 250 episodios.
Verán que hemos recorrido un largo,
largo camino desde entonces.
A menudo decimos que estas redes neuronales 
deberían intentar incorporar conceptos generales de aprendizaje.
Esa es una excelente y, en este caso, 
comprobable premisa, así que sigamos adelante

English: 
That sounds great, but what are these heatmaps?
These were created by this learning algorithm,
and they show us, which part of the image
is responsible for the sounds that we hear
in the video.
The hotter the color, the more sounds are
expected from a given region.
It was truly amazing that it didn’t automatically
look for humans and colored them red in the
heatmap - there are cases where the humans
are expected to be the source of the noise,
for instance, in concerts, whereas in other
cases, they don’t emit any noise at all.
It could successfully identify these cases.
This still feels like science fiction to me,
and we covered this paper in 2017, approximately
250 episodes ago.
You will see that we have come a long, long
way since.
We often say that these neural networks should
try embody general learning concepts.
That’s an excellent, and in this case, testable
statement, so let’s go ahead and have a

Spanish: 
y observemos que hay debajo de estas redes neuronales procesadoras de imagen y audio  ... y ... sí,
son casi idénticas!
Algunos parámetros no son iguales porque
han sido adaptados a la longitud y dimensionalidad
de los datos entrantes, pero el algoritmo clave
que corremos para el aprendizaje es el mismo.
Más tarde, en 2018, DeepMind publicó un  trabajo derivado que revisa interpretaciones en el piano
de los maestros del pasado 
y aprende a tocar en su estilo
Un factor diferenciador clave aquí fue que no hizo
lo mismo que la mayoría de las técnicas anteriores
que era mirar la partitura de la interpretación
Estas técnicas antiguas sabían qué tocar,
pero no cómo tocar estas notas,
y estas son los sutilezas que realmente
hacen que la música tenga vida
Este método aprendió de ondas de audio
 sin procesar y así, pudo capturar mucho,
mucho más del estilo artístico.
Escuchémoslo, y mientras tanto,
pueden mirar a los compositores

English: 
look under the hood of these vision and audio
processing neural networks…and…yes, they
are almost identical!
Some parameters are not same because they
have been adapted to the length and dimensionality
of the incoming data, but the key algorithm
that we run for the learning is the same.
Later, in 2018 DeepMind published a followup
work that looks at performances on the piano
from the masters of the past and learns play
in their style.
A key differentiating factor here was that
it did not do what most previous techniques
do, which was looking at the score of the
performance.
These older techniques knew what to play,
but not how to play these notes, and these
are the nuances that truly make music come
alive.
This method learned from raw audio waveforms
and thus, could capture much, much more of
the artistic style.
Let’s listen to it, and in the meantime,
you can look at the composers it has learned

English: 
from to produce these works.
However, in 2019, OpenAI recognized that text-based
music synthesizers can not only look at a
piece of score, but can also continue it,
thereby composing a new piece of music, and
what’s more, they could even create really
cool blends between genres.
Listen as their AI starts out from the first
6 notes of a Chopin piece and transitions

Spanish: 
de los que ha aprendido a producir estas obras.
Sin embargo, en 2019, OpenAI reconoció que los sintetizadores de música basados en texto no solo pueden mirar una partitura
sino que también puede continuarla, componiendo así una nueva pieza musical
y aún más, podrían incluso crear
mezclas realmente geniales entre géneros.
Escuchen como su IA comienza con las primeras 6 notas de una pieza de Chopin y se transforma
a un estilo pop con un montón instrumentos diferentes que entran luego de algunos segundos

Spanish: 
¡Genial!
Las técnicas basadas en partituras carecen un poco de matices, pero puede hacer mezclas mágicas de géneros
y más, mientras que las técnicas basadas en la onda de audio son más limitadas,
pero pueden crear música más sofisticada.
¿Están pensando lo que yo estoy pensando?
Sí, adivinaron, agárrense de sus
documentos, porque en el nuevo trabajo de OpenAI,
Intentaron fusionar los dos conceptos, o
en otras palabras, toma un género, un artista
e incluso letras como entrada, y este crearía una canción para nosotros.
Maravillémonos con algunas pocas muestras curadas.
La información del género, 
artista y letra estará siempre en la pantalla

English: 
into a pop style with a bunch of different
instruments entering a few seconds in.
Very cool!
The score-based techniques are a little lacking
in nuance, but can do magical genre mixing
and more, whereas the waveform-based techniques
are more limited, but can create much more
sophisticated music.
Are you thinking what I am thinking?
Yes, you have guessed right, hold on to your
papers, because in OpenAI’s new work, they
tried to fuse the two concepts together, or,
in other words, take a genre, an artist, and
even lyrics as an input, and it would create
a song for us.
Let’s marvel at these few curated samples
together.

Spanish: 
Wow, estoy sin palabras.
También me encantaron las letras basadas en IA
Esto tiene el matiz de las técnicas basadas en ondas de audio, con la versatilidad de los métodos basados ​​en partitura
¡Glorioso!
Si miran en la descripción del video,
también encontrarán una 
selección de muestras de música no curadas
Hace lo que hace al comprimir la onda de audio sin procesar en una representación compacta.

English: 
The genre, artist and lyrics information will
always be on
the screen.
Wow, I am speechless.
Loved the AI-based lyrics too.
This has the nuance of waveform-based techniques,
with the versatility of the score-based methods.
Glorious!
If you look in the video description, you
will find a selection of uncurated music samples
as well.
It does what it does by compressing the raw
audio waveform into a compact representation.

English: 
In this space, it is much easier to synthesize
new patterns, after which, we can decompress
it to get the output waveforms.
It has also learned to group up and cluster
a selection of artists which reflects how
the AI thinks about them.
There is so much cool stuff in here that it
would be worthy of a video of its own.
Note that it currently takes 9 hours to generate
one minute of music, and the network was mainly
trained on Western music and only speaks English,
but you know, as we always say around here,
two more papers down the line, and it will
be improved significantly.
I cannot wait to report on them should any
followup works appear, so make sure to subscribe
and hit the bell icon to not miss it.

Spanish: 
En este espacio, es mucho más fácil sintetizar
nuevos patrones, después de lo cual, podemos descomprimirla
para obtener las ondas de salida.
También ha aprendido a agrupar
una selección de artistas
lo cual refleja cómo la IA piensa sobre ellos.
Hay tantas cosas interesantes allí que
sería digno de un video propio.
Tengan en cuenta que actualmente toma 9 horas generar un minuto de música,
y la red fue entrenada principalmente 
en música occidental y solo habla inglés,
pero ya sabes, como siempre decimos por aquí,
dos artículos más a futuro, 
y será mejorada significativamente.
No puedo esperar para informar 
sobre ellos si aparecen artículos derivados,
así que asegúrense de suscribirse y presionar el ícono de la campana para que no se lo pierdan
¡Qué tiempo para estar vivo!

English: 
What a time to be alive!
Thanks for watching and for your generous
support, and I'll see you next time!

Spanish: 
Gracias por mirar y por su generoso
apoyo, y nos vemos la próxima vez!
