
Spanish: 
Estimados Colegas y Académicos, esto es Two Minute Papers con Károly Zsolnai-Fehér.
Cuando abrí hoy mi inbox, [para mi grata sorpresa] recibí una gran cantidad de mensajes sobre WaveNet.
Bueno, primero, es grandiosos ver que tanta gente está emocionada por estos inventos,
y, segundo, espero que todos sus deseos se vuelvan realidad tan pronto como este!
Entonces, aquí vamos.
Este trabajo es sobre generación de ondas de audio [a bajo nivel] para Text-to-Speech y más.
Text-toSpeech básicamente consiste tener una voz leyendo lo que sea que hayamos escrito.
La diferencia en este trabajo es que es capaz de sintetizar este audio usando la voz de cualquier persona

English: 
Dear Fellow Scholars, this is Two Minute Papers
with Károly Zsolnai-Fehér.
When I opened my inbox today, I was greeted
by a huge deluge of messages about WaveNet.
Well, first, it's great to see that so many
people are excited about these inventions,
and second, may all your wishes come true
as quickly as this one!
So here we go.
This piece of work is about generating audio
waveforms for Text To Speech and more.
Text To Speech basically means that we have
a voice reading whatever we have written down.
The difference in this work, is, however that
it can synthesize these samples in someone's

English: 
voice provided that we have training samples
of this person speaking.
It also generates waveforms sample by sample,
which is particularly perilous because we
typically need to produce these at the rate
of 16 or 24 thousand samples per second, and
as we listen to the TV, radio and talk to
each other several hours a day, the human
ear and brain is particularly suited to processing
this kind of signal.
If the result is off by only the slightest
amount, we immediately recognize it.
It is not using a recurrent neural network,
which is typically suited to learn sequences
of things, and is widely used for sound synthesis.
It is using a convolutional neural network,
which is quite surprising because it is not
meant to process sequences of data that change
in time.
However, this variant contains an extension
that is able to do that.

Spanish: 
una vez que hayamos entrenado [a WaveNet] con muestras de audio de esta persona hablando.
También genera las ondas de audio muestra por muestra, lo cual es particularmente delicado, porque
típicamente necesita producirlas a un ritmo de 16 o 24 mil muestras por segunto, y
mientras nosotros escuchamos televisión, radio, y hablamos con otros por varias horas al día,
el oído y el cerebro humano están particularmente adaptados a procesar este tipo de señales.
Si el resultado falla por una muy pequeña cantidad de tiempo, inmediatamente podremos reconocerlo.
[WaveNet] no usa una red neuronal recurrente, que típicamente son muy adecuadas para aprender secuencias,
y que son ampliamente usadas para síntesis de sonidos.
[WaveNet] usa redes neuronales de convolución, lo cual es bastante sorprendente porque [estas] no se diseñaron
para procesar secuencias de datos que cambien en el tiempo.
Como sea, esta variante contiene una extensión que es capaz de hacerlo.

English: 
They call this extension dilated convolutions
and they open up the possibility of making
large skips in the input data so we have a
better global view of it.
If we were working in computer vision, it
would be like increasing the receptive field
of the eye so we can see the entire landscape,
and not only a tree on a photograph.
It is also a bit like the temporal coherence
problem we've talked about earlier.
Taking all this into consideration results
in more consistent outputs over larger time
scales, so the technique knows what it had
done several seconds ago.
Also, training a convolutional neural network
is a walk in the park compared to a recurrent
neural network.
Really cool!
And the results beat all existing widely used
techniques by a large margin.
One of these is the concatenative technique,
which builds sentences from a huge amount
of small speech fragments.

Spanish: 
[El equipo Deep Mind] han llamado a esta extensión "convolución dilatada", abren la posibilidad de hacer
saltos largos sobre los datos de entrada, de modo que podamos tener una mejor visión global de éstos.
Si estuviéramos trabajando con visión computacional, sería como aumentar el campo receptivo del ojo,
de modo que podamos ver el paisaje entero, y no solo un árbol en una fotografía.
También es muy parecido al problema de la coherencia temporal, del cual hemos hablado anteriormente.
Tomando todo esto en consideración, los resultados son más consistentes en escalas más grandes de tiempo,
ya que [WaveNet] sabe qué es lo que ha hecho varios segundos atrás.
Además, entrenar una red neuronal de convolución es un paseo en el parque (pan comido) comparado con
entrenar redes neuronales recurrentes.
¡Realmente asombroso!
Y los resultados aventajan por un largo margen a todas las técnicas existentes que se usan ampliamante.
Uno de ellas es la técnica de concatencación, que construye oraciones a partir de una gran cantidad
de pequeños fragmentos de habla.

Spanish: 
[La técnica de concatenación] ha pasado por numerosas mejoras a través de los años, pero los resultados todavía son "robóticos"
y todavía es muy notorio que no estamos escuchando a un humano, sino a una computadora.
El personal de DeepMind también reporta: "Note que los sonidos [que no son palabras], como la respiración y
los movimientos de la boca, también son generados por WaveNet a veces; esto refleja la gran flexibilidad
de un modelo de audio sin procesar".
Dicho sea de paso, en algunos de los siguientes episodios, puede que mi voz
suene un poco diferente, pero no se preocupen por ello.

English: 
These have seen a ton of improvements during
the years, but the outputs are still robotic
and it is noticeable that we're not listening
to a human but a computer.
The DeepMind guys also report that: "Notice
that non-speech sounds, such as breathing
and mouth movements, are also sometimes generated
by WaveNet; this reflects the greater flexibility
of a raw-audio model."
At the same time, I'd like to note that in the
next few episodes, it may be that my voice
is a bit different, but don't worry about
that.

English: 
It may also happen that I am on a vacation
but new episodes and voice samples pop up
on the channel, please don't worry about that
either.
Everything is working as intended!
They also experimented with music generation,
and the results are just stunning.
I don't know what to say.
These difficult problems, these impenetrable
walls crumble one after another as DeepMind
takes on them.
Insanity.

Spanish: 
También puede ocurrir que esté de vacaciones pero nuevos episodios y muestras de voz aparezcan
en mi canal; por favor no se preocupen tampoco por ello.
¡Todo estará funcionando como lo esperado!
[El equipo Deep Mind] también han experimentado con generación de música, y los resultados son sencillamente impresionantes.
No sé que decir.
Estos problemas difíciles, estas barreras impenetrables, se derrumban una tras otra mientras
Deep Mind se encarga de ellas.
Es una locura.

Spanish: 
El post en su blog y su artículo [del equipo Deep Mind sobre WaveNet] están realmente bien escritos, así que asegúrese de revisarlos,
en la descripción del video están los hipervínculos para ambos.
Yo apuesto que la transferencia de estilo para sonido e instrumentos musicales no sólo está cerca.
sino que estará aquí dentro de poco.
Imagino que podremos tocar una guitarra y sonará como un arpa, y seremos capaces de
cantar algo con la voz y la entonación de Lady Gaga.
También me enterado de alguien pensando la idea de crear audiolibros automáticamente
usando esta técnica.
Vaya.
Yo viajo mucho y estoy casi siempre en el camino, así que personalmente estaría muy feliz
con esos audiolibros.
También puse en la descripción del video el link de la descripción en reddit; como siempre
hay un montón de buenas discusiones e ideas allí.
Se ha reportado que actualmente el algoritmo tarda 90 minutos en sintetizar un segundo
de audio [como ondas de sonido].
Ya saben como es esto: un artículo que haga el seguimiento y serán sólo unos minutos,

English: 
Their blog post and the paper are both really
well written, make sure to check them out,
they are both linked in the video description
box.
I wager that artistic style transfer for sound
and instruments is not only coming, but it'll
be here soon.
I imagine that we'll play a guitar and it
will sound like a harp, and we'll be able
to sing something in Lady Gaga's voice and
intonation.
I've also seen someone pitching the idea of
creating audiobooks automatically with such
a technique.
Wow.
I travel a lot and am almost always on the
go, so I personally would love to have such
audiobooks!
I have linked the mentioned machine learning
reddit thread in the description box, as always,
there's lots of great discussion and ideas
there.
It was also reported that the algorithm currently
takes 90 minutes to synthesize one second
of sound waveforms.
You know the drill, one followup paper down
the line, it will take only a few minutes,

English: 
a few more papers down the line, it'll be
real time.
Just think about all these advancements.
What a time we're living in!
And I am extremely excited to present them
all to you Fellow Scholars in Two Minute Papers.
Make sure to leave your thoughts and ideas
in the comments section, we love reading them!
Thanks for watching, and for your generous
support, and I'll see you next time!

Spanish: 
algunos artículos de seguimiento más y [el algoritmo] será en tiempo real.
Tan sólo imagina todos esos avances.
Una gran época para vivir!
Estoy extremadamente emocionado de presentar estos avances a ustedes, Colegas Académicos, en Two Minute Papers.
Asegúrese de dejar sus ideas y reflexiones en la sección de comentarios, nosotros nos encanta leerlas!
Gracias por vernos, y por su generoso apoyo, y nos vemos en la próxima!
