
Indonesian: 
Rekan-rekan Sarjana yang Terhormat, ini adalah Two Minute Papers
dengan Dr. Károly Zsolnai-Fehér.
Saat menonton film fiksi ilmiah, kita sering
menemukan perangkat dan teknologi yang keren
tidak benar-benar ada, atau kadang-kadang, yang itu
bahkan tidak mungkin bisa dibuat.
Misalnya, merekonstruksi suara dari getaran
akan menjadi contoh yang bagus untuk itu, dan
bisa membuat cerita novel yang hebat dengan layanan rahasia
mencoba menangkap penjahat berbahaya.
Sebenarnya itu sudah dilakukan secara nyata di
penelitian secara real.
Saya pikir anda bisa membayangkan betapa terkejutnya saya
ketika saya melihat makalah ini pada tahun 2014 yang dipamerkan
hasil di mana kamera melihat tas ini
chip, dan dari getaran kecil-kecil ini,
itu bisa merekonstruksi suara di dalam ruangan.
Mari dengarkan.

Chinese: 
親愛的學者觀眾們大家好，我是兩分鐘論文的 Károly Zsolnai-Fehér 博士。
常常在我們看的科幻電影中出現的超乎現實的驚人科技，
在現實中並不存在，甚至在理論上根本不可能實現。
譬如說，利用觀察物體微小的震動來還原周遭環境的背景聲音！
這感覺起來壓根是一部絕妙的特務小說，利用這個科技來循線捕捉兇惡的罪犯！
可是，這類的研究早就已經出現在現實生活中。
我想你應該可以想像我當時發現這項研究的驚訝。在2014年的研究成果證實，
從一個攝影機所觀察到這個洋芋片包裝的超級細微震動，
可以還原這洋芋片所在的房間的背景聲音。
咱們來聽聽看。

Spanish: 
Estimados becarios, esto es dos documentos de minutos
con el Dr. Károly Zsolnai-Fehér.
Cuando vemos películas de ciencia ficción, a menudo
encontrar dispositivos y tecnologías locos que
realmente no existen, o algunas veces, las que
Ni siquiera son posibles de hacer.
Por ejemplo, reconstruir sonido a partir de vibraciones
sería un excelente ejemplo de eso, y
podría hacer una gran novela con el servicio secreto
tratando de atrapar criminales peligrosos.
Excepto que ya se ha hecho en tiempo real.
Investigación de la vida.
Creo que te puedes imaginar lo sorprendido que estaba
cuando vi este artículo en 2014 que mostraba
un resultado donde una cámara mira esta bolsa
de chips, y de estas vibraciones minúsculas,
podría reconstruir los sonidos en la habitación.
Vamos a escuchar.

English: 
Dear Fellow Scholars, this is Two Minute Papers
with Dr. Károly Zsolnai-Fehér.
When watching science fiction movies, we often
encounter crazy devices and technologies that
don’t really exist, or sometimes, ones that
are not even possible to make.
For instance, reconstructing sound from vibrations
would be an excellent example of that, and
could make a great novel with the secret service
trying to catch dangerous criminals.
Except that it has already been done in real
life research.
I think you can imagine how surprised I was
when I saw this paper in 2014 that showcased
a result where a camera looks at this bag
of chips, and from these tiny-tiny vibrations,
it could reconstruct the sounds in the room.
Let’s listen.

Indonesian: 
Ya, ini memang terdengar seperti fiksi ilmiah.
Tapi 2014 sudah lama sekali, dan sejak itu
kemudian, kami memiliki pilihan pembelajaran yang kuat
algoritma, dan pertanyaannya adalah, apa
ide berikutnya yang terdengar sangat mustahil
beberapa tahun yang lalu, yang sekarang bisa mungkin?
Nah, bagaimana dengan melihat rekaman tanpa suara
dari pembicara dan mencoba menebak apa yang mereka
katakan?
Tanda centang, itu terdengar sangat mustahil
bagi saya, teknik baru ini bisa
menghasilkan keseluruhan pidato ini setelahnya
melihat rekaman video dari gerakan bibir.
Mari dengarkan.
Wow.

Spanish: 
Sí, esto de hecho suena a ciencia ficción.
Pero 2014 fue hace mucho, mucho tiempo, y desde
entonces, tenemos una selección de aprendizaje poderoso
algoritmos, y la pregunta es, ¿qué es
la siguiente idea que sonaba completamente imposible
hace unos años, que ahora es posible?
Bueno, ¿qué hay de mirar imágenes silenciosas?
de un orador y tratando de adivinar lo que
¿estaban diciendo?
Marca de verificación, eso suena absolutamente imposible
para mí, sin embargo, esta nueva técnica es capaz de
producir la totalidad de este discurso después
mirando el video de los movimientos de los labios.
Vamos a escuchar.
Guau.

Chinese: 
沒錯！這的確聽起來像是科幻小說！
2014(論文發表)卻已經是經過很久一段時間了。從那之後，我們科學界又研究開發書更多強力的運算邏輯。
那接下來的問題就是，有什麼是點子是之前聽起來完全不可能，
在幾年後的今天卻變得可能呢？
 
 
 
 
 
 

English: 
Yes, this indeed sounds like science fiction.
But 2014 was a long-long time ago, and since
then, we have a selection of powerful learning
algorithms, and the question is, what’s
the next idea that sounded completely impossible
a few years ago, which is now possible?
Well, what about looking at silent footage
from a speaker and trying to guess what they
were saying?
Checkmark, that sounds absolutely impossible
to me, yet, this new technique is able to
produce the entirety of this speech after
looking at the video footage of the lip movements.
Let’s listen.
Wow.

Indonesian: 
Jadi pertanyaan pertama adalah, tentu saja, apa
digunakan sebagai data training ?
Ini menggunakan dataset dengan video ceramah dan
komentar catur dari 5 pembicara, dan buat
tanpa kesalahan, dibutuhkan satu ton data dari pembicara, sekitar 20 jam dari masing-masing, tetapi itu
menggunakan video yang diambil secara alami,
yang merupakan sesuatu yang kita miliki dalam kelimpahan
di Youtube dan tempat-tempat lain di internet.
Perhatikan bahwa jaringan saraf berfungsi pada
pembicara yang sama dengan yang dilatih dan bisa
untuk mempelajari gerakan dan gerakan bibir mereka
sangat baik.
Namun, ini bukan percobaan pertama
untuk melakukan ini, jadi mari kita lihat bagaimana membandingkannya
untuk kompetisi.
Yang baru sangat dekat dengan yang benar diucapkan
kalimat.

Chinese: 
 
 
 
 
 
 
 
 
 
 

Spanish: 
Entonces, la primera pregunta es, por supuesto, qué
fue utilizado como los datos de entrenamiento?
Se utilizó un conjunto de datos con videos de conferencias y
comentario de ajedrez de 5 oradores, y hacer
no hay error, toma una tonelada de datos de estos
altavoces, aproximadamente 20 horas de cada uno, pero
usa videos que se grabaron en un entorno natural,
que es algo que tenemos en abundancia
en Youtube y otros lugares en internet.
Tenga en cuenta que la red neuronal funciona en el
mismos oradores en los que fue entrenado y pudo
para aprender sus gestos y movimientos de labios
notablemente bien.
Sin embargo, este no es el primer trabajo que intenta
para hacer esto, así que veamos cómo se compara
a la competencia.
El nuevo está muy cerca del verdadero hablado.
frase.

English: 
So the first question is, of course, what
was used as the training data?
It used a dataset with lecture videos and
chess commentary from 5 speakers, and make
no mistake, it takes a ton of data from these
speakers, about 20 hours from each, but it
uses video that was shot in a natural setting,
which is something that we have in abundance
on Youtube and other places on the internet.
Note that the neural network works on the
same speakers it was trained on and was able
to learn their gestures and lip movements
remarkably well.
However, this is not the first work attempting
to do this, so let’s see how it compares
to the competition.
The new one is very close to the true spoken
sentence.

Spanish: 
Miremos otro.
Tenga en cuenta que hay gestos, un razonable
cantidad de movimiento de la cabeza y otros factores
en juego y el algoritmo funciona increíblemente bien.
Las aplicaciones potenciales de esto podrían ser video
conferencias en zonas donde tenemos que estar
en silencio, dando voz a las personas con
incapacidad para hablar debido a afonía u otro
condiciones o, potencialmente, arreglar una pieza
de secuencias de video donde partes del discurso
La señal está corrompida.
En estos casos, las lagunas podrían llenarse
con tal
una tecnica.
¡Mira!
Ahora, echemos un vistazo debajo del capó.

Chinese: 
 
 
 
 
 
 
 
 
 
 
 

English: 
Let’s look at another one.
Note that there are gestures, a reasonable
amount of head movement and other factors
at play and the algorithm does amazingly well.
Potential applications of this could be video
conferencing in zones where we have to be
silent, giving a voice to people with the
inability to speak due to aphonia or other
conditions, or, potentially fixing a piece
of video footage where parts of the speech
signal are corrupted.
In these cases, the gaps could be filled in
with such
a technique.
Look!
Now, let’s have a look under the hood.

Indonesian: 
Mari kita lihat yang lain.
Perhatikan bahwa ada gerakan, yang masuk akal
jumlah pergerakan kepala dan faktor lainnya
saat di putar dan algoritma bekerja dengan sangat baik.
Aplikasi potensial ini bisa berupa video
konferensi di zona di mana kita harus
diam, memberikan suara kepada orang dengan
ketidakmampuan untuk berbicara karena aphonia atau lainnya
kondisi, atau, berpotensi memperbaiki sepotong
rekaman video di mana bagian dari pidato tersebut
sinyal rusak.
Dalam kasus ini, celah bisa diisi
dengan itu
sebuah teknik.
Lihat!
Sekarang, mari kita lihat di balik semua ini.

Spanish: 
Si visualizamos las activaciones dentro de este
red neuronal, vemos que descubrió que
principalmente mira la boca del hablante.
Eso, por supuesto, no es sorprendente.
Sin embargo, lo sorprendente es que el otro
regiones, por ejemplo, alrededor de la frente
y las cejas también son importantes para la atención
mecanismo.
Quizás esto podría significar que también se ve
a los gestos del hablante, y usa eso
Información para la síntesis del habla.
Este aspecto del trabajo me parece muy interesante.
y me encantaría ver un análisis adicional
en ese.
Hay mucho más en el periódico, por ejemplo,
Mencioné dar voz a las personas con
Afonía, que no debería ser posible porque
estamos entrenando estas redes neuronales para
un orador específico, pero con un adicional
paso de incrustación del altavoz, es posible
empareje cualquier altavoz con cualquier voz.
Este es otro trabajo increíble que me hace
sentir que estamos viviendo en una ciencia ficción
mundo.

English: 
If we visualize the activations within this
neural network, we see that it found out that
it mainly looks at the mouth of the speaker.
That is, of course, not surprising.
However, what is surprising is that the other
regions, for instance, around the forehead
and eyebrows are also important to the attention
mechanism.
Perhaps this could mean that it also looks
at the gestures of the speaker, and uses that
information for the speech synthesis.
I find this aspect of the work very intriguing
and would love to see some additional analysis
on that.
There is so much more in the paper, for instance,
I mentioned giving a voice to people with
aphonia, which should not be possible because
we are training these neural networks for
a specific speaker, but with an additional
speaker embedding step, it is possible to
pair up any speaker with any voice.
This is another amazing work that makes me
feel like we are living in a science fiction
world.

Chinese: 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Indonesian: 
Jika kami memvisualisasikan aktivasi dalam ini
jaringan saraf, kita melihat bahwa itu menemukan itu
dari terutama terlihat di mulut pembicara.
Tentu saja itu tidak mengejutkan.
Namun, yang mengejutkan adalah yang lain
daerah, misalnya, di sekitar dahi
dan alis juga penting untuk diperhatikan
mekanisme.
Mungkin ini bisa berarti itu juga terlihat
pada gerakan pembicara, dan menggunakan
informasinya untuk speech sintesis.
Saya menemukan aspek pekerjaan ini sangat menarik
dan akan senang melihat beberapa analisis tambahan
itu.
Ada jauh lebih banyak di koran, misalnya,
Saya sebutkan memberikan suara kepada orang-orang dengan
aphonia, yang seharusnya tidak mungkin karena
kami sedang melatih jaringan saraf ini untuk
pembicara tertentu, tetapi dengan tambahan
pembicara menanamkan langkah, dimungkinkan untuk
memasangkan speaker apa pun dengan suara apa pun.
Ini adalah pekerjaan luar biasa yang membuat saya
merasa seperti kita hidup dalam fiksi ilmiah
dunia.

Spanish: 
Solo puedo imaginar lo que podremos
hacer con esta técnica dos papeles más abajo
la línea.
Si tienes alguna idea, no dudes en especular
en la sección de comentarios a continuación.
¡Qué tiempo para estar vivo!

English: 
I can only imagine what we will be able to
do with this technique two more papers down
the line.
If you have any ideas, feel free to speculate
in the comments section below.
What a time to be alive!

Indonesian: 
Saya hanya bisa membayangkan apa yang bisa kita dapat
lakukan dengan teknik ini dua makalah lagi
garis.
Jika Anda punya ide, jangan ragu untuk berspekulasi
di bagian komentar di bawah ini.
Waktu yang tepat untuk hidup!

Chinese: 
 
 
 
 

Spanish: 
Gracias por mirar y por tu generosa
apoyo, y nos vemos la próxima vez!

English: 
Thanks for watching and for your generous
support, and I'll see you next time!

Chinese: 
 

Indonesian: 
Terima kasih telah menonton dan untuk kebaikan Anda
mendukung, dan sampai jumpa lagi!
