
Turkish: 
Sevgili Araştırmacılar, Bu İki Dakika Bildirimi
Károly Zsolnai-Fehér ile birlikte.
Bugün biraz şaşırtıcı dinleyeceğiz
AI tabanlı ses alanındaki gelişmeler
Klonlama.
Mesela birileri klonlamak istiyorsa
sesim saatim ve saatim var
Youtube ve diğer yerlerdeki kayıtlar
önceden var olan tekniklerle yapabilirdi.
Ama bugün sorun şu ki, eğer olsaydı
Bunu yapmak için daha gelişmiş yöntemler, ne kadar büyük
Bir ses örneğinden gerçekten
bu?
Birkaç saate ihtiyacımız var mı?
Birkaç dakika?
Cevap hayır.
Bir şey değil.
Gazetelerinize tutun çünkü bu yeni teknik
sadece 5 saniye sürer.

English: 
Dear Fellow Scholars, this is Two Minute Papers
with Károly Zsolnai-Fehér.
Today we are going to listen to some amazing
improvements in the area of AI-based voice
cloning.
For instance, if someone wanted to clone my
voice, there are hours and hours of my voice
recordings on Youtube and elsewhere, they
could do it with previously existing techniques.
But the question today is, if we had even
more advanced methods to do this, how big
of a sound sample would we really need for
this?
Do we need a few hours?
A few minutes?
The answer is no.
Not at all.
Hold on to your papers because this new technique
only requires 5 seconds.

Turkish: 
Birkaç örnek dinleyelim.
Kesinlikle inanılmaz.
Sesin tınısı çok benzer ve
sesleri ve ünsüz seslerini sentezleyebilir
onlar çıkarım olması gerek çünkü onlar
Orijinal ses örneğinde duyulmaz.
Bu, belirli bir istihbarat gerektirir
ve biraz da bundan.
Peki, biz varken, bu nasıl yeni
sistem çalışması?
Eh, üç bileşen gerektirir.
Birincisi, hoparlör kodlayıcısı bir sinir ağıdır.
Bu binlerce ve binlerce üzerinde eğitildi
konuşmacıların hepsi bu ve sıkmak içindir
sıkıştırılmış bir gösterime veri öğrenildi.
Başka bir deyişle, özü öğrenmeye çalışır
birçok konuşmacıdan insan konuşması.

English: 
Let’s listen to a couple examples.
Absolutely incredible.
The timbre of the voice is very similar, and
it is able to synthesize sounds and consonants
that have to be inferred because they were
not heard in the original voice sample.
This requires a certain kind of intelligence
and quite a bit of that.
So, while we are at that, how does this new
system work?
Well, it requires three components.
One, the speaker encoder is a neural network
that was trained on thousands and thousands
of speakers and is meant to squeeze all this
learned data into a compressed representation.
In other words, it tries to learn the essence
of human speech from many many speakers.

Turkish: 
Netleştirmek için, bu sistemin dinlediğini ekleyeceğim.
binlerce kişiyi öğrenmek için konuşuyor
İnsan konuşmasının karmaşıklığı, ancak bu eğitim
adım sadece bir kez ve sonra yapılması gerekenler
Sadece 5 saniyelik konuşmaya izin verildi.
duymadıkları birinden gelen veriler
daha önce ve sonra sentez
giriş olarak bu 5 saniyeyi kullanarak yerleştirin.
İkincisi, metin alan bir sentezleyicimiz var
bir girdi olarak, bizim istediğimiz şey bu
Test konusu, bize bir Mel verir.
Kısa bir gösterim olan Spectrogram
birinin sesi ve tonlaması.
Bu modülün uygulaması dayanmaktadır
DeepMind'in Tacotron 2 tekniği ve
Burada bu Mel spektrogramının bir örneğini görebilirsiniz
bir erkek ve iki kadın konuşmacı için üretilmiştir.
Sol tarafta,
referans kayıtları, eğer ses örnekleri
yapacaksın ve sağ tarafta bir parça belirteceğiz
öğrenme algoritmasını istediğimiz metnin
mutlak ve bunları karşılık gelen üretir
sentezlenmiş spektrogramlar.

English: 
To clarify, I will add that this system listens
to thousands of people talking to learn the
intricacies of human speech, but this training
step needs to be done only once, and after
that, it was allowed just 5 seconds of speech
data from someone they haven’t heard of
previously, and later, the synthesis takes
place using this 5 seconds as an input.
Two, we have a synthesizer that takes text
as an input, this is what we would like our
test subject to say, and it gives us a Mel
Spectrogram, which is a concise representation
of someone’s voice and intonation.
The implementation of this module is based
on DeepMind’s Tacotron 2 technique, and
here you can see an example of this Mel spectrogram
built for a male and two female speakers.
On the left, we have the spectrograms of the
reference recordings, the voice samples if
you will, and on the right, we specify a piece
of text that we would like the learning algorithm
to utter, and it produces these corresponding
synthesized spectrograms.

English: 
But, eventually, we would like to listen to
something, and for that, we need a waveform
as an output.
So, the third element is thus a neural vocoder
that does exactly that, and this component
is implemented by DeepMind’s WaveNet technique.
This is the architecture that led to these
amazing examples.
So how do we measure exactly how amazing it
is?
When we have a solution, evaluating it is
also anything but trivial.
In principle, we are looking for a result
that is both close to the recording that we
have of the target person, but says something
completely different, and all this in a natural
manner.
This naturalness and similarity can be measured,
but we’re not nearly done yet, because the
problem gets even more difficult.
For instance, it matters how we fit the three
puzzle pieces together, and then, what data
we train on, of course, also matters a great
deal.

Turkish: 
Ancak, sonunda dinlemek istiyoruz.
bir şey ve bunun için bir dalga biçimine ihtiyacımız var
çıktı olarak.
Böylece, üçüncü eleman sinirsel bir kodlayıcıdır.
Bu tam olarak bunu yapar ve bu bileşen
DeepMind'in WaveNet tekniği ile uygulanır.
Bu onlara yol açan mimari
şaşırtıcı örnekler.
Peki tam olarak ne kadar şaşırtıcı olduğunu nasıl ölçebiliriz?
dır-dir?
Bir çözüme sahip olduğumuzda değerlendirme yapmak
ayrıca önemsiz şeyler dışında.
Prensip olarak bir sonuç arıyoruz
ikisi de kaydettiğimiz kayda yakın
Hedef kişiden var, ancak bir şey söylüyor
tamamen farklı ve tüm bunlar doğal
tavır.
Bu doğallık ve benzerlik ölçülebilir,
ama henüz bitmedi, çünkü
sorun daha da zorlaşıyor.
Örneğin, bu üçe nasıl uyduğumuz önemli
birlikte parçaları puzzle, ve sonra, hangi verileri
Elbette, eğitiyoruz, aynı zamanda çok önemli
anlaştık mı.

English: 
Here you see that if we train on one dataset
and test the results against a different one,
and then, swap the two, and…the results
in naturalness and similarity will differ
significantly.
The paper contains a very detailed evaluation
section that explains how to deal with these
difficulties.
The mean opinion score is measured in this
section, which is a number that describes
how well a sound sample would pass as genuine
human speech.
And we haven’t even talked about the speaker
verification part, so make sure to have a
look at the paper.
So, indeed, we can clone each other’s voice
by using a sample of only 5 seconds.
What a time to be alive!
This episode has been supported by Weights
& Biases.
Weights & Biases provides tools to track your
experiments in your deep learning projects.
It can save you a ton of time and money in
these projects and is being used by OpenAI,
Toyota Research, Stanford and Berkeley.

Turkish: 
Burada bir veri kümesi üzerinde eğitim yaparsak görüyorsunuz
ve sonuçları farklı sonuçlara karşı test etmek,
ve sonra ikisini değiştirin ve… sonuçları
doğallık ve benzerlik bakımından farklı olacaktır
Büyük ölçüde.
Makale çok ayrıntılı bir değerlendirme içeriyor
bunlarla nasıl başa çıkılacağını açıklayan bölüm
zorluklar.
Buradaki ortalama görüş puanı ölçülür.
açıklayan bir sayı olan bölüm
Bir ses örneğinin orijinal olarak ne kadar iyi geçeceği
insan konuşması.
Ve konuşmacı hakkında konuşmadık bile.
doğrulama bölümü, bir
kağıda bak.
Yani gerçekten birbirimizin sesini klonlayabiliriz.
sadece 5 saniyelik bir örnek kullanarak.
Yaşamak için ne zaman!
Bu bölüm Ağırlıklar tarafından desteklenmiştir
Ve Önyargılar.
Ağırlıklar ve Eğilimler
derin öğrenme projelerinizde deneyler.
Size zaman ve paradan tasarruf etmenizi sağlar.
bu projeler ve OpenAI tarafından kullanılıyor,
Toyota Araştırma, Stanford ve Berkeley.

English: 
They also wrote a guide on the fundamentals
of neural networks where they explain in simple
terms how to train a neural network properly,
what are the most common errors you can make,
and how to fix them.
It is really great, you got to have a look.
So make sure to visit them through wandb.com/papers
or just click the link in the video description
and you can get a free demo today.
Our thanks to Weights & Biases for helping
us make better videos for you.
Thanks for watching and for your generous
support, and I'll see you next time!

Turkish: 
Ayrıca, temelleri hakkında bir rehber yazdılar.
basitçe açıkladıkları sinir ağlarının listesi
Bir sinir ağını nasıl düzgün bir şekilde eğiteceğini,
Yapabileceğiniz en yaygın hatalar nelerdir?
ve onları düzeltmek için nasıl.
Bu gerçekten harika, bir göz atmalısın.
Bu yüzden onları wandb.com/papers yoluyla ziyaret ettiğinizden emin olun
veya video açıklamasındaki bağlantıyı tıklamanız yeterli
ve bugün ücretsiz bir demo alabilirsiniz.
Yardımlarınız için Ağırlıklar ve Önyargılara teşekkürlerimiz
sizin için daha iyi videolar yapalım.
İzlediğiniz ve cömertliğiniz için teşekkürler.
destek ve bir dahaki sefere görüşürüz!
