
English: 
Let's imagine that you work for a major streaming media provider right? So you have I know some 100 million drivers
So you've got I don't know ten thousand videos on your site or many more audio files, right
so for each user you're gonna have collected information on what they've watched when they've watched it how long they've watched it for whether they
Went from this one to this one. Did that work? Was that good for them? And
So maybe you've got 30,000 data points per user
We're now talking about trillions of data points and your job is to try and predict what someone wants to watch or listen to next
best of luck
So we've cleaned the data we've transformed our data everything's on the same scale we've joined data sets together
The problem is because we've joined data sets together perhaps our data set has got quite large right now
or maybe we just work for a company that has a lot a lot of data certainly the
General consensus these days is to collect as much data as you can like this isn't always a good idea

Turkish: 
Büyük bir akışlı medya sağlayıcısı için çalıştığınızı düşünelim, değil mi? Yani 100 milyon sürücü biliyorum.
Yani sitenizde on bin video veya daha fazla ses dosyası bilmiyorum, tamam mı?
Her bir kullanıcı için, ne kadar süredir izleyip izlemediklerini, ne zaman izlediklerini izleyenler hakkında bilgi toplamış olacaksınız.
Bundan bu birine gittim. İşe yaradı mı? Bu onlar için iyi miydi? Ve
Belki de kullanıcı başına 30.000 veri puanınız var.
Şimdi trilyonlarca veri noktasından bahsediyoruz ve işiniz birisinin ne izlemek veya dinlemek istediğini tahmin etmek.
iyi şanslar
Böylece, verilerimizi değiştirdik, her şeyi aynı ölçekte oluşturduk, aynı anda veri kümelerine katıldık.
Sorun şu ki, veri kümelerini bir araya getirdik, belki de veri kümemiz şu anda oldukça büyük olmuştur.
ya da belki de sadece çok fazla veriye sahip bir şirket için çalışıyoruz.
Bugünlerde genel fikir birliği, her zaman iyi bir fikir olmadığı kadar çok veri toplamaktır.

Turkish: 
Biz hatırlamak istediklerimiz
Bu en küçük ve en küçük ve kullanışlı veri kümesidir, aksi takdirde harcayacaksınız.
Bu boşa harcanan zaman konusunda CPU saatleri veya GPU saatleri eğitimi
Bilgiye mümkün olduğunca çabuk ulaşmak istiyoruz
Ve eğer bunu harika olacak, az miktarda veriyle yapabilirseniz
Bu yüzden bugün müziğe dayanan çok ilginç bir veri setimiz var.
Günümüzde bir akış servisi gibi bir şey inşa ederken oldukça yaygındır, örneğin Spotify
Bir tavsiye sistemine sahip olmak isteyebilirsiniz
Bu, zevklerine benzeyen insanları kümelendiğiniz bir fikirdir.
ne tür müzik dinliyorlar ve siz biliyorsunuz
Bu müziğin öznitelikleri ve iyi olduğunu söylersen bu kişi yüksek tempo müziği sever
Belki bu parçayı da severdi. Ve bu çalma listeleri oluşturulur nasıl
Sorunlardan biri üretmek zorunda kalacaksın
Tempo gibi şeyler üzerindeki sesin ve bu tür bir sistem üzerinde makineyi öğrenmek için ne kadar can sıkıcı olduklarının açıklamaları
Doğru, ve bu veriler neyle ilgili. Bu yüzden bugün burada bir veri kümesi topladık. Yani
Şu an müzik parçaları üzerinde çok fazla meta veri var. Bunlar serbestçe kullanılabilir

English: 
We what we want remember
It's the smallest most compact and useful data set we can otherwise you're just going to be wasting
CPU hours or GPU hours training on this wasting time
We want to get to the knowledge as quickly as possible
And if you can do that with a small amount of data that's going to be great
So we've got quite an interesting data set to look at today based on music
It's quite common these days when you're building something like a streaming service for example Spotify
You might want to have a recommender system
This is an idea where you've maybe clustered people who are similar in their tastes, you know
what kind of music they're listening to and you know, the
attributes of that music and if you know that you can say well this person likes high tempo music
So maybe he'd like this track as well. And this is how playlists are generated
One of the problems is that you're gonna have to produce
Descriptions of the audio on things like tempo and how upbeat they are in order to machine learn on this kind of system
Right, and that's what this data sets about. So we've collected a dataset here today. That is
Lots and lots of metadata on music tracks right now. These are freely available

English: 
Tracks and freely available data and put a link in the description if you want to have a look at it yourself
I've cleaned it up a bit already because obviously I've been through the process of cleaning and transforming my data
So we're gonna load this now this takes quite a long time to do
Because there's quite a lot of attributes and quite a lot of instances
It's loaded right? How much is this data? Well, we've got 13,500
Observations that's instances, and we've got seven hundred and sixty-two attributes, right?
so that means another way of putting this if in sort of machine learning parlance is we've got thirteen thousand instances and
760 features now these features are a combination of things. So let's have a quick look at the columns
we're looking at so we can see what this data sets about so names of
Music all right, so we've got some
760 features or attributes and you can see there's a lot of slightly meaningless text here

Turkish: 
Kendinize bir göz atmak istiyorsanız, verileri ücretsiz olarak takip edin ve açıklamaya bir link ekleyin.
Bunu biraz önce temizledim çünkü açıkçası verilerimi temizleme ve dönüştürme sürecinden geçtim
Yani bunu şimdi yükleyeceğiz, bu işlem oldukça uzun zaman alıyor.
Çünkü oldukça fazla nitelik ve çok fazla örnek var.
Yüklendi değil mi? Bu veri ne kadar? Eh, biz 13,500 var
Örnek olan gözlemler ve yedi yüz altmış iki özelliğimiz var, değil mi?
bu da bir başka deyişle makineyi öğrenmenin nasıl bir parçası olduğunu, on üç bin örneğimiz varsa,
760 özelliği şimdi bu özellikler bir şeylerin birleşimidir. Öyleyse sütunlara hızlıca bir göz atalım
biz bakıyoruz, böylece bu verinin neyle ilgili olduğunu görebiliyoruz.
Müzik tamam, yani biraz
760 özelliği veya özniteliklerini görüyorsunuz ve burada çok az anlamsız metin var

Turkish: 
Ancak tepeye bakarsak, bize aşina olabilecek bazı gerçekleri göreceksiniz.
Yani şarkı kimliği albüm kimliği türümüz var, değil mi?
Jean ilginç biriydi çünkü kullanmaya başlayabiliriz.
Jean'in müziğinin ne olduğunu ya da onun gibi bir şeyi tahmin etmek için bu sesli açıklamaların bazıları
parça numarası ve parça süresi gibi şeyler ve
Sonra asıl ses tanımlama özelliklerini ele alıyoruz. Şimdi. Bunlar iki farklı kütüphane tarafından üretildi
İlki, mp3 almak için halka açık bir kütüphane olan Lib Rosa'ya denir ve
Müzik türlerinin niteliklerini hesaplamak
Burada yapmaya çalıştığımız şey, verilerimizi nitelikler açısından temsil etmektir. Bir mp3 dosyası bir özellik değildir.
Çok fazla veri var. Peki, bir şekilde özetleyebilir miyiz? Mp3 bakarak hesaplayabilir miyiz?
Tempo nedir, amplitüdün ne olduğu, pistin ne kadar yüksek olduğu, bunun gibi bir şey.
Ölçüyoruz ve bunların çoğu bir dalga şekli seviyesinde çok fazla ayrıntıya girecek
bu yüzden önce Lib Roza'nın özelliklerine sahibiz, sonra aşağı kayarsak

English: 
But if we look at the top you'll see some actual things that may be familiar to us
So we've got the track ID album ID the genre, right?
So Jean was an interesting one because maybe we can start to use
Some of these audio descriptions to predict what Jean with its music is or something like that
things like the track number and the track duration and
Then we get on to the actual audio description features. Now. These have been generated by two different libraries
the first is called Lib rosa, which is a publicly available library for taking an mp3 and
Calculating musical sort of attributes of it
What we're trying to do here is represent our data in terms of attributes an mp3 file is not an attribute
It's a lot of data. So can we summarize it in some way? Can we calculate by looking at the mp3?
What the tempo is what the amplitude is how loud the track is these kind of things this is a kind of thing
We're measuring and a lot of these are going to go into a lot of detail down at kind of a waveform level
so we have the Lib Roza features first and then if we scroll down

Turkish: 
Bir süre sonra bazı yankı yuva özelliklerine erişirdik. Echinus bir şirkettir
Müzikte çok ilginç özellikler üretir ve aslında bunlar Spotify'ın öneri sistemi ve daha pek çokları için güçlü olduğu özelliklerdir.
Akustik hemşire gibi bir şeyimiz var. Nasıl bir darbe çubuğu enstrümantal hemşiremiz var gibi geliyor?
Konuşma kelimesinin şapka şapkasını içerdiğine ikna olmadım, konuşma ne kadar değil mi? Konuşma
Ve sonra tempo gibi şeyler ne kadar hızlı ve değerlikli?
Ne kadar mutlu geliyor, bir sıfır izi oldukça üzücü olurdu?
Sanırım ve bir iz gerçekten çok mutlu ve iyimser ve sonra tabii ki olacak
Bir sürü özelliğimiz var. Burada zamansal olarak etiketledim ve bunlar gerçek müzik verilerine dayanacak.
Çoğunlukla veri azaltma hakkında konuştuğumuzda
Aslında boyutsallık azaltma kullanıyoruz
sağ
Bunun hakkında düşünmenin bir yolu, biz başladığımız gibi, nitelikler gibi şeylere bakıyoruz ve ne olduğunu söylüyoruz.
Verilerimizdeki bazı özelliklerin ortalaması veya standart sapması
ama aslında kümeleme ve makine öğrenmesi hakkında konuşmaya başladığımızda
Boyutlar hakkında biraz daha konuşacağız. Şimdi. Bu birçok yönden

English: 
After a while we'd get to some echo nest features. Echinus is a company that
Produces very interesting features on music and actually these are the features that power Spotify is recommender system and numerous others
We've got things like acoustic nurse. How a coup stick does it sound we've got instrumental nurse
I'm not convinced that the word speech enos their hat hat to what extent is it speech or not? Speech
And then things like tempo how fast is it and valence?
How happy does it sound right a track of zero would be quite sad?
I guess and a track of one will be really high happy and upbeat and then of course
We've got a load of features. I've labeled temporal here and these are going to be based on the actual music data themselves
Often when we talk about data reduction
We're actually using its dimensionality reduction
right
well way of thinking about it is we as we started we've been looking at things like attributes and we've been saying what is the
Mean or a standard deviation of some attribute on our data
but actually when we start to talk about clustering and machine learning
We're going to talk a little bit more about dimensions. Now. This is in many ways

English: 
The number of attributes is the number of dimensions
It's just another term for the same thing, but certainly from a machine learning background
We refer to a lot of these things as dimensions so you can imagine if you've got some data here
So you've got your instances down here and you've got your attributes across here
So in this case our music data, we've got each song. So this is puts on one
This is on two song three and then all the attributes of a temple echo nest attributes its tempo and things like this
These are all dimensions in which this data can vary so they can be different in the first dimension, which is the track ID
But they can also down here be different in this dimension
Which is for tempo when we say?
Some data is seven hundred dimensional
What that actually means is it has seven hundred different ways or different attributes in which it can vary and you can imagine that first
Of all this is going to get quite big quite quickly
My seven hundred a tribute seems like a lot to me
Right and depending on what the algorithm you're running is it can get quite slow when you're running
Oh this kind of size of data and you can maybe this is a relatively small data set compared to what Spotify might deal with
on a daily basis

Turkish: 
Niteliklerin sayısı boyutların sayısıdır
Aynı şey için sadece başka bir terim, ama kesinlikle bir makine öğrenim geçmişinden
Bu şeylerin birçoğunu boyut olarak adlandırırız, böylece burada bazı verileriniz olup olmadığını tahmin edebilirsiniz.
Yani örneklerini burada aldın ve özniteliklerini buraya getirdin
Yani bu durumda müzik verilerimiz, her bir şarkımız var. Yani bu bir koyar
Bu, üç şarkı ikide ve bir tapınağın yankı yuvasının tüm nitelikleri, tempoyu ve bunun gibi şeyleri nitelendiriyor.
Bunların tümü, bu verilerin değişebileceği boyutlardır, bu nedenle iz kimliği olan birinci boyutta farklı olabilirler.
Fakat burada da bu boyutta farklı olabilirler
Dediğimizde tempo için hangisi?
Bazı veriler yedi yüz boyutlu
Bunun anlamı, yedi yüz farklı yolu veya değişkenlik gösterebileceği farklı niteliklere sahip olması ve ilk önce bunu hayal edebilmenizdir.
Bütün bunlar oldukça hızlı bir şekilde oldukça büyüyecek
Benim yedi yüz haraç bana çok benziyor
Doğru ve hangi algoritmayı çalıştırdığınıza bağlı olarak, çalıştırırken oldukça yavaşlayabilir
Ah, bu türden bir veri boyutu ve belki de Spotify'ın başa çıkabileceği ile karşılaştırıldığında nispeten küçük bir veri kümesi olabilir.
günlük şekilde

English: 
But another way to think about this data is actually points in this space
so we have some 700 different attributes that you can vary and when we take a
Specific track it sits somewhere in this space
So if we were looking at it in just two dimensions
You know a track one might be over here and track two over here and track three over here and in three
Dimensions track four might be back at the back here. You can imagine the more dimensions
We add the further spread out these things are going to get
But we can still do all the same things. We can in three dimensions in 700 dimensions. It just takes a little bit longer
So one of the problems is that some things like machine learning don't like to have too many dimensions
So things like linear regression can get quite slow if you have tens of thousands of attributes or dimensions
So remember that perhaps the the default response to anyone collecting data is just deflect it all and worry about it. Later
This is a time reporting when you have to worry about it. What we're trying to do is
Move any redundant variables if you've got two?
Attributes of your music like tempo and valence that turn out to be exactly the same

Turkish: 
Ancak bu verileri düşünmenin bir başka yolu da aslında bu alandaki işaretlerdir.
bu nedenle, değiştirebileceğiniz ve seçerken kullanabileceğiniz bazı 700 farklı özellik vardır.
Bu alanda bir yere oturur belirli iz
Öyleyse, sadece iki boyutta bakıyor olsaydık
Burada bir parçanın bitebileceğini ve burada iki parçayı izleyebileceğini ve burada üçe üç
Boyutlar dört iz burada geri olabilir. Daha fazla boyut hayal edebilirsiniz
Bu şeylerin daha da yaygınlaşacağını ekledik
Ama yine de aynı şeyleri yapabiliriz. 700 boyutta üç boyutta yapabiliriz. Sadece biraz daha uzun sürüyor
Bu nedenle sorunlardan biri, makine öğrenmesi gibi bazı şeylerin çok fazla boyuta sahip olmasından hoşlanmadığıdır.
Böylece, on binlerce öznitelik veya boyutunuz varsa, doğrusal regresyon gibi şeyler oldukça yavaşlayabilir
Bu nedenle, belki de veri toplayan birine verilen varsayılan yanıtın sadece hepsini saptırıp endişelenmek olduğunu unutmayınız. Sonra
Endişelenmeniz gerektiğinde bu bir zaman raporlamasıdır. Yapmaya çalıştığımız şey
İki varsa, herhangi bir gereksiz değişkenleri taşıyın?
Tam olarak aynı olduğu ortaya çıkan tempo ve değer gibi müziğinizin özellikleri

English: 
Why are we using Bo for making our problem a little bit harder right now in actual fact echo nests features are pretty good
They don't tend to correlate that strongly but you might find where we've collected some data on a big scale
actually
A lot of it variables are very very similar all the time and you can just remove some of them or combine some of them
Together and just make your problem a little bit easier
So let's look at this on the music data set and see what we can do
So the first thing we can do is we could remove duplicates Ryba sounds like an obvious one and perhaps one that we could also
Do during cleaning, but exactly when you do it doesn't really matter as long as you're paying attention
what we're going to say is music all
equals unique of music all and what that's going to do is look for find any duplicate rows and
Remove them the number of rows. We've got will drop by some amount. Let's see
thinking
It's where you live timer
Actually, this is quite a slow process
You've got to consider that we're going to look through every single row and try and find any other rows that match

Turkish: 
Neden şu anda sorunumuzu biraz zorlaştırmak için Bo kullanıyoruz, aslında aslında yankı yuvaları özellikleri oldukça iyi
Bunu güçlü bir şekilde ilişkilendirmeye meyilli değillerdir, ancak büyük miktarda veri topladığımız yeri bulabilirsiniz.
aslında
Değişkenlerin çoğu her zaman çok çok benzerdir ve yalnızca bazılarını kaldırabilir veya bazılarını birleştirebilirsiniz.
Birlikte ve sorununuzu biraz daha kolaylaştırın
Öyleyse buna müzik veri setinde bakalım ve neler yapabileceğimize bakalım.
Bu yüzden yapabileceğimiz ilk şey, kopyaları kaldırabiliriz. Ryba, açık ve net bir tane gibi geliyor.
Temizleme sırasında yapın, ancak tam olarak yaptığınız zaman, gerçekten dikkat ettiğiniz sürece farketmez
Söyleyeceğimiz şey müziktir
tüm müzik eşittir eşittir ve yapacak olan herhangi bir yinelenen satır bulmak için bakmaktır ve
Onları satır sayısını kaldırın. Bir miktar düşeceğiz. Bakalım
düşünme
Yaşadığın yer orası
Aslında, bu oldukça yavaş bir süreç.
Her bir sırayı arayacağımızı ve eşleşen diğer sıraları bulmaya çalışacağımızı düşünmelisin.

English: 
Okay, so this is removed a bit about 40 rows
So this meant we had some duplicate tracks
You can imagine that things might get accidentally added to the database twice or maybe two tracks are actually identical because they were released multiple
Times or something like this now what this is doing?
The unique function actually finds rows that are exactly the same for every single attribute or every single dimension, of course in practice
You might find that you have two versions of the same track, which differ by one second they might have slightly different attributes
Hopefully they'll be very very similar. So what we could also do is have a threshold where we said these are too similar
They're the same thing. The name is the same. The artist is the same and the audio descriptors are very very similar
Maybe we should just remove one of them
Well, this is the other thing you could do just for demonstration
what we're going to do is focus on just a few of
The genres in this data set right just to make things a little bit clearer for visualizations
we're going to select just the classical jazz pop and
Spoken-word genres, right because these have a good distribution of different amounts in the data set

Turkish: 
Tamam, bu yüzden yaklaşık 40 satır biraz kaldırıldı
Demek ki bunun anlamı kopya izler almamızdı.
Bir şeylerin yanlışlıkla veritabanına iki kez eklenebileceğini veya iki parçanın gerçekten aynı olduklarını hayal edebilirsiniz, çünkü çoklu olarak yayınlandılar.
Kez ya da böyle bir şey şimdi ne yapıyor?
Benzersiz işlev aslında pratikte her bir özellik veya her bir boyut için tamamen aynı olan satırları bulur.
Aynı parçanın iki versiyonuna sahip olduğunuzu fark edebilirsiniz; bu, bir saniyeye göre farklılık gösterebilir, biraz farklı özelliklere sahip olabilirler.
Umarım çok çok benzer olurlar. Öyleyse yapabileceğimiz şey, bunların çok benzer olduğunu söylediğimiz bir eşik değerinin olması.
Onlar aynı şey. İsim aynı. Sanatçı aynı ve ses tanımlayıcıları çok çok benzer
Belki de onlardan birini çıkarmalıyız.
Bu sadece gösteri için yapabileceğin diğer şey.
Yapacağımız şey sadece birkaçına odaklanmak.
Bu verilerdeki türler sadece görselleştirmeler için işleri biraz daha net hale getirmeye ayarlanmış
sadece klasik caz popunu seçeceğiz ve
Sözlü sözcük türleri, çünkü bunlar veri setinde farklı miktarlarda iyi bir dağılım gösterir.

English: 
So we're going to run that we're creating a list of genres. We're going to say music is musical
Where any time where the genre is in that list of genres we just produced?
and that's going to produce a much smaller dataset of
1,600 observations the same number of attributes or dimensions now
Normally you would obviously keep most of your data in this is just for a demonstration
But removing genres that aren't useful to you for your experiment is a perfectly reasonable way of reducing your data size if that's a problem
Assuming they've been labeled right in the first place, right that's on someone else. That's someone else's job
Let's imagine but 1,600 is still too long. Now actually computers are getting pretty quick. Maybe 1,600 observations is fine, but
Perhaps we want to remove some more
The first thing we could do is just chop off the day to half way and keep about half. So let's try that
first of all, so we're going to say the first music that's the first few rows of our music is
Rows 1 to 835 and all the columns. So we're going to run that and

Turkish: 
Böylece, bir tür listesi oluşturduğumuza koşacağız. Müziğin müzikal olduğunu söyleyeceğiz
Ürettiğimiz türlerin listesinde bu türün olduğu zaman nerede?
ve bu çok daha küçük bir veri kümesi üretecek
1.600 gözlem şimdi aynı sayıda nitelik veya boyutta
Normalde, belli ki verilerinizin çoğunu sadece bir gösteri için saklıyorsunuz.
Ancak, denemeniz için sizin için yararlı olmayan türleri kaldırmak, bir sorun olduğunda veri boyutunuzu küçültmenin mükemmel bir yoludur
İlk başta doğru etiketlendiklerini varsayarsak, bu başkasında. Bu başka birinin işi
Hayal edelim ama 1.600 hala çok uzun. Şimdi aslında bilgisayarlar oldukça hızlı oluyor. Belki 1.600 gözlem iyi, ama
Belki biraz daha kaldırmak istiyoruz
Yapabileceğimiz ilk şey, günü yarıya indirmek ve yarıya indirmek. Hadi bunu deneyelim
her şeyden önce, yani ilk müziğimizin ilk birkaç satır olan müziği söyleyeceğiz.
1 - 835 arası satırlar ve tüm sütunlar. Yani bunu koşacağız ve

Turkish: 
Bu daha küçük. Doğru, verilerimizi küçültmeye başlayabiliriz. Bu mutlaka iyi bir fikir değil
Burada, türümüzün, veri kümemizin etrafında rastgele örneklenmiş olarak eşit olduğunu biliyoruz. Bu doğru olmayabilir
Önce bütün kilidi, sonra da tüm pop veya buna benzer bir şey olabilir.
İlk birkaçını alırsan, istediğine bağlı olarak tüm kayayı doğru elde edeceksin.
Bu senin için olmayabilir
Öyleyse şunu açıklayalım, normal veri setindeydi ve çok az konuşulan kelimemiz olduğunu görebiliyorsunuz.
ama orada bazı klasik uluslararası caz ve pop yaklaşık olarak aynı miktarda pop
İlk 50’yi seçtikten sonra, sadece klasikler gibi iki türün kaybolduğunu görebiliriz.
Uluslararası ve caz ve neredeyse hiç caz yok. Bu iyi bir fikir değil. Verilerinizin randomize olduğunu bilmiyorsanız, bunu yapmayın.
Yani bu değil, tahmin etmek istiyorsak bize türlerin iyi bir temsilini vermiyor.
Jonatha, mesela türlerin yarısını kesen müzikal özelliklere dayanan, kararsız bir karar gibi görünüyor
Dolayısıyla yapılacak en iyi şey veri setinden rastgele örnekleme yapmak olacaktır.

English: 
That's even smaller. Right so we can start to whittle down our data. This is not necessarily a good idea
We're assuming here that our genre is equally, you know, randomly sampled around our data set. That might not be true
You might have all the lock first and then all the pop or something like that
If you take the first few, you're just going to get all the rock right depending on what you like
That might not be for you
So let's plot these on was in the normal data set and you can see that we've got very little spoken word
but it is there we have some classical international jazz and pop in sort of roughly the same amount if
We plot after we've selected the first 50 you can see we've lost two of the genres like we only have classical
International and jazz and there's hardly any jazz. That's not a good idea. So don't do that unless you know that your data is randomized
So this is not this is not giving us a good representation of genres if we wanted to predict
Jonatha, for example based on the musical features cutting out half the genres seems like an unwise decision
So a better thing to do will be to sample randomly from the data set

Turkish: 
Yani yapacağımız şey, bize vermek için örnek işlevi kullanacağız.
Bu veri içine 835 rasgele indeks ve sonra müzik veri karemizin indeksini kullanacağız.
Tamam, buradaki çizgi
Ve umarım bu, orijinali tekrar çizersek, bize daha iyi bir dağıtım sağlayacaktır.
Öyle gözüküyor ve geniş bir dağıtımımız olduğunu görüyorsunuz ve ardından randomize versiyonunu çizersek
Gördüğün gibi hala konuşuluyor. Aslında biraz artıyor, ama dağılımlar genel olarak aynı
Demek istediğimiz tam olarak bu çalıştı.
Peki verilerinizi nasıl seçtiniz?
Biraz daha küçük yapmaya çalışıyorsanız
Çok çok önemli ve düşünün ama açıkçası burada sadece 1.600'ümüz vardı ve insan bile tüm veri setinin sadece
1.300 satır olabileceğini hayal edebiliyorum
On milyonlarca satır ve onlardan tamamen kurtulmaya başlamadan önce bunu düşünmelisin.
Randomize örnekleme, verilerinizi seçmenin mükemmel bir yoludur. Açıkçası, belki senin dağılımını eğer bir risk vardır

English: 
So what we're going to do is we're going to use the sample function to give us
835 random indices into this data and then we're going to use that the index our music data frame instead
Alright, that's this line here
And hopefully this will give us a better distribution if we plot the original again
It looks like this and you can see we've got a broad distribution and then if we plot the randomized version
You can see we've still got some spoken. It's actually going up slightly, but the distributions are broadly the same
So this is worked exactly how we want
So how you select your data?
If you're trying to make it a little bit smaller
It's very very important and consider but obviously we only had 1,600 here and even the human is whole data set is only
1,300 rows you could imagine that you might have
Tens of millions of rows and you've got to think about this before you start just getting rid of them completely
Randomized sampling is is a perfectly good way of selecting your data. Obviously, it has a risk that maybe if the distributions of your

Turkish: 
Türler biraz kapalı ve belki de çok fazla belirli bir türünüz yok.
Dağıtımların aynı olacağının garantisini veremezsin.
Jama'i tahmin etmeye çalışıyorsan, bu bir problem olacak. Bu yüzden belki de en iyi yaklaşım tabakalı örneklemedir.
Burası sınıflarımızın dağılımını denediğimiz ve sürdürdüğümüz yer
Mesela bu durumda, türümüze göre% 50 Rock'a sahip olduğumuzu söyleyebiliriz.
% 30'u pop,% 20'si konuşuldu ve bu tür dağıtımı sürdürmek istiyoruz.
Sadece% 50 doğru görsek bile mi?
Bu bizim için biraz daha karmaşık ama yapılabilir.
Ve kesinlikle emin olmak istiyorsanız bu iyi bir yaklaşımdır
Örnek verilerinizin dağılımları, orijinal verilerinizle aynıdır. Sadece bazı yollara baktık
Verilerimizin boyutunu birkaç örnek veya satır sayısı açısından azaltabiliriz.
Boyut sayısını veya özellik sayısını daha küçük yapabilir miyiz?
Çünkü bu genellikle sorunlardan biri ve cevabım evet.
Bunu, diğerlerinden daha güçlü ve daha kullanışlı hale getirmenin birçok farklı yolu var.
Bunu yapabilmemizin bir yolu korelasyon analizi denen şey.

English: 
Genres are a little bit off and maybe you haven't got very much of a certain genre
You can't guarantee that the distributions are going to be the same on the way out
And if you're trying to predict Jama that's going to be a problem. So perhaps the best approach is stratified sampling
This is where we try and maintain the distribution of our classes
So for example in this case genre so we could say we all we had 50% Rock
30% pop and 20% spoken and we want to maintain that kind of distribution on the way out
Even if we only saw about 50% right?
This is a little bit more complicated in our but it can be done
And this is a good approach if you want to make absolutely sure with
Distributions of your sample data are the same as your original data. We just looked at some ways
We can reduce the size of our data set in terms of a number of instances or the number of rows
Can we make the number of dimensions or the number of attributes smaller?
Because that's often one of the problems and the answer is yes
And there's lots of different ways we can do this some more powerful and useful than others
One of the ways we can do this is something called correlation analysis

Turkish: 
bu yüzden iki özellik arasındaki korelasyon temelde bize bunlardan biri artarsa ​​diğeri artar ya da azalır diyor
Genel olarak bununla ilgili. Yani bunun gibi bazı verileriniz olabilir. Aslında kazandık
Ve iki özelliğe sahip olabiliriz ve buna benzerler.
Bunlar farklı verilerimizin tümü için veri noktalarıdır.
belli ki
Elimizde çok fazla veri noktası var ve bunun kabaca konuşulduğunu görebilirsiniz.
Şimdi burada böyle bir yön sıralama olabilir, ancak bu korelasyon çok çok güçlü ise. Yani temelde
Öznitelik, bir veya daha fazla özniteliğin bir kopyasıdır.
Belki veri setimizde iki özelliğe sahip olmak mantıklı değildir. Belki çok fazla sorun çıkarmadan çıkarabiliriz
Yapabileceğimiz şey, diğer tüm özelliklere karşı tüm özellikleri bir araya getirdiğimiz korelasyon analizi adı verilen bir şeydir.
Yüksek korelasyonları ararız ve karar veririz.
Onları şimdi kaldırmak isteyip istemediğimizi kendimiz, bazen sadece her şeyi içeride tutmak ve çok erken kaldırmamak için kullanışlıdır.
Fakat diğer yandan, eğer çok miktarda veriye sahipseniz ve korelasyonunuz çok yüksekse
Bu yapmanın bir yolu olabilir. Başka bir seçenek, ileri veya geri nitelik seçimi denilen bir şeydir

English: 
so a correlation between two attributes basically tells us that when one of them increases the other one either increases or decreases in
General in relation to it. So you might have some data like this. We've actually won
And we might have attribute two and they sort of look like this
These are the data points for all of our different data
obviously
We've got a lot of data points and you can see that roughly speaking they kind of increase in this
Sort of direction here like this now it might be but if this correlation is very very strong. So basically
Attribute to is a copy of attribute one more or less
Maybe it doesn't make sense to have attribute two in our data set. Maybe we can remove it without too much of a problem
What we can do is something called correlation analysis where we pitch all of the attributes versus all of the other attributes
We look for high correlations and we decide
Ourselves whether to remove them now, sometimes it's useful just to keep everything in and try not to remove them too early
But on the other hand, if you've got a huge amount of data and your correlations are very high
This could be one way of doing it. Another option is something called forward or backward attribute selection

Turkish: 
Şimdi bu, belki de bir makine öğrenme modeline veya kümeleme algoritmasına sahip olduğumuz fikridir.
bunun performansını ölçebiliriz ve sonra özellikleri kaldırabiliriz ve
Performansın aynı olup olmadığını görün, çünkü belki de bu özelliklere ihtiyacımız olmadı
yani yapabileceğimiz şey, diyelim ki modelimizi eğitelim.
720 boyutlu veri seti ve sonra belirli bir doğruluk seviyesine ulaşabilir ve bunları kaldırarak tekrar deneyebileceğimizi kaydedebiliriz.
Boyutlardan biri ve 719 üzerinde denemek ve belki de doğruluk tam olarak aynıdır ki bu durumda söyleyebiliriz
Aslında, bu boyuta hiç ihtiyacımız olmadı ve kırılmaya başlayabiliriz. Bu tarafa mı ayarlandı?
Başka bir seçenek de özellik seçimini iletmektir
makine öğrenmemizi tam anlamıyla sadece özelliklerden biri üzerinde eğittiğimiz yer burasıdır ve
o zaman doğruluğumuzun ne olduğunu görüyoruz ve öznitelikleri eklemeye devam ediyoruz.
Performans platolarında ne olduğunu biliyoruz? Artık daha fazla özellik ekleyerek hiçbir şey kazanmıyoruz.
Açıkçası, genellikle bandimde hangi sıraya dayanıyorsunuz?
Lee, öyleyse ne yapardın, örneğin geriye dönük bir özellik seçimi gibi tüm veriler üzerinde eğitim alacaksın.
Birini rastgele çıkarırsın

English: 
Now this is the idea that maybe we have a machine learning model or clustering algorithm in mind
we can measure the performance of that and then we can remove features and
See if the performance remains the same because if it does maybe we didn't need those features
so what we could do is we could train our model on let's say a
720 dimensional data set and then we could get a certain level of accuracy and record that then we could try it again by removing
One of the dimensions and try on 719 and maybe the accuracy is exactly the same in which case we can say
Well, we didn't really need that dimension at all and we can start to whittle down. Are they set this way?
Another option is forwards attribute selection
this is where we literally train our machine learning on just one of the attributes and
then we see what our accuracy is and we keep adding attributes in and Retraining until our
Performance plateaus and we can say you know what? We're not gaining anything now by adding more attributes
Obviously, there's the question of which order do you tribus in usually bandim?
Lee, so what you would do is you would train on all the data for example of a backwards attribute selection
You take one out at random

Turkish: 
Performansınız aynı kalırsa performansınız daha da kötüleşirse bırakabilirsiniz
Tekrar yerleştirdin ve bir daha denemedin.
Ve siz farklı bir tane deniyorsunuz ve yavaşça çalıyorsunuz, boyutları alıp götürmeye başlıyorsunuz.
Bu veri setindeki korelasyon analizine hızlıca bir göz atalım: Bunu hesaplıyorsak
Lib rosa veya yankı yuvasından mp3 e dayalı özellikler
Belki çoğu zaman çok benzerler ve belki onları kaldırabiliriz.
Hızlıca bir göz atalım. Yani sadece sadelik için sadece bir dizi Lib Rosa'nın özelliklerine odaklanacağız.
Yani sadece seçeceğiz
bu kromato kurtozunu içeren özellikler
Lib rosa kullanarak hesaplayabileceğiniz özelliklerden biri olan alan
bu yüzden koşacağım, onları bir ev basitliği için Kurt 1 Kurt - Kurt 3 ve
Sonra bu farklı özelliklerin her birinin birbiriyle olan korelasyon matrisini şöyle hesaplayacağız.
Tamam, nihayet, bunu planlayacağız ve nasıl göründüğünü göreceğiz.
umarım bazı iyi bağıntılar bulabiliriz ve başarabiliriz.

English: 
If your performance stays the same you can leave it out if your performance gets much worse
You put it back in and you don't try that one again
And you try a different one and you stole slowly start to take dimensions away and hopefully Whittle Daniel data
Let's have a quick look at correlation analysis on this data set you might imagine that if we're calculating
features based on the mp3 from Lib rosa or echo nest
Maybe they're quite similar a lot of the time and maybe we can remove them
Let's have a quick look. So we're just going to focus on one of a set of Lib rosa features just for simplicity
So we're going to select only
the attributes that contain this chroma kurtosis
Field which is one of the attributes that you can calculate using Lib rosa
so I'm going to run that we're going to rename them just for a home simplicity to Kurt one Kurt - Kurt 3 and
Then we're going to calculate a correlation matrix of each of these different features versus each other like this
Ok, finally, we're going to plot this and see what it looks like
hopefully we can find some good correlations and we could have

English: 
candidates for just removing a few of these dimensions if it's redundant and it's not too bad so you can see that we've got for
Example Kurt 7 here. So index 7 is fairly similar to 8. That's a correlation of 0.65
Maybe that means that we could remove one over two of those. This one here is 0.5 nine
We've got a point four eight over here
These are fairly high correlations if you're really stretched for CPU time, or you're worried about a size of your data set
This is the kind of thing you could do to remove them
Of course, wherever point six five is a strong enough correlation that you want to delete and completely remove one of these dimensions
It's really up to you and it's going to depend on your situation
one of the reasons that the
Correlations aren't quite as hard as you might think is that these libraries have been designed with this in mind if you just if echo
Nests just produce 200 feet all exactly the same. It wouldn't be very useful for picking playlists
So they've produced 200 features that are widely different. So we're not necessarily going to correlate all the time, right?
That's the whole point and that's a really useful feature of this data

Turkish: 
Gereksiz ve fazla kötü değilse, bu boyutlardan birkaçını kaldırmak için adaylar.
Örnek Kurt 7 burada. Yani indeks 7, 8'e oldukça benziyor. Bu 0,65'lik bir korelasyon.
Belki bu, ikisinden bir tanesini çıkarabileceğimiz anlamına gelir. Buradaki 0.5 0
Burada dört sekiz puanımız var.
CPU süresi için gerginseniz veya veri kümenizin boyutu konusunda endişeliyseniz, bunlar oldukça yüksek korelasyonlardır.
Bu onları kaldırmak için yapabileceğiniz bir şey.
Tabii ki, altı beşinci nokta her nerede bu boyutlardan birini silmek ve tamamen silmek istediğiniz kadar güçlü bir korelasyondur.
Gerçekten size kalmış ve durumunuza bağlı olacak
nedenlerinden biri
Korelasyonlar düşündüğünüz kadar zor değil, bu kütüphanelerin sadece eko yaparsanız bu düşünceyle tasarlandığı düşünülüyor.
Yuvalar tamamen aynı şekilde 200 feet üretir. Çalma listeleri seçmek için çok yararlı olmaz
Bu yüzden çok farklı olan 200 özellik ürettiler. Bu yüzden her zaman korelasyona girmeyeceğiz, değil mi?
Bütün mesele bu ve bu verinin gerçekten kullanışlı bir özelliği

Turkish: 
Deneyin ve verilerimizi biraz daha küçük hale getirmenin bazı yollarını inceledik.
Nihai hedefimizin en küçük ve en yararlı veri türü olduğunu unutmayın
Ellerimizi sağa çekebiliriz, sonra bunu makine öğrenmesine veya kümelemeye koyabiliriz ve gerçekten biraz bilgi çıkarabiliriz.
Sorun şu ki, yapabileceğimiz şey korelasyon analizine veya ileri geri nitelik seçimine dayalı olabilir.
Sadece verileri siliyor olabiliriz ve belki de korelasyon bir değildi. Tamamen gereksiz değildi
Bu verileri tamamen kaldırmak istiyor muyuz?
Çıkardıklarımız ve daha etkili kararlar konusunda daha bilinçli kararlar almak için verilerimizi değiştirebileceğimiz başka bir yol var mı?
Bu PCA veya temel bileşen analizi
Şu an. İki boyutlu verilerimize sadece bir satır sığdırıyoruz
Daha sonra daha fazla ana bileşen olacak, değil mi?
Ancak yapmak istediğimiz şey, bu verilerde yönü seçmek istiyoruz.
Ancak, en çok yayılan olan birçok özellik vardır. Peki bunu nasıl ölçüyoruz? Peki oldukça basit

English: 
We've looked at some ways we can try and make our data set a little bit smaller
Remember our ultimate goal is a smallest most sort of useful data
We can get our hands on right then we can put that into machine learning or clustering and really extract some knowledge
The problem is that what we might do may based on correlation analysis or forward backwards attribute selection
We might just be deleting data and maybe the correlation wasn't one. It wasn't completely redundant
Do we actually want to completely remove this data?
Is there another way we can transform our data to make more informed decisions as to what we remove and more effective ones?
That's PCA or principal component analysis
At the moment. We're just fitting one line through our two-dimensional data
There's going to be more principal components later, right?
But what we want to do is we want to pick the direction through this data
However, many attributes it has that has the most spread. So how do we measure this? Well quite simply
