
English: 
Today we're going to talk about clustering
Do you ever find when you're on YouTube you'll watch a video on something and then suddenly you're being recommended a load of other videos
That you hadn't even heard of that are actually kind of similar. This happens to me
I watched some video on some new type of saw trying to learn it because you know don't know what I'm doing and suddenly I'm
Being recommended videos on turning verses on wooden lathes and all kinds of weird stuff
And what's happening is I'm being clustered into groups of people
Who are liking those and watching those kind of videos or these kind of videos are all being clustered together as similar, right?
So clustering is it's one of the sort of core technologies at the heart of this kind of stuff in fairness
I did end up watching a bunch of those woodturning videos
We've talked about the different kinds of datasets you might have right and until up to now we've been talking about things like cleaning data
transforming data and reducing data
Now what we want to do is start trying to derive some knowledge now sort of a typical way to do

Turkish: 
Bugün kümeleme hakkında konuşacağız
YouTube’dayken, bir şey hakkında bir video izleyeceğinizi gördünüz mü ve daha sonra birdenbire başka videolarla dolu olmanız önerildi.
Bunu duymamış olmanız bile aslında benzer. Bu bana olur
Öğrenmeye çalışırken yeni bir tür testereyle ilgili bir video izledim, çünkü ne yaptığımı bilmiyorum ve aniden
Ahşap tornalarda ve her türlü tuhaf eşyada ayet açma videoları tavsiye ediliyor
Ve olan şu ki, insan gruplarına kümeleniyorum.
Bunları kim seviyor ve bu tür videoları izliyor veya bu tür videoları birbirine benzer şekilde kümelendiriyor, değil mi?
Bu yüzden kümeleme, adalet içinde bu tür şeylerin merkezinde yer alan çekirdek teknolojilerden biridir.
Sonunda o ağaçlık videolarının bir demetini izledim.
Haklı olabileceğiniz farklı veri türleri hakkında konuştuk ve şimdiye kadar veri temizleme gibi şeylerden söz ettik.
veri dönüştürme ve veri azaltma
Şimdi yapmak istediğimiz şey, şimdi biraz yapmak için tipik bir yol olan bazı bilgileri elde etmeye çalışmak.

Turkish: 
Bu bir sınıflandırma algoritması veya belki de onlarla birlikte bir regresyon reklamı gibi bir şey olurdu
Fakat bugün, verileri nasıl ayırıp gruplandırdığınızı konuşacağız.
Bu veriler için herhangi bir etiketimiz olmadığında, bu denetimsiz öğrenmenin bir örneğidir.
Kullanabileceğimiz farklı makine öğrenme türleri denetlenmiyor. Burası bizim etiketimizin olmadığı yer.
Sonra etiketlerimizin olduğu yerlerde öğrenmeyi denetledik
Bu nedenle, örneğin denetimli bir öğrenme görevi, ürünleriniz veya videolarınız için sizin için bazı etiketlerin bulunduğu ve olabilir.
Onları bu şekilde sınıflandırmaya çalışıyorum. Belki de videoları doğru bir türe göre sınıflandırmaya çalışıyorsunuzdur veya
Denetlenmemiş öğrenme etiketimiz yok
Belki bir sürü ürünümüz var ve onları benzer kategorilere ayırmaya çalışıyoruz.
Yani bunlar tüm araçlar ve bunlar elektronik ürünler olacak
Ve bunların hepsi oyuncak
sağ
ve belki de bunu yapmak zorunda kalmadan bir insanı geçip hepsine tıklamak zorunda kalmadan yapmak istiyoruz.
Her şeyi etiketleyin ve ardından sınıflandırma gibi güçlü ve güçlü makine öğrenme algoritmaları gerçekleştirmek için bunu kullanın
Bazen bir müzik öneri sistemi kullanıyorsanız, etiket üretmek çok pahalı
ben

English: 
This would be something like a classification algorithm or maybe a regression ad with them
But today we're going to talk about how do you separate out data and group data together?
When we don't have any labels for that data, so this is an example of unsupervised learning
Different types of machine learning that we can use one is unsupervised. This is where we don't have any labels
Then we have supervised learning where we have labels
so for example a supervised learning task might be one where you have some labels for you for your products or your videos and you're
Trying to classify them like that. So maybe you're trying to classify videos into a genre right or
Unsupervised learning we don't have any labels
Maybe we've just got a load of products and we're trying to group them into into similar categories
So these are all the tools and these will be electronic products
And these are all the toys
right
and maybe we want to do that without having to have a person go through and click on them all so why wouldn't we just
Label everything and then use that to perform nice powerful machine learning algorithms like classification
Well, sometimes it's just too expensive to produce labels if you're running a music recommendation system
I

Turkish: 
Acayip güç gibi Spotify belki baştan sona geçip her şeyin el ile ne tür olacağını alacak
Kesinlikle yaş ve bir zaman kaybı bu şekilde otomatik yapabilirsek, böylece bazen veri için etiketiniz olmaz.
Ve elde etmek çok pahalı. Çok zaman alıyor. Bu çok zor
Belki yapmazsın
insanlar John'un ya da iki parçanın müziğinin ne olduğu konusunda hemfikir değiller.
Kümeleme iyi bir seçenek
sağ
Ne olduklarını bilmeden, nitelikleri bakımından benzer olan şeyleri birlikte gruplayalım.
 
O zaman deneyip yapacağımız şey tüm özellikleri ve tüm örnekleri almak.
nesneler ve onları benzer nesnelere gruplamak için kullanın, ancak soru, benzer şekilde
Verilerimizi yapılandırma şeklimize geri dönelim, örneklerimiz olarak satırlarımız olacak ve sütunlarımız olacak
Niteliklerimiz ve başka bir yol olarak
Bunun gerçekte bazı alanlardaki veri noktaları olduğunu düşünmeyi hatırlıyoruz.
Her bir noktanın konumu veya her bir vakanın konumu, niteliklere bağlı mı?
Örneğin, üç özellik veri setine sahip olabiliriz.
Öyleyse belki de 1 2 3 4 Row ve B ve C özelliklerine sahibiz, değil mi?

English: 
like the wonder power Spotify maybe going through and defining what genre everything is by hand is going to take
Absolutely ages and one waste of time right way if we can do this automatically so sometimes you aren't gonna have labels for data
And it's too expensive to obtain. It's too time-consuming. It's too difficult
Maybe you don't
people disagree over what John or two pieces of music are so in that case you are going to have labels and so
Clustering is a good option
right
Let's group things together with things that are similar in terms of their attributes without actually knowing what they are
What we're going to try and do then is take all the attributes and all the instances
objects and use them to group them into similar objects, but the question is what is similar like well
Let's think back to the way that we structure our data we're going to have rows as our instances and we're going to have columns
As our attributes and another way
We remember to think about that is that these actually are data points in some space
Where the position of each point or the position of each instance depends on the attributes?
So, for example, we could have a three attribute data set
So maybe we have Row 1 2 3 4 and we have attribute a B and C, right?

Turkish: 
Öyleyse, belki de birinin B için bir değer için ve C için bir değer için bir değeri olduğunu bilmiyorum
Yani bu, eksenlerimizde bir B ve C ile ayarlanan üç boyutlu veri türüdür.
Yani bunun gibi bir şeye sahip olacağız ve sonra görüşürüz millet
Yani bu bir B ve bu da C
Belki bu veri setinde, burada örnek 1'in burada ve 2'nin burada ve 3'ün burada ve 4'ün burada olduğunu biliyorsunuzdur.
Doğru, sadece hayal ediyorum
Bunlar bir tür 3d uzayda, bilirsin, belki sezgisel olarak iyi diyebiliriz tamam
Biri belki 4'ten 2'ye yakındır, çünkü bu kısa mesafelidir.
Ama elbette, bu üç boyutlu bir alanın görselleştirilmesi zordur, ancak kaç tane özelliğe sahip olduğumuz önemli değil
Bu alanda hala tamam diyebiliriz. Bu örnekler bu örneklere daha yakındır ve daha sonra işleri birlikte gruplamaya başlayabiliriz.
Belki de demek istediğim aslında 2 bedavadan çok uzaktır.
Belki bu ikisini gruplandırırız ve bu ikisini gruplandırırız ya da buna benzer bir şey.
Yani, genellikle bunun için açıkça mesafenizi kullanacağız.
Doğru, bu 3 boyutlu uzayda, buradaki 1 ve 2 arasındaki noktalar arasındaki en iyi mesafe olacak.
Belli ki, kaç grup halinde gruplandırdığımızla ilgili sorular olacak.
Bu gruplardan herhangi birinde olmak için çok uzak 3.

English: 
So, I don't know maybe one has a value for a in a value for B and a value for C
So this means this is a sort of three dimensional data set with our axes a B and C
So we're going to have something like this and then see you guys office
So this is a this is B, and this is C
So maybe in this data set, you know instance 1 appears here and 2 over here and 3 over here and 4 over here
Right you've just I'm imagine
These are in some sort of 3d space, you know, perhaps intuitively we can say well ok
One is maybe closer to 4 than 2 is because this is shorter distance
But of course, this is a three dimensional space is hard to visualize but doesn't matter how many attributes we have
We can still say well ok, in this space. These instances are closer to these instances and then we can start grouping things together
So maybe I mean actually 2 is very far away from free
So maybe we sort of group these two up and group these two up or something like this
So typically we're going to use you're clearly in distance for this
Right, which is going to be this best distance here between points 1 & 2 in this 3 dimensional space
There's obviously going to be questions about how many groups are we grouping them into?
It's 3 too far away to be in any of these groups

Turkish: 
Bunlar düşünmemiz gereken şeyler ama bu herhangi bir boyut için geçerli.
tıpkı seni geri tutan tek şey, bilgisayarınızın ne kadar hızlı ve ne kadar hızlı olduğu
Yemek yiyelim, iki farklı bakacağız
Kümeleme algoritmaları değil mi? Birincisi k-olacak ve sonra pam'a bakacağız
Tamam, şimdi biraz farklı
Daha önce bilgisayar dosyasındaki k-araçları hakkında konuştuk ama bu ders için burada onun hakkında konuşacağız.
Bu yüzden sadece işleri kolum için basit tutacağınızı ve çizeceğinizi biliyorsunuz, burada iki boyutu düşüneceğim ve bir çeşit sorunumuz var.
Verilerin, buna benzer görünen hakkı ve burada biraz daha fazla veri olabilir.
Ve bize biliyorsunuz, belki de iki grup var diyebiliriz.
Fakat biz bu süreci resmileştirmek istiyoruz ve bunu iki boyutta düşünmelisiniz.
Belki iki grup olduğu oldukça açıktır.
eğer bir çeşit varsa
n boyutlu alan belki bin boyut veya on bin boyut
Grupların nerede olduğunu seçmek, elle yapmak istediğiniz bir şey değildir.
Öyleyse k-ne demek bazı verileri K gruplarına böler ki, değil mi?
Onları hemen belirleyeceğim Oh strike hemen ama K bu durumda 2, çünkü burada iki sınıf var.

English: 
These are things we have to think about but this applies to any number of dimensions
as just simply the only thing holding you back is just how fast your computer is and how fast
Go food is we're gonna look at two different
Clustering algorithms, right? The first is going to be k-means and then we're going to look at pam
Alright, which is slightly different now
We talked about k-means in computer file before but we're going to talk about it here for this course
So just you know to keep things simple for my arm and drawing i'm gonna think the two dimensions here and we've got some sort
Of data, right which is sort of looks like this and there may be some more data over here
And you know to us we can sort of say well maybe there's two groups
But we want to sort of formalize this process and you've got to consider that in two dimensions
Maybe it's quite clear that there's two groups
if you've got a sort of
n-dimensional space maybe a thousand dimensions or ten thousand dimensions
Picking out where the groups are is not something you want to be doing by hand
So what k-means does is it splits some data into K groups, right?
So I'm going to specify them Oh strike straight away but K is 2 in this case because I think there are two classes here

Turkish: 
Şimdi bunu yanlış anlarsam, belli ki, bu bir sorun. Bunun hakkında konuşacağız. Sonra
Ama yapacağımız şey, bu alanda iki rastgele nokta seçeceğiz. Öyleyse bunu burada diyelim ve
Buradaki
Yani iki sınıfımız var ve bu noktalardan hangisine daha yakın olduğuna dayanarak bu noktaların her birini atamaya başlayacağız.
Yani bunlar, genel olarak konuşan yeni gruplarımızın merkezi noktaları. Açıkçası, bu açıkça mesafe içinde olacak
Yani aslında bu durumda bir daire
Öyleyse, böyle bir bakacağız ve mavi olan gelecek.
Yani böyle bir şeye benzer ve bunlar muhtemelen kırmızı olacaktır çünkü biraz daha yakındırlar
Şimdi ama bütün bunlar kırmızı. Yapacağımız şey, hepsini kırmızı olarak etiketleyeceğiz.
Bunun sadece bir yinelemesini yapabilirim çünkü şimdi resmimin her yerine çizdik, şimdi hepsini atayarak başlıyoruz.
Bitmiş olabiliriz. Ama hadi düşünelim. Biz denemek ve yapmak istediğimiz şey değiliz.
Kümelerimizin konumlarının bu bilgilere dayandığı yeri yeniden değerlendirin
Yani bu grubun ortalamasını ya da ortalamasını kırmızı gruba alıyoruz ve iyi diyebiliriz, tamam
Burada ortada bir çeşit patlama var. Böylece bundan kurtuluyoruz. Bunu kalemimizin üstünde yapacağım. Ah işe yaradı

English: 
Now if I get that wrong, obviously, that's a problem. We'll talk about that. Later
But what we're gonna do is we're gonna pick two random points in this space. So let's say this one here and
This one here
So we've got two classes and we're going to start to assign each of these points based on whichever of these means is closer
So these are the center points for our new groups generally speaking. Obviously, this is going to be clearly in distance
So essentially a circle in this case
So we're going to sort of look sort of like this and the blue one's going to come around
So kind of like this kind of like this and these will probably be red because they're slightly closer
So now but all these are red. What we're going to do is we're going to label these all red
I can only do one iteration of this because now painted all over my picture we start by assigning all of them now
We might be finished. But let's imagine. We're not what we want to try and do is
Reevaluate where the positions of our clusters are based on this information
So we take the mean or the average position of this group here the red group and we can say well, okay
It's sort of bang in the middle here. So we get rid of this one. I'm gonna this above our pen. Oh it worked

English: 
Here's my new center position here
Right, the blue one, which I'm going to have to scribble out is going to move to our about there something like this
So that's iteration one right now. We've we calculated these center points
so this blue region of what's going to be classified as blue and what's going to be classified as red it's kind of going to
Move this way a little bit. So I guess we're going to maybe reevaluate and this is going to become blue
Ooh, this is going to be an iterative process
we're going to keep recalculating these means based on the points that have moved back and forth between these two groups and
Eventually, these means should begin to converge and stop moving around as things settle down
And usually this actually happens pretty quickly. I even in a large dimensional space k-means is a very popular algorithm. It's got a few drawbacks
One is that let's imagine. We had a single point way over here an outlier right now
Hopefully you've got rid of most of our lives from the previous video
But if you haven't and you've got an outlier here that you weren't expecting
Then what's going to happen is this is going to be assigned it in the first iteration to be blue
It's going to pull the mean of this group this way

Turkish: 
İşte buradaki yeni merkez konumum
Doğru, karalamak zorunda kalacağım mavi olan, şurada böyle bir şey olacak.
Yani bu şu anda bir yineleme. Bu merkez noktalarını hesapladık
öyleyse mavi olarak sınıflandırılacak olan ve kırmızı olarak sınıflandırılacak olan mavi bölge
Bu tarafa biraz hareket et. Sanırım yeniden değerlendireceğiz ve bu mavi olacak.
Ooh, bu yinelemeli bir süreç olacak
Bu iki grup arasında ileri geri hareket eden noktalara dayanarak bu araçları yeniden hesaplamaya devam edeceğiz.
Sonunda, bu araçlar bir şeyleri düzeltirken bir araya gelip hareket etmeyi bırakmalı.
Ve genellikle bu aslında oldukça hızlı bir şekilde gerçekleşir. Ben büyük boyutlu bir uzayda bile k-aracı çok popüler bir algoritmadır. Birkaç dezavantajı var
Birincisi, hadi düşünelim. Şu an tek bir noktadan yola çıktık.
Umarım önceki videodan hayatımızın çoğundan kurtulmuşsunuzdur
Ama yapmazsan ve burada beklemeyeceğin bir aykırığın varsa
Öyleyse olacak olan şudur ki, ilk yinelemede mavi olacak
Bu grubun ortalamasını bu şekilde çekecek

English: 
which means that more of them are going to be assigned red and
Red is going to go this way as well and it's just going to move the means around and cause a bit of a problem
We might get away of it in this case
But you can imagine if you've got a large high dimensional space and you're trying to cluster lots and lots of clusters
Getting the means in the wrong position could cause a bit of instability cause the wrong plate things to be classified and clustered together
There's a couple more issues one is that you know
Where you start your means on the first iteration is obviously quite important if you place it at random
There's a charge you're going to put it right up here and things could take a lot longer to converge or could settle on some
Clustering that you're not happy with so this outlaw is going to be a problem, right?
It's going to make K means struggle slightly
So as an alternative we can use which is called Pam or partitioning around meds by or Kay meds
Whatever you want to call it instead of calculating a mean for our cluster and moving those means around what we're going to do is
Use actual points from our cluster
So what we do is we start off exactly the same as k-means but instead of picking two random positions we pick two random points

Turkish: 
Bu, çoğuna kırmızı atanacak olan anlamına gelir ve
Kırmızı bu şekilde de gidecek ve sadece araçları dolaştıracak ve biraz problem yaratacak
Bu durumda ondan kurtulabiliriz
Ancak büyük bir yüksek boyutlu alanınızın olup olmadığını ve çok sayıda ve çok sayıda kümeyi kümelemeye çalıştığınızı hayal edebilirsiniz.
Araçları yanlış pozisyonda almak, biraz dengesizliğe neden olabilir, yanlış plakaların birlikte sınıflandırılmasını ve kümelenmesini sağlar
Bildiğin bir kaç sorun daha var.
İlk yinelemede araçlarınızı başlattığınız yer, rasgele yerleştirirseniz, açıkça oldukça önemlidir.
Buraya koyacağın bir suçlama var ve bazı şeylerin birleşmesi daha uzun sürebilir ya da bazılarına razı olabilir
Memnun olmadığınıza göre kümelenmek, bu yasadışı sorun olacak, değil mi?
K, biraz mücadele anlamına gelir
Alternatif olarak Pam olarak adlandırılan veya ilaçların etrafına veya Kay ilaçları ile bölümlere ayrılanları kullanabiliriz.
Kümemiz için bir ortalama hesaplamak yerine, ne demek istiyorsan onu yapmak, ne yapacağımız etrafında hareket ettirmek demek.
Kümemizdeki gerçek noktaları kullanın
Öyleyse yaptığımız şey, k-aracı ile aynı şekilde başlayacağız, ancak iki rastgele pozisyon seçmek yerine iki rastgele nokta seçtik

Turkish: 
Mesela, yapacağımız şey şu kırmızı olanı burada seçeceğiz ve şimdi bu mavi olanı seçeceğiz.
Bunlar tam olarak kami'deki gibi muamele edilir
Böylece verilerimizi bu iki nokta etrafında kümelendiriyoruz ve sonra her küme için bir hata hesaplıyoruz
Diğer tüm noktalardan uzaklık budur. Biz ona atarız
bu küme içine böylece kümenin ortasında seçilmiş ise o zaman mesafe olacağını umuyorum ki hayal edebilirsiniz.
Oldukça küçük çünkü burada bir dışlayıcı olarak karşımıza çıkarsa her şey birbirine sıkı sıkıya bağlı olacak
Bu çok büyük bir hata olacak çünkü tüm bu noktalara olan mesafe çok büyük
Öyleyse yaptığımız şey rastgele bir grup seçip merkezi başka bir noktaya taşımak.
Yani biz tamamız buradaydık
hadi buraya gidelim ve biz
Verilerimizi yeniden bölümlere ayırdıktan sonra, seçtiğimiz bu yeni konuma dayanarak tüm yeni kümelerimize uzaklık başına yeni bir hata hesaplıyoruz.
Ve eğer daha iyiyse, merkez noktamızı kalıcı olarak oraya kaydırırız.
değilse, rastgele yeni bir küme ve rastgele yeni bir nokta seçmeden önce bulunduğumuz yere geri dönersek
Bu işlemi tekrar ediyoruz. Yani k-anlamında hareket ettirirsiniz, her ikisini de aslında, ancak
Grup kümeleri, tüm araçları aynı anda taşıyacaksınız, değil mi?

English: 
So for example, what we'll do is we'll pick this red one here and we'll pick this blue one here now
These are treated exactly like the means in kami
So we've in cluster our data around these two points and then we calculate an error for each cluster
That is the distance from all the other points. We assign to it
into that cluster so you can imagine hopefully if this point has been chosen in the middle of a cluster then the distance will be
Quite small because everything will be tightly bound together if it's we're over here as an outlier
It's going to be a huge error because the distance to all of these points is massive
So then what we do is we pick a group at random and we move the center to another point
So we okay we were here
let's move to here and we
Repartition our data and we calculate a new error per distance to all our new clusters based on this new position that we just picked
And if it's better, we permanently move our center point there
if it's not we go back to where we were before we pick a new cluster at random and a new point at random and
We repeat this process. So in k-means you move both means in fact, however, many
Group clusters, you've got you're going to move all the means at the same time, right?

English: 
Because you repartition the data all the means are going to move around and then you reposition the data and you repeat like this in
Pam you just move one mean or one
Exemplar or meadow at a time?
So let's say you pick the red one first
You move that and maybe pick the red one again and you move that and then it's blues turn you move that
And obviously this is gonna take a little while to do over time
Hopefully what will happen is you find that?
More and more of a time you try and move and it doesn't work because you just increase the error because you settled on something
really helpful
and
Also eventually if you take long enough doing this you're gonna visit it all your points and then you might as well stop as well
so typically
What you would do is stop after you
Fail a number of times to move somewhere better
Because really you actually found somewhere pretty good
this neatly avoids our problem of outliers because this one here won't affect the position of this cluster because if we ever chose it to
Be a center it will be immediately discarded because the error is so large
As opposed to it actually affecting the mean and pulling this cluster this direction

Turkish: 
Çünkü verileri yeniden bölümlendirirsiniz, tüm araçlar dolaşır ve sonra verileri yeniden konumlandırırsınız ve bu şekilde tekrarlarsınız.
Pam sadece bir demek ya da bir tane hamle
Bir seferde örnek veya çayır?
Diyelim ki önce kırmızı olanı seçtin.
Onu hareket ettirirsiniz ve belki kırmızı olanı seçersiniz ve hareket ettirirsiniz ve sonra maviler hareket ettirir
Ve belli ki bu zamanla yapmak için biraz zaman alacak
Umarım ne olacaksın?
Daha fazla ve daha fazla denemeye ve hareket etmeye çalışın ve bu bir işe yaramadı çünkü hatayı arttırıyorsunuz çünkü
gerçekten faydalı
ve
Ayrıca sonunda, bunu yapmak için yeterince zaman alırsanız, tüm puanlarınızı ziyaret edeceksiniz ve o zaman da durabilirsiniz.
çok tipik
Yapacağın şey senden sonra durmak.
Daha iyi bir yere gitmek için birkaç kez başarısız olun
Çünkü gerçekten çok iyi bir yer buldun
bu özenle aykırılık sorunumuzu önler, çünkü buradaki bu küme konumunu etkilemeyecektir çünkü eğer onu seçersek
Bir merkez olun, hemen silinecek, çünkü hata çok büyük
Buna karşılık aslında ortalamayı etkileyen ve bu kümeyi bu yöne çeken

English: 
So there's one last problem and that is the problem of how did we get? This - I
Said that I thought there were two clusters in this data and happily there were and that worked out really nicely
But if you've got, you know a huge data set
There's no way to guess how many clusters this is going to be
And or if you do maybe that's not the optimal number of clusters
So for example, if you're trying to cluster up songs and Spotify, I mean how many clusters is that?
I have no idea like lots so you put 80 in and it's okay
But is that should you go up should you do 100 or should you do 60? I don't know
so there are approaches like DB scan which will try and bring in the concept of a neighborhood and have the ability to increase or
Decrease the number of clusters as appropriate for your data. All right
So what's going to happen is they'll say this looks good
But if we split this in two and had two clusters here instead
That will be a better fit right so these are very useful
Technique so you can use if you want something a little bit more powerful
Now it wouldn't be a date of an artist course if we didn't look at the iris dataset at least once this is a classic

Turkish: 
Yani son bir problem var ve bu nasıl elde ettik? Bu benim
Bu verilerde iki küme olduğunu düşündüğümü ve mutlu bir şekilde orada olduğunu ve bunun gerçekten iyi sonuçlandığını söyledi.
Ama eğer varsa, çok büyük bir veri seti biliyorsundur.
Bunun kaç küme olacağını tahmin etmenin bir yolu yok.
Ve ya bunu yaparsanız belki de en uygun küme sayısı bu değildir.
Örneğin, şarkıları ve Spotify'ı kümelemeye çalışıyorsanız, bunun kaç küme olduğunu kastediyorum?
Çok fazla bir fikrim yok bu yüzden 80'i koydun ve sorun değil.
Fakat bu 100 kadar mı yoksa 60 mı yapmalıyım? Bilmiyorum
Bu yüzden, bir mahalle kavramını getirmeye çalışan ve artırabilecek veya arttırabilecek DB taraması gibi yaklaşımlar var.
Verilerinize uygun küme sayısını azaltın. Tamam
Öyleyse olacak, bunun iyi göründüğünü söyleyecekler.
Fakat bunu ikiye bölersek, burada iki küme olsaydı
Bu daha uygun bir seçim olacaktır, bu yüzden bunlar çok faydalıdır.
Tekniği biraz daha güçlü bir şey istiyorsanız kullanabilirsiniz
Şimdi en azından bir kez klasik olan iris veri setine bakmasaydık, bir sanatçı kursunun tarihi olmazdı.

Turkish: 
Veri seti herkesin kullandığı ve güzel ve küçük kümelenme için iyidir ve bir bakabiliriz ve bu veri kümesini alabiliriz
Üç farklı çiçek türümüz var. Çok Tosa versicolor ve
Virginica, dört özelliğimiz var. Sadece bu durum için birkaç uzunluk sepal genişlik petal uzunluk petal genişlik var
Sepal'ın ne olduğuna baktım ve şu anda katlandığında çiçeği kaplayan yeşil kısım.
Bu çiçekler hakkında fazla bir şey bilmiyorum ama onlar çok farklı. Bunlardan biri diğerlerinden biraz daha farklı
Bu yüzden iyi bir kümelenme problemi yaratır çünkü üç ayrı kümelenmeyi umuyoruz
iris veri seti, içine yerleştirilmiş olanlardan biridir ve tam anlamıyla veri irisini çağırabilir.
Şimdi senin için yükler
Elimizdeki şeye hızlıca bir göz atalım, çünkü bunlar çok güzel bir işlevdir, çift olarak adlandırılırlar.
Bu bize sadece farklı özelliklere sahip dağılma grafikleri yükünü gösterir.
peki bunu çalıştırırsam
Bu, tüm şeylere bakmak çok zorlaşmadan önce, sadece birkaç özellik için işe yarayacak
Böylelikle sepal uzunluk sepal genişlik gibi şeyler var ve bunların ve bunların korelasyonu farklı çiçek sınıfları tarafından renklendirilir.
Böylece, üç sınıfın onlardan biri olup olmadığını anlarsınız.
Bu kırmızı ve yeşil sınıfa arılar. Çok fazla örtüşme var

English: 
Data set everyone uses and it's good for clustering nice and small and we can have a look and this data set
We've got three different species of flower. We've got so Tosa versicolor and
Virginica, we've got four attributes. We've got several length sepal width petal length petal width just for this occasion
I looked up what a sepal is and it's the green bit that covers the flower when it's folded up right now
I don't know much about these flowers, but they are subtly different. One of them is a little bit more different than the others
So it makes for a good clustering problem because we're hoping for three distinct clusters
the iris dataset is one of the ones that's built into our you can literally call data iris and
It'll load it up for you now
Let's have a quick look at what we've got because they're lovely function in are called pairs
Which just shows us a load of scatter plots of different attributes
so if I run this
This is only going to work for a few attributes before the whole thing becomes very difficult to look at
So we've got things like sepal length sepal width and the correlations of these and these are colored by the different class of flower
so you can see if the three class is one of them is actually quite different a lot of the time and then some of
Them bees this red and green class. They've got quite a lot of overlap

English: 
So clustering nose is going to be a little bit more difficult bearing in mind. We're using four dimensions to do it
Not the two you're seeing in any individual scatter plot. Okay. So let's just start off with standard k-means
so we're going to call km3 k-means with three clusters is
K-means, there's a function for this in R on the iris data set all of the rows 1 to 4
So not the species of plant
We're not going to custom on that three clusters and we're going to allow it to go 400 iterations
K-means will stop early if it doesn't improve itself, but if it keeps going maybe it's just going back and forth a little bit
It's time to stop that did not take very long
This object returned by the k-means function is going to have an integer
determining which of our
instances have been assigned to which cluster so all of these first ones have been assigned to cluster two and
The Centers for all of our clusters as well
So remember that in our we only have a data frame like this iris we can add other
columns to it
So we're going to just add our k-means result back into our it's data frame so we can keep track of it
So we're going to say iris
km3

Turkish: 
Böylece kümelenme burnu akılda tutulması biraz daha zor olacak. Bunu yapmak için dört boyut kullanıyoruz
Bireysel dağılım planında gördüğünüz ikisi değil. Tamam. Öyleyse standart k-araçlarıyla başlayalım.
bu yüzden km3 k-aracını üç küme ile arayacağız.
K-anlamına gelir, bunun için R'de 1 ile 4 arasındaki tüm satırların ayarlanan iris verisi üzerinde bir işlev vardır.
Yani bitki türleri değil
Bu üç kümeye bağlı kalmayacağız ve 400 yineleme yapmasına izin vereceğiz
K-araçları kendini geliştirmezse erken durur, ancak devam ederse biraz ileri geri gider.
Çok uzun sürmedi durma zamanı geldi
K-means işlevi tarafından döndürülen bu nesne bir tamsayıya sahip olacak
hangimiz olduğunu belirleme
Örneklerin hangi kümeye atandığı, bu ilk grupların hepsinin ikinci kümeye atandığı ve
Tüm kümelerimizin merkezleri de
Bu nedenle, bizim içinde sadece bu iris gibi başka ekleyebileceğimiz bir veri çerçevesinin olduğunu unutmayın.
sütunlar
Bu yüzden sadece k-aracı sonucumuzu kendi veri çerçevemize ekleyeceğiz, böylece takip edebilelim.
Öyleyse iris diyeceğiz.
km3

Turkish: 
km3'e eşittir
dolar
Orada olacak olan küme. Tamam, hadi bir masaya koyalım
Kümelerimizin gerçek çiçek sayımızla nasıl eşleştiğine bir göz atacağız.
Biz de öyle olduk ki, irf türlerinin bir tablosu olacak ve i-i kümeleri arasında k-araçlarından
Tamam, peki bir şeye bakarsak
ilk göreceğimiz şey, bunun pek de mantıklı gelmediği, çünkü örneğin bazılarında sınıf 1 olan Tozer
Anlam, küme 3'e atandı. Yani yapacağımız şey, bu sütunları yeniden sıralayacağız.
Doğru. Sınıflandırmalar, bir karışıklık matrisine benzer şekilde diyagonal aşağısındadır. Bu yüzden arayacağımız bir işlevi var ve
Bu sonuca bakarsak, sonuçların% 89 olduğunu görebiliriz.
Sınıflandırma doğruluğu, bu veri kümesinde her bir bitkinin 50'si vardı. Bu bitkilerin 48 tanesi doğru olarak kümelenme 2'ye atandı.
Fakat ikisi, diğer bekaretlerle birlikte küme 1'deydi ve sonunda bakire 50 yaşındaydı.

English: 
is equal to km3
dollar
Cluster that's gonna be in there. Okay, so let's put it in a table
We'll have a look at how our clusters match up to our actual number of flowers
We've got so it's going to be a table of the irf species versus the iris clusters from k-means
Alright, so if we have a look at that
the first thing we'll see is that it doesn't make absolutely much sense because for example say Tozer which is our class 1 in some
Sense has been assigned to cluster 3. So what we're going to do is we're going to reorder these columns so that the
Correct. Classifications are down the diagonal much like a confusion matrix. So we have a function to do that that we're going to call and
If we look at this result, we can see that the results are an 89%
Classification accuracy, there were 50 of each plant in this dataset 48 of these plants have been correctly assigned to cluster two together
But two of them were in cluster 1 along with the other virginities and finally the virginica has been 36 of 50

Turkish: 
Doğru olarak küme 1 ve 14'e atanmış olması, küme 2'ye yanlış şekilde kümelenmiştir, bu yüzden oldukça iyi çalışmıştır. Mükemmel değil
Bitkileri gerçekten ayırmak istiyorsanız akılda tutmak. Belki 4 boyuttan daha fazlasına ihtiyacınız vardır
Belki bir bitkinin sadece 4 boyuta dayalı olduğunu söyleyemezsiniz.
Tamam, bu bitkilerden bazıları yeterince benzer, ancak kümeleme çok iyi tanımlanmamış
Bu yüzden belki de boyutsallığı azaltmak için temel bileşen analizini kullanarak hayatımızı biraz daha kolaylaştırabiliriz.
Ya da sadece daha iyi kümelenme sonucu elde etmek için verilerimizi bazı farklı eksenlere yeniden yerleştirmek için. Yani çok benzer bir şey yapacağız
PCA'yı çalıştıracağız
İris veri kümesi ve puanlarımızı bu yeni alana yansıtacağız.
Ana bileşen boşluğu ve sonra sadece ilk iki boyutu alacağız
Yani bu ana bileşen 1 ve ana bileşen 2’de ele aldığımız ana bileşen 2
O zaman yapacağımız şey, orijinal veriler yerine caming stavos sonuçlarını uygulayacağız.
Yani yaptığımız şey, 4 boyuttaki sepal genişliğini sepal uzunluğuna dönüştürdük.

English: 
Correctly assigned to cluster 1 and 14 have been incorrectly clustered into cluster 2, right so it worked pretty well. It's not perfect
Bearing in mind if you really want to separate out plants. Maybe you need more than 4 dimensions
Maybe you can't absolutely tell what a plant is just based on 4 dimensions
All right, some of these plants are similar enough, but the clustering isn't very well defined
So perhaps we can make our life a little bit easier by using principal component analysis to do dimensionality reduction
Or just to reframe our data onto some different axes to get better clustering result. So we're going to do a very similar thing
We're going to run PCA on
The iris dataset and we're going to project our points into that new
Principal component space and then we're going to take only the first two dimensions
So this is principal component 1 and principal component 2 as we covered in the principal component video
Then what we're going to do is we're going to apply caming stavos results rather than the original data
So what we've done is we've transformed our 4 dimensions of sepal width sepal length

Turkish: 
Petal uzunluk ve petal genişliğini ana bileşen eksenlerimize yerleştirdik ve son iki parçayı attık ve sadece iki eksen tuttuk
Bu yüzden çok uzun sürmeyen bir şeyi çalıştıracağım.
Tamam
K-means'in sonuçlarında olduğu gibi iris veri setimize geri döndüğümüzü işaret edeceğiz.
 
Başka bir masa hazırlayın ve sonuçların masa ile nasıl karşılaştırıldığını görün, ardından köşegen tekrar sipariş edelim
Sonuçlar neredeyse tamamen aynıydı. Bunun% 88'i% 89 gibi bir şey olduğunu düşünüyorum
Ekstra birini görebilirsiniz.
Versicolor ben olmamalıyken küme 2'ye yerleştirildi, ancak bu 4 boyut yerine sadece 2 boyutta
Bu yüzden Harbor sayısını belirledik, ancak PCA kullanarak
veri kümeleri için neredeyse aynı sonucu aldık
Belki etiketlerin olması çok zor, çünkü etiketlerin elde edilmesi zor.
ben
Kümelemenin veriyi gruplandırmanın ve elde edebileceğimiz bilgiyi veya hangi öğelerin ne olduğunu öğrenmeye başlamasının iyi bir yoludur
 
Veri tabanımızdaki ürünlerin birbirleriyle aynı olduğu için birbirimize benzeriz.
Tavsiye sistemi, bilirsin, hangi filmler birbirlerine benziyorlar, hangi şarkılar birbirlerine benziyorlar, hangi çiçekler birbirlerine benziyorlar?
Böylece, verileri kümeleyen fikirler ve bunu yaparak bu kümelere bakabilir ve biraz bilgi edinmeye başlayabiliriz.

English: 
Petal length and petal width onto our principal component axes and then we've discarded the last two and kept just two axes
So I'm going to run that that didn't take very long
Ok
We're going to sign that back to our iris data set just like we did with the results of k-means and then we can bring
Up another table and see how the results compare table to and then we'll order that again by the diagonal
Results were almost exactly the same. I think it was 88% 89% something like this
You can see that one extra
Versicolor was put into cluster 2 when it shouldn't have been I but this is with only 2 dimensions instead of 4 dimensions
So we've Harbor number of dimensions but by using PCA
we've got almost the exact same result for datasets that
You don't have labels for maybe the labels are too hard to get or you don't know what they would be
I
Think clustering is a good way to group up data and start to derive some knowledge the knowledge we can derive or what what items
are similar to each other by which products in our database are similar to each other so that we can start using them for a
Recommender system, you know, what movies are like each other what songs are like each other like what flowers are like each other?
So the ideas that were clustering data up and by doing that we can look at these clusters and start to gain some knowledge

English: 
Don't forget also that each of these is going to have a prediction as well
so this one here attribute one is going to have let's say like a label if we did play tennis or this person is
Healthy or this person has this disease. It depends on you

Turkish: 
Bunların her birinin de bir tahmini olacağını da unutmayın
yani buradaki bir özellik, tenis oynadıysak ya da bu kişi ise, bir etiket gibi diyelim.
Sağlıklı ya da bu kişi bu hastalığa sahip. O size bağlı
