
English: 
In the previous videos we talked about k-Means
and how to find a good number of clusters in our data.
We mentioned silhouette,
which is a score of cluster quality
and helps us find the k to our means.
Understanding how silhouette score works is quite simple.
Here we have three clusters:
green,
blue,
and orange.
Now we would like to know how well this data point
belongs to the blue cluster.
First, we will measure the average distance
between our data points
and the points in its own blue cluster.
Let's call this distance A.

Serbian: 
U prethodnim klipovima govorili smo 
o 'k-Means' algoritmu
i kako da pronađemo dobar broj 
klastera u našim podacima.
Pomenuli smo siluet indeks,
koji predstavalja meru kvaliteta klastera, 
i pomaže nam da pronađemo njihov tačan broj.
Veoma je jednostavno razumeti kako 
siluet indeks funkcioniše.
Ovde imamo tri klastera: 
zeleni, plavi i narandžasti.
Sada bismo želeli da znamo 
koliko dobro ova instanca
pripada plavom klasteru.
Prvo ćemo izmeriti prosečnu 
udaljenost između naše instance i
ostalih instanci iz njenog, 
plavog klastera.
Nazovimo je 'udaljenost A'.

Portuguese: 
Nos vídeos anteriores falamos sobre k-Means
e como encontrar um bom número de clusters em nossos dados.
Nós mencionamos a silhouette,
que é uma pontuação da qualidade do cluster
e nos ajuda a encontrar o k para nossas médias (k-Means ou k-Médias).
Entender como a pontuação silhouette funciona é bem simples.
Aqui nós temos três clusters:
verde,
azul,
e laranja.
Agora gostaríamos de saber o quão bem este ponto
pertence ao cluster azul.
Primeiro, vamos medir a distância média
entre nossos pontos
e os pontos no próprio cluster azul.
Vamos chamar essa distância A.

Portuguese: 
Em segundo lugar, vamos medir a distância média
entre nosso ponto
e os pontos no cluster verde mais próximo.
Vamos chamar essa distância B.
Se o nosso ponto estiver bem fundamentado em seu cluster,
B precisa ser grande e A pequeno
de modo que a diferença entre eles, B menos A,
seja a maior possível.
Para normalizar essa pontuação, temos que dividir
pelo máximo de A e B.
A pontuação silhouette para o nosso ponto
será bem alta

English: 
Second, we will measure the average distance
between our data point
and the points in the closest, green cluster-
Let's call this distance B.
If our data point is well-grounded in its cluster,
B needs to be large and A small
so that the difference between them, B minus A,
is as large as possible.
To normalize this score, we have to divide it
by the maximum of A and B.
The silhouette score for our data point
will be quite high

Serbian: 
Zatim ćemo izmeriti prosečnu 
udaljenost između naše instance
i drugih instanci iz najbližeg, 
zelenog klastera.
Nazovimo je 'udaljenost B'.
Ako se naša instanca nalazi u pravom 
klasteru, 'udaljenost B' mora biti velika,
a 'udaljenost A' mala, 
tako da njihova razlika, 'B - A',
bude najveća moguća.
Kako bismo normalizovali rezultat,
potrebno je da ga
podelimo najvećom od vrednosti A ili B.
Vrednost siluet indeksa za našu
instancu će biti veoma visok,

English: 
since it lies close to the center of its cluster.
Silhouette score for a point that lies between the two clusters
will be close to zero.
Let me now paint some data.
I'll pass it through k-Means clustering
and visualize the clusters in the scatter plot.
I will use Silhouette widget
to find points that are close to the center of the red cluster.
To observe where the selected data instances lie,
I will connect Silhouette to the Scatter Plot.
Let me select a few top scored data instances in the red cluster.
wow, they're indeed in the center of the cluster.
And those with the lowest scores?

Portuguese: 
desde que se encontre perto do centro do seu cluster.
A pontuação Silhouette para um ponto que fica entre os dois clusters
será próxima de zero.
Vamos agora pintar alguns dados.
Eu passarei isso através do clustering k-Means
e visualizarei os clusters no gráfico de dispersão.
Vou usar o widget Silhouette
para encontrar pontos próximos ao centro do cluster vermelho.
Para observar onde estão as instâncias de dados selecionadas,
eu conectarei Silhouette ao "Scatter Plot"
(gráfico de dispersão).
Deixe-me selecionar algumas instâncias de dados com pontuação máxima no cluster vermelho.
Uau, eles estão de fato no centro do aglomerado.
E aqueles com as pontuações mais baixas?

Serbian: 
jer se nalazi blizu 
središta svog klastera.
Vrednost siluet indeksa za instancu 
koja se nalazi između dva klastera
biće bliska nuli.
Sada ću naslikati neke podatke.
Propustiću ih kroz 'k-Means'
i vizuelizovati na 'Scatter plot'-u.
Upotrebićemo 'Silhouette' operator kako 
bismo našli instance najbliže crvenom klasteru.
Kako bismo videli gde se 
odabrane instance nalaze,
povezaću 'Silhouette' sa 
'Scatter Plot' operatorom.
Odaberimo nekoliko najbolje 
rangiranih instanci iz crvenog klastera.
Vau! 
Zaista se nalaze u centru klastera!
A one sa najnižim rangovima?

Portuguese: 
Eles são os pontos de dados limítrofes.
Eu posso usar plotagens de silhouette
em quaisquer dados que incluam classes ou atributos discretos.
Digamos, no conjunto de dados 'iris'.
Os maiores outliers
estão na região de sobreposição entre iris versicolor
e iris virginica.
E os inliers?
A maioria deles está na classe bem separada de iris setosa.
Hoje nós aprendemos sobre a mecânica de pontuação de silhouette.
Nos vídeos anteriores, a usamos para marcar os clusters.
Ela é uma ótima ferramenta para encontrar os inliers e os outliers.

English: 
They are the borderline data points.
I can use silhouette plots
on any data that include discrete class or attributes.
Say, on an 'iris' data set.
The biggest outliers
are in the overlapping region between iris versicolor
and iris virginica.
And the inliers?
Most of them lie in the well-separated iris setosa class.
Today we've learned about a mechanics of silhouette score.
In the previous videos, we have used it to score the clusters.
But what a great tool it makes for finding the inliers and the outliers.

Serbian: 
Ovo so granični slučajevi.
Vizualizacija 'Silhouette' mogu da se 
koriste na svim podacima
koji imaju diskretne 
ulazne ili izlazne atribute.
Na primer, na 'Iris' skupu podataka.
Najveći autlajeri nalaze se 
u regionima preklapanja
između klasa 'iris versicolor' 
i 'iris virginica'.
A inlajeri -
većina njih se nalazi u 
dobro razdvojenoj 'iris setosa' klasi.
Danas smo naučili o mehanizmima 
funkcionisanja siluet indeksa.
U prethodnim klipovima smo ga koristili 
da pronađemo klastere,
ali smo videli da je on i sjajan alat za 
otkrivanje inlajera i autlajera.
