
German: 
In der Datenanalyse muss man auch interessante Gruppen von Dateninstanzen finden.
Möge dies eine Segmentierung der Kunden nach ihren Einkaufsgewohnheiten sein,
ähnliche Dokumente finden,
oder Gruppieren von Tweets basierend auf ihrem Inhalt.
Besonders wenn die Daten im Überfluss vorhanden sind
Wir können Cluster mit einer Methode namens k-Means finden.
Lassen Sie uns zunächst einige Daten malen, um festzustellen, ob das Clustering wirklich funktioniert.
Wir werden eins machen,
zwei,
drei Gruppen von Datenpunkten.
Verbinden wir nun Paint Data mit k-Means.
Dieses Widget findet Cluster,
Die Datenpunkte im selben Cluster liegen also nahe beieinander.
das ist der Abstand zwischen ihnen ist klein.

English: 
In data analytics one also needs to find interesting groups of data instances.
May that be segmentation of customers based on their shopping habits,
finding similar documents,
or grouping tweets based on their content.
Especially when the data abounds
we can find clusters using a method called k-Means.
First, let us paint some data to see if clustering really works.
We will make one,
two,
three groups of data points.
Now, let's connect Paint Data with k-Means.
This widget finds clusters,
so the data points in the same cluster are close to each other,
that is the distance between them is small.

Serbian: 
U analizi podataka nekada je potrebno 
pronaći interesantne grupe instanci.
Bilo da je to segmentacija potrošača na 
osnovu njihovih kupovnih navika,
pronalaženje sličnih dokumenata,
ili grupisanje tvitova na 
osnovu njihovog sadržaja.
Posebno kada su podati velikih razmera,
možemo naći klastere (grupe) 
koristeći metod K-sredina (k-Means).
Prvo ćemo naslikati neke podatke da bismo videli 
kako klasterovanje funkcioniše.
Napravićemo jednu,
dve,
tri grupe podataka.
Sada ćemo povezati 'Paint Data'
sa 'k-Means' operatorom.
On će pronaći klastere,
tako da su instance unutar klastera 
blizu jedne drugima,
tj. da je udaljenost među njima mala.

French: 
Dans l'analyse de données, il faut également trouver des groupes intéressants d'instances de données.
Que ce soit la segmentation des clients en fonction de leurs habitudes d'achat,
trouver des documents similaires,
ou regrouper des tweets en fonction de leur contenu.
Surtout quand les données abondent
nous pouvons trouver des clusters en utilisant une méthode appelée k-Means.
Commençons par peindre quelques données pour voir si le clustering fonctionne vraiment.
Nous en ferons un,
deux,
trois groupes de points de données.
Maintenant, connectons Paint Data avec k-Means.
Ce widget trouve des clusters,
de sorte que les points de données dans le même cluster sont proches les uns des autres,
c'est que la distance entre eux est petite.

Spanish: 
En el análisis de datos, también es necesario encontrar grupos interesantes de instancias de datos.
Que esa sea la segmentación de los clientes en función de sus hábitos de compra,
encontrar documentos similares,
o agrupando tweets en función de su contenido.
Especialmente cuando abundan los datos
podemos encontrar clusters usando un método llamado k-Means.
Primero, vamos a pintar algunos datos para ver si el agrupamiento realmente funciona.
Haremos uno
dos,
tres grupos de puntos de datos.
Ahora, conectemos Paint Data con k-Means.
Este widget encuentra grupos,
entonces los puntos de datos en el mismo grupo están cerca uno del otro,
esa es la distancia entre ellos es pequeña.

Portuguese: 
Na análise de dados, também é preciso encontrar grupos interessantes de instâncias de dados.
Pode ser a segmentação de clientes com base em seus hábitos de compras,
encontrar documentos semelhantes,
ou agrupar tweets com base em seu conteúdo.
Especialmente quando os dados são abundantes
podemos encontrar clusters usando um método chamado k-Means.
Primeiro, vamos pintar alguns dados para ver se o clustering realmente funciona.
Nós vamos fazer um,
dois,
três grupos de pontos de dados.
Agora, vamos conectar o widget "Paint Data" (Pintar dados) com o widget "k-Means".
Este widget encontra clusters,
então os pontos de dados num mesmo cluster estão próximos uns dos outros,
ou seja, a distância entre eles é pequena.

Portuguese: 
Aqui, pedimos a k-Means para encontrar três clusters.
Agora, podemos observar o agrupamento no "Scatter Plot" (gráfico de dispersão).
Uau, isso funcionou bem
e os k-Means realmente descobriram clusters onde esperávamos.
Nós podemos mudar interativamente o número de clusters
e observe estas mudanças em um gráfico.
Podemos pedir dois clusters,
quatro
cinco,
e assim por diante.
Para nossos dados, a escolha de três clusters funciona melhor.
k-Means exige que especifiquemos o número de clusters,
mas em Orange, também podemos pedir para encontrar o número certo de clusters.
Podemos dizer para variar o número de clusters,
marcar cada agrupamento,
e retornar a melhor pontuação.
Mas como pontuamos os clusters?
Com Silhouette.
A pontuação Silhouette mostra quão bem cada ponto de dados,

French: 
Ici, nous avons demandé à k-Means de trouver trois clusters.
Maintenant, nous pouvons observer le regroupement en nuage de points.
Wow, cela a bien fonctionné,
et les k-Means ont vraiment découvert des clusters là où nous les attendions.
Nous pouvons changer de manière interactive le nombre de clusters
et observer ces changements dans un graphique.
On peut demander deux clusters,
quatre,
cinq,
etc.
Pour nos données, le choix de trois clusters fonctionne mieux.
k-Means nous oblige à spécifier le nombre de clusters,
mais chez Orange, on peut aussi lui demander de trouver
le bon nombre de clusters.
On peut lui dire de faire varier le nombre de clusters,
marquer chaque clustering,
et retourner le meilleur score.
Mais comment notons-nous les clusters?
Avec silhouette.
La notation de la silhouette indique dans quelle mesure chaque point de données

English: 
Here, we told k-Means to find three clusters.
Now, we can observe the clustering in scatter plot.
Wow, this worked fine,
and the k-Means really discovered clusters where we had expected them.
We can interactively change the number of clusters
and observe these changes in a plot.
We can ask for two clusters,
four,
five,
and so on.
For our data, the choice of three clusters works best.
k-Means requires us to specify the number of clusters,
but in Orange, we can also ask it to find
the right number of clusters.
We can tell it to vary the number of clusters,
score each clustering,
and return the best score.
But how do we score the clusters?
With silhouette.
Silhouette scoring reports how well each data point,

German: 
Hier haben wir k-Means angewiesen, drei Cluster zu finden.
Jetzt können wir die Clusterbildung im Streudiagramm beobachten.
Wow, das hat gut funktioniert,
und die k-Means entdeckten wirklich Cluster, wo wir sie erwartet hatten.
Wir können die Anzahl der Cluster interaktiv ändern
und beobachten Sie diese Änderungen in einer Handlung.
Wir können nach zwei Clustern fragen,
vier,
fünf,
und so weiter.
Für unsere Daten funktioniert die Auswahl von drei Clustern am besten.
Bei k-Means müssen wir die Anzahl der Cluster angeben.
aber in Orange können wir auch darum bitten, es zu finden
die richtige Anzahl von Clustern.
Wir können ihm sagen, dass er die Anzahl der Cluster variieren soll.
Punktzahl jedes Clustering,
und geben Sie die beste Punktzahl zurück.
Aber wie bewerten wir die Cluster?
Mit Silhouette.
Die Silhouette-Bewertung gibt an, wie gut jeder Datenpunkt ist.

Spanish: 
Aquí, le dijimos a k-Means que buscara tres grupos.
Ahora, podemos observar el agrupamiento en el diagrama de dispersión.
Wow, esto funcionó bien
y los k-medias realmente descubrieron grupos donde los habíamos esperado.
Podemos cambiar de forma interactiva el número de grupos
y observe estos cambios en una trama.
Podemos pedir dos grupos,
cuatro
cinco,
y así.
Para nuestros datos, la elección de tres grupos funciona mejor.
k-Means requiere que especifiquemos el número de clústeres,
pero en Orange, también podemos pedirle que busque
el número correcto de grupos.
Podemos decirle que varíe el número de grupos,
puntuar cada agrupación,
y devolver la mejor puntuación.
Pero, ¿cómo calificamos los grupos?
Con silueta.
La puntuación de silueta informa qué tan bien cada punto de datos,

Serbian: 
U ovom primeru smo od 'k-Means'-a
tražili da pronađe tri klastera.
Sada možemo osmotriti rezultat 
klasterovanja na 'Scatter plot'-u.
Vau! Rezultati su odlični -
'k-Means' je zaista otkrio klastere tamo 
gde smo ih i očekivali.
Možemo interaktivno promeniti 
broj klastera
i posmatrani promene na grafiku.
Možemo zatražiti dva klastera,
četiri,
pet,
i tako dalje.
U slučaju naših podataka, 
izbor od tri klastera je najbolji.
'K-means' od nas zahteva da definišemo 
broj klastera,
ali možemo i zatražiti od Orange-a
da sam pronađe njihov pravi broj.
Možemo zadati da menja broj klastera,
vrednuje svaki rezultat klasterovanja,
i vrati najbolji rezultat.
Ali kako vrednujemo klastere?
Uz pomoć siluet indeksa ('silhouette').
Vrednovanje siluet indeksom govori 
koliko svaka instanca podataka,

English: 
on average, fits into its designated cluster.
The higher the score,
the fewer data points we have where clustering membership is not clear.
Let's instruct k-Means to use the silhouette score
and guess the best number of clusters.
It's three, just as we expected.
Let us add a few more clusters to our data.
Four.
Five.
Six.
Now this looks simply wonderful.
Every time the k-Means with silhouette scoring
correctly guessed the number of clusters.
Is it even possible for k-Means to make a mistake?
Let's see.
We will draw three clusters in the shape of a...
smiley face.
Let's see what silhouette suggests.
Four clusters?

French: 
s'inscrit en moyenne dans son cluster désigné.
Plus le score est élevé,
moins nous avons de points de données où l'appartenance à un cluster n'est pas claire.
Instruisons k-Means à utiliser le score de silhouette
et devinez le meilleur nombre de clusters.
C'est trois, comme prévu.
Ajoutons quelques clusters supplémentaires à nos données.
Quatre.
Cinq.
Six.
Maintenant, cela semble tout simplement merveilleux.
Chaque fois que le k-Means avec une silhouette
correctement deviné le nombre de clusters.
Est-il même possible que k-Means se trompe?
Voyons voir.
Nous allons dessiner trois grappes en forme de ...
smiley.
Voyons ce que la silhouette suggère.
Quatre grappes?

Serbian: 
u proseku, pripada dodeljenom klasteru.
Što je viša vrednost -
manje je instanci čija je pripadnost nejasna.
Hajde da zatražimo od 'k-Means'-a
da koristi siluet indeks
i da pretpostavi optimalan broj klastera.
Rezultat je - tri. 
Baš kao što smo i očekivali.
Hajde da dodamo još klastera u 
naše podatke.
Četiri.
Pet.
Šest.
Sada su efekti zaista sjajni.
Svaki put, 'k-Means' sa siluet indeksom
je tačno pogodio broj klastera.
Da li 'k-Means' uopšte može da pogreši?
Hajde da proverimo.
Nacrtaćemo tri klastera u obliku...
nasmejanog lica.
Hajde da vidimo šta 
siluet indeks preporučuje.
Četiri klastera?

Portuguese: 
em média, cabe em seu cluster designado.
Quanto maior a pontuação,
menos pontos de dados teremos onde a associação do cluster não é clara.
Vamos instruir k-Means para usar a pontuação Silhouette
para que adivinhe o melhor número de clusters.
São três, exatamente como esperávamos.
Vamos adicionar mais alguns clusters aos nossos dados.
Quatro.
Cinco.
Seis.
Agora isso parece simplesmente maravilhoso.
Em todos os casos, o k-Means com pontuação Silhouette
adivinhou corretamente o número de clusters.
É possível que o k-Means cometa um erro?
Vamos ver.
Vamos desenhar três clusters em forma de ...
rosto sorridente.
Vamos ver o que a silhouette sugere.
Quatro clusters?

German: 
passt im Durchschnitt in den angegebenen Cluster.
Je höher die Punktzahl,
Je weniger Datenpunkte wir haben, an denen die Clustermitgliedschaft nicht klar ist.
Lassen Sie uns k-Means anweisen, die Silhouette-Punktzahl zu verwenden
und erraten Sie die beste Anzahl von Clustern.
Es ist drei, genau wie wir erwartet hatten.
Fügen wir unseren Daten einige weitere Cluster hinzu.
Vier.
Fünf.
Sechs.
Das sieht einfach wunderbar aus.
Jedes Mal das k-Means mit Silhouette Scoring
richtig erraten die Anzahl der Cluster.
Kann k-Means überhaupt einen Fehler machen?
Wir werden sehen.
Wir werden drei Cluster in Form eines ...
lächelndes Gesicht.
Mal sehen, was die Silhouette andeutet.
Vier Cluster?

Spanish: 
en promedio, se ajusta a su grupo designado.
Cuanto más alto sea el puntaje,
cuantos menos puntos de datos tengamos donde la agrupación de miembros no sea clara.
Indiquemos a k-Means que use la puntuación de silueta
y adivina el mejor número de grupos.
Son las tres, tal como esperábamos.
Agreguemos algunos grupos más a nuestros datos.
Cuatro.
Cinco.
Seis.
Ahora esto se ve simplemente maravilloso.
Cada vez que los k-medias con puntuación de silueta
adivinó correctamente el número de grupos.
¿Es posible que k-Means cometa un error?
Veamos.
Dibujaremos tres grupos en forma de ...
cara sonriente.
Veamos qué sugiere la silueta.
¿Cuatro racimos?

Spanish: 
Eso no puede estar bien.
Obviamente, debería haber tres.
Este es uno de los inconvenientes de k-Means.
Funciona bien en compacto,
racimos de forma esférica
y falla en formas de un tipo diferente.
Ahora, usemos k-Means en un conjunto de datos real.
Precios de la vivienda en Boston, por ejemplo.
Le pediremos dos grupos
y luego observe las diferencias entre los grupos en el diagrama de caja.
Parece que hay grandes diferencias entre los grupos en estos datos
con respecto a la tasa de criminalidad,
contaminación,
y edad de las casas.
Incluso podemos verificar si los grupos tienen sentido
en la proyección de datos MDS.
Pues lo hacen.

Portuguese: 
Isso não pode estar certo.
Obviamente, deveria haver três.
Esta é uma das desvantagens de k-Means.
Funciona bem em compactos
clusters esféricos
e falha em formas de um tipo diferente.
Agora, vamos usar k-Means num conjunto de dados real.
Os preços de habitação em Boston, por exemplo.
Vamos pedir dois clusters
e observar as diferenças entre os clusters no Box Plot.
Parece que há grandes diferenças entre os clusters nesses dados
que dizem respeito à taxa de criminalidade,
poluição,
e idade das casas.
Podemos até verificar se os clusters fazem sentido
na projeção de dados do MDS.
Bem, eles fazem.

German: 
Das kann nicht richtig sein.
Offensichtlich sollte es drei geben.
Dies ist einer der Nachteile von k-Means.
Es funktioniert gut auf kompakten,
kugelförmige Cluster
und versagt bei Formen anderer Art.
Verwenden wir nun k-Means für einen realen Datensatz.
Boston Immobilienpreise zum Beispiel.
Wir werden nach zwei Clustern fragen
und beobachten Sie dann die Unterschiede zwischen den Clustern im Box-Plot.
Anscheinend gibt es große Unterschiede zwischen den Clustern in diesen Daten
in Bezug auf die Kriminalitätsrate,
Verschmutzung,
und Alter der Häuser.
Wir können sogar prüfen, ob Cluster sinnvoll sind
in der MDS-Datenprojektion.
Nun, das tun sie.

English: 
That can't be right.
Obviously, there should be three.
This is one of the drawbacks of k-Means.
It works well on compact,
spherical shaped clusters
and fails on shapes of a different kind.
Now, let's use k-Means on a real data set.
Boston housing prices for example.
We will ask for two clusters
and then observe the differences between clusters in the box plot.
Looks like there are major differences between the clusters in this data
with respect to the crime rate,
pollution,
and age of the houses.
We can even check if clusters make sense
in the MDS data projection.
Well, they do.

Serbian: 
To ne može biti tačno.
Očigledno, treba da postoje tri.
Ovo je jedna od mana 'k-Means'-a.
On radi dobro na kompaktnim,
sferičnim klasterima,
a greši na drugačijim oblicima.
Hajde da sada upotrebimo 'k-Means' na 
pravom skupu podataka.
Na primer, 'Boston housing'.
Tražićemo dva klastera
i onda posmatrati razlike između
klastera na 'Box Plot'-u.
Izgleda da postoje jasne razlike 
između grupa podataka
koje se odnose na stopu zločina,
zagađenost okoline,
i starost kuća.
Možemo da proverimo da li 
klasteri imaju smisla
u 'MDS' projekciji podataka.
Pa, zapravo, imaju.

French: 
Ça ne peut pas être vrai.
Évidemment, il devrait y en avoir trois.
C'est l'un des inconvénients des k-Means.
Cela fonctionne bien sur compact,
grappes de forme sphérique
et échoue sur des formes d'un type différent.
Maintenant, utilisons k-Means sur un ensemble de données réel.
Les prix des logements à Boston par exemple.
Nous demanderons deux clusters
puis observez les différences entre les clusters dans le diagramme en boîte.
Il semble qu'il existe des différences majeures entre les clusters dans ces données
en ce qui concerne le taux de criminalité,
la pollution,
et l'âge des maisons.
On peut même vérifier si les clusters ont du sens
dans la projection de données MDS.
Eh bien, ils le font.

Portuguese: 
Esse conjunto de dados realmente possui dois clusters distintos.
Hoje aprendemos o que o k-Means faz
e como usá-lo em um conjunto de dados real.
Nos próximos dois vídeos
vamos explicar como k-Means e trabalho de pontuação silhouette
e como o silhouette pode encontrar inliers e outliers.

Spanish: 
Este conjunto de datos tiene dos grupos distintos.
Hoy hemos aprendido lo que hace k-Means,
y cómo usarlo en un conjunto de datos real.
En los siguientes dos videos
explicaremos cómo funcionan los k-medias y la puntuación de silueta
y cómo la silueta puede encontrar entrantes y valores atípicos.

German: 
Dieser Datensatz hat tatsächlich zwei unterschiedliche Cluster.
Heute haben wir gelernt, was k-Means macht,
und wie man es auf einem realen Datensatz verwendet.
In den nächsten beiden Videos
Wir werden erklären, wie k-Means und Silhouette Scoring funktionieren
und wie Silhouette Lieferanten und Ausreißer finden kann.

French: 
Cet ensemble de données comprend en effet deux grappes distinctes.
Aujourd'hui, nous avons appris ce que fait k-Means,
et comment l'utiliser sur un véritable ensemble de données.
Dans les deux prochaines vidéos
nous expliquerons comment fonctionnent les k-Means et la silhouette
et comment la silhouette peut trouver des valeurs aberrantes et aberrantes.

English: 
This data set indeed has two distinct clusters.
Today we've learned what k-Means does,
and how to use it on a real data set.
In the next two videos
we will explain how k-Means and silhouette scoring work
and how silhouette can find inliers and outliers.

Serbian: 
Ovaj skup podataka, zaista, ima dva 
izražena klastera.
Danas smo naučili šta radi 'k-Means',
i kako da ga koristimo
na realnim podacima.
U sledeća dva klipa,
objasnićemo kako 'k-Means' 
i siluet indeks rade
i kako siluet indeks može otkriti 
inlajere i autlajere.
