
Serbian: 
U prethodnom videu, koji se bavio 
analizom glavnih komponenti,
koristili smo 'wine' skup podataka.
Ovi podaci potiču iz 
hemijske analize vina
uzgajanih u istom regionu Italije,
ali poreklom iz tri različite sorte.
Podaci sadrže 13 atributa
koji sadrže merenja hemijskih 
jedinjenja vina.
Kako da znamo koja hemijska jedinjenja
su najvažnija za razlikovanje sorti vina?
Saznaćemo koristeći 'Rank' operator!
On rangira atribute uz pomoć 
različitih metoda vrednovanja,
na osnovu odnosa sa klasnim atributom.
Povežimo 'File' i 'Rank' operatore.
'Rank' podrazumevano pokazuje 
dva metoda vrednovanja,
ali, možemo ih dodati još, ako želimo.
Recimo da hoćemo da vidimo 'Gain Ratio',

Portuguese: 
Em um vídeo anterior sobre análise de componentes principais
nós usamos o conjunto de dados do vinho (wine dataset).
Estes dados são o resultado de uma análise química de vinhos,
cultivada na mesma região na Itália,
mas derivado de três diferentes cultivares, ou videiras.
Os dados incluem 13 características
relatando sobre as quantidades de componentes químicos.
Como eu sei quais componentes químicos
são os mais significativos para diferenciar entre essas videiras?
Com "Rank" (classificação) claro!
Este widget marca características com vários métodos de pontuação
com base na relação com a classe.
Conecte o widget "File" (Arquivo) com Rank (Classificação).
A classificação exibe dois métodos de pontuação como padrão
mas podemos mostrar mais se quisermos.
Digamos que eu queira ver as pontuações para o Gain Ratio (Proporção de Ganho),

German: 
In einem früheren Video zur Hauptkomponentenanalyse
Wir haben einen Wein-Datensatz verwendet.
Diese Daten sind das Ergebnis einer chemischen Analyse von Weinen,
in der gleichen Region in Italien angebaut,
aber abgeleitet von drei verschiedenen Sorten oder Reben.
Die Daten umfassen 13 Funktionen
Berichterstattung über Mengen chemischer Komponenten.
Woher weiß ich, welche chemischen Komponenten
sind die wichtigsten für die Unterscheidung zwischen diesen Reben?
Mit Rang natürlich!
Dieses Widget bewertet Funktionen mit verschiedenen Bewertungsmethoden
basierend auf der Beziehung zur Klasse.
Verbinden Sie das Datei-Widget mit dem Rang.
Der Rang zeigt standardmäßig zwei Bewertungsmethoden an,
aber wir können mehr anzeigen, wenn wir wollen.
Angenommen, ich möchte die Ergebnisse für das Gain Ratio sehen.

Spanish: 
En un video anterior sobre el análisis de componentes principales
Utilizamos el conjunto de datos del vino.
Estos datos son el resultado de un análisis químico de vinos,
cultivado en la misma región en Italia,
pero derivado de tres variedades diferentes, o vides.
Los datos incluyen 13 características
informar sobre cantidades de componentes químicos.
¿Cómo sé qué componentes químicos
son los más significativos para diferenciar entre estas viñas?
Con rango, por supuesto!
Este widget puntúa características con varios métodos de puntuación
basado en la relación con la clase.
Conectar widget de archivo con Rank.
El rango muestra dos métodos de puntaje por defecto,
pero podemos mostrar más si queremos.
Digamos que quiero ver los puntajes de la relación de ganancia,

English: 
In a previous video on principle component analysis
we used wine data set.
These data are the result of a chemical analysis of wines,
grown in the same region in Italy,
but derived from three different cultivars, or vines.
The data include 13 features
reporting on quantities of chemical components.
How do I know which chemical components
are the most significant for differentiating between these vines?
With Rank of course!
This widget scores features with several scoring methods
based on the relation with class.
Connect File widget with Rank.
Rank displays two scoring methods as a default,
but we can display more if we want.
Say I want to see the scores for Gain Ratio,

Portuguese: 
Gini e ReliefF.
Agora quero selecionar os recursos com a maior pontuação do ReliefF.
Por padrão, as cinco principais características estão selecionadas
e já estão na saída.
Agora quero ver como esses recursos estão relacionados à classe.
Vamos usar algumas visualizações para isso.
Conecte o Box Plot ao Rank
e inspecione o primeiro recurso.
Use "Group By" (agrupar por) 'Wine' (vinho)
para ver os resultados de cada classe separadamente.
Box Plot informa sobre média, mediana,
variância e quartis de cada característica.
A média é exibida como uma linha azul vertical.
A mediana é amarela.
O destaque em azul denota variância.
Enquanto as linhas pontilhadas exibem o primeiro
e o quarto quartil.

Serbian: 
'Gini' i 'ReliefF'.
Sada ćemo odabrati atribute sa 
najvišom vrednošću 'ReliefF'-a.
Podrazumevano, pet najbolje 
rangiranih atributa je odabrano,
i već se nalaze na izlazu.
Sada ćemo videti koliko su ovi atributi 
povezani sa klasom.
Hajde da iskoristimo neku vizuelizaciju za to.
Povežimo 'Box Plot' i 'Rank',
i proverimo prvi atribut.
Koristimo grupisanje po vinu
da vidimo rezultate za svaku klasu zasebno.
'Box Plot' nam daje srednju vrednost, medijanu,
varijansu i kvartile svakog atributa.
Aritmetička sredina je prikazana 
vertikalnom plavom linijom.
Medijana je žuta.
Plavo senčenje predstavlja varijansu.
Isprekidane linije predstavljaju prvi
i četvrti kvartil.

English: 
Gini and ReliefF.
Now I want to select the features with the highest ReliefF score.
By default, the top five features are selected
and are already on the output.
Now I want to see how well are these features related to class.
Let's use some visualizations for that.
Connect the Box Plot to Rank
and inspect the first feature.
Use Group By 'Wine'
to see the results for each class separately.
Box Plot reports on mean, median,
variance and quartiles of each feature.
Mean is displayed as a vertical blue line.
Median is yellow.
The blue highlight denotes variance.
While the dotted lines display the first
and the fourth quartile.

Spanish: 
Gini y ReliefF.
Ahora quiero seleccionar las características con la puntuación más alta de ReliefF.
Por defecto, las cinco características principales están seleccionadas
y ya están en la salida.
Ahora quiero ver qué tan bien están relacionadas estas características con la clase.
Usemos algunas visualizaciones para eso.
Conecte el diagrama de caja al rango
e inspeccionar la primera característica.
Usar Agrupar por 'Vino'
para ver los resultados de cada clase por separado.
Informes de diagrama de caja en media, mediana,
varianza y cuartiles de cada característica.
La media se muestra como una línea azul vertical.
La mediana es amarilla.
El resaltado azul denota variación.
Mientras que las líneas punteadas muestran el primer
y el cuarto cuartil.

German: 
Gini und ReliefF.
Jetzt möchte ich die Funktionen mit der höchsten ReliefF-Punktzahl auswählen.
Standardmäßig sind die fünf wichtigsten Funktionen ausgewählt
und sind bereits am Ausgang.
Jetzt möchte ich sehen, wie gut diese Funktionen mit der Klasse zusammenhängen.
Verwenden wir dafür einige Visualisierungen.
Verbinde das Box Plot mit dem Rang
und überprüfen Sie die erste Funktion.
Verwenden Sie Group By 'Wine'
um die Ergebnisse für jede Klasse separat zu sehen.
Box Plot berichtet über Mittelwert, Median,
Varianz und Quartile jedes Merkmals.
Der Mittelwert wird als vertikale blaue Linie angezeigt.
Der Median ist gelb.
Die blaue Markierung kennzeichnet die Varianz.
Während die gepunkteten Linien die erste anzeigen
und das vierte Quartil.

Serbian: 
Izgleda da različite sorte vina imaju 
drugačije distribucije sadržaja flavanoida.
Stoga se čini da ovaj atribut dobro 
razdvaja klase.
Ali sigurno mora da postoji još bolji način 
da razumemo naše atribute.
Hajde da pogledamo raspodele.
'Distributions' operator prikazuje funkcije 
gustine za posmatrani atribut.
Možemo prikazati raspodele za
svaki atribut ponaosob.
Kod flavanoida, čini se da su ove tri 
raspodele dobro razdvojene.
Flavanoidi su verovatno jedan od najvažnijih 
atributa u posmatranom skupu podataka
jer je razdvajanje manje izraženo 
kod drugih atributa.
'Rank' operator može da vrednuje
i rangira atribute
i za klasifikacione 
i za regresione probleme.
Recimo da želimo da analiziramo vremešni 
'housing' skup podataka,
gde bismo hteli da saznamo koji atribut
je najviše korelisan sa
cenom kuća u bostonskim predgrađima.

English: 
The wines seem to have very distinct distributions of flavanoid concentration.
Seems like this feature separates the class very well.
But there must be an even better way of inspecting our features!
How about distributions? Let's see.
Distributions widget displays a value density plot for a given feature.
We can display value distributions for each class separately.
For flavanoids, these three distributions seem to be well separated.
Flavanoids are likely one of our most important features in the data set
as the separation is less pronounced with other features.
Rank widget can score and rank features
both for classification and regression.
Say we want to analyze a bit dated 'housing' data set,
where we would like to check which feature best correlates
with the house price in Boston suburbs.

Spanish: 
Los vinos parecen tener distribuciones muy distintas de concentración de flavonoides.
Parece que esta característica separa muy bien la clase.
¡Pero debe haber una forma aún mejor de inspeccionar nuestras características!
¿Qué hay de las distribuciones? Veamos.
El widget de distribuciones muestra un gráfico de densidad de valor para una característica dada.
Podemos mostrar distribuciones de valores para cada clase por separado.
Para los flavonoides, estas tres distribuciones parecen estar bien separadas.
Los flavonoides son probablemente una de nuestras características más importantes en el conjunto de datos,
ya que la separación es menos pronunciada con otras características.
El widget de clasificación puede puntuar y clasificar características
tanto para clasificación como para regresión.
Digamos que queremos analizar un conjunto de datos 'housing' un poco anticuado,
donde nos gustaría comprobar qué función se correlaciona mejor
con el precio de la casa en los suburbios de Boston.

German: 
Die Weine scheinen sehr unterschiedliche Verteilungen der Flavanoidkonzentration zu haben.
Diese Funktion scheint die Klasse sehr gut zu trennen.
Aber es muss eine noch bessere Möglichkeit geben, unsere Funktionen zu überprüfen!
Wie wäre es mit Distributionen? Wir werden sehen.
Das Verteilungs-Widget zeigt ein Diagramm der Wertedichte für ein bestimmtes Feature an.
Wir können Wertverteilungen für jede Klasse separat anzeigen.
Für Flavanoide scheinen diese drei Verteilungen gut getrennt zu sein.
Flavanoide sind wahrscheinlich eines unserer wichtigsten Merkmale im Datensatz
da die Trennung bei anderen Merkmalen weniger ausgeprägt ist.
Das Rang-Widget kann Features punkten und bewerten
sowohl für die Klassifizierung als auch für die Regression.
Angenommen, wir möchten einen etwas veralteten 'Housing'-Datensatz analysieren.
wo wir überprüfen möchten, welche Funktion am besten korreliert
mit dem Hauspreis in Boston Vororten.

Portuguese: 
Os vinhos parecem ter distribuições muito distintas de concentração de flavonóides.
Parece que esse característica separa muito bem a classe.
Mas deve haver uma maneira ainda melhor de inspecionar nossas características!
Que tal distribuições? Vamos ver.
O widget "Distributions" (Distribuições)
exibe um gráfico de densidade de valor para uma determinada característica.
Podemos exibir distribuições de valor para cada classe separadamente.
Para flavonóides, essas três distribuições parecem estar bem separadas.
Os flavonóides são provavelmente uma das nossas características mais importantes no conjunto de dados
já que a separação é menos pronunciada com outros recursos.
O Widget "Rank" (classificação) pode marcar e classificar características
tanto para classificação como para regressão.
Digamos que queremos analisar um conjunto de dados 'housing' (casas) um pouco antigo,
onde gostaríamos de verificar qual característica melhor correlaciona
com o preço da casa nos subúrbios de Boston.

Serbian: 
Čini se da su to ekonomsko 
stanje stanovnika
i prosečan broj soba.
Na neki način očigledno,
ali i dalje je sjajno zaključiti to 
direktno iz podataka.
Danas smo naučili kako da odredimo
koji atributi su najinteresantniji 
u našem skupu podataka
i kako da koristimo vrednovanje atributa
da bismo dobili interesantne grafike.
Skoro svaki problem Data Mining-a 
opisuje podatke atributima,
stoga čini vrednovanje atributa jednom od 
najvoljenijih tehnika u oblasti.

Portuguese: 
Parece que é o status econômico dos moradores
e o número médio de quartos.
O que é mais ou menos óbvio
mas ainda é ótimo poder ver isso diretamente dos dados.
Hoje aprendemos como determinar
quais características são os mais interessantes em nosso conjunto de dados
e como usar as pontuações das características
para traçar visualizações interessantes.
Quase todos os problemas de mineração de dados descrevem os dados com características,
tornando assim, a classificação de características uma das técnicas mais amadas neste campo.

English: 
Seems it's the economic status of inhabitants
and the average number of rooms.
Sort of obvious,
but it's still great to see this directly from the data.
Today we've learned how to determine
which features are the most interesting in our data set
and how to use feature scores
for plotting interesting visualizations.
Almost every data mining problem describes the data with features,
thus making feature scoring one of the best-loved techniques in the field.

Spanish: 
Parece que es el estado económico de los habitantes.
y el número promedio de habitaciones.
Algo obvio,
pero sigue siendo genial ver esto directamente desde los datos.
Hoy hemos aprendido a determinar
qué características son las más interesantes en nuestro conjunto de datos
y cómo usar las puntuaciones de características
para trazar visualizaciones interesantes.
Casi todos los problemas de minería de datos describen los datos con características,
haciendo que la calificación de características sea una de las técnicas más queridas en el campo.

German: 
Es scheint der wirtschaftliche Status der Einwohner zu sein
und die durchschnittliche Anzahl der Zimmer.
Irgendwie offensichtlich,
aber es ist immer noch toll, dies direkt aus den Daten zu sehen.
Heute haben wir gelernt zu bestimmen
welche Funktionen sind in unserem Datensatz am interessantesten
und wie man Feature-Scores verwendet
zum Zeichnen interessanter Visualisierungen.
Fast jedes Data Mining-Problem beschreibt die Daten mit Funktionen:
damit ist das Feature-Scoring eine der beliebtesten Techniken auf diesem Gebiet.
