
Serbian: 
U prethodnom klipu o analizi teksta,
govorili smo o njegovom preprocesiranju.
Sada bi naši podaci trebalo da su 
spremni za mašinsko učenje. Zar ne?
Pa... i ne baš.
Nakon preprocesiranja, Orange još uvek 
vidi samo redove i redove teksta.
Za mašinsko učenje, 
moramo transformisati
tekst u numerički oblik podataka.
A jednostavan način da to 
postignemo je da prebrojimo
koliko puta se svaka reč 
pojavljuje u tekstu.
Ovaj pristup zove se 
'Bag of Words' - vreća reči.
Hajde da iskoristimo postupak 
iz prethodne lekcije.
Operator 'Corpus' učitava 
kolekciju tekstualnih dokumenata,
a 'Preprocess Text' uklanja
suvišne reči i razdelnike.

English: 
In the previous video on text mining,
we talked about text preprocessing.
Now our data should be ready for machine learning, right?
Well, not quite.
After preprocessing,
Orange still sees only lines in lines of text.
For machine learning we need to transform text
into numerical representation
and a simple way to do it is to count
how many times each word appears in the text.
This approach is called bag of words.
Let us reuse the workflow from our previous lesson.
Corpus reads the collection of text documents
and text preprocessing removes stop words and delimiters.

English: 
Now we will extend the workflow with a Bag of Words widget.
Bag of Words outputs the data table
where word counts are the new added features.
You can always check the output of bag of words in a data table.
Great! Now we have our data matrix
and we can find interesting groups of documents.
Connect Distances to Bag of Words.
Here, we will use cosine distance
as it normally works best for corpora.
We feed computed distances to Hierarchical Clustering.

Serbian: 
Sada ćemo analizi dodati 
operator 'Bag of Words'.
'Bag of words' vraća tabelu
gde su frekvencije reči - novi atributi.
Izlaz 'Bag of Words' operatora
uvek možete proveriti
koristeći 'Data Table' operator.
Sjajno!
Sad imamo našu matricu podataka,
i možemo pronaći zanimljive 
grupe dokumenata.
Povežite 'Distances' operator 
sa 'Bag of Words'-om.
Ovde ćemo koristiti
kosinusnu ('Cosine') udaljenost 
jer daje najbolje rezultate
u analizi korupsa reči.
Prosledićemo matricu udaljenosti do
hijerarhijskog klasterovanja.

Serbian: 
Kako bismo procenili 
udaljenosti među klasterima,
odabraćemo opciju 'Ward linkage'.
Sada povucimo liniju 
na vrhu vizuelizacije -
levo...
...i desno.
Koji je pravi broj grupa?
Čini se da - dva - ima najviše smisla.
Čvorovi našeg dendrograma, 
takođe, imaju oznake.
U folkloristici,
bajke braće Grim su označene
Aarne-Thompson-Uther (ATU) indeksom, 
koji određuje
temu priče.
Ako priča govori o životinjama - 
to je priča o životinjama.
Ako je više o zmajevima i 
princezama - to je priča o magiji.
Izgleda da vrsta priče sasvim 
lepo odgovara našim klasterima.
Izuzev jednog dela, gde su
priče o životinjama i magiji izmešane.

English: 
To estimate the distances between clusters
we will select Ward linkage.
Now drag a line at the top of the visualization left
and right.
What is the appropriate number of groups?
Two seems to make the most sense.
The nodes in our dendrogram also have a label.
In folkloristics, Grimm's tales are labeled with Aarne-Thompson-Uther index
which defines the topic of the tale.
If the tale talks about animals, it's an animal tale.
If it's more about dragons and princesses, it's a tale of magic.
Looks like the tale type corresponds quite well with our clusters.
Except for one part where animal tales and tales of magic are mixed.

English: 
Can we figure out why they're mixed?
Select the cluster
and connect Corpus Viewer to Hierarchical Clustering.
Seem like some tales of magic still mention animals.
Perhaps clustering got it right after all.
Clustering is a great way to uncover similar documents in unlabeled text.
But here, we actually have labels -
the ATU Topic.
In the next video we will talk about classification
and try to predict the type of the tale on fresh data.

Serbian: 
Možemo li da saznamo 
zašto su pomešane?
Odaberimo klaster i
povežimo 'Corpus Viewer' operator
sa 'Hierarchical Clustering'-om.
Izgleda da neke priče o 
magiji pominju životinje.
Čini se da je algoritam klasterovanja
ipak bio u pravu.
Klasterovanje je odličan način za 
otkrivanje sličnih dokumenata
u neoznačenom tekstu.
Ali mi ovde, zapravo,
imamo oznaku teme teksta -
ATU indeks.
U sledećem klipu, 
govorićemo o klasifikaciji
i pokušati da predvidimo vrstu
priče nad novim podacima.
