
Serbian: 
Već znamo kako da 
preprocesiramo naš korpus
i kako da pronađemo slične dokumente
koristeći hijererhijsko klasterovanje.
Ali, bajke braće Grim, 
takođe, imaju oznaku -
priče su ili o životinjama,
ili o magiji.
Možemo li da iskoristimo ove podatke 
da predvidimo vrstu nove,
neklasifikovane priče?
Učitavamo 'Grimm-tales-selected'
i proveravamo podatke u 
'Corpus Viewer'-u.
Oznake priča su dostupne 
u polju: 'ATU Topic'.
Pripremili smo tekst, 
koristeći 'Preprocess Text' operator,
i pretvorili ga u vreću reći (Bag of Words),
koji svaku priču predstavlja 
kao vektor frekvencija reči u njoj.
Za klasifikaciju,

English: 
We already know how to preprocess our corpus
and how to find similar documents with hierarchical clustering.
But Grimm's tales also have a label.
The tales are either animal tales or tales of magic.
Can we use these data to predict the type of a new, unclassified tale?
We read grimm-tales-selected
and check the data in Corpus Viewer.
The labels are provided in ATU Topic field.
We prepare the text with preprocessing
and turn it into a bag of words,
which represents each tale
with a vector of word counts.
Now for the classification.

English: 
Connect Logistic Regression to Bag Of Words.
Logistic regression constructs the model to predict
whether a tale is an animal tale or a tale of magic.
We can even see how our model looks like-
We will use Nomogram
which visualizes the logistic regression classifier.
Connect it to Logistic Regression.
The widget displays top ten words that are important for the classifier.
At the top of the list are the words that most contribute to the prediction.
Seems like the word 'fox' can tell us a lot about the tale.
If 'fox' appears often in the text,
it's an animal tale.
If it doesn't, it's probably a tale of magic.

Serbian: 
povežimo logističku regresiju 
sa vreću reči.
Logistička regresija konstruiše model
da predvidi da li je priča o životinjama
ili priča o magiji.
Možemo čak da vidimo 
kako naš model izgleda.
Koristićemo nomogram
koji vizuelizuje klasifkator 
logističke regresije.
Povežite 'Nomogram' i 
'Logistic Regression' operatore.
Nomogram prikazuje 10 najvažnijih reči za klasifikaciju.
Na vrhu liste su reči koje najviše 
doprinose predviđanju.
Izgleda da reč 'lisica' može da 
nam kaže dosta toga o priči.
Ako se reč 'lisica' često pojavljuje u priči - 
onda je to priča o životinjama.
U suprotnom, 
reč je verovatno o priči o magiji.

English: 
Now we know how our classifier works,
and it's time to see if it also performs well.
Connect Test and Score to Bag of Words.
We will use Test and Score
to cross-validate the logistic regression model.
Not bad!
The area under the ROC curve is over 0.9.
When given two tales of a different class,
logistic regression can correctly distinguish between them
in over 90% of the cases.
But we said we want to predict the tale type, right?
And we don't want to predict something we already know.
We will place a new Corpus widget on the canvas.
Let us load three new tales from Hans Christian Andersen.
We will ask our logistic regression model

Serbian: 
Sada znamo kako naš klasifikator radi,
a vreme je da vidimo da li to i čini dobro.
Povežite 'Test and Score' i 
'Bag of Words' operatore.
Koristićemo 'Test and Score' 
operator da izvršimo unakrsnu validaciju
modela logističke regresije.
Nije loše. 
Površina pod ROC krivom (AUC)
je veća od 0,9.
Kada su joj date dve 
priče različite klase,
logistička regresija ih može 
ispravno razlikovati
u više od 90% slučajeva.
Rekli smo, međutim, da želimo da 
predvidimo vrstu priče,
a ne želimo da predviđamo 
nešto što već znamo.
Dodaćemo novi 'Corpus' 
operator na platno.
Učitajmo tri nove priče 
Hansa Kristijana Andersena.
Zatražićemo od našeg 
modela logističke regresije

Serbian: 
da nam kaže kog tipa su 
ove nove priče.
Povežite 'Corpus (1)' i 
'Predictions' operatore.
Prosledite model logističke regresije za 
bajke braće Grim do 'Predictions'
i pogledajte rezultate predviđanja
u 'Predictions'.
Naš model kaže da je 'Ružno pače' -
priča o životinjama
a 'Devojčica sa šibicama' - priča o magiji.
Čini se ispravnim.
Verovatnoće predviđenih klasa su, 
takođe, visoke.
Verovatnoća da je 'Ružno pače' 
priča o životinjama
je 90%.
Danas smo naučili kako da proverimo model 
logističke regresije koristeći nomogram,
kako da koristimo poznati postupak 
klasifikacije nad tekstom,
i kako da predvidimo vrstu priče
nad novim korpusom.
Rad sa tekstom u Orangu je jednostavan 
poput rada sa tabelama u Excelu.

English: 
to tell us what are the types of these new tales.
Connect Corpus (1) to Predictions.
Now, provide the Grimm-trained logistic regression model
and observe the results in Predictions.
Our model says The Ugly Duckling is an animal tale
and The Little Match Seller a tale of magic.
Seems quite right.
Predicted class probabilities were high as well.
The probability that The Ugly Duckling is an animal tale is 90%.
Today we've learned how to inspect our logistic regression model with nomogram,
how to re-use the familiar classification workflow on text,
and how to predict the type of the tale on new corpus.
Working with text in Orange is just as simple as working with spreadsheets!
