
English: 
We already talked about spreadsheets and images.
How about text?
Could we extract any meaningful information from a set of documents?
Of course we can.
First, we need to install Text add-on.
Go to Options,
Add-ons,
and select Text.
Restart Orange for the add-on to appear.
Now, let us load the data.
Place Corpus widget on the canvas and open it.
Go to Browse documentation corpora
and load Grimm-tales-selected.

Spanish: 
Ya hablamos de hojas de cálculo e imágenes.
¿Qué tal el texto?
¿Podríamos extraer alguna información significativa de un conjunto de documentos?
Por supuesto que podemos.
Primero, necesitamos instalar el complemento de texto.
Ve a Opciones,
Complementos,
y seleccione Texto.
Reinicie Orange para que aparezca el complemento.
Ahora, carguemos los datos.
Coloque el widget Corpus en el lienzo y ábralo.
Ir a Examinar documentación corpora
y cargar Grimm-tales-selected.

Serbian: 
Već je bilo reči o tabelama i slikama.
Šta kažete na tekst?
Možemo li pronaći neke korisne 
informacije iz skupa dokumenata?
Naravno da možemo.
Prvo, treba da instaliramo 'Text' dodatak.
Idite u 'Options' ->
'Add-ons',
i odaberite 'Text'.
Ponovo pokrenite Orange 
kako bi se dodatak učitao.
Sada ćemo učitati podatke.
Postavite 'Corpus' operator na platno i 
pokrenite ga.
Idite na 'Browse documentation corpora'
i učitajte 'Grimm-tales-selected'.

Spanish: 
Tenemos 44 cuentos de Grimm en la salida del widget.
¿De qué tratan estos textos?
Conecte Corpus Viewer a Corpus.
Corpus Viewer muestra texto
y permitenos navegarlo.
Por ejemplo, podemos generar
solo aquellos documentos que contienen la palabra 'rey'.
Otro widget para visualizar el texto es Word Cloud.
Este widget muestra frecuencias de palabras en una nube.
Cuanto más frecuentemente aparece la palabra en el texto
cuanto más grande sea la palabra.
Pero nuestra nube de palabras muestra cosas tontas
como la puntuación
y palabras no informativas.
Usaremos el Texto de preproceso para deshacernos de estos.

Serbian: 
Sada se na izlazu operatora nalaze
44 bajke braće Grim.
O čemu su ovi tekstovi?
Povežite 'Corpus Viewer' na 'Corpus'.
'Corpus Viewer' operator prikazuje tekst
i omogućava nam kretanje kroz njega.
Na primer, možemo odabrati
samo one dokumente koji
sadrže reč 'kralj'.
Još jedan operator za vizuelizaciju 
teksta je oblak reči ('Word Cloud').
Ovaj operator prikazuje 
frekvenciju reči u oblaku.
Što je reč učestalija u tekstu,
to će biti veća.
Ali, naš oblak reči pokazuje čudne stvari:
npr. znakove interpunkcije
i neinformativne reči.
Iskoristićemo 'Preprocess Text' operator 
da ih se oslobodimo.

English: 
We have 44 Grimm tales on the output of the widget.
What are these texts about?
Connect Corpus Viewer to Corpus.
Corpus Viewer displays text
and enable us to browse it.
For example, we can output
only those documents that contain the word 'king'.
Another widget for visualizing the text is Word Cloud.
This widget displays word frequencies in a cloud.
The more frequently the word appears in the text
the larger the word will be.
But our word cloud show silly things
such as punctuation
and uninformative words.
We will use Preprocess Text to get rid of these.

Serbian: 
Ovaj operator će poništiti 
kapitalizaciju svog teksta.
Dalje, podeliće tekst u pojedinačne reči
i izbaciti znakove interpunkcije.
Pojedinačne reči se zovu - tokeni.
Konačno, isfiltriraće nepotrebne reči.
Rezultati preprocesiranja mogu se 
grafički istražiti u samom oblaku reči.
Posle preprocesiranja, vizuelizacija 
izgleda mnogo bolje.
Zadržali smo samo smislene reči,
te bolje možemo da razumemo o čemu 
govori ovaj korpus.
Bajke braće Grim pripovedaju 
o kraljevima,
očevima i suprugama.
Ali neke reči i su i dalje ometajuće -
npr. 'could', 'would' i 'said'.
Možemo ih, takođe, isfiltrirati.
Hajde da napravimo sopstvenu listu
nepotrebnih reči.

Spanish: 
Este widget transformará todo el texto a minúsculas.
A continuación, convertirá el texto en palabras individuales.
y omita la puntuación.
Las palabras individuales se llaman tokens.
Finalmente, filtrará las palabras vacías.
Los efectos del preprocesamiento se pueden explorar visualmente en la nube de palabras.
Después de preprocesar esta visualización se ve mucho mejor.
Conservamos solo palabras significativas,
y ahora podemos entender mejor de qué se trata nuestro corpus.
Los cuentos de Grimm hablan de reyes,
padres y esposas.
Pero algunas palabras siguen siendo un poco molestas
como podría, haría y dijo.
Podemos filtrar esto también.
Escribamos nuestra propia lista de palabras clave personalizada.

English: 
This widget will transform all text to lowercase.
Next, it will convert text into individual words
and omit the punctuation.
Individual words are called tokens.
Finally, it will filter out stopwords.
The effects of pre-processing can be visually explored in the word cloud.
After pre-processing this visualization looks much better.
We retained only meaningful words,
and now we can better understand what our corpus is about.
Grimm's tales talk about kings,
fathers and wives.
But some words are still a bit annoying
such as could, would, and said.
We can filter these out as well.
Let us write our own, custom stopword list.

English: 
Open a plain text editor
and type each word you want to filter
on its own line.
Then save the file
and load it next to the pre-set stopword list.
The changes are now propagated through the workflow,
and the words we defined in our stopword list
no longer appear in the word cloud.
Pre-processing is the first and a very important step in text mining.
We defined our tokens
and filtered out the bits we didn't need.
Now our text is ready for the next step.
In the following video
we will use pre-processed data

Spanish: 
Abrir un editor de texto plano
y escribe cada palabra que quieras filtrar
en su propia línea.
Luego guarda el archivo
y cárguelo al lado de la lista de palabras preestablecidas.
Los cambios ahora se propagan a través del flujo de trabajo,
y las palabras que definimos en nuestra lista de palabras vacías
ya no aparece en la nube de palabras.
El preprocesamiento es el primer paso y un paso muy importante en la minería de textos.
Definimos nuestras fichas
y filtró los partes que no necesitábamos.
Ahora nuestro texto está listo para el siguiente paso.
En el siguiente video
utilizaremos datos preprocesados

Serbian: 
Otvorimo običan editor teksta
i otkucajmo svaku reč koju
želimo da izbacimo
u jednom, sopstvenom, redu.
Zatim, sačuvajmo fajl
i učitajmo ga uz podrazumevanu
listu reči za izbacivanje.
Promene se sada propagiraju
kroz mrežu operatora,
i reči koje smo definisali u 
našoj listi za izbacivanje,
više se ne pojavljuju u oblaku reči.
Preprocesiranje je prvi, 
i veoma važan korak u analizi teksta.
Definisali smo naše tokene
i izbacili one koji nam nisu bili potrebni.
Sada je naš tekst spreman za
sledeći korak.
U narednom klipu,
koristićemo preprocesirane podatke

Serbian: 
da pronađemo interesantne grupe
u bajkama braće Grim.

English: 
to find interesting groups in Grimm's tales.

Spanish: 
para encontrar grupos interesantes en los cuentos de Grimm.
