
English: 
Hi there! This is Kevin, from Data School.
You're about to watch an excerpt from a private Q&A webcast that I hold every single month.
This question is about how to select the best features for your machine learning model.
Stick around till the end to find how YOU can join these webcasts in the future. Thanks!
So, the first question I've got for today is from Davis Vickers and he asks:
"Hey Kevin! I discovered your YouTube channel as an aspiring data scientist.
Your content has helped me so much!
Question on sklearn:
In logistic regression and other classifier algorithms,
Could you demonstrate a way to extract the best features,
with their coefficients and/or score that is used in the model.
I'm working with a logistic regression model that has over 400 features

Portuguese: 
Olá! Eu sou o Kevin, da Data School.
Você está prestes a assistir a um trecho de um
webcast privado de perguntas e respostas que eu faço
todos os meses.
Esta questão é sobre como selecionar os melhores
recursos para o seu modelo de aprendizado de máquina
(machine learning model).
Continue até o final para descobrir como você pode
participar desses webcasts no futuro. Obrigado!
Então, a primeira pergunta que eu tenho hoje é do
Davis Vickers e ele pergunta:
“Hey, Kevin! Eu descobri seu canal no YouTube como
um aspirante a cientista de dados.
Seu conteúdo me ajudou muito!
Pergunta sobre sklearn:
Em regressão logística e outros algoritmos
classificadores,
Você poderia demonstrar uma maneira de extrair os
melhores recursos,
com seus coeficientes e / ou pontuação que é usada no modelo.
Eu estou trabalhando com um modelo de regressão
logística que tem mais de 400 recursos

Serbian: 
Здраво svima! Ja sam Кевин, из Дата школе.
Управо ћете гледати одломак сa приватног webcast-a за питања и одговоре који држим сваки месец.
Ово питање је о томе како да изаберете најбољи атрибут за ваш модел машинског учења.
Останите до краја да бисте сазнали како ћете се убудуће придружити овим веб-емитовањем. Хвала!
Дакле, прво питање које имам за данас је од Дависа Вицкерса и он пита:
"Ћао Кевине! Открио сам твој YouTube канал као амбициозни научник."
Ваш садржај ми је толико помогао!
Питање о sklearn-у:
У логистичкој регресији и другим алгоритмима за класификацију,
Можете ли да показати начин да извучете најбоље aтрибуте,
са њиховим коефицијентима и/или резултатом који се користи у моделу.
Радим са моделом логистичке регресије који има преко 400 карактеристика

English: 
and I'm trying to determine the best way to use a feature importance/selection."
OK! So, that was a long question, but let me boil it down to this:
Davis is asking how to perform feature selection. Okay?
So, he's got 400 features for his classification model,
though the process would be roughly the same for a regression model,
and he wants to reduce features.
Now, why do you want to perform feature selection in the first place?
The reason you do feature selection is because
removing irrelevant features results in a better performing model,
in a easier to understand model,
and in a model that runs faster.
So those are just 3 reasons that feature selection is useful.
So, I was trying to think of the best way to answer this question,
because unlike some questions,

Portuguese: 
e estou tentando determinar a melhor maneira de usar
uma característica importância / seleção ".
OK! Então, essa foi uma longa pergunta, mas deixe-me
resumir:
Davis está perguntando como realizar a seleção de
recursos. OK?
Então, ele tem 400 recursos para o seu modelo de
classificação,
embora o processo seria mais ou menos o mesmo para
um modelo de regressão,
e ele quer reduzir recursos.
Agora, por que você deseja realizar a seleção de
recursos em primeiro lugar?
A razão pela qual você faz a seleção de recursos é
porque
remover recursos irrelevantes resulta em um modelo
de melhor desempenho,
em um modelo mais fácil de entender,
e em um modelo que corre mais rápido.
Então, essas são apenas três razões pelas quais a
seleção de recursos é útil.
Então, eu estava tentando pensar na melhor maneira
de responder a essa pergunta,
porque ao contrário de algumas perguntas,

Serbian: 
и покушавам да утврдим најбољи начин да користим aтрибут значајност / селекцију.
У РЕДУ! Дакле, то је било дуго питање, али дозволите ми да поједноставим:
Дејвис пита како да изврши избор атрибута. Ок?
Дакле, он има 400 атрибута за свој класификациони модел,
иако би процес био приближно исти за регресиони модел,
и он жели да смањи карактеристике.
Сада, зашто уопште желите да извршите селекцију атрибута?
Разлог зашто одабирате атрибуте је зато што
уклањање ирелевантних атрибута резултира бољим моделом,
у лакшем разумевању модела,
и у моделу који ради брже.
Дакле, то су само три разлога због којих је избор карактеристика користан.
Дакле, покушавао сам да смислим најбољи начин да одговорим на ово питање,
јер за разлику од неких питања,

Portuguese: 
este não tem uma resposta simples.
e há livros sobre seleção de recursos, eu suponho,
mas é certamente um tópico sobre o tamanho do
livro.
Mas acho que a melhor maneira de responder isso é
...
2 anos atrás, eu estava no PyData DC, em Washington
DC,
e participei de uma apresentação chamada:
“Um guia prático para redução de
dimensionalidade",
e foi uma apresentação incrível, é um ótimo vídeo.
Mas o que eu vou fazer é, eu vou puxar seus slides
na tela,
e eu vou brevemente passar por algumas de suas idéias
de como você seleciona a seleção,
e então eu vou falar muito brevemente sobre ...,
você sabe, como você faz isso de um nível prático
não apenas de alto nível.
Então, levarei apenas um momento.
Preciso compartilhar uma das minhas abas ...
E vamos fazer isso.

English: 
this one doesn't have a simple answer.
and there are books about feature selection, I assume,
but it's certainly a book length topic.
But, I think the best way to answer this is...
2 years ago, I was at PyData DC, in Washington DC,
and I attended a presentation called:
"A practical guide to dimensionality reduction",
and it was an awesome presentation, it's a great video.
But what I'm gonna do is, I'm gonna pull up his slides on screen,
and I'm gonna briefly go through a couple of his ideas for how you feature selection,
and then I'll talk very briefly about..., you know, how you do it from a practical level
not just, kind of a high level.
So, it will take me just a moment.
I need to share one of my tabs...
And let's do that.

Serbian: 
овај нема једноставан одговор.
и постоје књиге о одабиру атрибута, претпостављам,
али је свакако тема која би била у књизи.
Али, мислим да је најбољи начин да се одговори на ово ...
Пре 2 године, био сам у PyDatа DC, у Washington DC-у,
и присуствовао сам презентацији под именом:
"Практични водич за смањење димензионалности",
и била је сјајна презентација, одличан видео.
Али оно што ћу урадити је, повући ћу његов слајд на екран,
и укратко ћу проћи кроз неколико његових идеја о томе како одабрати атрибут,
а онда ћу говорити врло кратко о ... знате, како то радите са практичног нивоа
не само, на високом нивоу.
Тако да ће ми требати само тренутак.
Морам да поделим једну од мојих табова ...
И урадимо то.

English: 
Alright! You should see on screen the slides.
So it's called "A Practical Guide to Dimensionality Reduction",
but it's about feature selection because
dimensionality refers to the dimensions of your training data,
and number of rows, and number of columns.
So, when we're talking about features, we're talking about columns,
and when we're talking about dimensionality reduction,
that means reducing the number of features. Ok?
So...
Let me go ahead and scroll down,
and he has this big list of...
12 techniques that he uses for feature selection,
and I'm just gonna highlight a few of these and talk briefly about them, ok?
So, the first one he talks about is based on percent missing values.

Portuguese: 
Tudo bem! Você deve ver na tela os slides.
Então é chamado "Um Guia Prático para Redução de
Dimensionalidade",
mas é sobre a seleção de recursos, porque
dimensionalidade refere-se às dimensões de seus
dados de treinamento,
e número de linhas e número de colunas.
Então, quando estamos falando de recursos, estamos
falando de colunas,
e quando estamos falando de redução de
dimensionalidade,
isso significa reduzir o número de recursos. OK?
Assim...
Vou a frente e abaixar,
e ele tem essa grande lista de ...
12 técnicas que ele usa para seleção de recursos,
e vou destacar alguns deles e falar brevemente sobre
eles, ok?
Então, o primeiro sobre o qual ele fala é baseado
no percentual de valores ausentes.

Serbian: 
У реду! На екрану би требало да видите слајдове.
Тако се зове "Практични водич за смањење димензионалности",
али ради се о одабиру атрибута, јер
димензионалност се односи на димензије ваших "training" података,
и број редова и број колона.
Дакле, када говоримо о атрибутима, говоримо о колонама,
и када говоримо о смањењу димензионалности,
то значи смањење броја колона. У реду?
Тако...
Пусти ме да се померим доле,
и он има велику листу ...
12 техника које он користи за избор атрибута,
и само ћу да истакнем неке од њих и да кажем укратко о њима, ок?
Дакле, прва о којој говори је заснована на проценту недостајућих вредности.

Serbian: 
Дакле, Давис има 400 карактеристика и пита: "Како да уклоним неке?"
и прва идеја је да се уклоне функције које имају висок проценат недостајућих вредности.
Сада, зашто је то корисно?
Зато што је тешко научити од колона које углавном имају неке податке који недостају.
Модел машинског учења учи из ваших података,
и када већина недостају, тешко је научити.
Сада, када се то каже, недостатак можете претворити у атрибут,
јер ... па, то би заправо могло бити корисна особина.
бинарна карактеристика, као ... "недостаје" или "не".
Дакле, чак и ако обришете атрибут
можда ћете кодирати недостатак као атрибут, ок?
Дакле, то је једна идеја.
Следећа идеја: количина варијације.
Дакле, основна идеја је, ако неки атрибут има углавном исте вредности,

English: 
So, again, Davis has 400 features and he's asking: "How do I remove some?"
and the first idea is to remove features that have a high percentage of missing values.
Now, why is that useful?
Because features that are mostly missing values are hard to learn from.
A machine learning model learns from your data,
and when most of the values are missing, it's hard to learn from.
Now, that being said, you can turn a missingness into a feature,
because... well, it might actually be a useful feature.
a binary feature of, like... "is missing" or "not".
So even if you're dropping the feature itself,
you might encode the missingness as a feature, ok?
So, that's one idea.
Next idea: amount of variation.
So, the basic idea is, if a feature is mostly all the same value,

Portuguese: 
Então, novamente, Davis tem 400 recursos e ele está
perguntando: “Como faço para remover alguns?"
e a primeira ideia é remover recursos com alta
porcentagem de valores ausentes.
Agora, por que isso é útil?
Porque os recursos que são na maioria valores ausentes
são difíceis de aprender.
Um modelo de aprendizado de máquina aprende com seus
dados,
e quando a maioria dos valores está faltando, é
difícil aprender com isso.
Agora, dito isso, você pode transformar um erro em
um recurso,
porque ... bem, pode realmente ser um recurso
útil.
uma característica binária de, como ... “está
faltando" ou "não".
Então, mesmo se você retirar o recurso em si,
você pode codificar os valores ausentes como um
recurso, ok?
Então, essa é uma ideia.
Próxima ideia: quantidade de variação.
Então, a ideia básica é, se um recurso é quase todo
o mesmo valor,

English: 
then the model is not going to learn anything from it, so you should drop it.
Ok? So that's the next one.
Next idea is pairwise correlation.
So, if two of your features are highly correlated,
you can drop one, because they're redundant.
So, if you drop one, you won't actually be losing that much information
in terms of what your model can learn from.
Ok? So that's another idea.
And as I'm going through this, you're probably thinking:
"Which one of these should I do?"
And I will answer that at the end.
I will say that, I'm gonna provide a lot of ideas,
but I'm not gonna give you like, "Here's the one thing you need to do".
Because there is no "one thing".
If it was easy, everyone would do it the same way, and everyone would just be like: "Here's what you do!"
And everyone would do it, and it would work.
But there is no "one easy way". There is lots of ideas for how to do feature selection.

Portuguese: 
então o modelo não vai aprender nada com isso, então
você deve descartá-lo.
OK? Então esse é o próximo.
A próxima ideia é a correlação pareada.
Então, se dois de seus recursos são altamente
correlacionados,
você pode deixar um de lado, porque eles são
redundantes.
Então, se você deixar um de lado, você não estará
perdendo muita informação
em termos do que seu modelo pode aprender.
OK? Então essa é outra ideia.
E enquanto eu estou apresentando isso, você
provavelmente está pensando:
“Qual desses eu devo fazer?"
E vou responder isso no final.
Eu mencionarei isso, vou fornecer muitas ideias,
mas eu não vou te dizer: "Aqui está a única coisa
que você precisa fazer".
Porque não há "uma coisa".
Se fosse fácil, todo mundo faria da mesma maneira,
e todo mundo seria como: “Aqui está o que você
faz!"
E todo mundo faria isso, e funcionaria.
Mas não há "um caminho fácil". Há muitas ideias de
como fazer a seleção de recursos.

Serbian: 
онда модел неће ништа научити од тога, па га треба одбацити.
У реду? То је следећи.
Следећа идеја је парна корелација.
Дакле, ако су два атрибута у високој корелацији,
можеш га одбацити, јер су сувишни.
Дакле, ако одбаците једну, нећете изгубити толико информација
у смислу онога што ваш модел може да научи.
У реду? То је још једна идеја.
И док пролазим кроз ово, ви вероватно мислите:
"Коју од ових одабрати?"
И на крају ћу вам одговорити.
Пружићу много идеја,
али нећу никад дати, "Ево ти једна ствар коју треба да урадиш".
Зато што не постоји "једна ствар".
Да је било лако, сви би то урадили на исти начин, и сви би били као: "Ево шта треба да радите!"
И сви би то урадили и то би функционисало.
Али не постоји "један једноставан начин". Постоји много идеја о томе како направити избор атрибута.

English: 
The next one I was going to talk about was correlation with the target.
So, if a variable, aka feature, has a very low correlation with the target,
then, you can probably drop it.
Now, this might, like any these techniques, can miss a useful feature
because there might be a feature interaction such that, you know...
Variable A does not correlate with the target,
Variable B does not correlate with the target,
But variable A and B together, if you turn them into a combined feature, then they are...
But there's only so much you can do...
You can't, generally speaking, try every possible combination of features
And especially when you have 400 features.
So you have to use some sort of technique to do this.
Ok ! Number 8, 9 and 10 talk about forward, backward and stepwise selection.

Portuguese: 
O próximo sobre o qual eu ia falar era a correlação
com o alvo.
Então, se uma variável, aka feature, tem uma correlação
muito baixa com o alvo,
então, você provavelmente pode deixar de lado.
Agora, isso pode, como qualquer uma dessas técnicas,
perder um recurso útil
porque pode haver uma interação de recursos de tal
forma que você sabe ...
A variável A não se correlaciona com o alvo
Variável B não se correlaciona com o alvo,
Mas variáveis A e B juntas, se você as transformar
em uma característica combinada, então elas são
...
Mas há tanta coisa que você pode fazer ...
Você não pode, em geral, tentar todas as combinações
possíveis de recursos
E especialmente quando você tem 400 recursos.
Então você tem que usar algum tipo de técnica para
fazer isso.
Está bem ! Os números 8, 9 e 10 falam sobre a seleção
para frente, para trás e passo a passo.

Serbian: 
Следеће о чему сам хтео да разговарам је корелација са циљем.
Дакле, ако варијабла, илити атрибут, има веома ниску корелацију са циљем,
онда, вероватно можете одбацити.
Ово може, као и свака од ових техника, да пропусти корисни атрибут
зато што можда постоји интеракција карактеристика, тако да, знаш ...
Варијабла А не корелира са циљем,
Варијабла Б не корелира са циљем,
Али променљиве А и Б заједно, ако их претворите у комбиновани атрибут, онда јесу ...
Али постоји само толико тога што можете учинити ...
Уопштено говорећи, не можете испробати сваку могућу комбинацију атрибута
А посебно када имате 400 атрибута.
Дакле, морате користити неку врсту технике да то урадите.
У реду ! Број 8, 9 и 10 говори о селекцији напред, назад и корак по корак.

English: 
And the way forward selection works, and then I'll talk about the other two, is,
you start with one feature that you believe to be the best feature
and you evaluate... I mean, you could actually write a loop, even,
just try one feature in your model, loop through all 400,
and, you know, do cross-validation with the relevant evaluation metric
and figure out: "Ok, here is my one best feature",
and you add that to your model,
then, you try adding a second feature.
Which do you add? Well, the best one as determined by some criteria.
So you keep doing that until some threshold is met:
Is there a certain number of features you've defined, some performance metric, etc., etc.
Backward selection is essentially the reverse,
You start with all of them, you subtract one, you subtract the least important one,
and you keep subtracting and subtracting again until you meet some sort of stopping criteria.

Portuguese: 
E o caminho a seguir a seleção funciona, e então eu
vou falar sobre os outros dois, é,
você começa com um recurso que você acredita ser o
melhor recurso
e você avalia ... Quero dizer, você poderia escrever
um loop,
apenas tente um recurso em seu modelo, percorra
todos os 400,
e, você sabe, fazer validação cruzada com a métrica
de avaliação relevante
e descobrir: “Ok, aqui está o meu melhor recurso",
e você adiciona isso ao seu modelo
Então, você tenta adicionar um segundo recurso.
Qual você adiciona? Bem, o melhor como determinado
por alguns critérios.
Então você continua fazendo isso até que algum limite
seja atingido:
Existe um certo número de recursos que você definiu,
alguma métrica de desempenho, etc., etc.
A seleção para trás é essencialmente o inverso
Você começa com todos eles, você subtrai um, você
subtrai o menos importante,
e você continua subtraindo e subtraindo novamente
até encontrar algum tipo de critério de parada.

Serbian: 
И начин на који напредује избор, а онда ћу говорити о друга два, је,
почињете са једним атрибутом за коју сматрате да је најбољи
а ви процењујете ... Мислим, могли бисте написати петљу, чак,
само пробајте један атрибут у вашем моделу, прођете кроз свих 400,
и, знате, урадите унакрсну валидацију са релевантним метрицама евалуације
и схватити: "Ок, ево је мој најбољи атрибут",
и додате га свом моделу,
затим покушајте да додате други атрибут.
Који додати? Па, најбољи је одређен неким критеријумима.
Тако да наставите да радите то док се не достигне неки праг:
Да ли постоји одређени број атрибута које сте дефинисали, неки  перформансне матрице, итд.
Избор уназад је у суштини обрнут,
Почињете од свих њих, одузимате једно, одузимате најмање важно,
и поново настављате одузимање и одузимање док не задовољавате неку врсту критеријума за заустављање.

Portuguese: 
E então, stepwise é uma espécie de combinação dos
dois. OK?
Eu só vou ter mais um par e depois,
vou resumir o que falamos aqui e dar algumas outras
dicas.
Então, mais dois, em suas recomendações,
LASSO: O LASSO é na verdade um algoritmo para criar
um modelo linear regularizado, ok?
Você pode ter ouvido falar de regressão LASSO e
regressão rica
Existem dois tipos de regressão regularizada.
Bom, uma boa propriedade da LASSO é você alterar
esse parâmetro de regularização com o LASSO
como, quando o valor é muito grande ou muito pequeno,
não me lembro
não há regularização e você só tem um modelo linear
simples,
então, se você aumentar ou diminuir um pouco os
parâmetros de regularização,

English: 
And then, stepwise is kind of a combination of the two. Ok?
I'll just have a couple more and then,
I'll kind of summarize what I've talked about here and provide some other tips.
So, two more, in his recommendations,
LASSO: LASSO is actually an algorithm for creating a regularised linear model, ok?
You may have heard of LASSO regression and rich regression
There's two types of regularised regression.
Well, a nice property of LASSO is you change this regularisation parameter with LASSO
like, when either the value is very large or very small, I don't remember,
there's no regularisation and you just have a plain linear model,
then, if you increase or decrease that regularisation parameters slightly,

Serbian: 
И онда, постепено је врста комбинације ова два. У реду?
Само ћу још пар и онда,
Ја ћу сумирати оно о чему сам говорио и дати неке друге савете.
Дакле, још два, у његовим препорукама,
ЛАССО: ЛАССО је заправо алгоритам за креирање регуларизованог линеарног модела, ок?
Можда сте чули за ЛАССО регресију и богату регресију
Постоје два типа регулисане регресије.
Па, лепо својство ЛАССО-а је да промените овај параметар регуларизације са ЛАССО-ом
на пример, када је или вредност веома велика или веома мала, не сећам се,
нема регулације и имате само обичан линеарни модел,
затим, ако мало повећате или смањите параметре регулације,

Serbian: 
онда, то чини регуларизацију која са ЛАССО заправо спушта коефицијенте све до нуле,
и коефицијент нуле значи да је  атрибут одбачена.
Дакле, у суштини, то је избор за вас.
Управо сам рекао да је ЛАССО за регуларизовани линеарни модел,
ЛАССО је за регресију,
али постоји регулисана логистичка регресија, на пример, која може да функционише на исти начин.
Мислим да сам довољно рекао о томе.
Коначна идеја у овој презентацији јесу модели засновани на стаблу,
и можда знате да са ансамблима дрвећа, дрвећем одлука, као што је случајна шума,
и други слични модели,
Он аутоматски израчунава нешто што се назива атрибути значајности.
Можете поставити праг и рећи:
"Ако мој модел каже да је дати атрибут значајности испод одређеног прага,
затим га уклоните из модела.
То је друга идеја.

Portuguese: 
então, ele faz a regularização que, com o LASSO, na
verdade, reduz os coeficientes até zero,
e um coeficiente de zero significa que o recurso
foi descartado.
Por isso, essencialmente, possui seleção para
você.
Agora eu acabei de dizer que o LASSO é para um modelo
linear regularizado,
(Isto?) LASSO é para regressão
mas há uma regressão logística regularizada, por
exemplo, que pode funcionar da mesma maneira.
Eu acho que já disse o suficiente sobre isso.
A ideia final nesta apresentação é, modelos baseados
em árvores,
e você pode saber que com conjuntos de árvores, de
árvores de decisão, como floresta aleatória,
e outros modelos semelhantes,
Ele calcula automaticamente algo chamado importâncias
de recursos.
Você pode definir um limite e dizer:
“Se o meu modelo diz que uma determinada característica
está abaixo de um certo limite,
em seguida, remova-o do modelo.
Então essa é outra ideia.

English: 
then, it does regularisation which with LASSO actually drops coefficients all the way to zero,
and a coefficient of zero means the feature has been dropped.
So it essentially does feature selection for you.
Now, I just said LASSO is for a regularised linear model,
(It?) LASSO is for regression,
but there's regularised logistic regression, for example, that can work the same way.
I think I've said enough about that.
Final idea in this presentation is, Tree based models,
and you may know that with ensembles of trees, of decision trees, such as random forest,
and other similar models,
It automatically computes something called feature importances.
You could set a threshold and say:
"If my model says a given feature importance is below a certain threshold,
then, remove it from the model.
So that's another idea.

English: 
These last two ideas are only useful if that is your model that you're using,
or you could theoretically use a tree based model to look at feature importance,
and then, not actually use a tree based model for your model that you're building.
Okay! So, I know that was a lot of ideas thrown at you quickly,
I'll just wrap up with some advice and then talk about how to implement this.
In terms of implementation, scikit learn does supports some of these.
Just search for scikit learn feature selection or I'll have a link in the webcast notes,
and they have a page in the user guide about feature selection techniques they support.
And many of these are included in some form or fashion.
The most sexy one is forward and backward selection,
because if feels like it's doing a ton of work for you, and it is!

Portuguese: 
Estas duas últimas ideias são úteis apenas se esse
é o seu modelo que você está usando,
ou você poderia, teoricamente, usar um modelo baseado
em árvore para observar a importância do recurso,
e, na verdade, não use um modelo baseado em árvore
para o modelo que você está construindo.
OK! Então, eu sei que muitas ideias foram dadas para
você rapidamente,
Vou terminar com alguns conselhos e depois falar
sobre como implementar isso.
Em termos de implementação, o scikit learn suporta
alguns deles.
Basta procurar por scikit learn feature selection
ou eu terei um link nas notas do webcast,
e eles têm uma página no guia do usuário sobre as
técnicas de seleção de recursos que eles suportam.
E muitos destes estão incluídos de alguma forma.
O mais sexy é a seleção para frente e para trás,
porque se parece que está fazendo uma tonelada de
trabalho para você, e é!

Serbian: 
Ове последње две идеје су корисне само ако је то ваш модел који користите,
или бисте теоретски могли да користите модел заснован на стаблу да бисте сагледали значајну особину,
а затим не користите модел заснован на стаблу за ваш модел који градите.
Добро! Дакле, знам да је било много идеја које су бачене на вас,
Ја ћу само завршити са неким саветима и онда разговарати о томе како да ово спроведем.
У смислу имплементације, scikit learn подржава неке од њих.
Само претражите scikit learn feature selection или ћу имати везу у белешкама за веб-емитовање,
и имају страницу у корисничком водичу о техникама одабира функција које подржавају.
И многи од њих су укључени у некој форми или моди.
Најсексипилнији је избор за напред и назад,
јер осетићете да ради тону посла за вас, а то баш и ради!

Serbian: 
То тренутно није доступно у scikit learn, доступно је у пакету званом mlxtend
и линковаћу у белешкама испод.
Међутим, то би могло у неком тренутку да се спојит у scikit learn-у.
Мислим да неко тренутно ради на томе, видио сам то на scikit learn мејл листи.
Дакле, који је мој општи савет? Дао сам много идеја.
Мој општи савет је да испробате једноставне технике,
јер што више искомпликујете, више времена ћете  изгубити и правити више грешака.
Мој следећи савет је да увек проверите да ли оно што радите заправо помаже или одмаже
Дакле, немојте претпоставити да је било која дата техника корисна.
Прво морате да подесите процедуру евалуације модела.
И онда, пробајте ове ствари и видите да ли оне стварно помажу,
јер ако не, онда их напустите.

English: 
That's not currently available in scikit learn, it is available in a package called mlxtend
and I will link to that in the webcast notes.
Though, that actually might get merged into scikit learn at some point.
I think someone is working on that right now, I saw that on a scikit learn mailing list.
So, what is my general advice? I've given a lot of ideas.
My general advice is to try simple techniques,
because the more complicated you get, the easier it is to sink a bunch of time into it and to make mistake.
My next piece of advice is, always check if what you're doing is actually helping or hurting
So, don't assume that any given technique is useful.
You need to set up your model evaluation procedure first.
And then, try these things and see if they're actually helping,
because if they're not, then abandon them.

Portuguese: 
Isso não está disponível no scikit learn, está
disponível em um pacote chamado mlxtend
e eu vou ligar para isso nas notas do webcast.
No entanto, isso pode ser incorporado ao scikit em
algum momento.
Eu acho que alguém está trabalhando nisso agora, eu
vi isso em uma lista de discussão scikit learn.
Então, qual é o meu conselho geral? Eu dei muitas
ideias.
Meu conselho geral é tentar técnicas simples,
porque quanto mais complicado você fica, mais fácil
é afundar um tempinho nele e cometer erros.
Meu próximo conselho é sempre verificar se o que
você está fazendo realmente está ajudando ou
prejudicando.
Portanto, não assuma que qualquer técnica dada é
útil.
Você precisa configurar o procedimento de avaliação
do modelo primeiro.
E então, tente essas coisas e veja se elas estão
realmente ajudando,
porque se não forem, abandone-os.

English: 
And you're never gonna know a priori whether something's gonna work on a given dataset
or a given problem, so you have to try it.
And final piece of advice, is to, generally, I say focus on things built into scikit learn,
because when you're writing custom code, it's easy to make a mistake and that's a lot of work.
Scikit learn code is GOOD.
Even like, mlextend, it's good code. I respect the person who wrote the package.
But that's not his focus, and so, over time, it will probably get out of date.
And, if there's bugs, they probably won't get fixed,
because you don't have a bunch of contributors focused on it like you do with scikit learn.
So, do simple things, check whether it's working, and generally, stick to things available on scikit learn,
because it will make your life easier, and you're less prone to make mistakes.
Hope this video was helpful to you.
If you'd like to join my monthly webcasts and ask your own question,

Serbian: 
И никада нећете знати унапред да ли ће нешто радити на датом скупу података
или задати проблем, тако да морате пробати.
И последњи савет је да, генерално, кажем да се фокусирте на ствари које су уграђене у scikit learn,
јер када пишете прилагођени код, лако је направити грешку и то је пуно посла.
scikit learn код је ДОБАР.
Чак и као, mlextend, то је добар код. Поштујем особу која је написала пакет.
Али то није његов фокус, тако да ће временом вероватно нестати.
И, ако постоје грешке, вероватно неће бити поправљене,
зато што немате гомилу сарадника фокусираних на то као што раде са scikit learn-ом.
Дакле, урадите једноставне ствари, проверите да ли ради, и генерално, држите се ствари доступних на scikit learn-у,
јер ће ти олакшати живот, и мање си склон грешкама.
Надам се да вам је овај видео помогао.
Ако желите да се придружите мојим месечним веб-емитовањем и поставите своје питање,

Portuguese: 
E você nunca vai saber a priori se algo vai funcionar
em um dado conjunto de dados
ou um determinado problema, então você tem que
tentar.
E o conselho final é, geralmente, eu digo focar nas
coisas construídas no scikit learn,
porque quando você está escrevendo um código
personalizado, é fácil cometer um erro e isso é
muito trabalho.
Scikit learn code é bom.
Mesmo assim, mlextend, é um bom código. Eu respeito
a pessoa que escreveu o pacote.
Mas esse não é o foco dele e, com o tempo, provavelmente
ficará desatualizado.
E, se houver erros, eles provavelmente não serão
corrigidos
porque você não tem um monte de colaboradores focados
nisso como você faz com o scikit learn.
Então, faça coisas simples, verifique se está
funcionando e, em geral, fique com as coisas
disponíveis no scikit learn,
porque isso tornará sua vida mais fácil e você estará
menos propenso a cometer erros.
Espero que este vídeo tenha sido útil para você.
Se você gostaria de participar de meus webcasts
mensais e fazer sua própria pergunta,

Portuguese: 
Inscreva-se para o meu programa de afiliação no
nível de 5 dólares, indo para:
https://www.patreon.com/dataschool
Há um link na descrição abaixo ou você pode clicar.
Muito obrigado por assistir, e te vejo novamente em
breve.

English: 
sign up for my membership program at the 5 dollar level, by going to:
https://www.patreon.com/dataschool
There's a link in the description below, or you can click the box on your screen.
Thank you so much for watching, and I'll see you again soon.

Serbian: 
пријавите се за мој програм чланства на нивоу од 5 долара, одласком на:
https://www.patreon.com/dataschool
У доњем опису постоји веза или можете кликнути на поље на екрану.
Хвала вам пуно што сте гледали, и видимо се ускоро.
