
English: 
Hi and welcome to Data Science Bits channel!
My name is Felipe. Today I want to talk to you about
about Statistics. There is a war going
on on LinkedIn between Statisticians and Data Scientists.
On the one hand, Statisticians
will say that Data Science is basically Statistics,
on the other hand, there are some other Data
Scientists that will tell you that you don't
need Statistics in other to do Data Science.
And, many times, you need to be careful, because
these people are actually trying to sell you
a course where you will be a Data Scientist
in a month. My side in this fight is with
the Statisticians, because I really think
that the Data Science foundations rely on
Statistics. Also, Data Science is an ongoing
field and anything that I say now may not
be true in the future. But, there is a reasonably
well-established pipeline for Data Science
work right now. And I can tell you that all

Portuguese: 
Olá e bem-vindos ao canal Data Science Bits! Meu nome é Felipe. Hoje eu quero falar com vocês sobre
Estatística. Há uma guerra acontecendo
no LinkedIn entre Estatísticos e Cientistas de Dados.
Por um lado, Estatísticos
dirão que a ciência de dados é basicamente Estatística,
por outro lado, existem alguns Cientistas de Dados que lhe dirão que você não
precisa da Estatística para fazer Ciência de Dados. E, muitas vezes, você precisa tomar cuidado, porque
essas pessoas estão na realidade tentando te vender um curso onde você se torna um Cientista de Dados
em um mês. Meu lado nessa luta é com
os Estatísticos, pois eu realmente acho
que as fundações da Data Science dependem da Estatística. Além disso, a Ciência de Dados é um campo
em desenvolvimento e qualquer coisa que eu disser agora pode não ser verdade no futuro. Mas, existe
um fluxo de trabalho razoavelmente bem estabelecido para Data Science, neste momento. E eu posso te dizer

English: 
the steps in the Data Science pipeline rely
on Statistics. And mainly it is Descriptive Statistics
So, for example, computing averages,
medians, means, modes. When you assume that
your data has a shape of a specific distribution,
and you compute the specific parameters of
this distribution. Computing correlations.
When you are gathering data; cleaning data;
doing Feature Engineering, and this step is
really important, it has a lot of Statistics
in there; when you are labeling data, because
many times you don't have the labels, the
source of truth; when you are training the
model, behind the scenes there is Statistics;
when you are monitoring the model, for performance,
you are talking about Statistics; when you
are interpreting the models, using LIME or
SHAP, or any advanced tool, you are actually

Portuguese: 
que todas etapas do fluxo de Ciência de Dados dependem da Estatística. E é principalmente a Estatística Descritiva
Então, por exemplo, calcular médias,
medianas, modas. Quando você supõe que
seus dados têm o formato de uma distribuição específica, e você calcula os parâmetros específicos
dessa distribuição. Calcular correlações.
Quando você está coletando dados; limpando dados;
fazendo Engenharia de Features [Feature Engineering], e esta etapa é muito importante, tem muita Estatística aí;
quando você está rotulando dados, porque
muitas vezes você não tem os rótulos [labels],
a fonte dos valores verdadeiros; quando você está treinando o modelo, nos bastidores, está a Estatística;
quando você está monitorando o modelo, com relação ao desempenho, você está falando sobre Estatística;
quando você está interpretando os modelos, usando LIME ou SHAP, ou qualquer outras ferramentas avançadas, você está, na realidade,

English: 
using Statistics. So, there is no way you
can say you are not using Statistics. Now,
talking about the Machine Learning aspect,
the theory behind Machine Learning. So, if
you have read any Machine Learning paper,
any research paper, you'll see that there
are three components in every paper: Statistics,
Linear Algebra, and Calculus. There was a
point where Statistics and Machine Learning diverged,
and this was on Deep Learning. Because, Deep Learning
actually relies a lot on computational power.
And, people have many times developed Deep Learning
techniques testing it before proving
it. And, this makes Statisticians really mad!
Also, in Deep Learning, you don't need to
do much of Feature Engineering, and people
actually say that you don't need much Domain
Knowledge. At least in an academic setting.
I don't believe that in a company, in a business
setting, you can really say "I am a Data Scientist,

Portuguese: 
usando Estatística. Então, não tem como você dizer que você não está usando Estatística. Agora,
falando sobre o aspecto do Aprendizado de Máquina, a teoria por trás do Aprendizado de Máquina. Então, se
você leu qualquer artigo de Machine Learning,
qualquer trabalho de pesquisa, você verá que
existem três componentes em cada artigo: Estatística,
Álgebra Linear e Cálculo. Existiu um
ponto em que Estatística e Aprendizado de Máquina divergiram,
e isso foi com Deep Learning. Porque, Deep Learning
na verdade, depende muito do poder computacional. E, muitas vezes, as pessoas desenvolveram técnicas de
Deep Learning as testando antes de as provar. E isso deixa os Estatísticos realmente loucos!
Além disso, em Deep Learning, você não precisa fazer muito da parte de Engenhara de Features e as pessoas,
na realidade, dizem que você não precisa de muito Conhecimento de Domínio [Domain Knowledge]. Pelo menos em um ambiente acadêmico.
Eu não acredito que em uma empresa, em um ambiente de negócios, você pode realmente dizer

English: 
doing Deep Learning, and I can just not care
about business". You cannot do that!
Just to have some fun with this subject, I suggest
that you watch a rap battle by Baba Brinkman.
I will put the link in the description in
also here on the screen. It's also in a playlist
in my YouTube channel. I am also providing
two suggestions of books. One here, another here.
The first one is really good to understand
Statistics in the context of Machine Learning.
You'll need a bit of Statistical and Mathematical
background to understand everything in this
book, but I think it's really really robust.
This other book, here, is about Statistics
for Data Scientists. So, if you don't have
this type of background and you are a Data Scientist,
especially if you are a Computer
Scientist, I suggest you read this book and
it will give you some idea of the concepts.
It is not very deep mathematically, but it's

Portuguese: 
"eu sou um Cientista de Dados, fazendo Deep Learning, e eu simplesmente não preciso me importar com negócios". Você não pode fazer isso!
Só para nos divertirmos com este assunto, sugiro que vocês assistam à batalha de rap do Baba Brinkman.
Vou fornecer o link na descrição e também aqui na tela. Também está disponível em uma lista de reprodução no
meu canal do YouTube. Eu também estou fornecendo duas sugestões de livros. Um aqui, outro aqui.
O primeiro é muito bom para entender
Estatística no contexto de Aprendizado de Máquina.
Você vai precisar um pouco de conhecimento em Estatística e Matemática para entender tudo neste
livro, mas acho que é realmente muito muito robusto.
Este outro livro, aqui, é sobre Estatística
para Cientistas de Dados. Então, se você não tem
esse tipo de formação e você é um Cientista de Dados,
especialmente se você é um Cientista da Computação, sugiro que você leia este livro e
isso lhe dará uma idéia dos conceitos.
Não é muito profundo matematicamente, mas é

Portuguese: 
uma leitura muito boa. Eu estou lendo agora nos meus estudos.
 
Então, é isso por hoje. Eu acho que expus bastante conteúdo. Vamos manter essa
discussão aberta.
Por favor, comente no LinkedIn, ou na seção de comentários do YouTube. Eu realmente 
adoraria ouvir sua opinião. E, por favor,
não esqueça de se inscrever para continuar assistindo
tipo de vídeo. E, também, me siga no LinkedIn!

English: 
a very good read. I am reading it right now
to study.
 
So, that's it for today. I think it was a lot of content. And, let's keep this discussion open.
Please, comment on LinkedIn, or the YouTube comment section.
I would really
love to hear your opinion.
And, please, don't forget to subscribe to keep watching this type of video. And, also, follow me on LinkedIn!
