
English: 
So, I'm going to give you a practical way to detect outliers that
work with almost every machine algorithm.
It's actually really straightforward, and it's very very beautiful.
Suppose you have this wonderful data set over here, with one outlier.
Obviously, you don't know what the outlier is,
because you haven't you haven't even discovered the structure of the linear set.
The algorithm is very simple.
Step one, Train with all the data.
In our case, it would be linear regression.
Two is Remove.
Find after training, the points in your training set with the highest visitor
error, and remove those, perhaps usually remove 10% of your data points.
And, step three is Train Again, using now the reduced data set.
And, you can actually repeat this if you want, and do it multiple times.
But, now our example over here, what it means is, the first time
we run the regression, we get something that looks approximately like this.
And, while this is not a good regression, it is good enough to recognize that if
you look at all the visible errors of data points,
that this one over here has the largest.

Chinese: 
这里 我会向你介绍适用于每个机器算法的
异常数值检测的实用方式
它非常直接 很棒
假设你有一个这样的数据集 然后有一个异常数值
你明显不知道这个异常数值是什么
因为你还没有找到这个线性集的结构
算法非常简单
第一步 训练所有的数据
在我们这个情况下 采用线性回归
第二部是去除
在训练之后 找出训练集中访问错误最多的点
去除这些点 一般占全部数据点的 10%
第三步是对当前减小后的数据集再次进行训练
如果需要 你可以一直重复这个过程 重复好几次
在我们这个案例中 我们第一次采用回归
会得到类似这样的一些东西
虽然这不是太好的回归 但是足可以让我们看到
在这些数据点的明显误差中
这个点的误差最大

Arabic: 
سأستعرض معكم طريقة عملية لاكتشاف القيم الخارجية التي
.تعمل تقريبًا مع كل خوارزمية آلية
.إنها في الواقع بسيطة ورائعة للغاية
.فلنفترض أنه لديكم مجموعة البيانات الرائعة هذه هنا، مع وجود قيمة خارجية واحدة
،ومن الواضح أنكم لا تعرفون ما هي القيمة الخارجية
.وذلك لأنكم لم تكتشفوا حتى هيكل المجموعة الخطية
.هذه الخوارزمية بسيطة جدًا
.تتمثل الخطوة الأولى في توصيل جميع البيانات في تسلسل
.في حالتنا، سيكون ذلك انحدارًا خطيًا
.وتتمثل الخطوة الثانية في الإزالة
بعد التوصيل، نحدد النقاط في مجموعة التدريب التي بها أعلى
.نسبة خطأ واضح، ونقوم بإزالتها، وربما نقوم بإزالة 10% من نقاط البيانات
.والخطوة الثالثة، هي التوصيل مرة أخرى، وذلك باستخدام مجموعة البيانات المخفضة
.ويمكنكم تكرار ذلك إن أردتم وإجراؤه عدة مرات
ولكن لنرى الآن ما يعنيه ذلك على المثال الموجود هنا، في المرة الأولى التي نقوم فيها
.برسم الانحدار، نحصل على شيء يبدو تقريبًا مثل هذا
وبالرغم من أنه لا يُعد انحدارًا جيدًا، إلا أنه جيد بما يكفي لندرك أنه إذا نظرنا
،إلى كل الأخطاء الواضحة في نقاط البيانات
.فسيكون الخطأ بهذه النقطة هنا هو الأعلى

Portuguese: 
Então, mostrarei a você uma maneira prática de detectar exceções que
funcionam com praticamente todos os algoritmos de máquina.
Ela é bastante direta e muito, muito bonita.
Suponha que temos este belo conjunto de dados aqui, com uma exceção.
Obviamente, você não sabe qual é a exceção,
pois ainda não descobriu a estrutura do conjunto linear.
O algoritmo é muito simples.
Primeira etapa: treinar com todos os dados.
Em nosso caso, seria a regressão linear.
Segunda etapa, remover.
Depois de treinar, localizar os pontos em seu conjunto de treinamento com o maior erro
de visitante e removê-los; talvez, remover 10% de seus pontos de dados.
E a terceira etapa é treinar novamente, usando agora o conjunto de dados reduzido.
E, na verdade, você pode repetir isso se quiser, e fazer isso várias vezes.
Mas, agora, em nosso exemplo aqui, o que ele significa é que, na primeira vez
que executamos a regressão, obtemos algo que se parece, mais ou menos, com isso.
E, apesar de isso não ser uma boa regressão, ela é boa o suficiente para reconhecer que, se
você olhar para todos os erros visíveis dos pontos de dados,
este aqui possui o maior.

Portuguese: 
Isso deve ter 10 pontos; portanto, 10% de remoção deve remover exatamente um ponto.
Então, se tirarmos este ponto daqui,
nossa linha de regressão seria muito semelhante a isto,
que é o que você deseja.

Chinese: 
这里刚好是十个点 所以去掉 10% 也就是去掉一个点
好 我们现在把这个点去掉
我们新的回归线很可能就是这样的
这就是你想要的

English: 
This happens to be ten points, so 10% of removal would remove exactly one point.
So, we take this point out over here.
Our new regression line would look pretty much like this.
Which is what you want.

Arabic: 
.وهذا يحدث لأنها عشر نقاط، لذلك فإن إزالة 10% سيؤدي إلى حذف نقطة واحدة بالضبط
.لذلك، سنقوم بحذف هذه النقطة
.وسيكون خط الانحدار مشابهًا لهذا إلى حد كبير
.وهو ما نريده
