
English: 
So now we're going to talk about something that is kind of a specific part of Big Data
So the velocity part huge amounts of data being generated all the time, which essentially is a data stream
So that's a flow of instances so you could have a flow of images coming in have a flow
Video coming in or just a flow of essentially lines to go into a database the thing about the dynamic data
Is that the patterns within it can change so if we've got for example a static machine learning model?
That's not going to deal very well with a changing pattern happening in the data
We build a single model at the start. We use it to make predictions on later data the model
Accuracy can kind of degenerate over time as that data changes
The problem of kind of designing algorithms to deal with this real time data
There's been a research topic for kind of several years now and there's several real world applications on top of that as well
so if you think about
Banks trying to detect fraud as patterns change of different forwards occurring

Turkish: 
Şimdi, Büyük Veri'nin belirli bir parçası olan bir şey hakkında konuşacağız.
Bu yüzden, hız kısmı her zaman büyük miktarlarda veri üretilir, bu esas olarak bir veri akışıdır.
Yani bu bir örnek akışıdır, böylece içeri giren bir görüntü akışına sahip olabilirsiniz.
Video geliyor ya da sadece veri tabanına gitmek için esasen satırların akışı
Bu, örneğin statik bir makine öğrenim modeline sahip olmamız durumunda, içindeki modeller değişebilir mi?
Bu, verilerde meydana gelen değişen bir paternle pek iyi bir şekilde başa çıkmayacak
Başlangıçta tek bir model inşa ediyoruz. Modelin daha sonraki verilerle ilgili tahminlerde bulunmak için kullanıyoruz.
Doğruluk, veriler değiştikçe zaman içerisinde biraz dejenere olabilir
Bu gerçek zamanlı verilerle başa çıkmak için bir tür tasarım algoritması sorunu
Birkaç yıldan beri bir araştırma konusu var ve bunun üzerine gerçek dünya uygulamaları da var.
peki eğer düşünürsen
Dolandırıcılığı tespit etmeye çalışan bankalar, farklı ileriye dönük oluşumlar değişti

English: 
They want their models to kind of be able to update all the time similar for intrusion detection systems and computer networks
They want to be able to update
And keep on top of what is happening
Ideally, you would want this to happen automatically so minimum interference from humans, because otherwise they've got to spot when changes are happening
We just want the machines to be able to do it by themselves
So if you think about a traditional classification problem on a static batch of data
You assume you have all of that data there already. You have your training test set and you have
instances with
Features which X and then there's some unknown
function f of X which gives you the class label and you want to find a
hypothesis that gives you the best prediction possible
So what kind of approximates this function as well as possible?
So you have a red class and a green class and we have instances that look like this our function f of X may create
A class boundary that looks like this. So anything on this side is red. Anything on this side is green

Turkish: 
Modellerinin izinsiz giriş tespit sistemleri ve bilgisayar ağları için benzer şekilde sürekli güncellenmesini istiyorlar.
Güncelleme yapabilmek istiyorlar
Ve olan bitene devam et
İdeal olarak, bunun otomatik olarak gerçekleşmesini istersiniz, bu yüzden insanlardan asgari girişim, çünkü aksi halde değişiklikler olduğunda fark etmeleri gerekir.
Sadece makinelerin kendi başlarına yapabilmelerini istiyoruz.
Bu nedenle, statik bir veri kümesi üzerinde geleneksel bir sınıflandırma problemini düşünüyorsanız
Buradaki tüm verilere sahip olduğunuzu varsayıyorsunuz. Eğitim test setin var ve
ile örnekleri
Hangi X ve sonra bazı bilinmeyen var olan özellikler
Size sınıf etiketini veren ve bulmak istediğiniz X'in f işlevi
Size mümkün olan en iyi tahmini veren hipotez
Peki bu fonksiyona ne kadar yaklaşır?
Yani kırmızı bir sınıfınız ve yeşil bir sınıfınız var ve buna benzeyen örneklerimiz var, X'in f fonksiyonu yaratabilir.
Buna benzeyen bir sınıf sınırı. Yani bu taraftaki herhangi bir şey kırmızı. Bu taraftaki herhangi bir şey yeşil

Turkish: 
Modelimiz bunu bilmiyor ama standart ağaç öğrenme teknikleri karar ağaçları yeni veya ağlar kullanıyoruz
Ne istersen ve bir sınır öğrenir
Bu öyle gözüküyor ve böylece sahip olduğumuz tarihler boyunca tamam olacak.
Etkisi yoktur, ancak istediğimiz sonuçları alabilir. Bu statik sınıflandırmalardır. Tüm verilerimize zaten sahibiz
Böylece verilerimizi aldık, makine öğrenmemizi yaptık
Öğrendiğimiz karar sınırı budur. Noktalı çizgi aslında bunun verdiği sınırdır. Tamam sonuçlar
Şimdi bunun bir veri akışında olduğunu söyleyelim. Böylece bu verileri başlangıçta alıyoruz ve bu modeli oluşturuyoruz
Fakat daha sonra, gelen benzer bir örnek dağıtımımız var.
Ancak, şimdi olanlar, bu örneklerden bazılarının şu anda gerçekte farklı bir sınıfta olduğu.
yani gerçek sınır şimdi burada, ama biz hala elimizde
Bu karar sınırını modelleyin ve bu nedenle, şimdi ve burada örnekleri kullanırsak, yanlış sınıfa tahmin ediyoruz.

English: 
Our model doesn't know that but we use standard machine learning techniques decision trees new or networks
Whatever you want and it learns a boundary
That looks like that and so that will do okay on whatever dates that we have
It's not effect, but it may get the results that we want. This is static classifications. We already have all our data
So we've got our data we've done our machine learning
This is the decision boundary that we've learnt. The dotted line is what is actually the boundary this gives. Okay results
Let's now say that this is happening in a data stream. So we get this data originally and we build this model
But then later on we have a similar distribution of instance arriving
However, what now happens is that some of these instances are now in reality in a different class
so the true boundary is now here, but we still have our
Model with this decision boundary and so we're now predicting instances here and here into the wrong class if we use that

Turkish: 
Tam olarak aynı model. Peki bu durumda ne görürüz
Zamanla Centage doğruluğunu bu değişim noktasında görecektiniz
Doğruluk düşecektir. Yani burada bu sorun gerçek kavram kayması denir. Burada etkili bir şekilde ne oldu?
Bu işlev, bilinmeyen işlev değişti, ancak hipotezimizi makine öğrenme modelimizle tamamen aynı tuttuk.
Kötü performans göstermeye başlar
sanal sapma adı verilen benzer bir problemimiz olabilir ve bu durumda ne olacağını
bu
Hedef karar sınırı bu orijinalden aynı kaldı
Ancak şimdi akışta gördüğümüz örnekler, özellik alanında başka bir yerde. Şimdi görelim diyelim
veri
öyle olsa da
En uygun karar sınırı türü aynı yerdedir. Artık farklı verilerimiz var. Bu, öngörülen sınır anlamına gelir
Bu örneği yanlış verecek, çünkü birleştirmenin bir yolunu bulamadık

English: 
Exact same model. So what we would see in this case in
Centage accuracy over time you would see at this change point
Accuracy would plummet. So this problem here is called real concept drift. What is effectively happened here
is that this function the unknown function has changed but we've kept our hypothesis our machine learning model exactly the same and so
It starts to perform badly
we can also have a similar problem called virtual drift and what would happen in this case is
that the
Target decision boundary has stayed the same from this original
But the instances we now see in the stream are somewhere else in the feature space. Let's say we now see
data
like this so though the
Kind of optimal decision boundary is in exactly the same place. We now have different data. That means that are predicted boundary
It's going to give this instance as wrong because we haven't got a way of incorporating

Turkish: 
Bu örnekteki bilgileri, her ikisini de oluşturduğumuz orijinal modele aktarırken bu azalmayı doğrulukla yaratacağız.
Veri akışlarındaki sürüklenmeye, meydana geldikleri hız açısından bakın, böylece bize bir doğruluk arsası verecek bir şey
Buna veri akışındaki tek bir kavramdan doğduğumuz ani sapma denir gibi gözüküyor
Yani bir karar sınırı doğruca bir başkasına olabilecek muhtemel bir şey
Bu bizim doğruluğumuz böyle mi görünüyor?
Yani bu ani değişim yerine bu karar sınırı yavaş yavaş değişiyor, çok çok basitleştirilmiş bir bakıma bakıyorsanız, beni hayatınızı kurtarıyor
Saldırı tespit sistemi. Orijinal veri setinde incelediğimiz sadece iki özelliğe sahibiz.
Bu özelliklere sahip herhangi bir şey, bu bir
güvenlik
Bu durumda sorun ve izinsiz giriş, bu durumda iyi
Olan şey şu ki, aniden ağa saldırmanın yeni bir yolu var ve bu yüzden aniden
Burada olan şimdi iyi değil. Yani bu kalıpları görüyoruz ve tamam diyoruz.

English: 
information from this instance into the original model that we built both of these will create this decrease in accuracy so we can also
Look at the drift in the data streams in terms of the speed they happen so something that would give us an accuracy plot that
Looks like this is called sudden drift we go from straight from one concept in the data stream
So one decision boundary straight to another one another possible thing that could happen
Is that our accuracy looks like this?
So rather than this sudden switch this decision boundary gradually shifts save me your life if we're looking at a very very oversimplified
Intrusion detection system. We have only two features that we're looking at in the original dataset
anything with these features, this is a
security
Problem and intrusion anything on this side is good in this case
What happens is that suddenly there's a new way of attacking the network and so suddenly
What was here is now not good. So we see those patterns and we say ok

Turkish: 
Hayır, bu durumda izinsiz giriş sayılır
Bunun anlamı, daha önce görmediğimiz bir şeyi görmemiz, bu yüzden model benzer verilerle eğitilmemiş ve
Böylece onu alabilirdi, doğru burada bir yere düşebilir ve doğru olduğunu söylüyoruz
ancak karar sınırını bu kadar iyi öğrenemediğimiz bir alana da düşebilir.
Evet, bu öngörüyü yanlış anladık. Sadece neye baktık?
Gelen verilerle uğraşırken problemler tek bir statik model kullanmaktır
Zaman içinde dağıtım değişir ve hangi modele göre olursa olsun doğrulukta bir azalma görmeye başlarız.
Öyleyse, bir tür akış makinesi öğrenme algoritması türünde gerçekleşen şey, her şeyden önce olacaktır.
X'in gelmesi var. Bu sizin önceki örneğindeki örneğinizdir, bununla ilişkilendirilmiş iki değeri olacaktır.
İlk olarak ne olacağını tahmin edelim mi? Yani sınıflandırma örneğinde, bunu sınıflandırıyoruz. Evet

English: 
No, that counts as an intrusion in this case
what it means is that we see something that we've not seen before so the model hasn't been trained with any similar data and
So it could get it, right it could fall somewhere up here and we correctly say this is bad
but it could also fall in an area that we didn't learn the decision boundary so well, so
Yeah, we get that prediction wrong. We just looked at what?
The problems are with using a single static model when we're dealing with incoming data
Over time the distribution changes and we start to see a decrease in accuracy on whatever model we built
So what happens in kind of a stream machine learning algorithm would be so first of all
You've got X arriving. This is your instance in our previous example, this would just have two values associated with it
What would first happen is we make a prediction? So in the classification example, we classify this. Yes

English: 
It's an intrusion. No, it's not intrusion using the current model that we have then what happens is we update whatever model we have
using information from X and we'll talk about some of the ways that this is done in a second and
One of the kind of caveats with stream machine learning is that you need for this to happen you?
need to have
The real class label if you're doing classification
So in order to incorporate information from this instance into whatever model you've got you need to have that label there now in some cases
It's very easy to say we've seen this data. This is what it's classified us
And we do that immediately if we're thinking about
Making weather predictions we can almost immediately say yes. This is what the weather is like it may be a day's delay
But yeah, we can that's pretty immediate thing four things for example for detection
You may see a pattern of data
you may

Turkish: 
Bu bir izinsiz giriş. Hayır, şu andaki modeli kullanarak izinsiz giriş yapmıyoruz, o zaman olan ne?
X'ten gelen bilgileri kullanarak, bunun bir saniyede yapılmasının bazı yollarından bahsedeceğiz ve
Akış makinesi öğrenmesiyle ilgili uyarılardan biri, bunun gerçekleşmesi için ihtiyacınız olan şeydir.
ihtiyacı olmak
Sınıflandırma yapıyorsanız gerçek sınıf etiketi
Dolayısıyla, bu örnekten aldığınız bilgileri hangi örnekle birleştirmek için, bazı durumlarda bu etikete sahip olmanız gerekir.
Bu verileri gördüğümüzü söylemek çok kolay. Bu bize sınıflandırdığı şey.
Ve eğer düşünüyorsak hemen yaparız.
Hava tahminlerini yaparken hemen hemen evet diyebiliriz. Hava böyle bir gün gecikme olabilir
Ama evet, örneğin hemen tespit edilmesi gereken dört şey olabilir.
Bir veri deseni görebilirsiniz
yapabilirsin

Turkish: 
Mücadele edilmediğini tahmin edin ve iki gün sonra aniden bu kişi banka hesaplarında yanlış bir şey olduğunu anladı.
Onlar telefon ve dolandırıcılık olduğu ortaya çıkıyor
Ve böylece, bu gerçekleştikten sonra yalnızca o verinin etiketini alırdık.
Son bit, modeli güncellemektir
Bu noktada ve böylece modeli zaman içinde güncellemenin hedefi, bir performans grafiği oluşturmak yerine,
Bu böyle gözüküyor, bu yüzden 95'lerden% 20'ye kadar doğruluk sağlıyoruz
Bunun yerine iyi bir şeyle sonuçlanır
Burada biraz sürüklenip, performansında küçük bir düşüş olabilir.
Fakat model çok hızlı bir şekilde orijinal seviyeye geri dönmeli ve hala yüksek bir performansa sahibiz.
Demek bu model güncellemesinin hedefi bu. Alabileceğimiz çeşitli yaklaşımlar var, birincisi açık drift yönetimi
bu, ilk olarak veri akışında bir kayma meydana geldiğinde tespit ettiğimiz anlamına gelir
Bunu yapmak için
Sürüklenme algılama yöntemlerine sahibiz ve bunlar genellikle gelen verilerin bazı yönlerine bakan istatistiksel testlerdir.
Öyleyse, gördüğümüz verilerin dağılımı ve gördüğümüz sınıfların dağılımı değişiyorsa,

English: 
Predict it is not being fought and then suddenly two days later this person figures out that actually there's something wrong with their bank accounts
They phone up and it does turn out to be fraud
And so we'd only have the label for that data after that has happened
The final bit is to update the model
At this point and so the goal of updating the model over time is so that rather than having a performance plot
That looks like this so we go from 95s and accuracy down to 20% accuracy
We instead end up with something that okay
We may drift a little bit here and have a tiny performance decrease
But the model should very quickly recover back to the original level and we still have a high performance
So that's the goal of this model update. There's various approaches we can take so the first one is explicit drift handling
which means that we first of all detect when a drift happens in the data stream
So to do that
We have drift detection methods and these are usually statistical tests that look at some aspects of the data arriving
So if the distribution of the data we see arriving and the distribution of the classes we see is changing

Turkish: 
Eğer bu gibi bir morph bunlardan bir kayması olarak, biz de sınıflandırıcının performans doğruluğuna bakacağız.
Sınıflandırıcı performansı aniden düşerse, iyi söyleyebiliriz, muhtemelen burada bir sapma var.
Bunu hafifletmek için modele bir şey yapmamız gerekiyor.
Bunu kim vurguluyor? Biliyor musun, aslında bir şeyin olması gerekenden farklı olduğunu gösteren bir algoritma var mı?
Evet, bunu yapacak çeşitli istatistiksel testler var.
Bu sadece gelen verinin ortalaması gibi şeyleri ölçecek ve temelde değişen şeyleri belirleyebilecek
Yani evet, bir kere sapma olduğunu tespit ettik.
Daha sonra biraz harekete geçmek istiyoruz. Yapabileceğimiz ilk şey, modelin tamamen değiştirilebileceğidir.
böylece daha önce sahip olduğumuz modelden kurtulacağız ve
Biz
Son verilerin bir kısmını aldık
Ve bunun üzerine modeli yeniden eğitiyoruz ve başka bir drifti vuruncaya kadar tahminler için kullanmaya devam ediyoruz.
Tamamdır. Ancak bu, önceki modeldeki bazı bilgilerden kurtulabileceğimiz anlamına geliyor
Belki gelecekte de faydalı olacak.

English: 
If morph like that as a drift some of these we'll also look at the performance accuracy of the classifier
So if the classifier performance suddenly drops we can say well, we've probably got a drift here
We need to do something to the model to mitigate this
Who spots that though? Is it, you know, is there an algorithm that actually spots that something's different to what it should be
Yes, so there are various statistical tests that will do this
That will kind of just measure things like the mean of the data arriving and be able to spot things that have changed basically
So yeah, once we detected that a drift has happened
We then want to take some action. The first thing that we could do is we could do a complete replacement of the model
so we get rid of whatever model we had before and
we
We have taken chunk of recent data
And we retrain the model on that and continue using that for predictions until we've hit another drift
This is okay. But it means that we could be getting rid of some information in the previous model
That is maybe still going to be useful in the future

English: 
so then there are also methods that we'll look at specific parts of the model and say okay this specific part of it is
Causing a performance decrease. So let's get rid of this we can then
Learn from new instances something to replace this that will do it better basically
so if you think of a decision tree
If you can detect that there are certain branches in that decision tree that are no longer
Making good predictions you can get rid of them and we grow the tree to perform better prune it. Yeah, exactly
It is called pruning. You prune. Yeah, you prune the branches off the tree
There are no longer performing as you want them to the alternative to explicit handling is to do implicit drift handling
So rather than looking at the data or looking at the performance and saying something has changed we need to take action
We're just continually taking action. There are various approaches to implicit drift handling
So the first and probably most simple one is to use a sliding window
So if we imagine we have the data stream with instances arriving like this

Turkish: 
öyleyse, modelin belirli kısımlarına bakacağımız ve tamam diyeceğimiz yöntemler de var.
Performans düşmesine neden olmak. Öyleyse ondan kurtulalım o zaman
Yeni örneklerden, bunu temelde daha iyi yapacak bir şeyi değiştirecek bir şeyler öğrenin.
karar ağacı düşünürseniz
Karar ağacında artık olmayan belirli dallar olduğunu tespit edebiliyorsanız
İyi tahminler yaparak onlardan kurtulabilirsin ve daha iyi budamak için ağacı yetiştiririz. Evet kesinlikle
Buna budama denir. Kuru erik Evet, dalları ağaçtan kuru erik
Artık açık işlemlere alternatif olmalarını istediğiniz şekilde yapamazsınız, dolaylı sapma işlemlerini yapmaktır
Dolayısıyla verilere bakmak veya performansa bakmak ve bir şeylerin değiştiğini söylemek yerine harekete geçmemiz gerekiyor
Sadece sürekli harekete geçiyoruz. Örtük sapma işlemeye çeşitli yaklaşımlar vardır
Bu yüzden, ilk ve muhtemelen en basit olanı, sürgülü bir pencere kullanmaktır.
Öyleyse, bu şekilde gelen örneklerle birlikte veri akışına sahip olduğumuzu düşünüyorsanız

English: 
We could say we have a sliding window of three instances and we learn a model off of them. We then
Take the next three learn a model off of them. So as each instance arrives we get rid of the oldest instance
And this makes the assumption that the oldest instances are the least relevant. This is usually the case
It's kind of a valid assumption to make so this performs
Okay
the problem with this though is that it kind of provides a crisp cut off points every
Instance within this window is treated with exactly the same
Kind of impacts on the classifier. They were weighted the same so we can introduce instance weighting
So that older instances will have a lower weight their impact on the classifier will be less
So again, the more recent instances will be have the largest impact on the current model
and then again these algorithms that we'll use instance weighting will usually have
Some threshold. So once the weight gets below a certain point they say that's the instance gone
We delete it presumably the windows can be larger or smaller
Yes, so setting the window size is a pretty important parameter

Turkish: 
Üç örnek sürgülü bir penceremiz olduğunu ve bunlardan bir model öğrendiğimizi söyleyebiliriz. Biz o zaman
Sonraki üçünü alın onlardan bir model öğrenin. Böylece her örnek geldiğinde en eski durumdan kurtuluruz
Bu da en eski örneklerin en az ilgili olduğu varsayımını ortaya koymaktadır. Bu genellikle durum böyle
Bunu yapmak için geçerli bir varsayımdır.
Tamam
Bununla birlikte sorun şu ki, her türlü net kesme noktası sağlaması.
 
Bu penceredeki örnek tamamen aynı şekilde ele alınır.
Sınıflandırıcı üzerindeki etkiler. Aynı ağırlıktalardı, böylece örnek ağırlıklandırmayı sunabiliriz
Böylece daha eski örnekler daha düşük bir ağırlığa sahip olacak, sınıflandırıcı üzerindeki etkileri daha az olacaktır.
Yani, daha yakın zamanda ortaya çıkan örnekler mevcut model üzerinde en büyük etkiye sahip olacak
ve sonra yine örnek ağırlıklandırma kullanacağımız bu algoritmalar genellikle
Bazı eşik Yani ağırlık belli bir puanın altına düştüğünde, bunun eşleştiğini söylüyorlar.
Sanırım pencerelerin daha büyük veya daha küçük olabileceğini düşünüyoruz.
Evet, bu yüzden pencere boyutunu ayarlamak oldukça önemli bir parametredir.

English: 
if you have a window, that is too large then
Okay, you're getting a lot of data to construct your model from which is good and cents between learning more data usually good
What it also means is that if there's very short-term drifts
So this drift happens and then we don't learn from that drift if that makes sense because we see that all as one
Chunk of the data again
If you didn't set the window to be too small we can react very well to very short-term drifts in the stream
But you then have a very limited amount of data to work on to construct the model
So there are methods that will automatically adjust the window size. So during times of drift the window size will get smaller
so we want to be very rapidly changing the model and then during times when everything is kind of very stable the
Window will grow to be as large as possible so that we can
Use as much data to construct this model as possible
So the problem weird sliding windows and instance weighting is that you need all of those instances available to construct the model

Turkish: 
Bir pencereniz varsa, o zaman çok büyük
Tamam, modelinizi oluşturmak için çok fazla veri alıyorsunuz ki bu modelin iyi olduğu ve genellikle daha iyi veri öğrenme arasındaki sentezi
Bunun anlamı, kısa vadeli sürüklenmeler varsa
Bu yüzden bu sapma gerçekleşir ve bu mantıklı olursa, bu sapmadan öğrenemeyiz çünkü hepsini tek olarak görüyoruz
Yine veri yığını
Pencereyi çok küçük ayarlamamışsanız, akıştaki çok kısa süreli sürüklenmelere çok iyi tepki verebiliriz.
Fakat daha sonra modeli oluşturmak için üzerinde çalışılacak çok sınırlı miktarda veri var.
Bu yüzden pencere boyutunu otomatik olarak ayarlayacak yöntemler var. Bu yüzden sürüklenme zamanlarında pencere boyutu küçülecek
bu yüzden modeli çok hızlı bir şekilde değiştirmeyi istiyoruz ve daha sonra her şeyin oldukça sabit olduğu dönemlerde
Pencere olabildiğince büyük olacak şekilde büyüyecek, böylece
Bu modeli oluşturmak için mümkün olduğunca fazla veri kullanın.
Öyleyse, garip sürgülü pencerelerin ve örnek ağırlığının problemi, modeli oluşturmak için mevcut tüm örneklere ihtiyaç duymanızdır.

English: 
Continuously. So every time you add a new instance and delete another one you need to reconstruct that model and
So the way we can get around this is by using single pass algorithms
So we see each instance once use it to update the model and then get rid of that instance
It's probably still in long-term permanent storage, but in terms of what is being accessed to construct this algorithm
It's gone now in that respect then you've got information out of the instance, but you don't need the instance itself. Yeah, exactly
So we see the instance we incorporate what we can from it into the current model
We get rid of it and that instances impact is still in the model an example would be a decision tree
So decision trees are kind of constructed by splitting nodes where we're going to get a lot of information gained
from making a split on a certain attribute
So as the data stream changes the information gained that we might get and some of these nodes may change
So if we say get a new instance and it will say okay
Now this actually makes this a split worth making

Turkish: 
Devamlı olarak. Her yeni bir örnek eklediğinizde ve başka birini sildiğinizde, bu modeli yeniden yapılandırmanız gerekir.
Bu yüzden bunu aşmamızın yolu tek geçişli algoritmalar kullanmak.
Bu nedenle, her bir örneği bir kez modeli güncellemek için kullanıp sonra bu örneklerden kurtulmak için kullanıyoruz.
Muhtemelen hala uzun süreli kalıcı depolamadadır, ancak bu algoritmayı oluşturmak için neye erişildiği konusunda
Şimdi o açıdan gitti, o zaman bu durumdan bilgiyi aldın, ama örneğe ihtiyacın yok. Evet kesinlikle
Dolayısıyla, elimizden gelenleri mevcut modele dahil ettiğimiz örneği görüyoruz.
Ondan kurtulduk ve örnek etkisinin hala modelde olduğu bir örnek karar ağacı olacak
Dolayısıyla karar ağaçları bir çok bilgiyi elde edeceğimiz düğümleri bölerek oluşturuyor.
belirli bir öznitelikte bölünme yapmaktan
Böylece veri akışı değiştikçe elde edebileceğimiz bilgiler değişebilir ve bu düğümlerin bazıları değişebilir.
Öyleyse yeni bir örnek alırsak tamam diyecek
Şimdi bu aslında bunu yapmaya değer bir bölünme yapıyor

Turkish: 
Bu bölünmenin ağacı büyütmeye devam etmesini sağlayabiliriz ve sonra bu örnek gidebilir, artık ihtiyacımız yok
Ama yine de modelimizde ondan bilgi var.
Bu nedenle örtük ve açık sapma yönetimi onayımızı aldık. Ayrıca melez yaklaşımlara sahip olabilirsiniz.
Bu yüzden, açık sapma yönetimi, ani sapmaların tespitinde çok iyidir. Yani her zaman ani bir değişiklik var
Basit bir istatistiksel testle elde edilmesi çok kolay olan performansta ani bir düşüş olacak
Fakat bunun üzerine örtük sapma işlemine eklediğimizde
Bu, kademeli kayma ile de çok iyi başa çıkabileceğimiz anlamına geliyor.
Bu yüzden kademeli kayma tanımlamak biraz daha zor
Sadece önceki örneğe bakarsanız ya da önceki 10 örneğe benziyorsanız
Aşamalı bir kayma ile, önemli bir değişiklik görmeyeceksiniz
Öyleyse, üstü kapalı ve açık biçimini birleştirerek algılaması çok daha zor
Sürüklenme zamanlaması yöntemleri, bir performans grafiği ile sonuçlanır. Bu böyle bir şey olurdu
Değişen veri dağıtım sorunlarına ulaşan verinin tamamı boyunca oldukça iyi performans gösteriyoruz
Ve akışlardaki tek sorun değil
ve

English: 
We can make that split continue growing the tree and then that instance can go we don't need it anymore
But we still have the information from it in our model
So we've got our implicit and explicit drift handling appro. You can also have hybrids approaches
So the explicit drift handling is very good at spotting sudden drift. So anytime there's a sudden change
There'll be a sudden drop in performance that's very easy to pick up on with a simple statistical test
But when we then add in the implicit drift handling on top of that
It means that we can also deal very well with gradual drift
So gradual drift is a bit more difficult to identify
Simply because if you look at the previous instance or like say that 10 previous instances
With a gradual drift, you're not going to see a significant change
So it's a lot harder to detect by combining the implicit and explicit
Drift timing methods we end up with a performance plot. That would look something like this
We maintain pretty good performance for the entire duration of the data that's arriving the problems of a changing data distribution
And not the only problems with streams
and

English: 
so if you can imagine a very high volume stream and
high-speed got a lot of data arriving in a very short amount of time if
You take a single instance of that data stream and it takes you like five seconds to process it
But in that 5 seconds, you've had 10 more instances arrive. You're going to get a battery of instances very very quickly
So you need to be the model update stage needs to be very quick to avoid getting any backlog. The second problem is that with?
These algorithms we're not going to have the entire history of the stream available
To create the current model
so the models need to be
For example the single path algorithms that can say we don't need the historical data that we have the information we need from it
But we don't need to access these
Because otherwise, you just end up with huge huge data sets
Having to be used to create these models all the time
And again these streams of potentially infinite
We don't know when they're going to end and we don't know how much data they're going to end up containing

Turkish: 
çok yüksek hacimli bir akış hayal edebiliyorsanız,
yüksek hızda çok kısa sürede çok miktarda veri geliyorsa
Bu veri akışının tek bir örneğini alırsınız ve işlemden geçirilmesi beş saniye sürer
Fakat bu 5 saniyede, 10 tane daha vaktin varmış. Çok hızlı bir örnek bataryası alacaksınız
Bu nedenle, model güncelleme aşamasına geçmeniz gerekiyor, herhangi bir işlem yapmamak için çok hızlı olmanız gerekiyor. İkinci sorun bu mu?
Bu algoritmalar akışın tüm geçmişine sahip olamayacağız
Mevcut modeli oluşturmak için
bu yüzden modeller olmalı
Örneğin, ondan ihtiyacımız olan bilgiye sahip olduğumuz geçmiş verilere ihtiyacımız olmadığını söyleyebilecek tek yol algoritmaları
Ancak bunlara erişmemize gerek yok
Çünkü aksi halde, sadece devasa büyük veri kümeleriyle bitiyorsunuz.
Bu modelleri her zaman oluşturmak için kullanılmak zorunda
Ve yine bu sonsuz potansiyel akışları
Ne zaman biteceklerini bilmiyoruz ve ne kadar veri toplayacaklarını bilmiyoruz.

English: 
Most of the kind of and well-known machine learning algorithms have been adapted in various ways to be suitable for streams
So they now include update mechanisms. So they're more dynamic methods. So this includes but decision trees neural networks
K nearest neighbors. There's also clustering algorithms have also been adapted. So basically any classic algorithm you can think of there's
Multiple streaming versions of it now. So if you are interested in these streaming algorithms
There's a few bits of software that you could look at
for example, there's the
Mower suite of algorithms which interfaces with the worker data mining tool kit
This is free to download and use and includes implementations of a lot of popular streaming algorithms it also
Includes ways to synthesize data streams so generate essentially a stream of data
That you can then run the algorithms on
and you can control the amount of drift that you get how certain it is and things like that and
that's quite good to play around with to see the effects that

Turkish: 
Tür ve tanınmış makine öğrenme algoritmalarının çoğu, akışlara uygun olacak şekilde çeşitli şekillerde uyarlanmıştır.
Bu yüzden şimdi güncelleme mekanizmaları içeriyorlar. Bu yüzden daha dinamik yöntemler. Bu da buna ek olarak karar ağaçları sinir ağlarını da içeriyor
K en yakın komşular. Ayrıca kümeleme algoritmaları da uyarlanmıştır. Yani temelde bir klasik algoritma olduğunu düşünebilirsiniz.
Şimdi birden fazla akış sürümü. Bu akış algoritmaları ile ilgileniyorsanız
Bakabileceğiniz birkaç yazılım var
örneğin, orada
Çalışan veri madenciliği araç seti ile arayüz kuran algoritmalar takımı
Bu indirmek ve kullanmak ücretsizdir ve bir çok popüler akış algoritmasını da içerir.
Veri akışlarını sentezlemenin yollarını içerir, böylece temel olarak bir veri akışı oluşturur
Daha sonra algoritmaları çalıştırabilirsin.
ve ne kadar kesin olduğunu ve bunun gibi şeyleri elde ettiğiniz sapma miktarını kontrol edebilirsiniz.
etkilerini görmek için uğraşmak oldukça iyi

Turkish: 
Büyük veri akışları açısından farklı türdeki sürüklemeler doğrulukta olabilir
Spesifik olarak, Apache spark için kıvılcım akış modülü gibi bir yazılım var.
iyi
Ayrıca çok yüksek hacimli veri akışlarını çok hızlı bir şekilde işlemek için tasarlanmış daha yeni Apache flink var
az önce, insanların indirebileceği ve oynayabileceği bir yerden bahsettiniz ama ben bir endüstri olarak gerçek dünyada
Her gün kullandığımız web siteleri ve hizmetlerimiz
Bu akış algoritmalarını kullanıyordu. Demek ki büyük şirketler veya dürüst olmak gerekirse çoğu şirket veri üretecek
Sürekli olarak modellemek istiyorlar. Yani
Bir sonraki ne izleyeceğimiz gibi bir sonraki ne alacağınız gibi Amazon tavsiyeleri
Değişen kalıpları anlamaya ve güncellemeye devam etmelerini sağlayın
Hangi modelden olursa olsun en iyisini elde etmek için
tekrar önerileri
reklamları dayalı olarak önermek üzere optimize etmek
her neyse

English: 
Different kinds of drift can have on accuracy in terms of big data streams
Specifically there's software such as the spark streaming module for Apache spark
well
There's also the more recent Apache flink that are designed to process very high volume data streams very quickly
you just mentioned some yourself where people can download and have a play with but I mean in the real world as an industry and
Websites and things that services that we use every day
He was using these streaming algorithms. And so a lot of the big companies or most companies to be honest will be generating data
Constantly that they want to model. So for example
Amazon recommendations like what to watch next what to buy next they want to
Understand changing patterns so that they can keep updating
Whatever model they have to get the best
recommendations again
optimizing ads to suggest based on
whatever

Turkish: 
Sahip olduğunuz tarihte arama yapmak, bunun üzerinden yapılan başka bir şey. Yani evet, bunun için birçok gerçek dünya uygulaması var.
Şimdi belirteç aldım, böylece ortaya çıkan değeri eklemek için bir değer yükleyebiliyorum ve tekrar elimde tutuyorum
Ve şimdi yine belirteci var
Kayıt defterime bir şey yükleyebilirim ve bu makineler arasında bölünmüş hesaplamayı yapabilirim
Yani bir bilgisayarın geçmesinden ziyade milyarlarca veritabanı kaydını bilmiyorum. Her bilgisayarın geçmesini sağlayabilirsiniz.

English: 
Searching history you have that's another thing that is being done via this. So yeah, there are a lot of real-world applications for this stuff
Now I've got the token so I can load a value in add the value emerged or into it and store it back and hand
And now I've got the token again
I can load something into its my register you and do the computation split across those machines
So rather than having one computer going through I don't know a billion database records. You can have each computer going through
