
English: 
Let's talk about data visualization so that we can avoid problems like this which is where we've got some kind of graph
Who knows what it means?
Loads and loads of lines none of them labeled. I think the thick one is more important. That's that's what I've learned from this
Data visualization is another method we can use along with
Statistics to have a look at our data Explorer our data and try and work out what's going on
It's a way of trying to understand our data better so that we can then perform
You know more rigorous statistical tests or actually start to draw conclusions or model our data
It's a very important tool but you've got to use it properly
You can't just plot anything and everything
Every chart you use has got to support your hypothesis or it's got to try and show the story
You're trying to tell right? You don't just plot something because it could be plotted. There's got to be a point to it
There's a lot of problems with using inappropriate grass and only picking subsets of your data. That's a huge problem, right?
That is not just a problem for data visualization. That's a problem for your statistical test as well

Turkish: 
Veri görselleştirme hakkında konuşalım, böylece bir tür grafiğimizin olduğu bu gibi problemleri önleyebiliriz.
Ne anlama geldiğini kim biliyor?
Hiçbiri etiketli olmayan satır ve yükler. Kalın olanın daha önemli olduğunu düşünüyorum. Bundan öğrendiğim şey buydu.
Veri görselleştirme birlikte kullanabileceğimiz başka bir yöntemdir
Verilerimize göz atmak için İstatistikler Verilerimizi araştırın ve neler olup bittiğini anlamaya çalışın
Verilerimizi daha iyi anlamaya çalışmanın bir yoludur, böylece daha sonra gerçekleştirebiliriz.
Daha sıkı istatistiksel testler biliyorsunuz ya da aslında sonuçlar çıkarmaya başlıyor veya verilerimizi modelliyorsunuz
Bu çok önemli bir araç ama doğru kullanmanız gerekiyor
Sadece hiçbir şeyi ve her şeyi çizemezsiniz
Kullandığınız her harita hipotezinizi desteklemeli veya hikayeyi denemeli
Doğru anlatmaya mı çalışıyorsun? Sadece bir şey çizmiyorsunuz çünkü çizilebilir. Bunun bir noktası olmalı
Uygunsuz çim kullanma ve verilerinizin yalnızca alt kümelerini seçme ile ilgili birçok sorun var. Bu büyük bir sorun değil mi?
Bu sadece veri görselleştirme için bir sorun değil. Bu istatistiksel testiniz için de bir sorun

English: 
If you're only using some of your data, it's that okay
It's going to depend on the situation right my um, you know
but I think there's a strong argument for saying you've got to be really really careful and you've got to be really
structured and regimented and
Document everything you do. The core problem with visualization is that people just plot stuff and they do it badly
maybe they use the inappropriate plot type or they
Don't scale of axes properly and that leads to huge misunderstandings and actually can be quite misleading, right?
This happens a lot in the media
So, for example, you might get a sort of political message for your door, but says these are different parties
So this is party one
This is party to this is party three and maybe you know party one's got this many votes and party twos got
This many votes and party three two
Right down here and party two are trying to make the case that just a few more votes and they're gonna win in this area
why but actually written down here this is twenty thousand and this is ten thousand and this is you know,
Eight thousand and just in the small labeling they've got here
They've completely skewed the axis right ten thousand is half of twenty thousand yet. Here. We are up here if you misuse plots

Turkish: 
Yalnızca verilerinizin bir kısmını kullanıyorsanız, sorun değil.
Duruma göre değişecek, umarım biliyorsun
ama bence gerçekten çok dikkatli olmanız ve gerçekten de olmanız gerektiğini söyleyen güçlü bir tartışma var.
yapılandırılmış ve alaylı ve
Yaptığınız her şeyi belgeleyin. Görselleştirmedeki temel sorun, insanların sadece bir şeyleri komplo haline getirmeleri ve çok kötü şekilde yapmalarıdır.
belki uygunsuz arsa türünü kullanıyorlar ya da
Eksenleri uygun şekilde ölçeklendirmeyin ve bu büyük yanlış anlamalara neden olur ve aslında oldukça yanıltıcı olabilir, değil mi?
Bu medyada çok olur
Örneğin, kapınız için bir tür siyasi mesaj alabilirsiniz, ancak bunların farklı partiler olduğunu söylüyor
Yani bu bir parti
Bu parti bu parti üç ve belki parti bir çok oy aldı ve parti iki var biliyorsun
Bu çok oy ve üç iki parti
İşte tam burada ve parti iki, birkaç oy daha kazanacaklarını ve bu alanda kazanacaklarını söylemeye çalışıyorlar.
neden ama aslında buraya yazılmış bu yirmi bin ve bu on bin ve bu biliyorsun,
Sekiz bin ve sadece küçük etiketlerde buradalar.
Ekseni tamamen çarpıtmışlardı on bin henüz yirmi binin yarısı. İşte. Arsaları kötüye kullanırsan, buradayız.

Turkish: 
Kendi verilerinde olduğunda aslında yanıltıcı
Yanlış sonuçlar çıkartacak ve sonra harcayacaksın
uzun zamandır bir alana araştırma yapmak ancak bir anlam ifade etmiyor ya da başarısızlıkla sonuçlanıyorsa ya da
Başka birine sunduğun bir şey. Bu kişiyi kasıtlı olarak veya kazayla yanlış yönlendirebilirsiniz
Ve bu asla iyi bir şey değil. Geri döndüm ve bildiğin birkaç grafiği göstermek istedim.
Mutlaka yanıltıcı değildir, ancak yanlış türde bilgileri kolayca çıkartabilirsiniz.
Bu çevrimiçi web siteleri var
Şu an farklı TV şovlarının derecelendirmelerine bakmak için gidebilirsiniz. En sevdiğim TV programlarından biri Fraser, değil mi?
Bence harika ve
Bu sitelere gider ve
Tüm bu Fraser bölümleri için derecelendirmeler. Her yer bitti
Bazen çok saygı duyulur ve bazen öyle olmaz.
GG çizim aracını kullanarak grafiğe bakıp bakmadığımızı görebiliriz.
Kesinlikle her yerdeler. Sağ? İyi bölümlerin var. Kötü bölümlerin var ve belki de sona doğru biraz yokuş aşağı gidiyor gibi görünüyor
Ama doğru söylemesi zor çünkü her yer bitti

English: 
It's actually misleading when it's on your own data
You're going to draw the wrong conclusions and then spend
quite a while researching into an area but doesn't make sense or and ends up in failure or if it's if
It's something you're presented to someone else. You can mislead that person whether intentionally or by accident
And that's never a good thing. I'm back in our and I just wanted to show a couple of plots that you know
It's not misleading necessarily, but you can easily infer the wrong kind of information, right so
There's this websites online
You can go to to look at the ratings for different TV shows right now. One of my favorite TV shows is Fraser, right?
I think it's amazing and
If you go on to these sites and you plot the
Ratings for all these Fraser episodes. It's all over the place
Sometimes it's very highly regarded and sometimes it's not so I'm just going to plot this
using the GG plot tool and we can see if we look at the graph that
It's absolutely everywhere. Right? You've got good episodes. You've got bad episodes and it seems to maybe be going slightly downhill towards the end
But it's difficult to say right because it's all over the place

Turkish: 
Şimdi gerçekte ne oldu, ben sadece varsayılan bir işlev kullanarak çizdim ve bu değer eksenimi otomatik olarak ölçeklendirdi, değil mi?
Bu yüzden benim y ekseni bölümlerin derecesi ve yedi ile
Şimdi yaklaşık dokuz buçuk temsili değil çünkü aynı veriyi çizersem verilerimi yayıyor
Ancak bu sefer gerçek bir derecelendirme sistemi gibi sıfırdan ten
Çoğu bölümün yaklaşık yedi buçuk ile sekiz arasında bir yerde neredeyse tam olarak aynı puanı aldığını görebilirsiniz.
Ki bence oldukça iyi
Onlara 10 puan verirdim, ama biliyorsun
Sadece benim. Dikkatli olmasanız bile bunu görebilirsiniz
Kazara yaparsanız, bir maksi otomatik olarak ölçeklendirmek ve bunun gibi şeyler bile başka bir klasik örnekte gerçek bir soruna yol açabilir.
Haberlerde döviz kuruna benzer bir şey gösterdikleri zaman
Yani buraya bakarsak
ABD doları karşısında Japon yeninin bazı örnek verilerini indirdim ve bunu basitleştirdim.
Bir süre ortasında yaklaşık 60 günlük bir süre ayıklanıyor
Ne olduğunu tam olarak hatırlayamıyorum.
Bunu çizersek, aslında büyük bir uçurum kenarı olduğunu görebilirsiniz.

English: 
Now what's actually happened is I've just plotted using a default function and it's Auto scaled my rating axis, right?
so my y-axis is the rating of the episodes and it's going between seven and
About nine and a half now that isn't representative because it's spreading out my data if I plot the exact same data
But this time from naught to ten like an actual rating system
You can see that most episodes get almost the exact same rating somewhere between around seven and a half to eight
Which I think's pretty good
I would rate them a 10, but you know
It's just me. You can see that even if you're not careful
If you do it by accident, even auto-scaling a maxi's and things like this can cause a real problem another classic example, you'll see
In the news is when they show something like a currency exchange rate
So if we look at here
we've got our I've downloaded some sample data of the Japanese yen versus the US dollar and I've simplified this by
Extracting just a period of about 60 days in the middle of some time
I can't remember exactly what it is
If we plot this you can see that actually there's a big sort of cliff edge

Turkish: 
30. günde korkunç bir şey oldu ve Japon yeninin değeri düşmeye başladı
Ve elbette, bu tamamen saçmalık, değil mi? Çünkü bu ölçek 108 ile yüz dört arasında gidiyor
Ve eğer bunu üzerine uygun bir eksenle çizersek, aslında neredeyse tamamen düz olduğunu görebilirsiniz.
İşletmeniz Japon yeninin ABD doları döviz kuruna güveniyorsa
Açıkçası bu küçük değişiklikler önemli olabilir, ancak bunu haberlerde sunuyorsanız
Aslında, belki de bu sadece normal bir yukarı ya da aşağı çarpma olduğunda, korkunç bir şeyin olduğunu iddia etmek çok kolaydır.
Kötüye kullanabilirsiniz
Amacınıza doğru şekilde hizmet etmek için araziler veya kazayla yapabilirsiniz ve çok fazla zaman harcarsınız
Standart parsellere bir göz atalım
Doğru görebiliyor olabilirsiniz ve çok temel bir seviyede kullanabilirsiniz ve bildiğinizi görürsünüz.
Neye uygun oldukları için, çünkü en önemli şeylerden biri, bu çizimleri ve bu çizelgeleri kullanmanızdır.
Doğru, tamam, bilirsin, belki de herkesin gördüğü en yaygın olanı çubuk grafik olacak.
İki eksen var
Burada bir tür nitelik veya etiket var ve burada bir miktar nitelik veya miktar var.

English: 
Something terrible has happened around day 30 and the value of the Japanese yen is just plummeting
And of course, this is absolute nonsense, right? Because this scale goes between 108 and a hundred and fourteen
And so if we plot it with a proper axes on you can see that actually it's almost completely flat
If your business relies on the exchange rate of a Japanese yen to the US dollar
Obviously these small changes might be important right but if you're presenting this in the news
It's very easy to claim that something terrible's happened when in fact actually, maybe this is just normal blip up and down, right so
You can misuse
Plots to serve your purpose right or and you can do it accidentally and waste a huge amount of time
Let's have a look at the standard plots
You might see right and you could use on a very basic level and see you know
What are they appropriate for right because one of the most important things is that you use these plots and these charts
Appropriately, alright, so, you know, perhaps the most common one that everyone sees is going to be a bar chart
You've got two axes
You've got some kind of attributes or labels down here and then you've got some quantity or amount of some attribute here

English: 
And then you're going to have different bars like this now
This is a very nice graph to use it's simple but it's effective because you can very easily see what the difference between these different
Levels are right so that you know, it's often going to be your go to graph for lots of things
Right, some people now some people try and replace this graph of a pie chart, right? This is a bad idea in general
I mean
I like pie as much as the next person but if you've got different things
Like this and one of them is big
I mean you can see that this one's bigger than this one, but how much bigger it is?
I don't know
You can't see the relative sizes quite so easily this all gets worse if you combine this into a doughnut plot
And then you've got multiple pies embedded in each other none of them align and nothing makes any sense anymore, right?
So if in doubt don't use a pie chart, it's a bad idea. I mean they look very nice for presentations
That's about what I can say for it if we're going to be measuring some call of quantity then a bar charts going to be
What we want right but what we might also do is replace quantity with the with the frequency or the amount of something

Turkish: 
Ve şimdi bunun gibi farklı çubuklara sahip olacaksın.
Bu, kullanımı çok hoş bir grafiktir, ancak basit, ancak etkilidir, çünkü bunlar arasındaki farkın ne olduğunu kolayca görebilirsiniz.
Seviyeler doğrudur, böylece bilirsin, çoğu zaman grafiğe gitmen çoğu zaman olur.
Doğru, bazı insanlar şimdi bazı insanlar bir pasta grafiğinin bu grafiğini değiştirmeye çalışıyorlar, değil mi? Bu genel olarak kötü bir fikir
Demek istediğim
Bir sonraki kişi kadar turtayı severim ama eğer farklı şeyleriniz varsa
Bunun gibi ve bunlardan biri büyük
Demek istediğim, bunun bundan daha büyük olduğunu görebiliyorsun, ama ne kadar büyük?
Bilmiyorum
Göreceli boyutları çok kolay göremezsiniz, bunu bir donut kompleksi içerisinde birleştirirseniz bu daha da kötüleşir.
 
Ve sonra birbirinize gömülü birden fazla turta var ve bunların hiçbiri aynı hizada değil ve hiçbir şey artık bir anlam ifade etmiyor.
Bu nedenle, şüpheli bir pasta grafiği kullanmazsanız, bu kötü bir fikirdir. Yani sunumlar için çok hoş görünüyorlar
Bu, miktar miktar çağrısını ölçecek olursak, çubuk grafikler olacaksa, bunun için söyleyebileceklerimle ilgili.
Doğru yapmak istediğimiz, ancak yapabileceğimiz şey, miktarın yerine bir şeyin sıklığı veya miktarını koymaktır.

English: 
So this is gonna be frequency. This is also our labels again on the bottom here
We've got our labels and this is going to be bins for some single attribute
So this is maybe so naught to 10 that misses maybe 10 to 20 of whatever the thing is
And this is a frequency the amount that fall into that range and what this allows us to do is work out very easily
What the distribution is is it normally distributed, but I'm only distributed with two peaks, you know
Is it suitable left skewed to the right?
We can see very easily the shape of our data and it can be really helpful
Another way of looking at this sort of the shape or the range of our data in particular is a box plot right now
You'll see box plots come up from time to time with scientific
Documents but they're very easy to produce in tools like are and they can be quite useful
So here we're gonna have a single attribute
So some label again or some attribute here and this is going to be the quantity of this attribute
And what a boxplot does is label the range of that data
So we're going to have a box here like this and it's going to look a little bit like this
So I'll use a different color pen

Turkish: 
Yani bu frekans olacak. Bu da yine alt kısımdaki etiketlerimiz.
Etiketlerimiz elimizde ve bu, bazı özelliklerin depolanması olacak.
Yani bu belki de 10'a düşmüş, belki de 10'dan 20'ye kadar olanı özlüyor
Ve bu, bu aralığa giren miktarın bir sıklığıdır ve bunun yapmamızı sağlayan şey çok kolay bir şekilde çalışmaktır.
Dağılım nedir normalde dağılmış, ama ben sadece iki tepe ile dağılmış durumdayım.
Sola doğru sağa bükülmüş mü?
Verilerimizin şeklini çok kolay görebiliriz ve bu gerçekten yardımcı olabilir.
Özellikle verilerimizin bu tür şekline veya aralığına bakmanın başka bir yolu, şu anda bir kutu grafiğidir.
Bilimsel araştırmalarla zaman zaman ortaya çıkan kutu parselleri göreceksiniz.
Belgeler ancak bunlar gibi araçlarla üretilmeleri çok kolaydır ve oldukça faydalı olabilirler
Yani burada tek bir özelliğe sahip olacağız.
Yani yine bir etiket veya burada bir özellik ve bu da bu özelliğin miktarı olacak
Bir kutu grafiğinin yaptığı şey, bu verilerin aralığını etiketlemek.
Yani burada böyle bir kutucuk olacak ve bu biraz şuna benzeyecek
Bu yüzden farklı bir renk kalem kullanacağım

English: 
This line in the center is our median typically and then this is going to be the third quartile here
Third quartile and this is going to be the first quartile and then these are the max and the min in this one plot
We've got the absolute range of our data
We've got where 50% of our data is sort of this interquartile range here and we know where the midpoint of our data is
So we can very easily see whether we've got
outliers and we can plot this next to a different attribute and we can have two box plots next to each other and we can
See very quickly, you know a comparison between these two things so that can be really useful now the final ones right?
We're going to be talking about scatter plots and trend lines. All right, so it's got to pop very simple. We've got two
Attributes, this is attribute one and this is attribute two, and we want to see how they bury with respect to each other
So when one goes up does the other one go up or does it go down are they even related to?
So you'll see something like this and it'd be all over the place often
But you can see maybe there's a kind of trend where as attribute one increases attribute two increases right now
This is a correlation being shown here. Not a causation. So you can't say they're definitely related, but you can say that

Turkish: 
Merkezdeki bu çizgi bizim medyanımızdır ve bu, buradaki üçüncü çeyrek olacak.
Üçüncü çeyrek ve bu ilk çeyrek olacak ve daha sonra bunlar bu tek arsadaki maks ve min
Verilerimizin mutlak yelpazesini elde ettik
Verilerimizin% 50'sinin bu çeyrekler arası aralığın neresi olduğunu biliyoruz ve verilerimizin orta noktasının nerede olduğunu biliyoruz.
Böylece bizde olup olmadığını çok kolayca görebiliriz.
aykırı değerler ve bunu farklı bir özniteliğin yanına çizebiliriz ve yan yana iki kutu grafiğimiz olabilir ve
Çok hızlı bir şekilde bakın, bu iki şey arasında bir karşılaştırma yapmayı biliyorsunuz, böylece sonuncular gerçekten yararlı olabilir mi?
Dağılım grafikleri ve trend çizgileri hakkında konuşacağız. Tamam, bu yüzden çok basit pop gerekir. İki tane var
Öznitelikler, bu bir özniteliktir ve bu iki özniteliktir ve birbirimize göre nasıl gömdüklerini görmek istiyoruz.
Öyleyse, biri yükseldiğinde diğeri yukarı mı çıkıyor yoksa aşağı mı iniyor?
Böylece böyle bir şey göreceksiniz ve sık sık her yerde olacaktı
Ancak, belki bir özellik yükseldikçe, şimdi iki özellik artarsa, bir tür eğilim olduğunu görebilirsiniz.
Bu, burada gösterilen bir korelasyondur. Nedensellik değil. Yani kesinlikle birbirleriyle ilişkili olduklarını söyleyemezsiniz, ancak bunu söyleyebilirsiniz.

English: 
generally speaking when one is big so is the other that's but sometimes useful a
Trendline is going to be where we're going to be plotting something over time
My so this has to be a continuous variable or at least a variable we believe
Can be inferred between our points like it's unlikely, but you're gonna have all the points
So you what you might have is you might have a plot where you've got time
Down here. So maybe time in mumps, for example
And we've got some amount of something and we're just going to plot it like this and we can sort of have a trendline going
Like this if it's a situation where we can infer the amount between two time points then this is okay
Right because we can say well look we've got a reading here. We've got a reading here
It's reasonable to assume that between these two points. This is the amount
All right. Nothing to funny's gone on between these two points, right?
If you can't assume that then you shouldn't really be using a trendline and you probably want to be using a bar graph
Does that depend on the kind of day to them? Yes, it'll depend on it
This is a judgment call based on the kind of data

Turkish: 
Genellikle biri büyük olduğunda konuşur, diğeri ise bazen yararlı olur.
Eğilim çizgisi, zaman içinde bir şey çizeceğimiz yer olacak
Bu yüzden bunun sürekli bir değişken olması veya en azından inandığımız bir değişken olması gerekiyor.
Puanımız düşük gibi görünebilir ama bütün puanlara sahip olacaksınız.
Yani sahip olabileceğiniz şey, vaktinizin olduğu bir komplo olabilir.
Aşağıya Mesela kabakulakta belki zaman
Ve bir miktar bir şey bulduk ve sadece bu şekilde çizeceğiz ve bir trend çizgisine sahip olabiliriz.
Bunun gibi, iki zaman noktası arasındaki tutarı çıkarabileceğimiz bir durum varsa, o zaman sorun değil.
Doğru, çünkü bakabiliriz diyebiliriz burada bir okuma var. Burada bir okuma var
Bu iki nokta arasında olduğunu varsaymak mantıklıdır. Bu miktar
Tamam. Bu iki nokta arasında komik bir şey olmaz, değil mi?
Bunu varsayamazsanız, o zaman gerçekten bir eğilim çizgisi kullanmamalısınız ve muhtemelen bir çubuk grafik kullanmak istiyorsunuz.
Bu onlar için günün türüne bağlı mı? Evet, buna bağlı
Bu veri türüne dayanan bir yargılama çağrısıdır.

Turkish: 
Yani bir veri demek istiyorsam zaman iyi bir örnektir. Sonsuz küçük artışlarla tür ölçmek eğiliminde değiliz
Günlük ya da saatlik ya da bunun gibi bir şey ölçeceğiz.
Ancak, okumalarımızın örneğin zaman içindeki sıcaklık gibi sıcaklıkları sevdiğini belirten bir varsayım yapabiliriz.
20 yaşındasın ve ertesi saat 25 yaşındasın. Muhtemelen o zamanlar arasında iki buçuk arasında, değil mi?
Verilerinize bağlı olacak
Yani, iyi bir örnek, öğrenci başına işletim sistemi kullanımı gibi bir şey çiziyor olsaydınız olurdu.
yani burada OS X var, ama burada Linux var ve
Windows bu birçok insan OS X kullanıyor bu birçok insan Linux kullanıyor bu birçok insan Windows kullanıyor
İyi arılar ayrık veri noktalarına sahiptir. Bunlara bir trend çizgisine uyamazsınız. İşletim sistemi yok
Bu benim bildiğim Linux ve Windows arasında% 50'dir ve çıkarım yapamayız
Hiç anlam ifade etmeyen kaç öğrenci kullanacak? Bu bir çubuk grafik mi olmalı?
Öyleyse gerçek bir veri setine bakalım ve bu görselleştirmenin bir kısmını pratikte nasıl kullanabileceğimize bakalım.
Bu yüzden burada bir tavuk veri seti var ve bu veri seti hakkında
Tavukları haftalar boyunca farklı diyetlere tartarak ve ne kadar yumurta ürettiklerini ölçerek

English: 
So if a data I mean time is a good good example. We don't tend to measure sort of in infinitely small increments
We're going to be measuring daily or hourly or something like this
but we can kind of make an assumption a lot of the time that our readings like temperature for example over time if
You're at 20 and then the next hour you're at 25. We're probably halfway between there to between those two times, right?
It's going to depend on your data
I mean a good example would be if you were plotting something like operating system usage per student
so we've got OS X here, but Linux here and we've got
Windows these many people use OS X this many people uses Linux this many people use Windows
Well bees have discrete data points. You can't fit a trend line to these. There is no operating system
That's 50% between Linux and Windows that I know of and we can't infer
How many students are going to be using it that makes no sense? That should be a bar chart?
So let's look at an actual data set and see how we can use some of this visualization in practice
So I've got here a chicken data set and this data set is about
Weighing chickens on different diets over a period of weeks and also measuring how many eggs they produced

English: 
I'm not a farmer, but let's imagine that what we wanted to do was see if one of these
Diets produces a better weight gain and maybe more eggs per week. Let's have a look
So I'm going to load the chicken data set. This is at stored in a CSV
Just like before let's have a quick look at just the first few rows of this data to see what they look like
So that's going to be the head function and we you can see we've got six attributes
So we've got the week but the measurement was taken the chicken in this case of chicken number one, but they'll obviously be other chickens
diet, they're on a diet B or diet see the age of the chicken in mumps the weight of a chicken in kilograms and the
Number of eggs they produce that week. All right, so there's going to be lots of combinations of weeks and chickens in this data set
Now what we want to try and do is see if there's any kind of relationship between the diet
They're on and the number of eggs. They're producing or the weight of a chicken or anything like this
So the first thing we could do is we could have a look at the aggregate function
So I'm going to paste this down here. We'll talk through it. What the aggregate function does is let us produce
Let's say a summary or calculate some means or medians
Over a data set but this time grouping by a certain attribute

Turkish: 
Ben çiftçi değilim, ama şunu yapmak isteriz ki, yapmak istediğimiz şeyin bunlardan biri olup olmadığını görmek.
Diyetler daha iyi bir kilo alımı ve haftada daha fazla yumurta üretir. Bir bakalım
Bu yüzden tavuk veri setini yükleyeceğim. Bu bir CSV’de depoda
Tıpkı daha önce olduğu gibi, neye benzediklerini görmek için bu verinin ilk birkaç satırına hızlıca bir göz atalım
Yani bu baş işlevi olacak ve görebiliyoruz ki altı özelliğimiz var.
Bu yüzden haftanız var ama ölçüm bir numaralı tavuğun tavuk halindeydi, fakat belli ki diğer tavuklar olacaklar.
diyet, onlar bir diyet b vardır veya diyet kabakulaklı bir tavuk yaşı kabakulak kilo ve kilo cinsinden
O hafta ürettikleri yumurta sayısı. Pekala, bu yüzden bu veri setinde birçok hafta ve tavuk kombinasyonu olacak.
Şimdi denemek ve yapmak istediğimiz şey, diyet arasında herhangi bir ilişki olup olmadığını görmek.
Onlar açık ve yumurta sayısı. Üretiyorlar veya bir tavuğun ağırlığını veya bunun gibi bir şeyi üretiyorlar
Bu yüzden yapabileceğimiz ilk şey, toplama işlevine bir göz atabiliriz.
Bu yüzden bunu buraya yapıştıracağım. Bununla konuşacağız. Toplu işlevin yaptığı şey üretmemize izin vermek
Bir özet diyelim veya bazı araçlar veya medyalar hesaplayalım
Veri kümesi üzerinde ancak bu sefer belirli bir özellik tarafından gruplandırılıyor

English: 
so in this case
What we're going to do is we're going to aggregate the weight of the chickens bar in groups of their diet
So all the A's all the B's and all the C's and then we're gonna for each of those
We're going to calculate a summary
So let's run that and you can see that we've got our group down here for a we've got the minimum the maximum
The median the mean and we can see some slight differences perhaps in these data sets
I mean the median mean for example of Group A. It's 3.8. Whereas the mean for Group C is 3.4
So maybe there's a slight difference in these things. Okay. So let's try a different aggregate function
So this time we're going to aggregate the number of eggs produced groups by again the diet
So this is going to be all the A's all the B's and all the Seas and then we're going to produce a summary
so we can see that the median number of eggs produced for group a is 4 per week and
For group B and Group C is 3 per week. So maybe again there's a slight difference
We're starting to learn a little bit about our data. So let's start with histogram light
So what we're gonna do we're gonna use this histogram function

Turkish: 
yani bu durumda
Yapacağımız şey tavuk çubuğunun ağırlığını, diyet gruplarında toplayacağımız.
Yani tüm A'ların hepsi B'nin ve bütün C'lerin ve sonra bunların hepsine gideceğiz
Bir özet hesaplayacağız
Öyleyse şunu çalıştıralım ve grubumuzu burada en düşük seviyeye çıkardığımızı görebiliyoruz.
Ortanca ortalama ve belki bu veri setlerinde bazı küçük farklılıklar görüyoruz
Örneğin A Grubu için ortanca ortalama demek. Bu 3.8. Oysa C grubu için ortalama 3.4
Yani belki bu şeylerde küçük bir fark vardır. Tamam. Öyleyse farklı bir toplama işlevi deneyelim
Yani bu kez ürettiğimiz yumurta sayısını tekrar diyetle toplayacağız.
Demek bütün bunlar A'nın bütün B'leri ve bütün Denizleri olacak ve sonra bir özet hazırlayacağız
a grubu için üretilen ortanca yumurta sayısının haftada 4 olduğunu görebiliyoruz.
B grubu ve C grubu haftada 3'tür. Belki de yine küçük bir fark var
Verilerimiz hakkında biraz bilgi edinmeye başlıyoruz. Öyleyse histogram ışığıyla başlayalım.
Peki, yapacağımız şey bu histogram fonksiyonunu kullanacağız.

Turkish: 
Çoğunlukla hist fonksiyonu gibi etiketlerimizden hangisi histogramı üretir
Ve biz bir tavukun yaşlarına ait bir histogram üreteceğiz. Peki, yaşların dağılımı nedir?
Yaşlılar genç mi?
Ve 15 mola kullanacağız
Bu, tüm seriyi alıp şu anda 15 gruba ayıracağımız anlamına geliyor.
aslında, biraz yapacağım
15'in uygun bir sayı olduğundan emin olmak için sahne arkasından yapılan birkaç kontrol ve hafifçe yukarı veya aşağı ayarlayabileceği
böylece bu histogramı geniş bir şekilde konuşarak görebiliriz.
Tavuklar farklı yaşlar arasında eşit dağılmıştır.
60 ya da 70 haftalık yaşlı gençleri var.
350 haftalık ve bir sebepten dolayı 250 civarında bir zirve yaptık.
Bunun neden olduğunu bilmiyorum ama belki de içinde belirli bir yaş civciv var.
Ve nihayet kutucuğa bakalım.
Bu yüzden bloğun arsa kutusundan bahsettik, bize asgari olanı söyleyelim
Bir nitelik ve ayrıca aralıktaki medyan için değil mi? Yani bu gerçekten yararlı
Yani sadece tüm tavuklar için yaşlanmaya bakacağız.

English: 
Which is mostly labels like the hist function in our produces a histogram
And we're going to produce a histogram of the ages of a chickens. So what's the distribution of the ages?
Are they old are they young?
And we're gonna use 15 breaks
That means we're going to take the whole range and break it into 15 columns 15 bands right now
actually, I will do a little bit of
Just a few checks behind the scenes to make sure 15 is an appropriate number and might adjust it up or down slightly
so we can see this histogram broadly speaking our
Chickens are evenly distributed among the different ages
we've got some young ones that sort of 60 or 70 weeks old older ones that are
350 weeks old and then for some reason we've got a peak around 250
I don't know why that is but I maybe we've got a batch of a certain age of chickens in
And let's finally let's look at the box plot
So we talked about the block's plot box plot will tell us the minimum the maximum
For an attribute and also the median in the range, right? So this is really helpful
So we're just going to have a look just to age just for all chickens

English: 
So you can see that the median is around 220 something like that
and then the majority of the chickens, so 50% of the chickens fall between about
150 weeks old and 300 weeks old but you can see there are some very young ones and some very old ones this kind of
Plot will end. It's really size up where our data sits before we start to make any assumptions
so let's imagine now that we want to try and drill down into his day to a bit and work out whether
Actually the diet had any effect on the number of eggs or the weight of a chicken, right?
so what we're going to do is we're going to group we're going to use the aggregate function again to calculate the means of
All the weights per week. I was going to copy that down here
So we're going to say aggregate the weight of the chickens by both the week and the diet
so
combinations a week one
die a week to die a and so on and I don't want you to calculate the mean for all chickens, so
Run that so that produces some statistics on the different average weight of chickens over time
I'm going to rename the columns so that they're a little bit more informative that sort of run that line there

Turkish: 
Yani medyanın yaklaşık 220 civarında olduğunu görebilirsiniz.
ve sonra tavukların çoğunluğu, yani tavukların% 50'si
150 haftalık ve 300 haftalık ama görüyorsunuz ki bazıları çok genç olanlar ve bazıları çok yaşlı olanlar bu tür
Arsa bitecek. Varsayımlar yapmaya başlamadan önce verilerimizin bulunduğu yer gerçekten büyük.
öyleyse şimdi hayal edelim ki, gününe biraz da olsa inmeye çalışıp çalışıp çalışamayacağımızı
Aslında diyet yumurta sayısını veya bir tavuğun ağırlığını etkiledi, değil mi?
yani yapacağımız şey, gruplandırmayacağımız, toplam işlevini, araçlarını hesaplamak için tekrar kullanacağız.
Haftada tüm ağırlıklar. Onu buraya kopyalayacaktım
Yani tavukların ağırlığını hem hafta hem de diyetle toplam olarak söyleyeceğiz.
yani
haftada bir kombinasyon
ölmek için haftada bir ölmek vb. ve tüm tavukların ortalamasını hesaplamanızı istemiyorum.
Bunu çalıştırın, böylece tavukların zaman içindeki farklı ortalama ağırlıklarına ilişkin istatistikler üretir.
Sütunları yeniden adlandıracağım, böylece biraz daha bilgilendirici olmaları için oradaki bu tür satırları çalıştırma

Turkish: 
Ve nihayet, şimdi bunu çizeceğiz
Bunun için GG grafiğini kullanacağız, biliyorsunuz, yerleşik işlevlerimizi mi yoksa canlı mı kullanıyorsunuz?
GG arsalarının genel olarak ne tür arsalar yapmak istediğinize bağlı olduğunu düşünüyoruz.
GG arsa ile oldukça güzel arsalar alabilirsiniz, ancak biraz daha karmaşıklar. Tamam, bu yüzden burada bu çizgiyi çalıştıracağım.
Bu verilere bakarak belki de a'nın olumlu bir etkiye sahip olduğunu görebiliriz, değil mi?
Dolayısıyla, denemenin başında hiçbir haftanın geçmediği altta
Kabaca aynı ağırlık vardı ve daha sonra bir gerçekte ortalama ağırlık artıyor gibi görünüyor
Sanırım şu andaki verilerimizle ilgili ilginç bir şey var.
Hadi yumurta sayısına bakalım, o zaman bu sefer aynı şeyi yapacağız
Yumurta sayısını haftaya ve diyete göre toplayacağız böylece kopyalayamazlar ve ben de bir miktar vereceğim
Yararlı etiketler ve sonra verileri koyacağız. Bakalım
Zaman içinde diyetlerden herhangi birinin yumurta üzerinde herhangi bir etkisi olup olmadığı ve oldukça iyi görünüyor
Tamam, bu yumurta sayısının ürettiği sıklık.
haftalar on iki haftadır
Deneme ve B ve IC diyetinin haftada yaklaşık aynı sayıda yumurta ürettiğini görebilirsiniz

English: 
And then finally, we're going to plot this now
We're going to use GG plot for this, you know, whether you use the inbuilt our plot functions or enough alive
We like GG plot will kind of depend on what plot you want to do in general
You can get quite nice plots with GG plot, but they're a little bit more involved. Alright, so I'm going to run this line here
Looking at this data we can kind of see that maybe da a is having a positive effect, right?
So down at the bottom where no weeks are passed at the beginning of our experiment
There were roughly the same weight and then the average weight of a actually does seem to increase
So I guess that's something interesting about our data right now
Let's look at number of eggs, right so we're gonna do the same thing this time
We're going to aggregate the number of eggs by week and by diet so they don't copy that and I'm going to give it some
Helpful labels as well and then we're going to put the data. Let's see
Over time whether or not any of the diets have any effect on the eggs, and it's looking pretty good
Alright, so this is the frequency as the number of eggs were producing
the weeks is the twelve weeks of our
Experiment and you can see that diet B and IC produce roughly the same number of eggs per week

Turkish: 
Bu, tüm tavukların ortalamasıdır ancak diyet, haftada ortalama en az bir yumurta üretir.
Bilirsin, bu% 20'lik bir artış
Kabaca konuşma. Eğer bir çiftçiyseniz, bu harika bir şey
Fakat yaşadığımız sorun bunun gerçek olamayacak kadar iyi olabileceği yönünde.
Burada gördüklerimiz belki de nedensellik ile korelasyon meselesidir.
Böylece burada kullanılan diyet ile yumurta sayısı arasında bir korelasyon olduğunu görebiliriz.
ama bilmiyoruz ama özellikle tavukların yaşlarına daha ayrıntılı bakmamıza neden olan diyet, çünkü ben
Paul yaşlı tavukların az ya da çok yumurta üretip üretmediğini bilmekle ilgileniyor
Doğru çünkü bu bizim deneyimizle alakalı olabilir.
Tamam, piliçleri diyete göre gruplandıracağız ve sonra ortalama yaşlarının ne kadar ortalama olduğunu hesaplayacağız.
Yani bunu hesaplayacağım
Bu işte ve sonra ona bakacağım
Ve Grup A'nın ortalama yaşının ya da bu diyet diyetindeki tavukların yaş ortalamalarının yalnızca 156 hafta olduğunu görebiliriz.
Diyelim ki yaş C Grubu’nun
248 hafta önemli ölçüde daha yaşlı. Tamam, kontrol etmemiz gerek.

English: 
This is averaged over all the chickens but diet a produces at least an egg more per week on average
You know, that's a 20% increase
Roughly speaking. If you're if you're a farmer, that's a great thing
But the problem we've got is that this might be a little bit too good to be true
What we're seeing here is perhaps an issue of correlation versus causation
So we can see here that there is a correlation between the diet that's being used and the number of eggs
but we don't know but it's the diet specifically that causes it we're looking more detail at the ages of the chickens specifically because I'm
Interested to know him whether or not Paul older chickens produce more or fewer eggs
Right because that could be relevant to our to our experiment
Okay, so we're going to group the chickens up by diet and then work out what their average age is so mean age
So I'm going to calculate this
On this here, and then I'm going to look at it
And we can see that the average age the mean age for Group A or these chickens on diet a is only 156 weeks
but the age for let's say Group C is
248 weeks are significantly older. All right, so we need to just check that

Turkish: 
Bu, yatırılan yumurta sayısı için bir sorun olmayacak
Öyleyse tavukların yaşına karşı yumurta sayısını belirleyelim, değil mi? Yani burada gidiyoruz
Yumurta sayısına göre yaş dağılım grafiği oluştur
Ama aynı zamanda diyetle renklendiriyoruz, böylece farklı diyetlerin nerede oturduğunu kabaca görebiliriz. Hadi bunu çalıştıralım
Tamam, yani görebildiğimiz, ama aslında tavuklar büyüdükçe yumurta sayısında oldukça ciddi bir düşüş görüyoruz.
Haftada yaklaşık dört buçuk saatlik bir ücretten yaklaşık iki buçuk ya da iki ortalamaya kadar üretiliyor, değil mi?
Ayrıca IAE'nin ağırlıklı olarak burada oturduğunu görebiliriz, bu da tavukların daha genç olduğu anlamına gelir
Yani bu bir problem olabilir
Söylediğimiz şey şu ki, diyete bir sürü genç tavuk koymuş olabilirdik, evet
Daha fazla yumurta üretiyorlar, ama bunun nedeni ölmek değil, daha genç oldukları için değil mi?
Diyelim ki diyet başına düşen tavukların yaşına göre bir kutuya bakalım ve onların daha genç olduklarını görebilirsiniz.
çok diyet
Sanırım sonuç çıkarabiliriz ancak teorik olarak diyetle üretilen yumurta sayısı arasında bir bağlantı olması mümkün

English: 
This isn't going to be an issue for the number of eggs laid
So let's plot the number of eggs versus the age of the chickens, right? So here we're going to
Generate a scatterplot of age versus the number of eggs
But we're also going to color by diet so we can see roughly where the different diets sits. Let's run this
Okay, so what we can see is but actually as chickens get older we do see a quite serious decrease in the number of eggs
Produced per week from about four and a half hour wage down to about two and a half or two average, right?
And also we can see that IAE is predominately sitting up here, which means that the chickens are younger
So this could be a problem
What we're saying is that it could be that we happen to have put a load of young chickens on diet a and yes
They're producing more eggs, but that isn't because of die a that's because they're younger, right?
So let's have a look at a box plot of the age of chickens per diet and you can see that they're significantly younger on
diet a so
I think the conclusion we can draw is but it's theoretically possible that there's a link between the diet and the number of eggs produced

English: 
But we can't really say it from this data. We're going to need a lot more data. Maybe some you know some more chickens
I like to try and work this out. We've seen a number of different visualizations and the important thing is that we use visualizations
Appropriately and we don't make assumptions about our data
So we're going to start to look at cleaning of data and then maybe using our data in clustering and classification
but
Visualization is a really good way to start off exploring your data and generate some initial hypotheses
Well, we're looking at chocolate datasets today, so I thought I'd bring some research
Yeah, good and definitely relevant

Turkish: 
Ancak bu verilerden gerçekten söyleyemeyiz. Daha fazla veriye ihtiyacımız olacak. Belki birileri biraz daha fazla tavuk biliyordur.
Bunu denemeyi ve çalışmayı seviyorum. Farklı görselleştirmeler gördük ve önemli olan görselleştirmeleri kullanmamız.
Uygun şekilde ve verilerimizle ilgili varsayımlarda bulunmayız.
Bu yüzden, verilerin temizliğine bakmaya başlayacağız ve daha sonra verilerimizi kümeleme ve sınıflandırmada kullanmaya
fakat
Görselleştirme, verilerinizi keşfetmeye başlamanın ve bazı başlangıç ​​hipotezleri oluşturmanın gerçekten iyi bir yoludur
Bugün çikolata veri setlerine bakıyoruz, biraz araştırma getireyim dedim.
Evet, iyi ve kesinlikle alakalı
