
iw: 
הי, אני אדריאן היל ואתם בקראש קורס בסטטיסטיקה.
אז, בפרקים האחרונים דיברנו על דרכים לסכם מידע בעזרת מספרים.
השתמשנו במדדים לנטייה מרכזית ובמדדים של התפרסות.
אבל לפעמים יכול לעזור *לראות* ממש את המידע שלכם בנוסף למספרים,
לתאר אותו.
המחשות מידע חשובות להבנה מכיוון שתראו אותן בכל יום.
בחדשות, בפייסבוק, במגזינים.
אני אולי אצור אינפוגרפיקה של כל המקומות בהם אנחנו רואים המחשות.
מוזיקת פתיחה
ישנם שני סוגים של מידע שבד"כ נתייחס אליהם: קטגורי ומספרי.
מידע מספרי מורכב ממספרים המסודרים בסדר מסויים עם מרווח קבוע.
לדוגמה, כמה אונקיות של שמן זית יש בכל בית אמריקאי.
אם שלוש משפחות היו מספרות לכם כמה אונקיות של שמן זית יש להן, הייתם יכולים לסדר אותן
בסדר הגיוני- מהכמות הקטנה לגדולה, או מהגדולה לקטנה.

English: 
Hi, I’m Adriene Hill, and this is Crash
Course Statistics.
So, for the last few episodes we’ve discussed
ways to summarize data using numbers.
We used measures of central tendency and measures
of spread.
But sometimes it can be helpful to actually
*see* your data in addition to having numbers
to describe it.
Data visualizations are important to understand
because you’ll see them everyday.
In the news, on Facebook, in magazines.
Maybe I’ll make an infographic of all the
places we see data visualizations.
INTRO
There are two main types of data that we might
encounter: categorical and quantitative.
Quantitative data are quantities, numbers
that have both order and consistent spacing.
For example, how many ounces of olive oil
are in each American home.
If three families told you how many ounces
of olive oil they have, you could put them
in a meaningful order--from least to greatest,
or greatest to least.

iw: 
לסדר כזה יש גם מרווח קבוע, גידול של אונקיה אחת זהה
במצב בו תעברו מ- 0 ל- 1, כמו גם במצב בו תעברו מ- 100 ל- 101.
הפרופורציות הללו מאפשרות לנו לעשות מתמטיקה פשוטה עם המידע- כמו מציאת הממוצע או חישוב
סטיית התקן.
למידע קטגורי אין סדר בעל משמעות או מרווחים קבועים.
לדוגמה, סוג הפסטה האהוב ביותר.
אתם אולי אוהבים פנה, רוטיני, לינגוויני או אפילו ורמיצ'לי, אין דרך אובייקטיבית
לשים את הפסטות הללו בסדר עם משמעות.
האם פנה באמת יותר טובה מלינגוויני?
איפה נמצא הרוטיני?
ניסיון לסדר אותם ייצוג שיגעון פסטה.
הדרך הטובה ביותר לייצג מידע קטגורי היא באמצעות טבלת שכיחויות.
טבלת שכיחויות מראה לכם את כל הקטגוריות ואת מספר נקודות המידע הנמצאות
בכל קטגוריה (במילים האחרות, התדירות שלה).
כדי לשנות טבלת שכיחויות לטבלת שכיחויות יחסיות, אנחנו רק צריכים לקחת כל
תדירות ולחלק אותה במספר הנקודות הכולל כדי לקבל מספר עשרוני בין 0 ל- 1.
חלקכם בטח רגילים לקרוא מספרים עשרוניים כאחוזים, אבל אם לא, פשוט

English: 
This order also has consistent spacing, an
increase in 1 ounce of olive oil is the same
whether you go from 0 to 1 ounce, or from
100 to 101 ounces.
These properties allow us to do simple math
with the data--like taking the mean or calculating
the standard deviation.
Categorical data doesn’t have a meaningful
order or consistent spacing.
For example, favorite kind of pasta.
You might like penne, rotini, linguine, or
even Angel Hair, but there’s no objective
way to put those pastas into a meaningful
order.
Is penne truly better than linguine?
Where does rotini fit in?
It would be pasta madness to try to put them
in order.
The simplest way to display categorical data
is to make a frequency table.
A frequency table shows you all of the categories
and the number of data points that fall in
that category (in other words, its frequency).
To change a frequency table into a relative
frequency table, we just need to take each
raw frequency and divide by the number of
total points to get a decimal between 0 and 1.
Some of you may be used to reading decimals
as percentages, but if you’re not, just

English: 
multiply by 100 to get the percentage.
For linguine we have 10/50 which is 0.2 or
20% of the group.
Relative frequency tables have the benefit
of being easy to compare.
No matter what we’re measuring or how many
data points we have, it’s easy to compare
percentages.
If 20% of people like linguine, we can see
that’s a smaller percent than the 67% of
people who like pineapple on pizza or greater
than the 10% of my family who thinks statistics
are scary.
The relative frequency table for favorite
pasta might look like this.
We can also add more than one variable to
our frequency table.
We could ask people to rate their favorite
pasta sauce and make a combined frequency
table, or a contingency table, of both pasta
and sauce preference.
If I were planning a party, and needed to
pick some pasta for the group, my best bets
would be Rotini with Red Sauce and Penne with
Red or White sauce.
And because I’m planning a party and because
I’m having food, I did look it up: the chance
of death by choking on food in the US in a
given year is 1 in 100,686

iw: 
תכפילו ב- 100 כדי לקבל את האחוז.
עבור לינגוויני יש לנו 10/50 שהם 0.2 או 20% מהקבוצה.
לטבלאות שכיחות יחסית יש את היתרון שהן נוחות להשוואה.
לא משנה מה אנחנו מודדים או כמה נקודות מידע יש לנו, זה קל להשוות
אחוזים.
אם 20% מהאנשים אוהבים לינגוויני, אנחנו יכולים לראות שזה אחוז קטן יותר מ- 67%
מהאנשים שאוהבים פיצה עם אננס או יותר מ- 10% מהמשפחה שלי שחושבים שסטטיסטיקה
מפחידה.
טבלת השכיחויות היחסית לפסטה אהובה יכולה להיראות ככה.
אנחנו יכולים גם להוסיף יותר ממשתנה אחד לטבלת השכיחויות שלנו.
אנחנו יכולים לבקש מאנשים לדרג את רוטב הפסטה האהוב אליהם וליצור טבלת שכיחויות
משולבת, או טבלת מקרים המתייחסת להעדפות של פסטה ורוטב במקביל.
אם הייתי מתכננת מסיבה, והייתי צריכה לבחור פסטה לקבוצה, ההימורים הכי טובים שלי
היו רוטיני עם רוטב אדום ופנה עם רוטב אדום או לבן.
ומכיוון שאני מתכננת מסיבה ויהיה בה גם אוכל, בדקתי את זה: הסיכוי
למות בחנק מאוכל בארה"ב הוא 1 ל- 100,686 בכל שנה.

English: 
But, sometimes we don’t want just numbers
in our visualization.
Earlier in the series, I talked about how it can be hard to wrap your head around numbers--especially
when they get really big or really small.
There are other more visual ways to represent
categorical data.
One way to do this is with a bar chart.
A bar chart uses the frequencies that we saw
in our frequency table to create bars that
have a height equal to the frequency.
That way, we can compare the height of bars
instead of looking at raw numbers.
Here’s a bar chart representing the pasta
data we saw in our original frequency table.
You can see that penne is by *far* the most
chosen pasta, and how it compares to Angel Hair.
Bar charts display a lot of information in
a very simple graph, they can also display
the frequencies of multiple variables.
Let’s say we want to compare each of these
pasta types with either white or red sauce.
We can either stack frequencies so it gives
us the same information as our contingency
table, or we can have bar charts side by side.
Pie charts are another way of displaying categorical
data.

iw: 
אבל לפעמים אנחנו לא רוצים רק מספרים בהמחשות שלנו.
מוקדם יותר בסדרה הזאת, דיברתי על כמה זה יכול להיות קשה לכוון את החשיבה סביב מספרים- במיוחד
כשהם גדולים מאוד או קטנים מאוד.
ישנן דרכים מוחשיות יותר לייצוג של מידע קטגורי.
אחת הדרכים לעשות את זה היא בעזרת גרף עמודות.
גרף עמודות משתמש בשכיחויות שראינו בטבלת השכיחויות כדי ליצור עמודות שיש
להן גבהים השווים לשכיחויות.
בצורה הזאת, אנחנו יכולים להשוות את הגובה של העמודות במקום להסתכל על מספרים בשורות.
הנה גרף עמודות המתאר את המידע על הפסטה שראינו בטבלת השכיחויות המקורית.
אתם יכולים לראות שפנה היא באופן *מובהק* הפסטה הנבחרת, ואיך היא ביחס לורמיצ'לי.
גרפים של עמודות מראים מידע רב בגרף מאוד פשוט, הם יכולים גם להראות
את השכיחויות של מספר משתנים.
בואו נגיד שאנחנו רוצים להשוות בין כל סוגי הפסטה האלו יחד עם רוטב לבן או אדום.
אנחנו יכולים להכניס את כל השכיחויות כך שנקבל את אותו המידע כמו בטבלת המקרים
שלנו, או לעשות גרף עמודות המונחות אחת על השניה.
תרשימי עוגה הם עוד דרך להראות מידע קטגורי.

English: 
They use the relative frequency of categories
to portion out pieces of a Circle, just like
a pie.
The higher the relative frequency, the bigger
the slice of pie a category gets.
Pie charts are useful because our eyes are
pretty good at comparing slices.
Our pasta data in a pie chart looks like this.
Pie charts are great at visually displaying
one variable.
But they struggle to effectively display more
than one variable, like our pasta and sauces
contingency table.
Another way to display categorical data is
a pictograph.
Pictographs represent frequency with pictures.
A picture, like the ball in this basketball
participation graph, will represent some number
of units, say 100 kids.
So if Riverdale High had 550 students participate
in their basketball programs, then the graph
would show 5.5 basketballs.
Sometimes pictographs represent frequencies
by increasing the size of the picture instead
and it’s not wrong, but it’s more difficult
for us to visually compare, especially for
small differences, which can be misleading.
Plus, at a casual glance, we don’t know
what the size difference means.

iw: 
הם משתמשים בשכיחות היחסית של הקטגוריות כדי ליצור חלקים מתוך המעגל, בדיוק
כמו עוגה.
ככל שהשכיחות היחסית גבוהה יותר, כך חתיכת העוגה שתקבל הקטגוריה תהיה גדולה יותר.
תרשימי עוגה שימושיים מפני שהעיניים שלנו די טובות בהשוואת חתיכות.
המידע שלנו על הפסטה בתרשים עוגה נראה כך.
תרשימי עוגה מעולים בהמחשה של משתנה אחד.
אבל הם מתקשים בניסיון להמחיש בצורה שימושית יותר ממשתנה אחד, כמו טבלת המקרים
של פסטה ורוטב.
דרך נוספת להראות מידע קטגורי היא פיקטוגרף.
פיקטוגרפים מייצגים שכיחויות עם תמונות.
תמונה, כמו הכדור בגרף ההשתתפות בכדורסל הזה, שייצג מספר כלשהו
של יחידות, נניח 100 ילדים.
אז אם בתיכון ריברדייל יש 550 תלמידים המשתתפים בתכניות הכדורסל, אז הגרף
יראה 5.5 כדורי סל.
לפעמים פיקטוגרפים ממחישים שכיחויות בכך שהם מגדילים את גודל התמונה במקום.
זאת לא טעות, אבל יותר קשה לנו להשוות כך, במיוחד עבור
הבדלים קטנים שיכולים להטעות.
חוץ מזה, במבט חטוף, אנחנו לא יודעים מה ההבדלים בגדלים אומרים.

iw: 
האם אנחנו משווים את היקף כדורי הסל?
או האם אנחנו משווים את השטחים שלהם?
*מבזק חדשות*
כאן חדשות ערוץ 2.
נראה שכל התלמידים ממש שוברים שיאים!
המידע ממשרד החינוך האמריקאי מראה שאחוז הזכאים קפץ!
אז כל הכבוד לכולם!
אתם עוברים את מבחן החיים בהצלחה מסחררת!
בואו ניקח את ערמת הספרים אפילו גבוה יותר!
אז, הפיקטוגרף האחרון... לא ממש בפרופורציות.
אתם רואים איך אין התאמה בין הגבהים של ערמות הספרים?
זה מראה הבדל של 5% (בין 75% ל- 80%) עם ערמת ספרים שיותר מכפולה**
מהגובה של הערמה של ה- 75%.
זה גורם להבדל להיראות עצום מכיוון שהציר לא מתחיל ב- 0.
ובכל זאת, גידול של אחוז בין 80-81% מתבטא בשתי ערמות שמאוד קשה לראות את ההבדלים בגבהים שלהן,
למרות שההבדל של 5% נראה ענק.
תמיד תשימו עין על הצירים האלו.
בואו נחזור חזרה למידע מספרי, שכמו שאתם זוכרים, יש לו סדר הגיוני

English: 
Are we comparing the diameter of the basketballs?
Or are we comparing their areas?
*BREAKING NEWS*
This is Channel 2 News.
Looks like all you students out there are
really hitting the books!
Data from the US Department of Education shows
the graduation rate has been climbing!
So way to go everybody!
You’re passing the test of life with flying
colors!
Let’s push that stack of books even higher!
So, that last pictograph...not at all to scale.
See how the stacks of books are not proportionate?
It shows a difference of 5% (from 75% - 80%)
with a stack of books that is over *double*
the height of the 75% stack.
This makes the difference seem huge because
the axis doesn’t start at 0.
And yet, an increase of 80-81% is shown by
two stacks that are BARELY different in height,
even though the 5% difference looks huge.
Always keep on eye on those axes.
Let’s loop back to quantitative data, which
as you’ll remember, have a meaningful order

English: 
and consistent spacing.
Frequency tables can be used to display quantitative
data, like age, or height, or ounces of olive
oil in your house.
We just have to create categories out of our
quantitative data first.
We do that with a process called “binning”.
Binning takes a quantitative variable and
bins it into categories hthat are either pre-existing
or made up.
For example I can say that 0-15 oz of olive
oil is “Very Little”, 16-32 oz is “Average”,
33-49 oz is “A Lot” and 50+ oz is “Excessive”--like
suspiciously Excessive.
Like Will’s 14 cats excessive.
Why do you need so much olive oil?
Anyway, once I’ve binned my data, I can
create a frequency table or relative frequency
table, just like with our pasta example.
It might look something like this.
Binning is most useful when there’s pre-existing
“bins” for our data.
Like, you can divide age-in-years into the
bins “Child”, “Teen”, “Adult”
and “Older Adult” because those are pre-existing
categories.
We can also take a score on a depression test
and create two bins: “clinically depressed”
and “not clinically depressed”.

iw: 
ומרווחים קבועים.
טבלאות שכיחויות יכולות לשמש להצגת מידע מספרי, כמו גיל, גובה או אונקיות של
שמן זית בביתכם.
אנחנו רק צריכים לייצר קטגוריות מתוך המידע המספרי קודם לכן.
אנחנו עושים זאת באמצעות התהליך שנקרא "תהליך מקדים".
התהליך המקדים לוקח ערכים מספריים ומחלק אותם לקטגוריות שהיו קיימות קודם
או הומצאו.
לדוגמה, אני יכולה להגיד ש- 0-15 אונקיות של שמן זית זה "ממש מעט", 16-32 אונקיות זה "ממוצע",
33-49 אונקיות זה "הרבה" וש- 50+ זה "מפורז"- מופרז באופן מחשיד.
מופרז כמו 14 החתולים של וויל.
למה אתם צריכים כל כך הרבה שמן זית?
בכל מקרה, אחרי שעשיתי תהליך מקדים למידע שלי, אני יכולה ליצורה טבלת שכיחויות או טבלת שכיחויות
יחסית, בדיוק כמו בדוגמה עם הפסטה.
זה יכול להיראות משהו כזה.
תהליך מקדים משמעותי במיוחד כשיש נתונים קיימים "מקוטלגים" במידע שלנו.
לדוגמה, אפשר לחלק גילאים בשנים לקטגוריות "ילדים", "נוער", "מבוגרים"
ו- "מבוגרים מאוד" מכיוון שאלו קטגוריות שהיו קיימות קודם.
אנחנו גם יכולים לתת ציון על מבחני דיכאון וליצור שתי קטגוריות "דיכאון קליני"
ו- "דיכאון שאינו קליני".

iw: 
אתם יכולים לראות מהדוגמה הזאת שהקטגוריות לא חייבות להיות עם מרווחים שווים, אבל אם תראו
מידע מספרי שחולק לקטגוריות, חשוב לוודא שהדרך בה זה נעשה נכונה
למצב המתואר.
קטגוריות במרווחים לא שווים עלולות להטעות אלא עם יש הבחנה מהעולם האמיתי כדי
לקשר אליה.
בואו נגיד שפוליטקאי X רוצה לגרום לעצמו להיראות פופולרי, אבל נראה שאנשים
בשנות ה- 30 לחייהם ממש שונאים אותו.
(אולי כי הוא אמר שהסיבה לכך שהם לא יכולים לרכוש דירה היא ההרגל שלהם לאכול
בראנץ').
הפוליטקאי X רוצה להסתיר את העובדה שיותר מ- 80% מהאוכלוסיה בגילאי ה- 30 אמרו שהם
לא יצביעו עבורו.
עושה קצת "תהליך הפוך".
באופן מסורתי המידע מחולק לפי עשורים בקירוב, גילאי 18 עד 29, 30
עד 39, 40 עד 49... הבנתם את הנקודה.
אבל מר X צריך להסתיר את המידע על גילאי ה- 30 מתוך המידע.
הטבלה הישנה נראתה ככה:
אבל הפוליטיקאי X מחליט לפצל את קבוצת גילאי ה- 30 כדי שהמספרים לו ייראו טוב יותר:
הוא מזיז את המידע מסביב כדי להסתיר את השנאה המשתקפת מגילאי ה- 30.

English: 
You can see from this example that bins don’t
HAVE to be equally spaced, but if you see
quantitative data that has been binned, make sure that the way it was divided up was appropriate
for the situation.
Unequally spaced bins can be misleading unless
there’s a real world distinction to back
it up.
Say politician X wants to make himself look
popular, but it seems like people in their
30’s really hate him.
(probably because he said that the reason
they can’t afford a house is their brunch
habit).
Politician X wants to hide the fact that over
80% of people in their 30’s said they won’t
vote for him.
So he does some “re-binning”.
Traditionally the data are binned roughly
by decade 18 years old to 29 years old, 30
years old to 39 years old, 40 to 49...you
get the point.
But Mr. X needs to hide these hateful 30-somethings
in the data.
The old chart looked like this:
But Politician X decided to split up the 30-somethings
to make his numbers look better:
He moved the data around to hide the glaring
group of 30 year old dissenters.

iw: 
במקום להראות את האמת שבני ה- 30 ומשהו שונאים אותו, אנחנו רואים זווית... יותר
חיובית של האהדה כלפיו.
על ידי חלוקה של גילאי ה- 30 וצירופם לשתי קבוצות אחרות, גדולות יותר,
הוא יכול לגשר אי שביעות הרצון הפוליטית שלהם.
בהסתכלות על הטבלה החדשה הזאת, הוא ינצח את הבחירות בכל אחת מ- 5 הקטגוריות.
אם אני לא מראה לכם את מספרי המצביעים בכל אחת מהקטגוריות, זה נראה הגיוני...
דרך אחרת ליצור גרפים לפי קטגוריות יכולה לשמש לייצוג מידע מספרי בגרפי עמודות.
כשאנחנו משתמשים בגרפי עמודות עבור מידע מספרי, אנחנו מקבצים את העמודות כך שיגעו
אחת בשניה ואנחנו קוראים להן היסטוגרמות.
העמודות מקווצות יחדיו כדי להראות שהמידע 'מתמשך' מה שאומר
שהערכים בעמודה אחת ממשיכים לעמודה הבאה, אין כאן הפרדה כמו
בגרפי העמודות הקטגוריים.
בהיסטוגרמות, כמו בגרפי עמודות, גובה העמודות מראה לנו באיזו תדירות המידע מופיע
בטווח מסויים.
היסטוגרמה נותנת לנו גם מידע על איך המידע מתפרס.
אנחנו יכולים להעריך איפה הממוצע, החציון והשכיח של המידע שלנו נמצאים ואנחנו יכולים גם לראות
עד כמו המידע שלנו מפוזר.
בואו נסתכל על ההיסטוגרמה של המידע שלנו על השמן זית.

English: 
Instead of showing the truth that 30-somethings
despise him, we see a more...positive view
of his popularity.
By splitting the 30-somethings and putting
some of them into two other, larger groups,
he can obscure their political dissatisfaction.
Looking at this new table, he’d win the
popularity vote in each of the 5 new bins.
If I don’t show you the number of voters
per bin, it seems legit...
Another categorical graphing method we can
apply to quantitative data is bar charts.
When we use bar charts for quantitative data,
we squish the bars together so that they’re
touching and we call them histograms.
The bars are squished together because the
data are ‘continuous’ which means the
values in one bar flow into the next bar,
there’s no separation like in our categorical
bar charts.
In histograms, like bar charts, the height
of the bars tell us how frequently data in
a certain range occur.
A histogram also gives us information about
how the data is distributed.
We can estimate where the mean, median and
mode of our data are as well as see how spread
out the data is.
Look at this histogram for our olive oil data.

English: 
For this histogram, we can see that the range
of the data is approximately 85 since it covers
value 0-85 ounces and that it’s right skewed
(the tail is to the right), and that it’s
center is around 25 ounces.
The histogram gives us more information about
the data than a frequency table does, but
they’re still obscuring WHAT the specific
data values are.
If you read the news--or watch the news--you
will see these representations over and over
and over.
You will likely see far more of these charts
and graph than you will create.
The big take away here, as a consumer of these
things, is to look closely at what the visualization
is actually telling you.
Or maybe trying to hide from you.
These charts and graphs give us another way
to comprehend numbers--to see the big picture.
Thanks for watching!
I’ll see you next week.

iw: 
עבור ההיסטוגרמה הזאת, אנחנו יכולים לראות שטווח המידע הוא בקירוב 85 מכיוון שהוא מכשה
ערכים של 0-85 אונקיות, שהיא בנטייה שמאלה (הזנב הוא מימין), ושהמרכז
שלה הוא סביב ה- 25 אונקיות.
ההיסטוגרמה נותנת לנו יותר דברים על המידע ביחס לטבלת השכיחויות,
אבל היא עדיין מסתירה לנו מידע על ערכים יחידים.
אם אתם קוראים את החדשות- או צופים בחדשות- אתם תראו את הייצוג הזה שוב
ושוב.
כנראה שתראו הרבה יותר מהתרשימים והגרפים האלו מאשר תייצרו.
משהו חשוב לקחת מכאן, כצרכנים של הדברים האלו, זה שחשוב להסתכל מקרוב על מה ההמחשות
האלו בעצם אומרות לכם.
או אולי להסתיר מכם.
התרשימים והגרפים האלו נותנים לנו עוד דרך להתמודד עם מספרים- לראות את התמונה הגדולה.
תודה שצפיתם!
נתראה בשבוע הבא.
