
English: 
[♪ INTRO ]
Data. The word is everywhere these days.
Every company is dying to tell you about its
big data, data analytics, data privacy, data
warehouse, data lake, data data data data.
At the center of the data mania is data mining—the
practice of sifting through all those piles
of information for insights.
Data mining recently made big news with the
Cambridge Analytica scandal.
The political consultancy reportedly sucked
up data about millions of Facebook users without
their knowledge, then used it to profile and
sway voters in the US, UK, and elsewhere.
And similar techniques let companies like
Amazon, Facebook, and Google work out what
we want to see or buy—sometimes with shocking
accuracy.
It’s a little creepy.
It’s not just ads and politics, either.
Data mining allows airlines to predict who’s
going to miss a flight; it tells big-box stores

Arabic: 
[المقدمة♪]
البيانات
هذه الكلمة تجدها
في كل مكان هذه الأيام
كل شركة تتوق
لتخبرك عن بياناتها الضخمة
تحليل بيانات، خصوصية البيانات،
مستودع البيانات، بحيرة البيانات
بيانات، بيانات
بيانات، بيانات
وفي مركز هوس البيانات هذا تقع عملية
(تنقيب البيانات)
وهي عملية فرز أكوام المعلومات
للوصول إلى الأفكار المفيدة
اشتهرت عملية تنقيب البيانات 
مع فضيحة شركة (كامبريدج أناليتيكا)
كُشف ولأغراض سياسية مرارًا عن بيانات ملايين
من مستخدمي فيسبوك بدون علمهم
ومن ثم اُستخدمت لتصنيف المصوتين وللتأثير عليهم
في الولايات المتحدة والمملكة المتحدة وأماكن أخرى
وتقنيات مشابهة سمحت لشركات
مثل أمازون وفيسبوك وغوغل
باستنتاج ما نرغب برؤيته أو شراءه
بدقة صادمة أحيانًا
وهو أمرٌ مريب
ولا يقتصر الأمر على الإعلانات
والأمور السياسية فقط
تنقيب البيانات يسمح لخطوط الطيران
بتوقع من سيفّوت الرحلة; وللمحلات الكبرى عن الحوامل
ويساعد الأطباء
على اكتشاف الالتهابات المميتة

English: 
who’s pregnant; it helps doctors spot fatal
infections; and it’s even enabled cell phone
companies to predict massacres in the Congo.
The power of data mining and the hype surrounding
it can make it sound like a magic wand—one
that will either save your business or sink
democracy.
Of course, data mining doesn’t really involve
any unicorn hair or phoenix tail feathers.
It’s just applied statistics, searching
lots of data points for patterns that humans might not spot.
Those patterns are based not on human intuition,
but on whatever the data suggests, so sometimes
they can seem incredibly subtle or even alien.
But there’s no more magic in data mining
than there is in a weather forecast.
In fact, data mining is a lot like meteorology.
Meteorologists aim for two things: first,
they want to describe patterns in the weather—to
boil down its massive complexity into a few
numbers and equations.
And second, they want to predict Tuesday’s
weather.
That’s the whole point.
Similarly, Spotify’s data scientists might
be interested in describing medieval rock
fans, recognizing them as a group distinct
from nerdcore or freak folk fans — yes, that's a real subgenre.
Ultimately, though, what’s most important
to companies like Spotify is predicting what

Arabic: 
وحتى يسمح لشركات الهواتف الخلويّة
بالتنبؤ بالمجازر في جمهورية الكونغو
قوة تنقيب البيانات والضجيج المحيط بها
يصّورها كالعصا السحرية
إما ستنقذ مشروعك
أو تُطيح بالديموقراطية
وطبعًا، تنقيب البيانات لا يحوي شعرًا من وحيد القرن الأسطوري
أو ريشًا من ذيل طائر الفينيق
هو فقط احصائيات تطبيقية، تبحث في الكثير من نقاط البيانات
عن أنماط قد لا يلاحظها البشر
هذه الأنماط ليست مبنية على الحدس البشري
ولكن على أيّ ما تشير إليه البيانات
لذا أحيانًا تبدو دقيقة للغاية
أو حتى غريبة
ولكن لا شيء مذهل في تنقيب البيانات
أكثر من ما هو موجود في نشرةٍ جوية
في الحقيقة، تنقيب البيانات
يشبه كثيرًا عمل الأرصاد الجوية
خبراء الأرصدة الجوية يهدفون إلى شيئين،
أولًا: يريدون وصف أنماط في الطقس
لاختزال تعقيداتها الهائلة
إلى بضع أرقام ومعادلات
وثانيًا: يريدون توقع
طقس يوم الثلاثاء
وهذا المغزى
وبالمثل، علماء بيانات برنامج (سبوتيفاي)
ربما يكونون مهتمين بوصف جماهير روك العصور الوسطى
معترفين بهم كمجموعة مختلفة
عن جماهير (نردكور) أو (فريك فوك)
"من أنواع الموسيقى"
أجل هذه أنواع موسيقى
فرعية حقيقية
في نهاية المطاف على أية حال،
أهم ما تريده معظم الشركات مثل (سبوتفاي)

Arabic: 
هو توقع ما يرغب
كل شخص بالاستماع إليه
سر تنقيب البيانات
هو التوصل إلى الأوصاف والتنبؤ
ليس بواسطة دراسات دقيقة من خبراء
ولكن بتحليل كميات ضخمة من البيانات
في حالة (سبوتفاي) هذا ربما يعني
البحث عن الأنماط في تسميات الأصناف
والخصائص الصوتية ومراجعات الإنترنت
وكل شيء عدا ذلك بخصوص كل مقطع
بالإضافة إلى العمر والموقع ومجموعات الأصدقاء
وأي معلومات عن كل مستخدم
تنقيب البيانات يركز على اكتشاف الأنماط
عوضًا عن تفسيرها
وطبعًا، كلمتي "نمط" و"بيانات"
قد تعني أيّ شيء
لا يوجد تعريف واضح لتنقيب البيانات
وعلم البيانات أو البيانات الكبرى
وتستخدم أحيانًا بالتبادل
مع بعضها البعض أو مع التعلم الآلي
وهذا سبب سهولة إلصاق
هذه الكلمات الرنانة على أي مشروع
من أجل رأس مال
استثماري فوري
وبناء على ما تقدم، هناك أنواع قليلة من التقنيات
تستحق باستمرار تصنيف "تنقيب البيانات"
أكثر تقنية قابلة للتطبيق على نحو واسع هي التصنيف، 
حيث تحاول تصنيف الأشياء إلى فئات
مثلًا، عُرف عن شركة (تارغت) مبكرًا من عام ٢٠٠٢
أن بإمكانهم تخمين النساء الحوامل
وإرسال قسائم خاصة
بالأطفال لهم
وهذا نموذج مثالي لمشاكل التصنيف:
احتاجت شركة (تارغت) لتصنيف كل زبونة

English: 
each person wants to listen to.
The key with data mining is that it achieves
description and prediction not through careful
study by experts, but by analyzing large amounts
of data.
In Spotify’s case, that might mean scanning
for patterns in genre labels, acoustic attributes,
Internet reviews, and anything else about
each track, plus the age, location, friend
group, and other scraps of information about
each user.
Data mining is more about spotting patterns
than explaining them.
Of course, the words “pattern” and “data”
can mean just about anything.
There are no clear definitions for data mining,
data science, or big data, and they’re sometimes
used interchangeably with each other or with
machine learning.
That’s why it’s so easy to slap these
buzzwords onto any project for instant venture
capital karma.
That being said, a few types of techniques
consistently earn the “data mining” label.
The most broadly applicable one is classification,
where you try to categorize things.
For example, Target famously realized as early
as 2002 that they could guess who was pregnant
and send them baby-related coupons.
That’s a textbook classification problem:
Target needed to assign each customer to one

Arabic: 
لإحدى فئتين: إما "حامل على الأرجح"
أو "غير حامل على الأرجح"
التصنيف عادة
يكون على مراحل عديدة
أولًا: كل مثال -أو حالة- يجب أن تقسم
إلى مجموعة من السمات العددية أو المميزات
متاجر مثل (تارغت)،
الحالة قد تكون: أمك خلال سبعة أشهر قبل مولدك
المميزات ستكون أشياء مثل:
"كم عدد علب مرطب غير معطر قامت بشراءها
خلال الأشهر
الثلاث الماضية؟
وماذا عن الثلاث
أشهر السابقة؟"
وبالمثل بخصوص مكملات الزنك والكمثرى الآسيوية
وكل المنتجات الأخرى في المخزون
المتجر أيضًا سيحتاج تسميات
لبعض الأجزاء من البيانات
الحقيقة حول ما إذا كانت
هذه الزبونات حوامل فعلًا
(تارغت) حصل على هذه التسميات من سجلات المواليد
والمواعيد المحددة التي قام بمشاركتها الزبائن
وعندما تكتمل البيانات
يحين وقت التدريب
وهنا عندما يحاول النظام
استنتاج الأنماط من كل الأمثلة المسماة
تعلم التصنيف
حاجة أساسية مشتركة
ولذلك العشرات من النظم الخوارزمية
-العمليات الرياضية التي تتبعها برامج الحاسب-
وُضعت
من أجل ذلك
أي النظم الخوارزمية تنطبق بشكل أفضل؟
يعتمد ذلك على العديد من العناصر
مثل كم عدد الفئات الموجودة؟
وكيف للمميزات المختلفة أن ترتبط ببعضها؟

English: 
of two categories: either “probably pregnant”
or “probably not pregnant.”
Classification typically works in several
stages.
First, each example, or instance, has to be
broken down into a collection of numerical
attributes, or features.
For a store like Target, an instance might
be your mom 7 months before you were born.
The features would be things like “How many
bottles of unscented lotion did she buy in
the last three months?
How about in the quarter before that?”
And likewise for zinc supplements, Asian pears,
and every other product in the inventory.
The store would also need labels for some
chunk of the data—the ground truth about
whether those customers were pregnant.
Target got those labels from baby registries
and due dates customers had shared.
Once the data’s all lined up, it’s time
for training.
That’s where the system tries to tease out
patterns from all the labeled examples.
Learning to classify is such a basic, common
need that dozens of algorithms, the mathematical
procedures computer programs follow, have
been devised for it.
Which algorithm works best depends on all
kinds of factors, like how many categories
there are and how different features are connected
to each other.

Arabic: 
ولكن العديد من النظم الخوارزمية للتصنيفات
تتشابه في أنها تعامل كل ميزة
كدليل لفئة أو لأخرى
المميزات تكون أهميتها حسب فاعلية تعزيزها أو إضعافها
لفرصة شخص ما في أن يُصنّف تحت فئة (نعم)
(نعم، إنها حامل)
مثلًا
هذه الأهمية هي ما يحاول النظام
تعلمه خلال التدريب
ببساطة، تحاول استنتاج 
فائدة كل صفة
وأخيرًا، لتنصيف حالات
لم تمرّ على النظام مسبقًا
تجمع كل
المساهمات المهمة
وربما تحشو الرقم الناتج من خلال نوع
من الآلات الرياضية لتصنف أهميتها
إن كانت النتائج غير متوافقة:
تصنف الحالة تحت فئة (لا)
وإن كانت متوافقة:
"فجهزوا قسائم مهد الأطفال"
(تصنف تحت فئة نعم)
كل ميزة لوحدها
لا تبيّن الكثير
في الحقيقة، الكثير منها
يظهر أنها لا علاقة لها
ولكن معًا يمكن
أن تكون فعالة حقًا
منهج (تارغت) كان ناجحًا لدرجة
أن أحد الزبائن اشتكى أن ابنته المراهقة
تصلها قسائم ملابس أطفال،
وانتهى به المطاف أن قدم اعتذارًا لـ(تارغت)
اتضح أن الشركة كانت على علم
عن حمل ابنته قبل علمه
التصنيف مفيد جدًا متى ما رغبت
في أن تفصل مجموعة من الأشياء عن غيرها

English: 
But many classification algorithms are similar
in that they treat each feature as a drop
of evidence for one category or the other.
The features get weights indicating how strongly
they boost or weaken someone’s chances of
falling into the “yes” category — that
they are pregnant, for example.
Those weights are what the system learns during
training.
Basically, it’s figuring out how informative
each attribute is.
Finally, to classify instances the system
hasn’t seen before, it puts together all
the weighted contributions, and maybe stuffs
the resulting number through a bit of mathematical
machinery to slide it up or down.
If the result is negative, that instance goes
in the “no” bucket.
If it’s positive—load up the crib coupons!
Each individual feature doesn’t tell you
much.
In fact, many turn out to be irrelevant.
But together they can be really powerful.
Target’s approach worked so well that when
one customer complained that his teenage daughter
was getting coupons for baby clothes, he ended
up apologizing to Target.
Turned out the company knew about his daughter’s
pregnancy before he did!
Classification is useful any time you want
to tell one group of things from another.

English: 
Insurance companies use it to guess which
elderly patients will die soon so that they
can start end-of-life counseling.
Doctors use it to check whether premature
babies are developing dangerous infections,
since the classifier can put together subtle
disease indicators before humans would notice any signs.
I could spend all day listing uses for classification,
but it’s far from the only type of data mining.
One close cousin is known as regression.
And no, that doesn’t mean deciding you like
Limp Bizkit again.
In regression, instead of predicting a category,
the goal is to predict a number.
Take Target again.
They wanted to know not just whether each
customer was pregnant, but when to send each coupon
So they managed to estimate due dates, too.
That’s a regression question—how many
weeks until the customer gives birth.
Regression often depends on dozens or even
thousands of variables—the features that
describe each example.
It finds an equation or curve to fit the data
points, telling you how high you’d expect
the curve to be given any arbitrary input.
Or in this case, how far away you’d expect
the customer’s due date to be.

Arabic: 
شركات التأمين تستخدمه
لتخمين أي من كبار السنّ سيموت قريبًا
حتى يتمكنوا من تقديم
استشارات عن نهاية الحياة
والأطباء يستخدمونه من أجل التحقق
ما إذا كان الأطفال الخُدجّ معرضين لعدوى خطيرة
بما أن المصنف يستطيع أن يتبين مؤشرات الأمراض الخفيّة
قبل أن يلاحظ البشر أي علامات
استطيع أن أُمضي اليوم بأكمله
أُعدد استخدامات التصنيف
ولكنه بعيد جدًا من أن يكون
النوع الوحيد لتنقيب البيانات
واحد من العناصر المشابهة
معروف باسم: الإنحدار
ولا يعني ذلك أن تقرر أن تُعجب
بفرقة (ليمب بيزكت) الموسيقية مجددًا
في مفهوم الإنحدار؛ بدلًا من توقع فئة ما،
الهدف هو توقع رقم ما
لنضرب المثل
بـ(تارغت) مجددًا
أرادوا أن يعرفوا ليس فقط ما إذا كانت الزبونة حاملًا،
ولكن متى يرسلون كل قسيمة
ولذا استطاعوا أن يقدّروا
مواعيد الولادة أيضًا
هذا سؤال يختص بعنصر الإنحدار:
كم عدد الأسابيع حتى موعد ولادة الزبونة؟
عنصر الإنحدار يعتمد غالبًا
على عشرات أو حتى آلاف المتغيرات
المميزات التي
تصف كل مثال
تعثر على معادلة أو منحنى
يناسب نقاط البيانات
وتبين لك إمكانية التوقع من المنحنى
أن يعطي أي نتائج عشوائية
أو في هذه الحالة:
إمكانية توقع موعد ولادة الزبونة

English: 
Like in classification, many regression techniques
give each feature a weight, then combine the
positive and negative contributions from the
weighted features to get an estimate.
And, also like classification, regression
is used everywhere.
One of the better-known examples is Google
Flu Trends.
In 2008, it began publishing real-time estimates
of how many people had the flu based on searches
for words like “fever” and “cough.”
Regression is also part of predictive policing
software — programs that look at historical
data to guess how likely a crime is to occur
in each area.
The third major data mining technique is clustering.
As the name suggests, the goal here is to
group data points in a way that helps with the analysis
In the marketing world, clustering emerged
in the 1980s—well before data mining—with
the work of a market researcher named Howard
Moskowitz.
He struck gold when he realized there wasn’t
one best pasta sauce.
Consumers showed three distinct types of preferences—and
the previously unrecognized group that craved
extra-chunky turned out to be worth millions.
Clustering is often used to analyze market
segmentation like this, but to understand

Arabic: 
وكما في التصنيف، العديد من تقنيات الإنحدار
تعطي كل ميزة أهميتها
وثم تجمع المساهمات المتوافقة وغير المتوافقة
من المميزات المهمة لتحصل على تقدير
وأيضًا -مثل التصنيف-
الإنحدار يستخدم في كل مكان
واحد من الأمثلة المعروفة هو
Google Flu Trends (خدمة غوغل لمسارات الإنفلونزا)
عام ٢٠٠٨ بدأت بنشر تقديرات لذلك الوقت
عن عدد الأشخاص المصابين بالإنفلونزا
بناءً على بحث لكلمات
مثل "حمى" و"سعال"
الإنحدار أيضًا جزء من
برنامج الشرطة التنبؤية؛
وهو برنامج يبحث في بيانات سابقة
لتخمين إمكانية حدوث جريمة في كل منطقة
ثالث تقنية أساسية لاستخراج البيانات
هي: التجميع
وكما يوحي الاسم؛ تهدف إلى تجميع
نقاط البيانات في طريقة تساعد التحليل
في عالم التسويق، برز التجميع في ثمانينات القرن العشرين
-بوقت طويل قبل تنقيب البيانات-
مع إنجاز باحث تسويقي
اسمه (هاورد موسكويتز)
عثر على كنز ثمين عندما أدرك أنه يوجد العديد
من صلصات الباستا المفضلة للناس وليست واحدة فقط
أظهر المستهلكين
ثلاث أنواع من التفضيلات
والمجموعة المهملة سابقًا
التي تفضل (الصلصة الغليظ بزيادة)
اتضح أنها
تساوي الملايين
تقنية التجميع غالبًا تستخدم
لتحليل سوق التجزئة مثل ما سبق

Arabic: 
ولكن لفهم كيف تعمل هذه التقنية،
لنضرب مثلًا آخر: (إي باي) eBay
على موقع (إي باي) تحصل على ملايين المنتجات
بدءًا من التحف وانتهاء بالأربطة البلاستيكية
حتى ضمن فئة محددة مثل الإلكترونيات؛
الاختيارات هائلة
لذا (إي باي) يقسم الأشياء
إلى فئات فرعية
ولكنه مرهق للبشر المرور بكل الإلكترونيات
ومن ثم تحديد الفئات الفرعية
وإرفاق كل منتج
لفئة فرعية
بدلًا من ذلك، تستخدم الشركة تقنية التجميع
لتصنيف المنتجات آليًا
ومجددًا، كل منتج أولًا
يُقسم إلى مميزات عددية
مثلًا، كم عدد المرات تظهر "طابعة" في الوصف،
أو من قام بتصنيعها
أبسط طريقة للتجميع هي تخمين عدد الفئات الفرعية
المختلفة التي يجب أن تكون موجودة
ومن ثم جمع العناصر عشوائيًا
إلى مجموعات متعددة
ومن ثم مواصلة نقل العناصر بين المجموعات
لتكون كل مجموعة أكثر دقة
وأخيرًا، المنتجات المتشابهة
ينتهي بها المطاف مصنّفة معًا في مجموعات
ولكن لا ينتهي الأمر هنا
النسخة الزرقاء والفضية من نفس آلة التصوير
لا ينبغي أن تكون في قوائم منفصلة
كلاهما خياران
لنفس المنتج
لذا إضافة إلى الفئات الفرعية،
من الرائع وجود قوائم تُدمج معًا

English: 
how the techniques work, let’s take a different
example: eBay.
On ebay, you can get millions of products,
from antiques to zip ties.
Even within a single category, like electronics,
the selection is overwhelming.
So eBay organizes things into subcategories.
But it’s a pain for humans to trawl through
all the electronics, identify subcategories,
and assign every product to a subcategory.
Instead, the company can use clustering to
automatically group the products.
Again, each product first has to be broken
down into numerical features, like how many
times “printer” appears in the description,
or who manufactured it.
The simplest clustering method is to guess
how many distinct subcategories there should be.
Then you randomly lump items together into
that many clusters, and keep shifting items
between groups to make each cluster tighter.
In the end, similar products end up settling
into clusters together.
But we don’t have to stop there!
The blue and silver versions of the same camera
don’t really deserve separate listings;
they’re variants of the same product.
So in addition to subcategories, it would
be nice to find listings to merge.

Arabic: 
مواقع مثل (إي باي) تعمل بالاثنين معًا
بتقنية تسمى: التجميع الهرمي
بدلًا من مجموعة واحدة من الفئات،
التجميع الهرمي يكّون نوع من الشجر التصنيفي
مثلًا، يصنف آلات التصوير على أنها متشابهة
مع بعضها أكثر من أجهزة التلفاز
ولكن ضمن آلات التصوير،
الرقمية العاكسة أحادية العدسة، والمدمجة
كلاهما يصنفان تحت فئات مختلفة
على الرغم من أنها أقل اختلافًا
وضمن هذين النوعين هناك أنواع عديدة مختلفة
كل منها تحوي بضع اختلافات
شركات مثل (كامبردج أناليتكا)
تستخدم هذه التقنيات
للبحث عن مجموعة مصوتين
سيتجاوبون مع أنواع دعاية مماثلة
و(سبوتفاي) تستخدمها لتخمين
من سيفضّل موسيقى مماثلة
الأساس الرابع لتنقيب البيانات
هو تحريّ الحالات الشاذّة
ببساطة هي حالات استثنائية من التصنيف؛
تحديد حالات غير معتادة أو مثيرة للقلق
دائرة الإيرادات الداخلية الأمريكية تستخدم هذه التقنية
لاكتشاف المتهربين من دفع الضرائب المحتملين
وشركات البطاقات الائتمانية تستخدمها لتحديد المعاملات
التي لا تتناسب مع عاداتك الشرائية المعتادة
وأيضًا تساعد المصانع
التي تستخدم المعدات الثقيلة
على سبيل المثال،
شركات الطاقة وخطوط الطيران
على معرفة ما إذا كان المولّد أو محرك الطائرة
يعمل بشكل مختلف عن المعتاد

English: 
Sites like eBay can do both simultaneously
with a technique called hierarchical clustering.
Rather than a single set of categories, hierarchical
clustering produces a sort of taxonomic tree.
For example, it might find that cameras are
much more like each other than like TVs.
But within cameras, the DSLRs and point-and-shoots
each get their own subgroup, albeit slightly less distinct ones.
And within those are many different models,
each with a few variants. (on image)
Companies like Cambridge Analytica use these
techniques to look for groups of voters who
will respond to the same kinds of advertising,
and Spotify can use them to guess who will like similar music.
The fourth staple of data mining is anomaly
detection.
It’s basically a special case of classification—identifying
instances that are unusual or worrisome.
The IRS uses anomaly detection to spot likely
tax evaders, and credit card companies use
it to flag transactions that don’t fit your
usual buying habits.
It also helps industries with heavy-duty equipment.
For instance, power companies and airlines
can see when a generator or jet engine is
starting to vibrate differently than usual.

Arabic: 
بعض الحالات الشاذّة تُكتشف
بالبحث عن حالات الانحراف عن المتوسط
وهناك تقنيات أرقى تشمل البحث
عن حالات لا تشابه أي مجموعة
أو تقارن حالات مع أقرب الأمثلة الأخرى
لمعرفة ما إذا كانت مزاياها متباعدة جدًا
وأخيرًا، تقنية التعلم المترابط
تكشف عن (أي الطيور تملك ريشًا)
الفكرة هي البحث -لنقل-
خلال ملايين من مشتريات البقالات
لمعرفة ما يُشترى معًا
ومتى
مثال تقليدي: فروع صيدلية (اوسكو)
اكتشفت أن العديد من الزبائن
قاموا بشراء بيرة وحفاظات أطفال معًا
في مساءات الجمعة
وخلافًا للأساطير الشعبية،
لم يتصرف المتجر تجاه هذا الاكتشاف الكبير
ولكن المتاجر تستخدم بانتظام ملاحظات مثل ذلك
لتحسين مخططات المتجر والمخازن
على سبيل المثال، شركة (وول مارت)
اكتشفت أن المتسوقين
يشترون الكثير من فطائر (بوبتارتس)
قبل أي إعصار
لذا بدأت في تجهيز المخزون
تحسبًا لذلك
تقنية التعلم المترابط
لديها أيضًا تطبيقات أوسع من ذلك
(سل تل) شركة هاتف خلوي أفريقية،
أدركت أن بإمكانها اكتشاف مجازر وشيكة في الكونغو
عندما بدأ الأشخاص المحيطين
بشراء بطاقات هواتف مدفوعة مسبقًا
الخمس استراتيجيات
التي تناولناها:
التصنيف والإنحدار والتجميع
واكتشاف الحالات الشاذة والتعلم المترابط
تشكل العمود الفقري
لتنقيب البيانات

English: 
Some anomalies can be detected just by looking
for deviations from averages.
Fancier techniques include looking for instances
that don’t match any cluster, or comparing
instances with the closest other examples
to see if their feature values are far off.
Finally, association learning reveals which
birds are of a feather.
The idea is to look through, say, millions
of grocery store purchases to see what gets
bought together and when.
A classic example is the Osco drug store chain,
which once found that many customers bought
beer and diapers together on Friday evenings.
Contrary to popular legend, the store never
acted on this profound insight, but stores
regularly use observations like this to optimize
their floor layouts and inventory.
For instance, Walmart discovered that shoppers
buy lots of Pop Tarts immediately before hurricanes,
so it started to stock up.
Association learning has broader applications,
too.
CellTel, an African cell phone company, realized
it could spot impending massacres in the Congo
when everyone nearby started buying prepaid
phone cards.
The five strategies we’ve covered—classification,
regression, clustering, anomaly detection,
and association learning—form the backbone
of data mining.

English: 
What makes them so powerful is that they offer
standard mathematical tools you can use for
everything from curating Facebook feeds to
optimizing store layouts.
But that ease of use can also lead people
astray.
Data mining is just one step in the process
of extracting knowledge from data—and it’s
all too easy to whip out an algorithm without
carefully selecting the data, massaging it
into the right form, and considering how to
interpret the results.
Remember Google Flu Trends?
It shut down after a few years, but not because
the algorithm was broken.
Search auto completion had totally thrown
off the data, and engineers had given it too
much leeway to interpret seasonal words like
“snow” as evidence of the flu.
Then there are the queasy social implications
of sharing data in the first place, and of
letting companies form such an intimate understanding
of our behavior.
In other words … the creep factor.
So as powerful as it is, the math of data
mining is just the beginning.
Sometimes the hardest part is all the messy
human stuff.
Thanks for watching this episode of SciShow!
If you’re interested in the ways companies
can use psychology to learn even more about

Arabic: 
وما يجعلها فعالّة جدًا
أنها توفّر أدوات رياضية قياسية
بإمكانك استخدامها لأيّ شيء بداية من ترتيب منشوارت فيسبوك
إلى تحسين مخططات متجرك
ولكن سهولة الاستخدام هذه
يمكن أن تؤدي إلى تضليل الأشخاص
تنقيب البيانات فقط خطوة واحدة
في عملية استخراج المعارف من البيانات
ومن السهل جدًا محو خوارزمية ما
دون تحديد البيانات بدقة
وتعديلها لتناسب الشكل الصحيح
والأخذ بالاعتبار كيفية تفسير النتائج
تتذكرون
(اتجاهات الانفلونزا من غوغل)؟
أٌغلقت بعد بضع سنوات
ولكن ليس بسبب أن الخوارزمية تعطلت
خاصية إكمال البحث التلقائي
أُلغيت كليًا من البيانات
وأفسح المهندسون المجال لتفسير كلمات موسمية
مثل "ثلج" لتكون دليل على الإنفلونزا
ومن ثم هناك الآثار الاجتماعية المنزعجة
من مشاركة البيانات في المقام الأول
والسماح للشركات بتشكيل
مثل هذا الفهم العميق لسلوكنا
بكلمات أخرى:
عنصر الغرابة
لذا، وبقدر فاعليتها،
تقنية تنقيب البيانات هي فقط نقطة بداية
أحيانًا أصعب جزئية هي 
كل أمور البشر الفوضوية
شكرا لمشاهدتكم هذه الحلقة من برنامج SciShow
ترجمة: فريق أُترجم ‪@autrjim‬
إن كنتم مهتمين بطرق استخدام الشركات للعلم النفسي 
ترجمة: فريق أُترجم ‪@autrjim‬
لتعرف عنكم أكثر من بياناتكم
ترجمة: فريق أُترجم ‪@autrjim‬

Arabic: 
اطلعوا على الفيديو لدينا على قناة SciShow Psych 
ترجمة: فريق أُترجم ‪@autrjim‬
ترجمة: فريق أُترجم ‪@autrjim‬

English: 
you from your data, you can check out our
video about that over on the SciShow Psych channel.
[ ♪OUTRO ]
