
Italian: 
 Ciao a tutti, bentornati. 
 E nel prossimo po 'di tempo parleremo di machine learning 
 e intelligenza artificiale e farò alcune introduzioni di base 
 a queste diverse tecniche e poi mi immergerò in una sola area. 
 Quando ho iniziato, volevo solo dire che ho effettivamente 
 un bel po 'di materiale online se sei interessato ad approfondire, 
 perché in appena un'ora di discussioni, arriveremo solo fino a questo punto. 
 Ho tenuto un corso di due giorni sull'apprendimento automatico e l'inferenza causale che è 
 disponibile sul sito web dell'American Economic Association con video. 
 E poi su quel sito, c'è anche un collegamento a Google Drive, e così via 
 Da allora ho caricato versioni più recenti di quelle diapositive e 
 Ho tutorial e script R e ho un GitHub con dati di esempio e così via. 

English: 
Hi, everyone, welcome back.
And this next little bit of time, we're
going to be talking about machine learning
and artificial intelligence and I'm
going to be giving some basic introduction
to these different techniques and
then I'm going to dive into just one area.
As I get started, I just wanted
to mention that I've got actually
quite a bit of material online if
you are interested in going deeper,
because in just an hour of discussions,
there's only so far we'll get.
I gave a two day course on machine
learning and causal inference which is
available on the American Economic
Association website with videos.
And then on that site, there's also
a link to a Google Drive, and so
I've uploaded since then more recent
versions of those slides, and
I have tutorials and R scripts and I have
a GitHub with sample data and so on.

Italian: 
 Quindi in realtà c'è un bel po 'di materiale da cui puoi attingere. 
 E ho anche su questa diapositiva un elenco di tipi di presentazioni amichevoli 
 che puoi iniziare a leggere se vuoi solo avere un assaggio di quello che sta succedendo. 
 Ho questo documento di revisione annuale che Heto e Vince e 
 Ho scritto metodi di apprendimento automatico chiamati, gli economisti dovrebbero sapere, questo è 
 più di un focus sul solo mettere i metodi di previsione nel contesto dell'econometria. 
 E poi alcuni dei miei altri articoli parlano di più sull'inferenza causale, 
 che è stato davvero il mio grande obiettivo. 
 Quindi, solo per introdurre alcuni temi, vorrei iniziare dicendo che ci sono due tipi di 
 machine learning ce ne sono davvero più di due ma i due che sei di più 
 che probabilmente incontreranno per primi, sono l'apprendimento automatico supervisionato e non supervisionato. 
 La supervisione fondamentalmente sarà una versione più ricca delle regressioni, quindi, 
 o modelli di classificazione o modelli di scelta multinomiale. 

English: 
So there's actually quite a bit of
material that you can draw from.
And I've also got on this slide a list
of kind of the friendly introductions
that you can start to read if you just
want to get a taste of what's going on.
I have this annual reviews
paper that Heto and Vince and
I wrote called machine learning methods,
economists should know about, that has
more of a focus on just putting prediction
methods in the context of econometrics.
And then some of my other articles
talk more about causal inference,
which has really been my big focus.
So just to introduce some themes, let me
start out by saying there are two kinds of
machine learning really there's more
than two but the two that you're most
likely to encounter first, are supervised
and unsupervised machine learning.
Supervised is basically going to be
richer versions of regressions, so,
or classification models or
multinomial choice models.

English: 
So supervised, we're going to have
a Y variable and some x variables and
we're going to try to use the x
variables to predict the Y variables.
Unsupervised is going to
be about finding groups or
clusters of objects that are similar
without any y variables.
So with unsupervised I'm not going to
talk about them as much today partly
because I don't feel like economics
really adds that much to the standard
methods that are out there in
the general machine learning field.
So, in general when people
are using unsupervised methods,
what I suggest is just go google it, read
blog post showing how to do it and apply
those best practices which are evolving
every few months to your own problem, and
I wouldn't really do anything different
because you're an economist, necessarily.
So in unsupervised, you might have
something like a collection of images,

Italian: 
 Così supervisionati, avremo una variabile Y e alcune variabili x e 
 proveremo a utilizzare le variabili x per prevedere le variabili Y. 
 Senza supervisione si tratterà di trovare gruppi o 
 cluster di oggetti simili senza variabili y. 
 Quindi con un supervisore non ne parlerò così tanto oggi in parte 
 perché non mi sembra che l'economia aggiunga davvero molto allo standard 
 metodi disponibili nel campo dell'apprendimento automatico generale. 
 Quindi, in generale, quando le persone utilizzano metodi non supervisionati, 
 quello che suggerisco è semplicemente andare su google, leggere il post del blog che mostra come farlo e applicare 
 quelle migliori pratiche che si stanno evolvendo ogni pochi mesi per il tuo problema e 
 Non farei davvero niente di diverso perché sei un economista, necessariamente. 
 Quindi, senza supervisione, potresti avere qualcosa come una raccolta di immagini, 

English: 
or a collection of documents, or
maybe collections of the histories
of individual internet activity,
but you have a collection.
And then what you do is you you
take those that just raw data and
you ask an algorithm to
put them into groups.
So the input is just the list of
documents, and the output are groups.
So you might get,
group one has object number 3, 7, 11,
243 and 1,026, and they're in group one.
And then group two will have
a different set of objects.
So what you get out of that,
it's just a collection nothing else.
But when you look at those objects then
a human might later describe those groups.
So for example, if you run unsupervised
learning on YouTube videos,
the biggest group that will generally
pop out will be group Group A,
which just has the most views
say the most popular group.
If you start watching all the videos
in there, there'll be videos of cats.

Italian: 
 o una raccolta di documenti, o forse raccolte di storie 
 dell'attività individuale su Internet, ma hai una raccolta. 
 E poi quello che fai è che prendi quelli che sono solo dati grezzi e 
 chiedi a un algoritmo di metterli in gruppi. 
 Quindi l'input è solo l'elenco dei documenti e l'output sono gruppi. 
 Quindi potresti ottenere, il gruppo uno ha l'oggetto numero 3, 7, 11, 
 243 e 1.026 e sono nel gruppo uno. 
 E poi il gruppo due avrà un diverso insieme di oggetti. 
 Quindi quello che ottieni da quello, è solo una raccolta nient'altro. 
 Ma quando guardi quegli oggetti, un essere umano potrebbe successivamente descrivere quei gruppi. 
 Ad esempio, se esegui apprendimento senza supervisione sui video di YouTube, 
 il gruppo più numeroso che generalmente uscirà fuori sarà il gruppo A, 
 che ha solo il maggior numero di visualizzazioni, ad esempio il gruppo più popolare. 
 Se inizi a guardare tutti i video lì dentro, ci saranno video di gatti. 

English: 
And then if you start watching the second
set of videos, there'll be videos of dogs.
And so what you'll be able
to do as a human is say,
group one is the cat videos and
group two is the dog videos.
But the thing is that we didn't tell the
algorithms anything about cats or dogs or
animals or anything we gave the algorithms
a bunch of bits that were describing
the videos and the algorithm figured
out which ones were similar, okay?
So that is unsupervised, and people have
used it in things like Macroeconomics and
Political Science, looking at,
the text and minutes of fed meetings, or
you can use it to look at the text
of political speeches and congress.
And political scientists actually,
usually historically, economics was
ahead of political science in terms of
econometrics and statistical techniques.
But political science has actually been
of economics in terms of using text in
social science.
So if you want to look for, how are people
using this type of technique in

Italian: 
 E poi se inizi a guardare la seconda serie di video, ci saranno video di cani. 
 E quindi quello che sarai in grado di fare come umano è dire, 
 il gruppo uno è i video sui gatti e il gruppo due sono i video sui cani. 
 Ma il fatto è che non abbiamo detto nulla agli algoritmi su cani o gatti o 
 animali o qualsiasi cosa abbiamo fornito agli algoritmi un mucchio di bit che stavano descrivendo 
 i video e l'algoritmo hanno scoperto quali erano simili, ok? 
 Quindi non è supervisionato e le persone lo hanno usato in cose come Macroeconomia e 
 Scienze politiche, guardando, il testo e i verbali delle riunioni alimentate, o 
 puoi usarlo per guardare il testo di discorsi politici e congressi. 
 E gli scienziati politici in realtà, di solito storicamente, l'economia lo era 
 davanti alla scienza politica in termini di econometria e tecniche statistiche. 
 Ma la scienza politica è stata effettivamente di economia in termini di utilizzo del testo in 
 Scienze sociali. 
 Quindi, se vuoi cercare, come stanno le persone che usano questo tipo di tecnica in 

English: 
social science, you should look for
a few applications from economics but
actually a fair number from
political science as well.
And Matt Jintao also has has got some
really nice things that sort of at
the intersection around media polarization
and news, so I would fit maps
where he's an economist, but it's in
sort of the political economics camp.
So, but the reason that I don't spend
more time on those in my lectures is that
again, the goal and the way that we when
you think about things is very similar
across all the different applications and
so there's no reason we need to innovate
or do something really different for
that necessarily.
Now, there's a few caveats to that and
I think we probably will see some
customization depending on the fact
that we're going to use these things in
econometric models but it's it's close to
being what you want already off the shelf.
On the other hand,
supervised machine learning often is not
exactly what you want off the shelf.

Italian: 
 scienze sociali, dovresti cercare alcune applicazioni dall'economia ma 
 in realtà un discreto numero anche dalla scienza politica. 
 E Matt Jintao ha anche delle cose davvero carine in questo senso 
 l'intersezione tra la polarizzazione dei media e le notizie, quindi adattare le mappe 
 dove è un economista, ma è una specie di campo dell'economia politica. 
 Quindi, ma il motivo per cui non dedico più tempo a quelli nelle mie lezioni è questo 
 ancora una volta, l'obiettivo e il modo in cui pensiamo alle cose è molto simile 
 in tutte le diverse applicazioni e quindi non c'è motivo per cui dobbiamo innovare 
 o fare qualcosa di veramente diverso per quello necessariamente. 
 Ora, ci sono alcuni avvertimenti in merito e penso che probabilmente ne vedremo alcuni 
 personalizzazione a seconda del fatto che useremo queste cose in 
 modelli econometrici ma è vicino a essere quello che vuoi già dallo scaffale. 
 D'altro canto, 
 l'apprendimento automatico supervisionato spesso non è esattamente quello che vuoi dallo scaffale. 

English: 
And so that's why I think there's
been a lot of interest and
methodological work in trying
to combine econometrics and
supervised machine learning, because
generally although there's some people
have made good papers just using
supervised machine learning off the shelf.
Most of the time, the supervised machine
learning is going to be used as part of
an another exercise that has
different objectives, and so
actually we can improve things by
not taking it off the shelf, so
that's why I want to
spend more time on it.
The main thing in supervised machine
learning that it's really a paradigm
that requires very few assumptions and
it's very easy to teach and learn.
It's basically got the assumptions
that you have a bunch of independent
observations, and in the simplest case,
you have a cross section of
observations independent observations.
For each unit,
you have x's and you have y's.
And you assume it's a stable
environment basically that all of
the units are exchangeable.
So, there's no notion that some of them
come from a different distribution than

Italian: 
 Ed è per questo che penso che ci sia stato molto interesse e 
 lavoro metodologico nel tentativo di combinare econometria e 
 ha supervisionato l'apprendimento automatico, perché generalmente anche se ci sono alcune persone 
 hanno realizzato buoni documenti utilizzando l'apprendimento automatico supervisionato disponibile in commercio. 
 La maggior parte delle volte, l'apprendimento automatico supervisionato verrà utilizzato come parte di 
 un altro esercizio che ha obiettivi diversi, e così via 
 in realtà possiamo migliorare le cose non togliendole dallo scaffale, quindi 
 ecco perché voglio dedicarci più tempo. 
 La cosa principale nell'apprendimento automatico supervisionato è che è davvero un paradigma 
 ciò richiede pochissime supposizioni ed è molto facile da insegnare e imparare. 
 Fondamentalmente ha il presupposto che tu abbia un sacco di indipendenti 
 osservazioni e, nel caso più semplice, 
 hai una sezione trasversale di osservazioni osservazioni indipendenti. 
 Per ogni unità, hai x e hai y. 
 E presumi che sia un ambiente stabile fondamentalmente tutto 
 le unità sono intercambiabili. 
 Quindi, non c'è idea che alcuni di loro provengano da una distribuzione diversa da 

English: 
others at least, if that's true,
then that's accounted for with the Xs.
And there's two kinds of supervised
there's regression or prediction where
basically you're essentially trying to
look at the expectation of Y given X.
And classification where you're trying to
find the probability that y is equal to
a discrete value given x.
Now already actually the way
that I've written it this way,
because that's makes it look like what
you learned in econometrics class,
but that's not actually the way that
machine learners think about it.
They don't think about you is actually
wanting to learn those functions,
they think about you as
wanting to accomplish a task.
So you're just going to get the output,
you're going to get the guess of which
label it is you're not necessarily
going to get a probability.
And in fact,
with a lot of these algorithms,
you have to ask it to do more computation
if you want to probability out.
It's generally just going to spit
out that's a cat, that's a dog.
And in the production systems, they don't
tell you necessarily a probability.
Sometimes they do, sometimes they don't.

Italian: 
 altri almeno, se questo è vero, allora è spiegato con le X. 
 E ci sono due tipi di supervisione: la regressione o la previsione dove 
 fondamentalmente stai essenzialmente cercando di guardare l'aspettativa di Y dato X. 
 E la classificazione in cui stai cercando di trovare la probabilità che y sia uguale 
 un valore discreto dato x. 
 Ora già in realtà il modo in cui l'ho scritto in questo modo, 
 perché questo fa sembrare quello che hai imparato al corso di econometria, 
 ma in realtà non è questo il modo in cui la pensano gli studenti delle macchine. 
 Loro non pensano che tu voglia effettivamente imparare quelle funzioni, 
 pensano che tu voglia portare a termine un compito. 
 Quindi otterrai solo l'output, otterrai l'ipotesi di quale 
 etichetta è che non avrai necessariamente una probabilità. 
 E infatti, con molti di questi algoritmi, 
 devi chiedergli di fare più calcoli se vuoi calcolare le probabilità. 
 Generalmente sputerà solo che è un gatto, è un cane. 
 E nei sistemi di produzione, non ti dicono necessariamente una probabilità. 
 A volte lo fanno, a volte no. 

English: 
So but it's really the mentality that
these are Machines that spit out a guess,
rather than statistical estimation
routines that try to estimate a function.
And I'll try to kind of show you
as I go along why that matters.
And of course, sometimes you can
just be a little bit short-handed,
and not think about the distinction.
But a lot of times for economics,
we do care about that distinction.
And once you understand the way the
machine learners are thinking about it,
it helps you understand why they're
asking certain questions and not others.
All right, so when I started going
to machine learning conferences, so
I got into all of this when I
started working for a search engine.
So in 2007, I started consulting for
Microsoft and I quickly became their
consulting chief economist, and
I worked on the search engine.
And so when I got there, I had never
heard of the term machine learning or
at least I didn't really
understand what it meant.
And I knew basically nothing about the way
that this group of people was trained

Italian: 
 Quindi, ma è davvero la mentalità che queste sono Macchine che tirano fuori un'ipotesi, 
 piuttosto che routine di stima statistica che cercano di stimare una funzione. 
 E cercherò di mostrarti mentre proseguo perché è importante. 
 E, naturalmente, a volte puoi essere un po 'a corto di mani, 
 e non pensare alla distinzione. 
 Ma molte volte per l'economia, ci preoccupiamo di questa distinzione. 
 E una volta compreso il modo in cui la pensano gli studenti della macchina, 
 ti aiuta a capire perché fanno certe domande e non altre. 
 Va bene, quindi quando ho iniziato ad andare alle conferenze sull'apprendimento automatico, allora 
 Mi sono appassionato a tutto questo quando ho iniziato a lavorare per un motore di ricerca. 
 Così nel 2007 ho iniziato a fare consulenza per Microsoft e sono diventato rapidamente il loro 
 consulente capo economista, e ho lavorato al motore di ricerca. 
 E così quando sono arrivato lì, non avevo mai sentito parlare del termine machine learning o 
 almeno non ho capito bene cosa significasse. 
 E praticamente non sapevo nulla sul modo in cui questo gruppo di persone veniva formato 

Italian: 
 pensare ai dati. 
 E, naturalmente, l'apprendimento automatico stesso era già molto giovane nel 2007. 
 Quindi mi sono sentito coinvolto, pensando di sapere molto sui dati e 
 Improvvisamente ho incontrato centinaia e migliaia di persone che stavano lavorando su un problema 
 che ha pensato ai dati in modo molto diverso da me e 
 Ero l'unico che la pensava a modo mio. 
 Quindi quel tipo di indottrinamento con il fuoco, [RISATA] mi ha insegnato molto. 
 E poi ho iniziato ad andare anche a conferenze e 
 cose del genere per cercare di saperne di più e capire. 
 Perché era molto chiaro che non avrei fatto queste migliaia di persone 
 pensare in modo diverso da come stavano già pensando senza capire molto bene 
 cosa stavano facendo. 
 E, naturalmente, devi essere umile che probabilmente, se lo facessero in quel modo, 
 c'era un motivo, e poteva essere giusto, forse non c'era niente da aggiungere. 
 Ma si è scoperto che c'erano cose che potevo portare, ma 
 Ho bisogno di capire entrambe le parti. 
 Quindi, quando inizi a partecipare a queste conferenze di informatica, in particolare, 

English: 
to think about data.
And of course, machine learning itself
was very young in 2007 already.
So I kind of got plucked in there,
thinking I knew a lot about data and
I suddenly met hundreds and thousands of
people who were all working on a problem
who thought about data very
differently than I did and
I was the only one who
thought about it my way.
So that kind of indoctrination by fire,
[LAUGH] taught me a lot.
And then I started also
going to conferences and
things like that to try to learn more and
understand.
Because it was very clear that I was not
going to make these thousands of people
think differently than they were already
thinking without understanding very well
what they were doing.
And of course, you need to be humble that
probably, if they were doing it that way,
there was a reason, and it might be right,
maybe there was nothing I had to add.
But it turned out that there were
things that I could bring, but
I need to understand both sides.
So when you start going to these computer
science conferences, especially,

Italian: 
 intorno al 2010, 11, 12, andresti a queste conferenze sull'IA. 
 E fondamentalmente come sarebbe sessione dopo sessione, avere un formato simile. 
 Quindi le persone presenterebbero una descrizione di un problema come faranno con l'immagine 
 classificazione e il mio collega a Stanford, 
 Fei Fei Li ha effettivamente creato un grande set di dati che poi tutti usavano per testare. 
 E poi la gente diceva, ecco il mio nuovo modo di creare reti neurali, e 
 Posso renderli più profondi, posso allenarli più velocemente o posso modificarli un po '. 
 E poi ecco il modo qui è la mia bontà di adattamento, questo è quanto 
 meglio classificare cani e gatti rispetto a quello che hanno fatto l'anno scorso. 
 E poi mostravano alcune foto di cani e gatti, e io pensavo, okay, beh, 
 quando mi dici come funziona o perché? 
 E ho continuato ad andare sessione dopo sessione pensando che improvvisamente l'intuizione fosse 
 per emergere, e finalmente avrei imparato come funzionava tutto questo. 
 E poi ho capito dopo un po ', ma non sarebbe mai successo, e 
 in effetti, la maggior parte di questo riguardava l'ingegneria. 

English: 
around 2010, 11, 12,
you would go to these AI conferences.
And basically like session after session
would be, have a follow a similar format.
So people would put up a description of
a problem like they're going to do image
classification, and
my colleague at Stanford,
Fei Fei Li actually created a big data set
that then everybody used to test off of.
And then people would say,
here's my new way to do neural nets, and
I can make them deeper, I can train them
faster, or I can tweak them a little bit.
And then here's the way here's my
goodness of fit, this is how much
better I do classifying cats and
dogs relative to what they did last year.
And then they would show a few cat and
dog pictures, and I'd be like, okay, well,
when are you going to tell me
like how this works or why?
And I kept going to session after session
thinking that suddenly the insight was
going to emerge, and I was finally
going to learn how all of this worked.
And then I realized after a while, but
that was never going to happen, and
in fact,
most of this was about engineering.

English: 
So it's very interesting kind of thing
about the sociology of science that by
putting up a big data set
a bunch of pictures with labels.
So literally the data set is there's
an image, and then it says cat,
then there's an image,
and then it says dog.
Putting up this big data set and
getting an entire research community with
thousands of people in it to spend all
their time trying to do a better
job accomplishing the same task.
They had massive progress in improving
their ability to do that task.
But one of the things that was
really important about making
that work was that there
was a right answer.
So you could hold out the test data, and
here would be some pictures with cats and
dogs.
And then you could see whether
an algorithm could actually tell cats and
dogs apart in the test data.
So if I was better than you,
that was going to be very
clear about my performance.
And you can contrast that to your typical
economics seminar where suppose we start
arguing about whether my paper that shows
the minimum wage doesn't hurt employment
is better than your paper that shows
the minimum wage does hurt employment.

Italian: 
 Quindi è un tipo di cosa molto interessante sulla sociologia della scienza che da 
 mettere su un big data impostare un mucchio di immagini con etichette. 
 Quindi letteralmente il set di dati è che c'è un'immagine e poi dice gatto, 
 poi c'è un'immagine e poi c'è scritto cane. 
 Mettendo su questo grande set di dati e 
 convincere un'intera comunità di ricerca con migliaia di persone a spendere tutto 
 il loro tempo cercando di fare un lavoro migliore portando a termine lo stesso compito. 
 Hanno fatto enormi progressi nel migliorare la loro capacità di svolgere quel compito. 
 Ma una delle cose veramente importanti da realizzare 
 quel lavoro era che c'era una risposta giusta. 
 Quindi potresti fornire i dati del test e 
 ecco alcune foto con cani e gatti. 
 E poi potresti vedere se un algoritmo potrebbe effettivamente dire a gatti e 
 cani a parte nei dati del test. 
 Quindi se fossi migliore di te 
 sarebbe stato molto chiaro sulla mia performance. 
 E puoi metterlo a confronto con il tuo tipico seminario di economia da cui supponiamo di iniziare 
 discutendo se il mio articolo che mostra il salario minimo non danneggia l'occupazione 
 è meglio del tuo giornale che mostra che il salario minimo danneggia l'occupazione. 

English: 
And we can argue, and argue, and
argue for an entire seminar for weeks, or
months, or years, and
not actually know who was right.
Well, with this type of thing you know
whose was better was then who's because
you hold that ticket, find a data set
those algorithms haven't seen before,
you test them and you see which one works.
So it's a very different problem, I think
of it as an easy problem because I think
a lot of our problems in economics come
from not knowing what the right answer is.
A problem where you do know what the right
answer is, sounds like an easy problem.
So it's easy in some ways, but of course,
it's hard in other ways because it took
years of work to be able to get these
neural nets to actually be able to
accomplish this task with high accuracy,
okay?
So you go to the seminars,
you see cats and dogs.
So here what you're going to do is
you're going to take these images, and
you're going to translate them into Xs.
And so, if you think about like, your
monitor has red, green, blue, so I can
take any image, I can think about making
that image with red, green, and blue.

Italian: 
 E possiamo discutere e discutere e sostenere per un intero seminario per settimane, o 
 mesi, o anni, e non so veramente chi avesse ragione. 
 Bene, con questo tipo di cose sai chi era meglio allora chi è perché 
 tieni quel biglietto, trovi un set di dati che quegli algoritmi non hanno visto prima, 
 li provi e vedi quale funziona. 
 Quindi è un problema molto diverso, lo considero un problema facile perché penso 
 molti dei nostri problemi in economia derivano dal non sapere quale sia la risposta giusta. 
 Un problema in cui sai qual è la risposta giusta, sembra un problema facile. 
 Quindi è facile in alcuni modi, ma ovviamente è difficile in altri modi perché ci è voluto 
 anni di lavoro per riuscire a far sì che queste reti neurali siano effettivamente in grado di farlo 
 eseguire questa operazione con elevata precisione, ok? 
 Quindi vai ai seminari, vedi cani e gatti. 
 Quindi qui quello che farai è prendere queste immagini, e 
 li tradurrai in Xs. 
 E quindi, se ci pensi, il tuo monitor ha rosso, verde, blu, quindi posso 
 scatta qualsiasi immagine, posso pensare di creare quell'immagine con il rosso, il verde e il blu. 

English: 
And I can have three matrices,
each matrix like is how bright is the red,
how bright is the green,
how bright is the blue?
And that's going to describe the picture,
and of course,
each little point in the matrix
would be a pixel, okay?
So that's one way to encode this.
Then that could translate it into Xs, and
then we want to say given
that given X is that a cat.
Now if I put this into a, say if we just
had the images of cats and dogs, I could
put this into a binary logistic regression
and I could just put in all the pixels,
is Xs, and try to do this,
an interactions between the pixels.
But that wouldn't work very well.
And we would get out is probability a cat,
probability a dog is
a function of the pixels.
The magic of the neural nets is that they
find a really flexible functional form
with lots, and lots, and
lots of parameters in it.
And you can think of it a little bit like
trying to find ways to transform, and

Italian: 
 E posso avere tre matrici, ciascuna matrice è quanto è brillante il rosso, 
 quanto è luminoso il verde, quanto è luminoso il blu? 
 E questo descriverà l'immagine e, naturalmente, 
 ogni piccolo punto nella matrice sarebbe un pixel, ok? 
 Quindi questo è un modo per codificarlo. 
 Quindi questo potrebbe tradurlo in Xs e 
 allora ci teniamo a dire dato che data X è che un gatto. 
 Ora, se lo metto in un, diciamo se avessimo solo le immagini di cani e gatti, potrei 
 metterlo in una regressione logistica binaria e potrei semplicemente inserire tutti i pixel, 
 è Xs, e prova a fare questo, un'interazione tra i pixel. 
 Ma non funzionerebbe molto bene. 
 E ne usciremmo probabilmente un gatto, 
 probabilità che un cane sia una funzione dei pixel. 
 La magia delle reti neurali è che trovano una forma funzionale davvero flessibile 
 con molti, molti e molti parametri in esso. 
 E puoi pensarlo un po 'come cercare di trovare modi per trasformare, e 

Italian: 
 ritrasforma e ritrasforma quei pixel in elementi o in una sorta di X costruite. 
 E poi quelle X costruite verranno utilizzate per prevedere. 
 E così possono, ad esempio, capire qui questa cosa del triangolo, 
 questa sarà una caratteristica. 
 E se vedo quella cosa del triangolo da qualche altra parte nella foto, 
 Penso che sia più probabile che sia un gatto. 
 Quindi è un po 'come la scoperta automatica di variabili in corso in background. 
 E in realtà ho lezioni più lunghe che hanno una sorta di introduzione alle reti neurali 
 per gli economisti. 
 Quindi, se sei interessato, puoi guardare sul mio Google Drive o 
 ping me e posso mostrarti quelli buoni per saperne di più su come funzionano. 
 Quindi ora quando guardo questa particolare immagine di un gatto, 
 vediamo che questo gatto sta suonando un pianoforte. 
 Quindi una cosa di questi algoritmi è che sono molto blackbox. 
 Quindi tu come utente non hai detto nulla all'algoritmo sui baffi, 

English: 
retransform, and retransform those pixels
into features, or kind of constructed X's.
And then those constructed
Xs will be used to predict.
And so they can, for example,
figure out over here this triangle thing,
that's going to be a feature.
And if I see that triangle thing
somewhere else on the picture,
I'm going to think it's
more likely to be a cat.
So it's kind of like automated variable
discovery going on in the background.
And I have actually longer lectures that
have sort of introduction to neural nets
for economists.
So if you're interested,
you can look on my Google Drive or
ping me and I can show you good ones
to learn more about how they work.
So now when I look at this
particular picture of a cat,
we see this cat is playing a piano.
So one thing about these algorithms
is that they are very much blackbox.
So you as a user didn't tell
the algorithm anything about whiskers,

English: 
ears, nose, eyes, animals,
biology, bones, nothing.
You just put in the pixels, and the
labels, and out came the classifications.
So, what's that going to
mean is that whatever it
is in your data that's predictive, is
going to get picked up by the algorithms.
So here we see this cat was playing
a piano, but turns out there's more piano
playing cats on YouTube than there are
piano playing dogs or piano playing cats,
and Google in these image net than dogs.
Then your algorithm
will create features or
variables that are black and
white rectangles.
And when you see those together,
it will increase the likelihood this
gets classified as a cat, okay?
Now, as an economist, you might sit back
and say, well, I'm not sure I'd like that.
Because what you're saying,
well, why don't I like that?
Like what is it that's special
about an ear shape that should be
part of a model but
piano that's not a part of the model?
If you thought, pause and
think about why that would be
wrong to have pianos predict cats.

Italian: 
 orecchie, naso, occhi, animali, biologia, ossa, niente. 
 Hai appena inserito i pixel e le etichette e sono uscite le classificazioni. 
 Quindi, quello che vorrà dire è che qualunque cosa 
 è nei tuoi dati che è predittivo, verrà rilevato dagli algoritmi. 
 Quindi qui vediamo che questo gatto suonava un piano, ma si scopre che c'è dell'altro piano 
 suonare i gatti su YouTube che ci sono cani che suonano il piano o gatti che suonano il piano, 
 e Google in queste immagini al netto dei cani. 
 Quindi il tuo algoritmo creerà funzionalità o 
 variabili che sono rettangoli bianchi e neri. 
 E quando li vedi insieme, 
 aumenterà la probabilità che venga classificato come gatto, ok? 
 Ora, come economista, potresti sederti e dire, beh, non sono sicuro che mi piacerebbe. 
 Perché quello che stai dicendo, beh, perché non mi piace? 
 Ad esempio, cosa ha di speciale una forma dell'orecchio che dovrebbe avere 
 parte di un modello ma il pianoforte non fa parte del modello? 
 Se hai pensato, metti in pausa e 
 pensa al motivo per cui sarebbe sbagliato avere pianoforti predire i gatti. 

English: 
And I think one way that I would
like to phrase that is to say.
A piano is not a stable feature of a cat.
It's not a structural feature of a cat.
It happened that today there's
more piano playing cats than there
are piano playing dogs.
But if I trained my dog to play the piano
and started a craze of piano playing dogs,
then tomorrow it could be that
there's more piano playing dogs than
there are piano playing cats.
So as an economist I would
think that this model,
it's going to work well in this sample,
but
it might not work well in another
situation, in a different point in time.
And so that makes you realize that,
as economists,
we often want models that are
generalizable, that have really stable or
structural features of
environment as part of them.
Because we're trying to actually
build a model of how the world works.
But that is not part of the explicit
objective of most machine learning models.
Machine learning models, off the shelf,

Italian: 
 E penso che un modo in cui vorrei esprimere la frase è dire. 
 Un pianoforte non è una caratteristica stabile di un gatto. 
 Non è una caratteristica strutturale di un gatto. 
 È successo che oggi ci siano più gatti che suonano il piano che lì 
 sono cani che suonano il pianoforte. 
 Ma se addestrassi il mio cane a suonare il piano e avessi iniziato una mania di pianoforti che suonavano i cani, 
 allora domani potrebbe essere che ci siano più cani che suonano il piano di 
 ci sono gatti che suonano il pianoforte. 
 Quindi, come economista, penserei che questo modello, 
 funzionerà bene in questo esempio, ma 
 potrebbe non funzionare bene in un'altra situazione, in un momento diverso nel tempo. 
 E questo ti fa capire che, come economisti, 
 spesso vogliamo modelli che siano generalizzabili, che abbiano o 
 caratteristiche strutturali dell'ambiente come parte di esse. 
 Perché stiamo cercando di costruire effettivamente un modello di come funziona il mondo. 
 Ma questo non fa parte dell'obiettivo esplicito della maggior parte dei modelli di machine learning. 
 Modelli di machine learning, pronti all'uso, 

Italian: 
 stanno solo cercando di adattare i dati che hai e useranno tutto. 
 E il fatto che siano blackbox significa che è davvero difficile crearli 
 usa qualcosa. 
 Se volevi avere una rete neurale davvero buona che diceva ai gatti e 
 cani a parte che non rispondevano ai pianoforti. 
 Dovresti fare un bel po 'di lavoro per farlo e 
 ci vorrebbe molto tempo. 
 Fondamentalmente dovresti aggiungere una penalità per i pianoforti e 
 dovresti cambiare la tua funzione obiettivo. 
 Dovresti fare ingegneria e la maggior parte delle persone non frequentano la scuola di specializzazione 
 in realtà non saprei nemmeno come farlo bene. 
 Quindi sei un po 'con queste cose, sei un po' bloccato con loro, 
 è tutto o niente, ottieni l'intera scatola nera o non ottieni niente. 
 E fino a poco tempo fa, quando anche gli studenti della macchina hanno iniziato a prendere piede 
 che alcune di queste cose possono essere problemi. 
 È così che funziona. 
 Quindi, solo pensare a come ciò conta nella pratica, se dicessi, 

English: 
are just trying to fit the data that you
have and they're going to use everything.
And the fact that they're blackbox
means it's really hard to make them not
use something.
If you wanted to have a really good
neural net that was telling cats and
dogs apart that did not pick up on pianos.
You would have to do quite
a bit of work to do that and
it would take you a long time.
You would have to basically like
add a penalty for the pianos and
you would have to change
you objective function.
You would have to do engineering and
most people out of grad school
wouldn't actually even really
know how to do that well.
So you're kind of with these things,
you're kind of stuck with them,
it's all or nothing, you get the whole
black box or you get nothing.
And until recently, when the machine
learners have also started to catch on
that some of these things can be problems.
That's been the way it works.
So just to think about like how that
matters in practice, if you were say,

Italian: 
 facendo modelli macro, supponi di lavorare per una Federal Reserve e 
 stavi cercando di capire il rischio per le banche. 
 O supponiamo che tu lo fossi, io sono nel consiglio di una società tecnologica che fa prestiti. 
 E quindi supponiamo di avere un modello di punteggio di credito. 
 Beh, potremmo assumere qualcuno di Stanford che dice, ehi, perché non usi 
 una rete neurale perché ha una migliore bontà di adattamento ai tuoi dati per 
 prevedere il default del prestito? 
 Perché non lo usi per fare i tuoi prestiti? 
 E il problema sarebbe bene, 
 e se arrivasse qualcosa come COVID-19 in cui l'economia cambia? 
 Come potevo anche solo sapere se il mio modello avrebbe resistito o avrebbe continuato a funzionare 
 bene quando il mondo è cambiato se non riesco nemmeno a capire come funziona? 
 E mentre se ho un modello più semplice che capisco, 
 Potrei essere in grado di valutare, beh, accidenti, si sta caricando molto su questo 
 variabile che forse non ha lo stesso contenuto informativo che aveva prima. 

English: 
doing macro modeling, suppose you were
working for a Federal Reserve and
you were trying to understand risk for
banks.
Or suppose you were, I'm on the board
of a tech company that does lending.
And so
suppose we had a credit scoring model.
Well, we might hire someone out of
Stanford that says, hey, why don't you use
a neural net because that has better
goodness of fit in your data for
predicting loan default?
Why don't you use that to make your loans?
And the problem would be well,
what if something comes along like
COVID-19 where the economy changes?
How would I even know whether my model was
going to hold up or continue to perform
well when the world changed if I can't
even understand how it's working?
And whereas if I have a simpler
model that I understand,
I might be able to evaluate, well,
gosh, it's loading up a lot on this one
variable which maybe t doesn't have the
same information content it does before.

Italian: 
 Quindi potrei effettivamente, come essere umano, valutare quanto sia importante cambiare il mio modello e 
 quali problemi potrei incontrare se continuassi a utilizzare quel modello. 
 Ok, quindi quando qualcuno entra e dice che usiamo una rete neurale in un'azienda 
 ambiente o un ambiente di previsione macro, devi essere molto 
 cauto e pensieroso, ho bisogno che questo sia stabile o no? 
 Quando ho parlato di questo con il ragazzo che ha fatto Google Immagini, ho detto, 
 hey, non ti rendi conto che sarai instabile? 
 Dice, beh, chi se ne frega? 
 Perché ogni giorno aggiungiamo nuovi dati. 
 E se i cani hanno iniziato a suonare i pianoforti, ci aggiorniamo. 
 E se stiamo commettendo errori continueremo semplicemente a riqualificare il nostro modello. 
 Finché puoi aggiornare il tuo modello più velocemente di quanto il mondo cambi, 
 non ti interessa davvero che non sia stabile. 
 E finché hai un modo per continuare a valutarne le prestazioni, non ti interessa. 
 Ma al contrario, se sei una banca e devi tenere i tuoi modelli fissi per 
 un periodo di tempo a causa della regolamentazione e di una varietà di altri fattori. 
 Quindi potrebbe non piacerti questo tipo di modelli che si prendono spuri 

English: 
So I could actually, as a human, evaluate
how important it is to change my model and
what problems I might face
if I kept using that model.
Okay, so when somebody comes in and
says let's use a neural net in a business
environment or a macro forecasting
environment, you have to be very
cautious and think through,
do I need this to be stable or not?
Now when I talked to the guy who did
Google Images about this, I said,
hey, don't you realize
you're going to be unstable?
He says, well, who cares?
Because we add new data every day.
And if dogs started playing the pianos,
we update.
And if we're making mistakes we'll
just continue to retrain our model.
So as long as you can update your
model faster than the world changes,
you don't really care
that it's not stable.
And as long as you have a way to continue
to assess its performance, you don't care.
But in contrast, if you're a bank, and
you need to hold your models fixed for
a period of time because of regulation and
a variety of other factors.
Then you may not like these kinds
of models that pick up on spurious

English: 
things that might change over time.
Okay, so
those are some of the considerations.
Now, when I first started teaching
about this, I felt that most machine
learners actually really hadn't thought
this all the way through themselves.
They really weren't very articulate
about the weaknesses of the models.
One of the things that's happened
over even the past five years is that
as people go out and try to
implement these things in the world,
they find lots of problems they're facing.
And then now more and
more sessions at the top machine learning
conferences focus on things
like interpretability and
stability and so on,
to try to address these problems.
So just to give another sense of what's
good and bad about these models,
this is a marketing
brochure from McKinsey.
And so this is an example where they
were trying to show why machine learning
is better for predicting when
customers are going to quit.
So this is drivers A and drivers B,
you can think of this as xa and xb,
two different covariates.

Italian: 
 cose che potrebbero cambiare nel tempo. 
 Ok, quindi queste sono alcune delle considerazioni. 
 Ora, quando ho iniziato a insegnare su questo, ho sentito la maggior parte delle macchine 
 gli studenti in realtà non l'avevano pensato fino in fondo. 
 Non erano davvero molto articolati sui punti deboli dei modelli. 
 Una delle cose che sono successe anche negli ultimi cinque anni è questa 
 mentre le persone escono e cercano di implementare queste cose nel mondo, 
 trovano molti problemi che stanno affrontando. 
 E poi ora sempre più sessioni al top del machine learning 
 le conferenze si concentrano su cose come interpretabilità e 
 stabilità e così via, per cercare di affrontare questi problemi. 
 Quindi, solo per dare un altro senso di ciò che è buono e cattivo di questi modelli, 
 questa è una brochure di marketing di McKinsey. 
 E quindi questo è un esempio in cui stavano cercando di mostrare perché l'apprendimento automatico 
 è migliore per prevedere quando i clienti smetteranno. 
 Quindi questi sono i driver A e i driver B, puoi pensarli come xa e xb, 
 due diverse covariate. 

English: 
And what you're trying to predict is
a binary outcome, does a customer quit or
churn, churn is the word for quit?
And so they say in our old version,
where we just did a logistic regression.
This green line is
the ISO probability line.
And it's a very nice, simple line.
So when the drivers A and B are high,
we think you're likely to quit.
When drivers a and b are low,
you're unlikely to quit.
Then when they used machine learning,
they get these ISO probability lines or
lines where probabilities
are equal that are much richer.
So in their brochure,
they're saying, hey, look,
we discovered these complicated
relationships in the data that that we
wouldn't have learned if
we just did it manually.
And now we're going to get a better fit.
But when I look at that,
I say, well, that's great.
You got a better fit in
your data wonderful.
But if you were trying to use this to
make decisions or maybe take an action
that might change drivers A or
drivers B, you might be misled.
So for example if we hold drivers
A at 80 and increase drivers B,

Italian: 
 E quello che stai cercando di prevedere è un risultato binario, un cliente esce o 
 churn, churn è la parola per smettere? 
 E così dicono nella nostra vecchia versione, dove abbiamo appena fatto una regressione logistica. 
 Questa linea verde è la linea di probabilità ISO. 
 Ed è una linea molto bella e semplice. 
 Quindi, quando i driver A e B sono alti, pensiamo che probabilmente smetterai. 
 Quando i driver aeb sono bassi, è improbabile che tu esca. 
 Quindi, quando hanno utilizzato l'apprendimento automatico, ottengono queste linee di probabilità ISO o 
 linee in cui le probabilità sono uguali che sono molto più ricche. 
 Quindi nella loro brochure dicono, ehi, guarda, 
 abbiamo scoperto queste complicate relazioni nei dati che noi 
 non avremmo imparato se l'avessimo fatto manualmente. 
 E ora stiamo andando a ottenere una migliore vestibilità. 
 Ma quando lo guardo, dico, beh, è ​​fantastico. 
 Hai un adattamento migliore ai tuoi dati, meraviglioso. 
 Ma se stavi cercando di usarlo per prendere decisioni o forse intraprendere un'azione 
 ciò potrebbe cambiare i driver A o B, potresti essere fuorviato. 
 Quindi, ad esempio, se teniamo i driver A a 80 e aumentiamo i driver B, 

Italian: 
 ciò che questa cosa dice è che la probabilità che un cliente abbandoni aumenta e poi diminuisce, 
 e su e poi giù, e su e poi giù. 
 Direi bene, non so cosa siano i driver B, ma 
 Penso che sia altamente improbabile qualunque cosa sia, 
 se stai tenendo i driver A fisso che esiste anche una variabile che dove 
 davvero le probabilità vanno su e giù e su e giù e su e giù. 
 Molto improbabile che si tratti di una relazione causale. 
 O anche quella è necessariamente una correlazione parziale corretta se io 
 appena tenuto i driver A fissi. 
 Potresti dire, beh, perché ho avuto questa foto allora? 
 Questo perché in realtà probabilmente inseriscono molte covariate e 
 c'è una struttura di correlazione molto complicata in corso in background. 
 Quindi il motivo per cui ottieni questa forma ondulata è perché quando cambi i driver B, 
 sta cambiando la distribuzione condizionale di un mucchio di altre cose. 
 E questa era la soluzione migliore in questo spazio altamente multidimensionale. 
 Ma non è qualcosa in cui crederesti davvero 
 una correlazione condizionale. 

English: 
what this things says is the probability
a customer quits goes up and then down,
and up and then down,
and up and then down.
I would say well,
I don't know what drivers B is, but
I think it's highly
unlikely whatever it is,
if you're holding drivers A fixed that
there even exists a variable that where
really probabilities go up and
down and up and down and up and down.
Very unlikely that that
is a causal relationship.
Or even that that's necessarily
a correct partial correlation if I
just held drivers A fixed.
You might say, well,
why did I get this picture then?
That's because actually they probably
put in a whole lot of covariates and
there's a very complicated correlation
structure going on in the background.
And so the reason you get this wavy shape
is because as you change drivers B,
that's changing the conditional
distribution of a bunch of other things.
And this was the best fit in this
highly multi-dimensional space.
But it's not something that
you would really believe as
a conditional correlation.

English: 
And one of the things is that
probably the model has made choices,
it hasn't really had enough
data to control for everything.
So it's going to do well, it doesn't
really matter this wavy shape as long as
you, on average, figure out who's going to
quit and who's not going to quit.
But it's not so good if you're
actually trying to say, gee,
I want to go and
target these particular people,
but if their drivers B goes up a little
bit, I'm not going to target them anymore.
That kind of stuff doesn't really work.
Another problem from this is it
actually this is a predictive model.
And you'd say, well, why do I want to
predict which customers are going to quit?
Well, you don't want to predict anything
unless you can take an action on it.
Well, sometimes you want to do it for
your financial budgeting or something.
But if you really think about it, the
reason you want to predict which customers
are going to quit is often because you
might want to call those customers or
send them an offer to get them to stay.
But predicting who's going to
quit is not the same thing as
figuring out who would
respond the best to a call.

Italian: 
 E una delle cose è che probabilmente il modello ha fatto delle scelte, 
 non ha davvero avuto abbastanza dati per controllare tutto. 
 Quindi andrà bene, non importa davvero questa forma ondulata finché 
 tu, in media, capisci chi smetterà e chi no. 
 Ma non è così buono se stai davvero cercando di dire, accidenti, 
 Voglio andare a prendere di mira queste persone in particolare, 
 ma se i loro driver B aumentano un po ', non li prenderò più di mira. 
 Quel genere di cose non funziona davvero. 
 Un altro problema è che in realtà si tratta di un modello predittivo. 
 E tu diresti, beh, perché voglio prevedere quali clienti smetteranno? 
 Beh, non vuoi prevedere nulla a meno che tu non possa intraprendere un'azione su di esso. 
 Bene, a volte vuoi farlo per il tuo budget finanziario o qualcosa del genere. 
 Ma se ci pensi davvero, il motivo per cui vuoi prevedere quali clienti 
 smetteranno spesso è perché potresti voler chiamare quei clienti o 
 inviare loro un'offerta per convincerli a rimanere. 
 Ma prevedere chi smetterà non è la stessa cosa di 
 capire chi risponderebbe meglio a una chiamata. 

Italian: 
 E alcune persone potrebbero smettere perché si trasferiscono fuori dal paese, o 
 non hanno più bisogno del tuo servizio. 
 Quindi predire chi smetterà non è la stessa cosa che determinare chi sei tu 
 dovrebbe intervenire. 
 E questa è la differenza tra previsione e inferenza causale. 
 Posso prevedere chi smetterà, ma 
 non è a chi dovrei sottopormi un trattamento. 
 Non voglio trattare le persone che smetteranno, qualunque cosa io faccia. 
 Voglio trattare le persone che potrebbero smettere e 
 potrebbe non smettere a seconda di come li tratto. 
 E c'era un bel giornale della Columbia che ha fatto un'analisi di questo 
 con una con un'azienda. 
 E hanno scoperto che c'era solo una sovrapposizione del 50% tra le persone che 
 stavano per smettere e le persone che hanno risposto all'intervento. 
 Quindi, ora che ci siamo, ho gettato un po 'di basi. 
 Quello che spero di aver fatto finora è darti la sensazione che l'apprendimento automatico sia un po 'nero 
 box e ha iniziato ad aiutarti a pensare a qual è la differenza tra la previsione 

English: 
And some people might be quitting because
they're moving out of the country, or
they don't need your service anymore.
So predicting who's going to quit is not
the same thing as determining who you
should intervene on.
And that's the difference between
prediction and causal inference.
I can predict who's going to quit, but
that's not who I should
put a treatment on.
I don't want to treat the people who
are going to quit no matter what I do.
I want to treat the people
who might quit and
might not quit depending
on how I treat them.
And there was a nice paper out of
Columbia that did an analysis of this
with a with a company.
And they found that there was only
a 50% overlap between the people who
were going to quit, and the people
who were responded to intervention.
So, now that we've kind of got,
I laid a little bit of ground work.
What I hope I've done so far is give you a
sense of machine learning is kind of black
box and started to help you think about
what's the difference between prediction

English: 
and causal inference.
Now, let's kind of get a little
bit more precise here.
So if I want to do a prediction
in a stable environment.
What we're going to try
to do is build something,
say if it's a continuous y,
we want to get expectation of y given x.
And our goal is to minimize mean
squared error and a new data set,
where only x as observed.
So you're going to see the x, you're
going to come up with the mew hat of x.
And then your goal is to
minimize the mean squared error.
So a few more things to note about this.
First of all,
no matter how complex a model you use,
the output,
the prediction is a single number.
And you evaluate the model only by
how well your predicted single number
matches the actual single number.
And you want to do it in a test set,
which is a different data set then
you used to construct new hat.
And so that's really the formalization
of the idea that you can
tell if you did a good
job by just checking.
I can hide data in my drawer, send a
research assistant off to build a new hat.
They can come back.

Italian: 
 e inferenza causale. 
 Ora, cerchiamo di essere un po 'più precisi qui. 
 Quindi, se voglio fare una previsione in un ambiente stabile. 
 Quello che proveremo a fare è costruire qualcosa, 
 diciamo che se è una y continua, vogliamo ottenere l'aspettativa di y data x. 
 E il nostro obiettivo è ridurre al minimo l'errore quadratico medio e un nuovo set di dati, 
 dove solo x come osservato. 
 Quindi vedrai la x, uscirai con il mio cappello di x. 
 E poi il tuo obiettivo è ridurre al minimo l'errore quadratico medio. 
 Quindi alcune altre cose da notare su questo. 
 Prima di tutto, non importa quanto sia complesso un modello che utilizzi, 
 l'output, la previsione è un singolo numero. 
 E valuti il ​​modello solo in base alla bontà del tuo numero singolo previsto 
 corrisponde al numero singolo effettivo. 
 E vuoi farlo in un set di prova, 
 che è un set di dati diverso da quello utilizzato per costruire un nuovo cappello. 
 E quindi questa è davvero la formalizzazione dell'idea che puoi 
 dì se hai fatto un buon lavoro semplicemente controllando. 
 Posso nascondere i dati nel mio cassetto, mandare un assistente di ricerca a costruire un nuovo cappello. 
 Possono tornare indietro. 

Italian: 
 Non ho bisogno di guardare il loro codice, non ho bisogno di sapere se erano intelligenti. 
 Posso solo dire, ecco le mie x. 
 Eseguiamo il tuo modello. 
 Prendiamo dei nuovi cappelli e posso dire se hanno fatto un buon lavoro solo vedendo se lo hanno fatto 
 corrispondono alle mie y che ho nascosto loro. 
 Quindi, puoi davvero dire in modo molto oggettivo come sono state fatte le cose. 
 E quindi questa è in realtà un'analogia con cui penso all'apprendimento automatico 
 un assistente di ricerca robotica. 
 Quindi sono disposto a delegare qualcosa a una scatola nera se sono in grado di controllare se loro 
 ha fatto un buon lavoro. 
 Proprio come sarei disposto a delegare qualcosa a 
 assistente di ricerca senza controllare il codice, 
 se solo potessi controllare in seguito se il loro lavoro ha funzionato bene. 
 E ancora, le uniche ipotesi richiedono in osservazioni indipendenti, 
 la distribuzione congiunta di y e x viene modificata essendo la stessa e 
 il set di test è un set di allenamento. 
 Ora, ridurre al minimo l'errore quadratico medio comporterà ciò che viene chiamato 
 il compromesso della varianza del bias. 
 E quindi uno degli aspetti della riduzione al minimo dell'errore quadratico medio è che lo farai sempre 
 accetta qualche pregiudizio. 

English: 
I don't need to look at their code,
I don't need to know if they were smart.
I can just say, here's my x's.
Let's run your model.
Let's get some new hats and I can tell if
they did a good job by just seeing if they
match up with my y's that I hid from them.
So, you really can tell very
objectively how things were done.
And so that's actually there's an analogy
I think about machine learning as
a robotic research assistant.
So I'm willing to delegate something to
a black box if I am able to check if they
did a good job.
Just like I'd be willing
to delegate something to
research assistant without
checking their code,
if I could just check afterwards
whether their work performed well.
And again, the only assumptions
require in independent observations,
joint distribution of y and
x being changed being the same and
the test set is a training set.
Now, minimizing mean squared error is
actually going to entail what's called
the bias variance trade off.
And so one of the things about minimizing
mean squared error is that you will always
accept some bias.

Italian: 
 E l'idea è che lo stimatore sia troppo sensibile al set di dati corrente, 
 allora non funzionerà bene in un set di prova. 
 Quindi faremo un compromesso, creando un modello molto ricco e un modello più semplice. 
 Per bilanciare il fatto che il modello sia espressivo, se è espressivo, 
 otterrà la risposta giusta per ogni individuo in modo imparziale. 
 Bene, se prevedo solo tutti con la media campione, non sarà molto 
 espressivo e non sarà la risposta giusta per nessun individuo. 
 Ma d'altra parte, se mi dai 10 set di dati diversi purché siano 
 sufficientemente grande, otterrò la stessa risposta da ciascuno dei 10. 
 Attraverso un modello molto espressivo e stima un modello con molti parametri. 
 Le stime del modello saranno diverse da set di dati a set di dati, ma 
 sarà espressivo e molto personalizzato e 
 otterrà la risposta giusta per ogni x più spesso. 
 E quindi c'è questo compromesso tra espressività e semplicità. 
 Quindi ciò che fai in genere è utilizzare la convalida incrociata per imitare l'idea di 

English: 
And the idea is that the estimator is
too sensitive to the current data set,
then it won't do well in a test set.
So we're going to trade off, making a very
rich model and making a simpler model.
In order to balance having the model
be expressive, if it's expressive,
it'll get the right answer for
every individual in an unbiased way.
Well, if I just predict everybody with
the sample mean, it's not going to be very
expressive and it won't be the right
answer for any individual.
But on the other hand, if you give me 10
different datasets as long as they're
sufficiently big, I'll get the same
answer from each of the 10.
Through a very expressive model and
estimate a model with lots of parameters.
You'll model estimates will differ
from dataset to data set, but
it'll be expressive and
it'll be very personalized and
it'll get the right answer for
each x more often.
And so there's this trade off between
expressiveness and simplicity.
And so what you typically do is you use
cross validation to mimic the idea of

Italian: 
 un set di prova per fare quel compromesso. 
 Quindi, per gli algoritmi di machine learning, consideri una famiglia di modelli, 
 si utilizzano i dati per selezionare tra i modelli utilizzando la convalida incrociata. 
 Quindi potresti suddividere i dati in 10 volte, stimare i modelli su nove decimi 
 dei dati, quindi vedere come si adattano all'ultimo decimo. 
 Lo fai ancora e ancora, da modelli semplici a modelli davvero espressivi. 
 E poi vedi in tutti quei set di controllo, erano nello spettro 
 da modelli semplici a modelli complessi, ottiene la migliore corrispondenza con i dati in dotazione. 
 E poi scegli quello che dici, è un modello espressivo medio è il migliore. 
 E poi ho stimato su tutti i dati ed è quello che uso. 
 E ancora una volta posso valutare con precisione le loro prestazioni senza 
 ipotesi aggiuntive. 
 Quindi in un assistente di ricerca robotica può fare alla grande, e 
 Sono felice di delegare a una scatola nera. 
 Ok, in contrasto con l'econometria tradizionale, l'economia è tipicamente 

English: 
a test set in order to
make that trade off.
So for machine learning algorithms,
you consider a family of models,
you use the data to select among
the models using cross validation.
So you might break the data into 10 folds,
estimate models on nine tenths
of the data, and then see how
well they fit on the last 10th.
You do that over and over again, for
simple models to really expressive models.
And then you see across all of those
holdout sets, were in the spectrum
from simple models to complex models,
gets the best fit in the in held out data.
And then you pick that you say, it's
a medium expressive model is the best.
And then I estimated on all the data and
that's what I use.
And again I can accurately
evaluate their performance without
additional assumptions.
So in a robotic research
assistant can do great, and
I'm happy to delegate to a black box.
Okay, contrasting that with traditional
econometrics, economics is typically

English: 
focused on the case with substantially
more observations than covariates.
So n the number of observations much
greater than p the number of covariates.
In that situation, the n sample mean
squared error is a good approximation to
out of sample mean squared error.
So if you just passed your econometrics
comps not too long ago, you probably.
Like I did 25 years ago, had to
memorise the proof that OLS was blue,
best linear unbiased estimator.
And so, you might wonder,
why wouldn't I always use OLS for
everything if it's best?
But one of the things we asked for
there was that OLS was unbiased.
And in unbiased estimator is generally
not going to minimize mean squared error,
first of all.
And second of all, you probably didn't
spend a lot of time thinking about test
sets in your intro econometrics class.
And the reason you didn't do that
was because there was an unstated
under emphasized assumption.
That you had a fixed model that
the God of economics gave you,
and then in went to infinity.

Italian: 
 si è concentrato sul caso con sostanzialmente più osservazioni rispetto alle covariate. 
 Quindi n il numero di osservazioni è molto maggiore di p il numero di covariate. 
 In quella situazione, l'errore quadratico medio del campione n è una buona approssimazione a 
 errore quadratico medio fuori campione. 
 Quindi, se hai superato le tue prove di econometria non molto tempo fa, probabilmente lo farai. 
 Come ho fatto 25 anni fa, ho dovuto memorizzare la prova che OLS era blu, 
 miglior stimatore imparziale lineare. 
 E quindi, potresti chiederti, perché non dovrei usare sempre OLS per 
 tutto se è meglio? 
 Ma una delle cose che abbiamo chiesto era che OLS fosse imparziale. 
 E in uno stimatore imparziale generalmente non minimizzerà l'errore quadratico medio, 
 prima di tutto. 
 E in secondo luogo, probabilmente non hai passato molto tempo a pensare al test 
 imposta nella tua lezione introduttiva di econometria. 
 E il motivo per cui non l'hai fatto era perché c'era un non dichiarato 
 ipotesi sotto enfatizzata. 
 Che avevi un modello fisso che ti ha dato il Dio dell'economia, 
 e poi è andato all'infinito. 

Italian: 
 E se hai molte osservazioni in un modello fisso, allora sei nel campione 
 L'errore quadratico medio è uguale all'errore quadratico medio fuori campione. 
 Hai un modello molto semplice come pensare alla stima di una media campionaria, se io 
 ho 200 osservazioni, la mia bontà di adattamento a questo set di dati che uso per stimare 
 la media probabilmente sarà più o meno la stessa di se prendessi un nuovo set di dati. 
 Ma invece se provo ad adattare un modello di regressione che ha 200 covariate 
 su un set di dati con 200 osservazioni. 
 Quindi si adatterà perfettamente al primo set di dati, 
 e si adatterà orribilmente al secondo set di dati. 
 E quindi il paradigma del machine learning riguarda un mondo in cui il modello diventa più ricco 
 man mano che ottieni più covariate. 
 E quindi non puoi presumere che in adattamento campione sia uguale a adattamento fuori campione. 
 E immagino che se ci pensi, però, per me, penso bene, 
 questo è davvero il modo giusto di pensarci. 
 Nella maggior parte dei casi, in realtà, non ho la giusta forma funzionale. 

English: 
And if you have a lot of observations
in a fixed model, then your in sample
mean squared error is the same as your
out of sample means squared error.
You have a very simple model like think
about just estimating a sample mean, if I
have 200 observations, my goodness of fit
in this data set that I use to estimate
the mean is probably going to be about
the same as if I took a new data set.
But instead if I try to fit a regression
model that has 200 covariates
on a data set with 200 observations.
Then it's going to fit perfectly
in the first data set,
and it'll fit horribly
in the second data set.
And so the machine learning paradigm is
about a world where the model gets richer
as you get more covariates.
And so you can't assume that in sample
fit is the same as out of sample fit.
And I guess if you think about it,
though, for me, I think well,
that's actually really the right
way to think about it.
In most cases, actually,
I haven't got the right functional form.

English: 
And I would like to make a richer and
richer model as I got more data.
And so actually,
I should be taking seriously the fact that
I'm overfitting and the data that I have
Now then going back to what else does
traditional econometrics do, we often
think about casual effects, counterfactual
predictions, correlation versus causality.
We think about standard errors,
we think about structural models
incorporating behavioral assumptions.
And all of those things are not part
of the basic Machine Learning Toolkit.
They don't think about
any of those things.
Now there's some parts of
machine learning to do.
And there are some machine learners
that write Bayesian models
that are generative models which
are close to structural models.
But I'm just talking the basic one on one
machine learning that you would get from
your basic course you wouldn't think about
any of these things that I just talked
about really.
Now when we think in economics
about identification,
we think about correlation
versus causation.
Identification problems cannot be
evaluated using a holdout set.

Italian: 
 E vorrei creare un modello sempre più ricco man mano che avrò più dati. 
 E così in realtà 
 Dovrei prendere sul serio il fatto che mi sto adattando eccessivamente e i dati che ho 
 Ora, tornando a cos'altro fa l'econometria tradizionale, spesso 
 pensa agli effetti casuali, alle previsioni controfattuali, alla correlazione contro la causalità. 
 Pensiamo agli errori standard, 
 pensiamo a modelli strutturali che incorporano ipotesi comportamentali. 
 E tutte queste cose non fanno parte del Machine Learning Toolkit di base. 
 Non pensano a nessuna di queste cose. 
 Ora ci sono alcune parti dell'apprendimento automatico da fare. 
 E ci sono alcuni machine learning che scrivono modelli bayesiani 
 che sono modelli generativi vicini ai modelli strutturali. 
 Ma sto solo parlando di quello di base su un apprendimento automatico da cui otterresti 
 il tuo corso di base non penseresti a nessuna di queste cose di cui ho appena parlato 
 davvero. 
 Ora, quando pensiamo in economia all'identificazione, 
 pensiamo alla correlazione contro la causalità. 
 I problemi di identificazione non possono essere valutati utilizzando un set di controllo. 

Italian: 
 Quindi se abbiamo prezzi e se i prezzi rispondono a osservabili 
 in un set di addestramento Accadrà anche in un set di controllo. 
 E quindi molti dei problemi di cui ci preoccupiamo e 
 discutere in economia non può essere risolto con set di test e set di addestramento. 
 La cosa che può essere risolta è che la tua forma funzionale si adatta bene, 
 ma non c'è qualche inosservabile. 
 Ok, quindi è davvero importante pensarci. 
 E poi un'altra cosa a cui pensare è che i metodi causali sacrificano la bontà dell'adattamento 
 concentrarsi solo sulla variazione dei dati che identificano i parametri di interesse. 
 Quindi probabilmente impari nella domanda e nell'offerta, potresti cercare 
 uno strumento per il prezzo. 
 Se regredisci semplicemente la quantità sul prezzo, potresti ottenere un R quadrato di 0,95. 
 Una volta che strumenti per il prezzo, sai che la tua bontà di adattamento potrebbe ridursi a, 
 potresti spiegare solo l'1% della variazione. 
 Ma lo facciamo senza battere ciglio perché ciò che ci interessa è un obiettivo 
 stimatore di un prezzo piuttosto che prevedere solo la quantità. 
 Va bene? 
 Quindi anche il nostro obiettivo è spesso molto diverso. 

English: 
So if we have prices and
if prices responding to observables
in a training set It'll that'll
also be happening in a holdout set.
And so
a lot of the problems we worry about and
argue about in economics cannot be
solved with test sets and training sets.
The thing that can be solved is stuff
about is your functional form a good fit,
but not is there some unobservable.
Okay, so
that's really important to think about.
And then another thing to think about is
causal methods sacrifice goodness of fit
to focus only on the variation in the data
that identifies parameters of interest.
So you probably learn in supply and
demand, you might look for
an instrument for price.
If you just regress quantity on price,
you could get an R squared of 0.95.
Once you instrument for price, you know
your goodness of fit might fall to like,
you might explain only
1% of the variation.
But we do that without batting an eyelash
because what we care about is an unbiased
estimator of a price rather
than just predicting quantity.
Okay?
So our goal is often
very different as well.

Italian: 
 Quindi, solo per dire quello che diciamo rispetto a quello che facciamo in econometria, 
 diciamo che facciamo tutte queste cose inferenza causale. 
 Dio ci ha dato il modello, 
 il Dio dell'economia ci ha detto che dovrebbe essere il reddito al quadrato e 
 non un cubo di reddito, sai, e fingiamo di non selezionare alcun modello. 
 Ma quello che effettivamente facciamo è chiedere ai nostri assistenti di ricerca di realizzare 200 versioni 
 delle nostre regressioni per assicurarci che le cose vadano al meglio. 
 E poi scegliamo quello che sembra il più stabile e 
 riportiamo cinque colonne nei nostri giornali. 
 Quindi in realtà è un po 'disonesto. 
 Ed è anche scomodo per l'assistente di ricerca e il ricercatore. 
 E ci rende vulnerabili a risultati non replicabili e 
 invalida i nostri errori standard. 
 Quindi direi che oggi siamo in una situazione insostenibile in cui fingiamo di essere 
 non fare la selezione del modello. 
 Ma lo facciamo in questo modo ad hoc. 
 Ma perché non sappiamo come segnalare i nostri errori standard se diciamo loro cosa 
 l'abbiamo fatto davvero, mentiamo su quello che abbiamo fatto. 
 Perché non sappiamo come risolverlo. 

English: 
So then just to say what we say
versus what we do in econometrics,
we say we do all these
things causal inference.
God gave us the model,
the God of economics told us that
it should be income squared and
not income cube, you know, and we
pretend we don't do any model selection.
But what we actually do is we get our
research assistants to make 200 versions
of our regressions to make
sure things are our best.
And then we pick the one that
looks the most stable, and
we report five columns in our papers.
So that is actually kind of dishonest.
And it's also uncomfortable for
the research assistant and the researcher.
And it makes us vulnerable to
non replicable findings and
invalidates our standard errors.
So I would argue that today we're in
an untenable situation where we pretend we
don't do model selection.
But we do it in this ad hoc way.
But because we don't know how to report
our standard errors if we tell them what
we really did, we lie about what we did.
Because we don't know how to fix it.

Italian: 
 E quindi quello che direi è che l'apprendimento automatico può aiutarci ad avere un modo sistematico 
 fare la selezione del modello dove possiamo dire ai nostri arbitri cosa abbiamo fatto. 
 Le persone possono riprodurre ciò che abbiamo fatto. 
 E poi se qualcuno trova un risultato diverso da qualche altra parte, possiamo dire, 
 beh, okay, ma ci abbiamo provato, sai, fondamentalmente 
 ha cercato di costruire in forme funzionali utilizzando questo assistente di ricerca robotica. 
 Ed è così che abbiamo selezionato in modo da non essere disonesti con ciò che ti abbiamo mostrato. 
 Forse c'è qualcos'altro a cui non abbiamo pensato, 
 ma questo è il processo che abbiamo seguito per trovare i nostri modelli. 
 Ma noi, come mostro in alcune mie ricerche, quando percorri quella strada, 
 devi fare alcune cose. 
 Devi usare cose come la suddivisione del campione e fare attenzione ai set di test 
 e l'adattamento eccessivo ai propri dati per far funzionare ancora la vecchia econometria. 
 E quindi un modo per pensare a un mucchio di mie ricerche è stato quello di permetterci di portare 
 nei modelli di machine learning per ottenere il meglio da entrambi i mondi. 
 Utilizzare i dati per selezionare i modelli, ma per mantenere tali le nostre proprietà econometriche 
 Posso ancora creare le stesse tabelle con errori standard e 
 così via, che usiamo prima. 

English: 
And so what I would argue is that machine
learning can help us have a systematic way
to do model selection where we can
tell our referees what we did.
People can reproduce what we did.
And then if somebody finds a different
result somewhere else, we can say,
well, okay, but we tried,
you know, we basically
tried to build in functional forms
using this robotic research assistant.
And this is how we selected so we weren't
being dishonest with what we showed you.
Maybe there is something
else we didn't think of,
but this is the process we went
through to find our models.
But we as I show in some of my research,
when you go down that road,
you have to do a few things.
You have to use things like sample
splitting and be careful about test sets
and overfitting to your own data to
still get your old econometrics to work.
And so one way to think about a bunch of
my research has been to allow us to bring
in machine learning models to
get the best of both worlds.
To use the data to select the models, but
to keep our econometric properties so
I can still make the same
tables with standard errors and
so on, that we use before.

English: 
I'm not going to have time
to tell you how I did that.
So you're going to have to
read my papers to see it.
But I just that's the goal.
And really today I just
wanted to set up the goal.
So why don't I pause here and
take questions.
So and then I'll take a break and
then I'll show you in the second part,
which is going to be shorter.
A little bit about some
applications of in panel models,
which I think might be
the one the part of this.
It's most interesting for this audience.
So let me now pause here if we
can turn off the recording.

Italian: 
 Non avrò tempo per dirti come l'ho fatto. 
 Quindi dovrai leggere i miei giornali per vederlo. 
 Ma è solo questo l'obiettivo. 
 E davvero oggi volevo solo impostare l'obiettivo. 
 Allora perché non mi fermo qui e rispondo alle domande. 
 Allora farò una pausa e poi ti mostrerò nella seconda parte, 
 che sarà più breve. 
 Qualcosa su alcune applicazioni dei modelli in panel, 
 che penso potrebbe essere la parte di questo. 
 È molto interessante per questo pubblico. 
 Quindi fammi fare una pausa qui se possiamo disattivare la registrazione. 
