
English: 
Elle O'Brien:
Hi, I'm Elle, and this is DeeVee, and I'm
going to attempt to explain DVC in a couple
of minutes using no code. Machine-learning
models are a special animal. They're not completely
defined by the code that you use to specify
them or by the dataset that they're trained
on, they're a reflection of both of those
pieces, and so every possible way of changing
our dataset, changing the way we process our
dataset, and changing our code represents
its own experiment, and a machine learning
project as a whole is like a family of all
of these different models, and so the complexity
is huge. It's not complexity in Big O notation,
I'm talking about the complexity of all of
the possible models that we could've created
from every version of our dataset, all of
the different ways we tried transforming it,
and all of the ways that we tried modeling
it.
Elle O'Brien:
The complication from this is that it becomes
very difficult to log what we've already done,
to reproduce what we've done, to share what

Italian: 
 Elle O'Brien: Ciao, sono Elle, e questa è DeeVee, e io sono 
 tenterò di spiegare DVC in un paio di minuti senza utilizzare alcun codice. Apprendimento automatico 
 i modelli sono un animale speciale. Non sono completamente definiti dal codice che usi per specificare 
 loro o dal set di dati su cui sono addestrati, sono un riflesso di entrambi 
 pezzi, e quindi ogni modo possibile di modificare il nostro set di dati, cambiando il modo in cui elaboriamo il nostro file 
 set di dati e la modifica del codice rappresenta il proprio esperimento e un apprendimento automatico 
 il progetto nel suo insieme è come una famiglia di tutti questi diversi modelli, e quindi la complessità 
 è enorme. Non è complessità nella notazione Big O, sto parlando della complessità di tutto 
 i possibili modelli che avremmo potuto creare da ogni versione del nostro set di dati, tutti 
 i diversi modi in cui abbiamo provato a trasformarlo e tutti i modi in cui abbiamo provato a modellarlo 
 esso. 
 Elle O'Brien: La complicazione è che diventa 
 molto difficile registrare ciò che abbiamo già fatto, riprodurre ciò che abbiamo fatto, condividere cosa 

Italian: 
 abbiamo fatto, e tutto intorno, rende difficile l'apprendimento automatico per nessuno dei motivi divertenti 
 che la maggior parte di noi ci riesce, quindi abbiamo bisogno di strumenti che ci aiutino ad affrontare questa complessità, e 
 abbiamo un paio di vincoli per la nostra soluzione. Vogliamo che sia estremamente flessibile. Idealmente, 
 funzionerebbe con qualsiasi linguaggio di programmazione, qualsiasi framework di apprendimento automatico, qualunque cosa, 
 e vogliamo che sia abbastanza semplice da imparare sulla base di tutti gli strumenti che le persone 
 stiamo già utilizzando per gestire progetti software perché vogliamo mantenere il carico cognitivo 
 luce. 
 Elle O'Brien: La filosofia alla base di DVC è quella di utilizzare 
 uno strumento molto popolare e di grande successo per la gestione della complessità dello sviluppo del software 
 progetti, che è il controllo della versione di Git ed estenderlo in modo da poterlo utilizzare per la scienza dei dati 
 e machine learning, quindi cercherò di dimostrare perché questo richiede uno strumento che utilizzi 
 solo alcuni oggetti da casa mia. 
 Elle O'Brien: Ho queste schede che possono rappresentare 

English: 
we've done, and all around, it makes machine
learning difficult for none of the fun reasons
that most of us get into it, so we need tools
to help us deal with this complexity, and
we have a couple of constraints for our solution.
We want it to be extremely flexible. Ideally,
it would work with any programming language,
any machine learning framework, whatever,
and we want it to be pretty straightforward
to learn based on all the tools that people
are already using to manage software projects
because we want to keep the cognitive load
light.
Elle O'Brien:
The underlying philosophy of DVC is to use
a tool that's really popular and really successful
for managing the complexity of software development
projects, which is Git version control and
extend it so that we can use it for data science
and machine learning, so I'm going to attempt
to demonstrate why this requires a tool using
only some objects from around my house.
Elle O'Brien:
I've got these index cards which can represent

English: 
the files in my project. Maybe I've got a
script to pull the data from storage, a script
to a clean it, a script to process and featurize
it, and a script to model it. These are lightweight,
right, they're easy, and I want to use Git
to take a snapshot of my project at any point
in time, and so Git commits are a snapshot,
and so Git is built for lightweight files,
right? It handles little files, so we can
take a snapshot, we can just make a copy of
everything in our project at some state and
time and then we can have a bunch of these
commits and that means we can always revert
back to "Oh, where was I right then? What
did it look like?" Easy, great, works for
everyone.
Elle O'Brien:
Except when you have really big files. In
data science, your datasets and your models
are big, right? They're not index cards anymore,
they're more like the fourth book in The Twilight
Saga. This came with my house. Books one through

Italian: 
 i file nel mio progetto. Forse ho uno script per estrarre i dati dalla memoria, uno script 
 per pulirlo, uno script per elaborarlo e caratterizzarlo e uno script per modellarlo. Questi sono leggeri, 
 giusto, sono facili e voglio usare Git per scattare un'istantanea del mio progetto in qualsiasi momento 
 nel tempo, quindi i commit di Git sono un'istantanea, quindi Git è progettato per file leggeri, 
 giusto? Gestisce piccoli file, quindi possiamo scattare un'istantanea, possiamo solo fare una copia di 
 tutto nel nostro progetto in un determinato stato e momento e poi possiamo averne un mucchio 
 si impegna e questo significa che possiamo sempre tornare a "Oh, dov'ero proprio allora? Cosa 
 sembrava? "Facile, fantastico, funziona per tutti. 
 Elle O'Brien: Tranne quando hai file molto grandi. Nel 
 la scienza dei dati, i tuoi set di dati e i tuoi modelli sono grandi, giusto? Non sono più schede indice, 
 sono più come il quarto libro di The Twilight Saga. Questo è arrivato con casa mia. Libri uno attraverso 

English: 
three are not here, I only have this book.
I don't know. Anyway, it's not going to fit
in my Git repository, so what we can do is
take another very lightweight file and I can
write down on this file where I'm going to
store this book. I could write on this, "Okay,
I'm going to store it on the third shelf of
my bookshelf, second from the left," and then
I can put this in my Git commit and boom,
now I've got way to access my dataset, even
though I'm not trying to fit this dataset
into my Git repository.
Elle O'Brien:
That's the gist of DVC. Lots of people engineer
their own ways to do this, it's a pretty popular
approach, but the point of the DVC open-source
project is to really polish and standardize
this so that people don't have to engineer
this themselves every time they want to be
Git versioning and keeping track of their
big files like models and datasets.
Elle O'Brien:
DVC is more than just that one trick, so starting

Italian: 
 tre non sono qui, ho solo questo libro. Non lo so. Comunque, non andrà bene 
 nel mio repository Git, quindi quello che possiamo fare è prendere un altro file molto leggero e posso farlo 
 annotare su questo file dove memorizzerò questo libro. Potrei scrivere su questo, "Okay, 
 Lo conserverò sul terzo scaffale della mia libreria, il secondo da sinistra ", e poi 
 Posso metterlo nel mio commit Git e boom, ora ho anche modo di accedere al mio set di dati 
 anche se non sto cercando di adattare questo set di dati nel mio repository Git. 
 Elle O'Brien: Questo è il succo di DVC. Molte persone ingegnere 
 i loro modi per farlo, è un approccio piuttosto popolare, ma il punto dell'open source DVC 
 progetto è quello di lucidare e standardizzare davvero questo in modo che le persone non debbano ingegnerizzare 
 questo stesso ogni volta che vogliono eseguire il controllo delle versioni di Git e tenere traccia dei loro file 
 file di grandi dimensioni come modelli e set di dati. 
 Elle O'Brien: DVC è più di un semplice trucco, quindi iniziare 

Italian: 
 dall'idea di utilizzare meta file per versioni di dataset e modelli, oltre alle pratiche culturali 
 riguardo all'uso di Git, abbiamo creato alcune altre funzionalità che tendono ad essere piuttosto popolari. Condutture 
 sono un modo interessante per legare insieme set di dati a script a modelli e versioni che come pipeline. 
 Un'altra cosa interessante sono le metriche e i grafici, quindi le metriche DVC ti consentono di confrontare le prestazioni del modello 
 tra i commit e, di recente, abbiamo aggiunto grafici in modo da poter visualizzare come ha un modello 
 cambiato tra i commit. Un altro valore è l'integrazione continua, quindi è l'integrazione continua 
 un'idea davvero fondamentale in DevOps per automatizzare i test frequenti del tuo progetto, e così via 
 DVC, puoi utilizzare sistemi di integrazione continua per automatizzare i test del tuo machine learning 
 Modelli. 
 Elle O'Brien: Questo è lo scopo di DVC. C'è un open-source 
 comunità, quindi molto sviluppo attivo. C'è praticamente sempre qualcosa che è 
 fatto, quindi consiglio vivamente di controllare il repository del progetto. Erano i miei cinque minuti 

English: 
from the idea of using meta files to version
datasets and models, plus the cultural practices
around using Git, we've built some other features
that tend to be pretty popular. Pipelines
are a cool way to tie together datasets to
scripts to models and version that as a pipeline.
Another cool thing is metrics and plots, so
DVC metrics allow you to compare model performance
across commits, and recently, we added plots
so that you can visualize how a model has
changed across commits. Another value is continuous
integration, so continuous integration is
a really foundational idea in DevOps for automating
frequent tests of your project, and so with
DVC, you can use continuous integration systems
to automate testing of your machine learning
models.
Elle O'Brien:
That's the scope of DVC. There is an open-source
community, so lots of active development.
There's pretty much always something being
made, so I definitely recommend checking out
the project repository. That was my five-minute

English: 
explanation. How did I do? Let me know in
the comments. Any questions, we'll try to
answer them, and thank you for watching.

Italian: 
 spiegazione. Come sono andato? Fatemi sapere nei commenti. Per qualsiasi domanda, proveremo a 
 rispondi e grazie per aver guardato. 
