
German: 
Einzelzellendatensätze können viele technische Probleme mit der Variabilität aufweisen.
Jede Zelle erfasst im Allgemeinen eine unterschiedliche Anzahl von Lesevorgängen
Dies führt dazu, dass einige Zellen ein zu niedriges Signal haben, um nützlich zu sein.
Zusätzlich reichen Gene von allgegenwärtigen Housekeeping-Genen,
zu spezialisierten Genen, die nur in bestimmten Zelltypen oder unter bestimmten Bedingungen exprimiert werden.
Verwenden von Normalisierungs- und Filtertechniken,
wir können die Daten vorverarbeiten, um sie für die nachgelagerte Analyse benutzerfreundlich zu machen.
In diesem Video analysieren wir den Datensatz embryonaler Stammzellen von Mäusen
welches Einzelzellsequenzdaten für verschiedene Zellzyklusphasen enthält.
Unsere Daten enthalten eine sehr hohe Anzahl von Genen.
Wie viele davon sind tatsächlich nützlich?
Wir können das Filter-Widget verwenden
und behalten die Gene, die nachgewiesen wurden

English: 
Single cell data sets can have a lot of technical viability issues.
Each cell will generally capture a varying number of reads
which will cause some cells to have too low signal to be useful.
Additionally genes range from ever-present, housekeeping genes,
to specialized genes which are expressed only in particular cell types or under certain conditions.
Using normalization and filtering techniques,
we can pre-process the data to make it friendly for downstream analysis.
In this video we'll analyze mouse embryonic stem cell data set
which contains single-cell sequence data for different cell cycle phases.
Our data contains a very high number of genes.
How many of those are actually useful?
We can use the Filter widget
and retain genes that have been detected

German: 
in mindestens 20 und höchstens 170 Zellen.
Auf diese Weise verwerfen wir die Housekeeping-Gene und die Gene, die kaum jemals entdeckt werden.
Wir haben ungefähr 12.000 Gene beibehalten und unseren Datensatz auf ein Viertel der ursprünglichen Größe reduziert.
Für jede Zelle geben unsere Daten immer noch die Expressionsstärke für jedes Gen an.
Typischerweise unterscheidet sich die gesamte Genexpression von Zelle zu Zelle.
Lassen Sie uns dies mit einem anderen Filter-Widget visualisieren.
Das Filter-Widget kann auch die Anzahl der exprimierten Gene pro Zelle zählen
oder umgekehrt die Anzahl der Zellen, die jedes Gen exprimieren.
Verwenden der logarithmische Darstellung für die Zählachse,
wir sehen, dass die Zellen Gene mit wesentlich unterschiedlichen Raten exprimieren.

English: 
in at least 20 and at most 170 cells.
This way we discard the housekeeping genes and the genes that are hardly ever detected.
We retained about 12,000 genes reducing our dataset to a quarter of the original size.
For each cell our data still reports the expression strength for each gene.
Typically the total gene expression differs from cell to cell.
Let's visualize this with another Filter widget.
The Filter widget can also count the number of expressed genes per cell
or vice-versa the number of cells expressing each gene.
Using the log scale for the count axis,
we see that the cells express genes at substantially different rates.

English: 
If we were to process data in this form, some cells would have more say in the analysis than the others.
To solve this problem, we'll use pre-processing.
We'll do the pre-processing in the Single Cell Preprocess widget
which we will connect to the output of the gene filtering widget.
Let's also rename the latter for convenience and interpretability of the workflow.
In the Single Cell Preprocess widget,
we can specify an ordered list of steps for data pre-processing and transformation.
By default, the widget shows some standard pre-processing steps, which we will remove to start fresh.
Typically we would start by normalizing the gene expression of each cell.
In other words, the gene expressions will sum to the same number for each cell.
So far, we haven't done anything about the genes yet.
Let's check the distribution of expression values for each gene.

German: 
Wenn wir Daten in dieser Form verarbeiten würden, hätten einige Zellen mehr Einfluss auf die Analyse als die anderen.
Um dieses Problem zu lösen, verwenden wir die Vorverarbeitung.
Wir werden die Vorverarbeitung im Widget "Einzelzellen-Vorverarbeitung" durchführen
die wir mit der Ausgabe des Genfilter-Widgets verbinden.
Benennen Sie letzteres auch um, um den Workflow zu vereinfachen und zu interpretieren.
Im Widget "Einzelzell Vorverarbeitung"
wir können eine geordnete Liste von Schritten für die Datenvorverarbeitung und -transformation angeben.
Standardmäßig zeigt das Widget einige Standardvorverarbeitungsschritte an, die wir entfernen, um neu zu starten.
Typischerweise beginnen wir mit der Normalisierung der Genexpression jeder Zelle.
Mit anderen Worten, die Genexpressionen summieren sich für jede Zelle auf die gleiche Anzahl.
Bisher haben wir noch nichts gegen die Gene unternommen.
Lassen Sie uns die Verteilung der Expressionswerte für jedes Gen überprüfen.

English: 
We will use Orange's Distribution widget.
The distribution of expression values varies wildly for most genes.
Say for the gene Gpr107, the distribution has a very long tail.
Other genes, like Pih1d2, show little variance and will have a negligible effect on the analysis.
We can filter out low varying genes by adding an additional pre-processing step.
Let's keep only 1000 most variable genes
where we will compute the statistics on the entire set of genes.
We can also solve the long tail problem by log scaling the expression values.
Looking at the data after the pre-processing,
we can see that gene expressions are now more evenly distributed.
To wrap up, let's look at our data in a t-SNE plot.

German: 
Wir werden das Distributions-Widget von Orange verwenden.
Die Verteilung der Expressionswerte variiert für die meisten Gene stark.
Für das Gen Gpr107 zum beispiel, die Verteilung hat einen sehr langen Schwanz.
Andere Gene wie Pih1d2 zeigen eine geringe Varianz und haben einen vernachlässigbaren Einfluss auf die Analyse.
Wir können niedrig variierende Gene herausfiltern, indem wir einen zusätzlichen Vorverarbeitungsschritt hinzufügen.
Lassen Sie uns nur 1000 variabelste Gene behalten.
Hier werden wir die Statistiken über den gesamten Satz von Genen berechnen.
Wir können das Long-Tail-Problem auch lösen, indem wir die Ausdruckswerte logarithmisch skalieren.
Betrachten der Daten nach der Vorverarbeitung,
wir können sehen, dass die Genexpressionen jetzt gleichmäßiger verteilt sind.
Lassen Sie uns zum Abschluss unsere Daten in einem t-SNE-Diagramm betrachten.

English: 
We can see that the cells separate based on cell cycle stage.
Now this may or may not be desirable so stay tuned for next episodes,
where we will discuss the infamous batch effects

German: 
Wir können sehen, dass sich die Zellen basierend auf dem Zellzyklusstadium trennen.
Nun kann dies wünschenswert sein oder auch nicht, also bleiben Sie dran für die nächsten Folgen,
wo werden wir die berüchtigten Batch-Effekte diskutieren
