
German: 
Wir arbeiten daran Robotern viele verschiedene Aufgaben beizubringen, ohne diese jedoch für jede Aufgabe speziell programmieren zu müssen.
Hier hat ein Roboter gelernt einen Block in eine von uns vorgegebene Orientierung zu rotieren.
Sobald der Roboter damit Erfolg hatte, geben wir ein neues Ziel vor und so weiter.
Das System verwendet eine menschenähnliche Roboterhand und wir verwenden Reinforcement Learning und

English: 
We're working on teaching robots to solve a wide variety of tasks without having to program them for any one specific task.
Here a robot has learned to rotate a block into any orientation we'd like.
Once it succeeds at that we give it a new goal and so on.
The system runs on a human-like robot hand and we use reinforcement learning and

English: 
simulation to teach the robot how to solve tasks in the real world.
To learn how to solve a task like this,
we show it many different variations of the world where the rules are slightly different every time.
This is a technique called domain randomization and it affects for example the color of the cube and of the background.
However, we take this technique beyond just how the environment looks.
We also randomize aspects like how fast the hand can move, how heavy the block is, and the friction between the block and the hand.
Our learning algorithm sees all of these different worlds and this lets it learn a way of manipulating the block that is very robust.
Robust enough so that eventually we can accomplish the same task in the real world.
To simulate all of these possible variants of the environment,
we've built a system that runs the training processes in the cloud on thousands of machines.
It's called Rapid and we've used the same system before to solve complex video games.
First rollout workers collect experience from many different variations of the environment.
They send this experience data to the optimizer which uses it to improve the parameters of the model controlling the robot.

German: 
Simulationen um dem Roboter beizubringen, die Aufgabe in der echten Welt zu lösen.
Um eine solche Aufgabe erfolgreich zu erlernen,
zeigen wir dem System viele verschiedene Variationen der echten Welt in der die Regeln jedes mal etwas anders sind.
Das ist eine Technik namens "Domain Randomization" und sie beeinflusst zum Beispiel die Farbe des Klotzes und des Hintergrunds.
Allerdings wenden wir die Technik nicht auf die optische Erscheinung der Simulation an.
Wir randomisieren auch beispielsweise, wie schnell sich die Roboterhand bewegen kann, wie schwer der Block ist und die Reibung zwischen dem Block und der Hand.
Unser Lernalgorithmus "sieht" all diese verschiedenen Welten und lernt dadurch den Block auf sehr robuste Art und Weise zu manipulieren.
Robust genug um schlussendlich die Aufgabe in der realen Welt zu lösen.
Um all diese Varianten der Umwelt zu simulieren
haben wir ein System entworfen, welches den Trainingsprozess auf Tausenden von Maschinen in der Cloud ausführt.
Es heißt "Rapid" und wir haben dasselbe System zuvor verwendet, um komplexe Videospiele zu lösen.
Zunächst sammeln "Rollout Worker" Erfahrung von vielen verschiedenen Variationen der Umwelt.
Sie senden diese Erfahrung zum Optimierer um die Parameter des Models, welches den Roboter steuert, zu verbessern.

English: 
Finally updated parameters make their way back to the rollout workers to complete the cycle.
One thing that's very interesting to us is how general the system is.
Not only can it rotate blocks but it can perform tasks with other shapes as well.
If you wanted to write a controller for this task the old-fashioned way
you'd sit down and write out exactly if I'm in this position move this finger in this direction.
If I'm in this other position move here and so on. It's very meticulous.
Instead our system can learn to manipulate objects of all kinds of shapes without any additional human help.
We hope that with this approach we can solve more and more complex tasks in the future so that we can go even further
beyond what today's hand-programmed robots can do.

German: 
Am Ende erhalten die Rollout Worker die aktualisierten Parameter, womit der Kreislauf vollständig ist.
Eine Sache die für uns sehr interessant ist, ist wie Allgemein das System ist.
Es kann nicht nur Klötze rotieren sondern auch Objekte mit anderen Formen.
Falls man dafür eine Steuerung auf die herkömmliche Weise schreiben möchte,
müsste man sich hinsetzen und genau aufschreiben: "Falls ich in dieser Position bin, bewege den Finger in diese Richtung."
"Falls ich in dieser anderen Position bin, bewege dich hierhin." Und so weiter. Es ist ist minutiös.
Stattdessen kann unsere System lernen Objekte mit beliebiger Form zu verwenden ohne die Hilfe von Menschen.
Wir hoffen, dass wir mithilfe dieses Ansatzes in der Zukunft immer komplexere Aufgaben lösen können und noch viel weiter
gehen, als was mit heutigen händisch-programmierten Robotern möglich ist.
