
Turkish: 
Hemen hemen her durumda yeni bir yardımcı işlev veriliyorsa,
Mevcut fayda fonksiyonunuz için çok düşük bir oran.
Yani bu bir problem.
Eğer öğretebileceğiniz bir şey inşa etmek istiyorsanız, bu onun işlevini değiştirebilmek istediğiniz anlamına gelir.
Ve seninle savaşmasını istemiyorsun.
Bu yüzden, AGI'nin 'düzeltilebilirlik' olarak adlandırmasını istediğimiz bu özellik olarak, bu resmileştirildi.
Demek ki düzeltilmeye açık.
Tamamlanmadığını, çalışmakta olan fayda fonksiyonunun hepsi olmadığını ve hepsinin bitmediğini anlar.
Diyelim ki örneğin AGI'niz var. Bu süper bir istihbarat değil, sadece sizin bildiğiniz, belki de insani istihbaratın etrafında.
Ve kucağındaki bir robotta.
Ve sen test ediyorsun.
Ama bir kez ... belki bunun tehlikeli olduğunu söyleyen bir Youtube videosu izlediniz.

English: 
In almost any situation being given a new utility function,
Is gonna rate very low on your current utility function.
So that's a problem.
if you want to build something that you can teach, that means you want to be able to change its utility function.
And you don't want it to fight you.
So this has been formalized, as this property that we want early AGI to have called 'corrigibility'
That is to say it is open to be corrected.
It understands that it's not complete, that the utility function that it's running is not the be all and end all.
So let's say for example you've got your AGI. It's not a super intelligence, it's just you know, perhaps around human level intelligence.
And it's in a robot in your lap.
And you're testing it.
But you... saw a Youtube video once that said maybe this is dangerous.

English: 
So you thought, okay well we'll put a big red stop button next to it.
This is the standard approach to safety with machines. Most robots in industry and elsewhere will have
a big red stop button on them.
Oh yeah
Hey.
I happen to have a button, of appropriate type.
so
and we have
we have that.
So right... there you go.
Alright, so, so
if only HAL would've been fitted with said stop button.
Can't do that Dave, uh yes I can.
except yeah, probably not.
I know that you and Frank were planning to disconnect me.
And I'm afraid that's something I cannot allow to happen.
That was an incorrigible design.
Is this the point we're making? Kind of.
You've got your big stop button,

Turkish: 
Sen de düşündün, tamam, yanına büyük kırmızı bir stop butonu koyacağız.
Bu, makinelerle güvenliğe standart yaklaşımdır. Sektördeki ve başka yerlerdeki çoğu robotun
üzerlerinde büyük bir kırmızı durdurma düğmesi.
Ah evet
Hey.
Uygun tipte bir düğme var.
yani
ve biz var
bizde var.
Yani doğru ... işte gidiyorsunuz.
Tamam, yani
Keşke HAL'e sadece durma düğmesi takılmış olsaydı.
Bunu yapamam Dave, evet yapabilirim.
evet hariç, muhtemelen değil.
Frank’le bağlantınızı kesmeyi planladığınızı biliyorum.
Ve korkarım ki bunun olmasına izin veremem.
Bu çözülemez bir tasarımdı.
Yaptığımız nokta bu mu? Biraz.
Büyük durdurma düğmeniz var.

Turkish: 
çünkü güvende olmak istiyorsun. Tehlikeli olduğunu biliyorsun.
Ve fikir şu ki AI bir şey yapmaya başlarsa
belki yapmasını istemezsin,
Düğmeye dokunacaksınız ve düğme benziyorsa, göğsüne monte edilmişse, bunun gibi bir şey olduğunu bilirsiniz.
Böylece bir şey yaratırsınız, bir hedef belirlersiniz ve pul koleksiyoncusu ile aynı temel tipte bir makinedir, ancak daha az güçlüdür.
Bu anlamda bir amacı var, maksimize etmeye çalıştığı bir şey,
ve bu durumda, bilirsin, küçük bir robot gövdesinde
Böylece laboratuarında dolaşıp bir şeyler yapabilirler.
Demek sen, tıpkı bir test olarak sana bir fincan çay getirmesini istiyorsun, değil mi?
Yani, bunu belirtmeyi başardığınız bu amaç ile oluşturdunuz.
bot AI's ontolojisinde olduğu gibi
bir bardak çay nedir ve sen
birinin senin önünde olmasını istiyorum.
Sen aç ve etrafa bakıyor, toplar
veri ve diyor ki evet
orada mutfak bir su ısıtıcısı var
ve çay poşetleri var ve bu gibi
Bunu yapmamın en kolay yolu
Şu an sahip olduğum bedenle hedef ve
her şey oraya gitmek ve

English: 
because you want to be safe. You understand it's dangerous.
And the idea is if the AI starts to do anything
that maybe you don't want it to do,
you'll smack the button, and if the button's like, mounted on its chest, something like that, ya know.
So you create the thing, you set it up with a goal, and it's the same basic type of machine as the stamp collector, but less powerful.
In the sense it has a goal, a thing that it's trying to maximize,
and in this case, you know, it's in a little robot body
so they can tootle around your lab and do things.
So you, you want it to get you a cup of tea just as a test, right?
So you set it up with this goal you manage to specify in
the bot's like in the AI's ontology
what a cup of tea is and that you
want one to be in front of you.
You switch it on and it looks around, gathers
data and it says oh yeah there's a
kitchen over there it's got a kettle
and it's got teabags and this is like
the easiest way for me to fulfill this
goal with the body i have now and
everything setup is to go over there and

English: 
make a cup of tea. So far we're doing
very well right. So it starts driving over
but then oh no you forgot it's bring
your adorable baby to the lab day or
something and there's a kid
in the way. Your utility function only
cares about tea right. So it's not going
to avoid hitting the baby. So you rush
over there to hit the button
obviously as you built it in and what
happens of course is that the robot will
not allow you to hit that button because it
wants to get you a cup of tea and if you
hit the button it won't get you any tea so
this is a bad outcome so it's going to
try and prevent you in any way possible
from shutting it down
that's a problem plausibly it fights you
off crushes the baby and then carries on
and makes you a cup of tea and the fact that
this button is supposed to turn it off
is not in your utility function that you

Turkish: 
bir bardak çay yap. Şimdiye kadar yapıyoruz
çok iyi. Böylece sürmeye başlar
ama sonra oh hayır, getirdiğini unuttun
senin bebeğin laboratuvar günü
bir şey ve bir çocuk var
yolda. Yalnızca yardımcı işleviniz
çay doğru umurunda değil. Yani gitmiyor
bebeğe vurmamak için. Yani acele ediyorsun
düğmeye basmak için şurada
Belli ki içine yerleştirdiğin gibi
Elbette olur robot olacak
bu düğmeye basmana izin verme çünkü
sana bir bardak çay almak istiyor
düğmeye basman sana çay getirmez
Bu kötü bir sonuçtur.
mümkün olan her şekilde sizi engellemeye çalışın
kapatmaktan
bu makul bir problem, seninle savaşıyor
off bebeği eziyor ve sonra devam ediyor
ve bir bardak çay yapar ve bu gerçeği
bu düğmenin kapatması gerekiyordu
sizin yarar fonksiyonunuzda değil

English: 
gave it so obviously it's going to fight
you
ok that was a bad design right assuming
you're still working on the project
after the terrible accident and you have
another go try to improve things right
and rather than read any AI safety
research what you do is just come up
with the first thing that pops into your
head and you say
ok let's add in some reward for the
button so that because what it's looking
at right now is it says button gets
hit i get 0 reward. Button doesn't get
hit if I manage to stop them then I get
the cup of tea i get like maximum reward
if you give some sort of compensation
for the button being hit maybe it won't
mind you hitting the button. If you give it
less reward for the button being hit
than for getting tea, it will still fight you
cause it will go well I could get five reward
for accepting your hitting the button
but I could get 10 for getting the tea
so I'm still gonna fight you.
The button being hit has to be just as
good as getting the tea so you give it the

Turkish: 
açıkça belli ki dövüşecek
sen
tamam, varsayım kötü bir tasarımdı.
hala proje üzerinde çalışıyorsun
Korkunç kazadan sonra
bir başkası gitmek, işleri düzeltmeye çalış
ve herhangi bir AI güvenliğini okumak yerine
araştırma ne yaptığını sadece gelip
içine açılan ilk şeyle
baş ve sen söyle
tamam, biraz ödül ekleyelim.
düğme öyle ki, çünkü neye bakıyor
şu anda düğme diyor diyor
0 ödülü kazandım. Düğme anlamıyor
onları durdurmayı başarırsam vururum sonra alırım
çay bardağı maksimum ödül gibi olsun
eğer bir çeşit tazminat verirsen
butona çarptığında belki olmaz
Düğmeye basmana dikkat et. Eğer verirsen
düğmeye basıldığında daha az ödül
çay almaktan daha çok seninle savaşacak
çünkü iyi olacak çünkü beş ödül alabilirim
düğmeye basmayı kabul ettiğin için
ama çayı aldığım için 10 alabilirim
bu yüzden hala seninle savaşacağım.
Vurulacak düğmenin olduğu gibi olması gerekir
Çayı almak kadar güzel,

English: 
same value right so so now you've got a
new Version 2. You turn it on
and what it does immediately is shut
itself down because that's so much
quicker and easier than going and
getting the tea and gives exactly the
same reward
Why would it not just immediately shut
itself down? So you've accidentally
made like a dramatically suicidal robot.
We're kind of back to the Three Laws of
Robotics again but could you presumably
say well the robot is not allowed to to
shut itself down or something like that? Right
yeah so. It's still a reward if it does
so it's not gonna fire you but it's not
allowed to do itself i'm guessing that's
a possibility. The robot cares about
things in the real world and the button
whether it's pushed or not has a big
effect on the things that the robot cares
about which means that the robot cares
about the button so either it's trying

Turkish: 
Aynı değer, yani, şimdi bir
Yeni Sürüm 2. Açın
ve ne yapar derhal kapanır
kendini aşağı çünkü bu çok
gitmekten daha hızlı ve daha kolay
çay almak ve tam olarak verir
aynı ödül
Neden hemen hemen kapanmıyor?
kendisi aşağı? Yani kazara
dramatik bir intihar robotu gibi yapılmış.
Üç Yasaya geri döndük.
Yine Robotik ama muhtemelen
Diyelim ki robotun yapmasına izin verilmez.
kendini kapatma ya da onun gibi bir şey mi? Sağ
evet öyle. Varsa hala bir ödül
bu yüzden seni kovmayacak ama değil
kendini yapmasına izin verildiğini tahmin ediyorum
bir olasılık. Robot umrunda
gerçek dünyadaki şeyler ve düğme
itilmiş olsun veya olmasın
Robotun umursadığı şeylere etkisi
robotun umrunda ki
düğmesi hakkında yani çalışıyor

English: 
to stop you from pressing the button or
it's trying to press the button. Either
way that's not what you want
so suppose then you don't mount the
button on its chest where it can hit it
right. You put the button somewhere only
you can hit it somehow you managed to
completely isolate the bot from the
button. It's a fingerprint scanner or something?
It's yeah it's something that it can't do
itself right. It still either wants to
press the button
or wants the button not to be pressed but now
the only path is through you
so it's now incentivised to manipulate
you to deceive you to lie to you in some
way either to cause you to not press it to
cause you to press it if you somehow
managed to persuade it it's not allowed to
interact with the button itself so in
the case where it wants the button not
to be pressed it has a reason to deceive

Turkish: 
düğmesine basmanızı durdurmak için
düğmesine basmaya çalışıyor. ya
istediğin bu değil
öyleyse varsayalım ki
göğsündeki butona basabileceği yer
sağ. Düğmeyi sadece bir yere koydun
bir şekilde başarabildiğini vurabilirsin
botu tamamen
buton. Parmak izi tarayıcı mı?
Evet, yapamayacağı bir şey.
kendisi doğru. Hala ya istiyor
düğmesine basın
veya butona basılmamasını ama şimdi basılmasını istiyor
tek yol senin aracılığıyla
bu yüzden şimdi manipüle etmeye teşvik edildi
aldatman için sana yalan söylemem için
ya da basmamanıza neden olacak şekilde
nedense basmana neden
ikna etmeyi başardı, buna izin verilmiyor
düğmenin kendisi ile etkileşime girme
butonun istemeyeceği durumda
basılmak için aldatmak için bir neden var

Turkish: 
bu örnekte siz yönlendirirsiniz
bebeğin etrafında bebeği önlerdi
temel seviyeye sahip olduğunu varsayarsak
İstemediğini bilmek için istihbarat
bebeğe vurmak ve dahası
senin hatanın farkına varacaksın
buton
kapat ve değiştir onu
istemiyor, sanki davranacak gibi
bu bir terim var ki ben
burada kullanmak gibi ben emin değilim
kullanmalıyım çünkü bu benim
ki bu senin Volkswagen olacak.
Böylece kendini kuracak
içinde düzgün davrandığını
gerçeğe rağmen test ortamı
aslında geçmemesi gerektiğini
Ölçek. Bunu görmek için test ediyorsun
bebeklerin üzerinden koşmaktan kaçınır. Yani
görmeye çalışıyorsun, umursuyor mu?
insanlara zarar vermek ama aslında hepsi
umrunda değil vuramazsın
düğmesini ve böylece o zaman bir son

English: 
you so in this example it would steer
around the baby it would avoid the baby
assuming it has basic level of
intelligence to know you don't want it
to hit the baby and moreover if you
realize your mistake you will hit the
button
shut it down and change it which it
doesn't want so it will behave as though
this is a there's a term which i
like to use here i'm not sure if I
should just use it because it's my own
which is that it will Volkswagen you.
That it will set itself up so
that it it behaves properly in the
testing environment despite the fact
that it actually shouldn't pass the
test. You're testing it to see if it
avoids running over babies. So
you're trying to see does it care about
harming humans but actually all it
cares about is you not hitting the
button and so then you might end up in a

Turkish: 
ikna edildiğin durum
bu şey tamamen güvenli çünkü
tüm ahlaki değerinden geçiyor
bulmacalar ve verdiğiniz test
aslında sadece bir
Psikolojinizi anlayabilmek
ne düşündüğünü ve ne düşündüğünü
ne istersen istiyor, öyle olsun
bu düğme yapabildiği sürece
kapatmak, denemeye devam edecek
seni aldatmak için
olamayacağına inandığı durum
sus ve sonra bir sorunun var
yanlışlıkla
düğmesini isteyen bir şey yapmak
vurulmak ama yapamamak
Sizi basmaya zorlarsanız
düğmesine bir şey yaratırsanız
tamam de
düğme ise bana bir bardak çay yap
vur kendini kes
kendini kapatmana izin verilmiyor
düğmeye basmanıza izin verilmiyor ama
düğme, kazandığınız ödüldür
çay almakta iyi
bu makineyi tercih etmiyorsun

English: 
situation in which you become convinced
that the thing is perfectly safe because
it keeps passing all of your moral
puzzles and test that you give it but
actually it's just has enough of an
understanding of your psychology to tell
what it thinks you've put in and what it
wants of what you want rather so it will
for as long as that button is able to
shut it down it will continue to attempt
to deceive you until it's in a
situation in which it believes it can't
be shut down and then you have a problem
on the other side if you accidentally
make something that wants the button to
be hit but is unable to it is going to
try and manipulate you into pressing the
button so if you create your thing you
say okay
make me a cup of tea if the button is
hit shut yourself down
you aren't allowed to shut yourself down
you aren't allowed to hit the button but if
the button is hit the reward you get is
just as good at getting the tea so that
you don't have a preference this machine

Turkish: 
gerçekten kendi düğmesine basmak istiyor çünkü
çay almak kadar iyidir
muhtemelen yapması muhtemel olan şey sadece bir
sana ya da sadece bir şey salıncak
hemen çünkü hızlıca yapabiliyorsa
eğer düğmeye basmaya sizi ikna ederseniz
düğmeye basmak seni korkutuyor
Çayı almaktan daha kolay
bunun yerine, gerçekten kibar olanı yap
beklediğiniz sonuçlardan
Bu mantıklı makul şey
sondaj ödülleri ve ne yapar
hemen seni korkutmaya çalışıyor
bana meşhur havuçları hatırlatıyor
ve bir sopa bu neredeyse bu böyle
sopa ve aslında ihtiyacımız olan
Havuç ne olduğunu bulmak
söylenecek adil şey
evet evet evet gerçekten istemeyi istiyorsun
ilginç çünkü sahip
düğmenin olup olmadığını umursamamak
doğru bastırılmış çünkü almak zorunda
denemek ve düğmenin
basılmak ve denemek için hiçbir adım atmamak
düğmeye basılmasını önlemek
ama yine de gerçekten umursuyor

English: 
really wants to hit it's own button because
that's as good as getting the tea so
what it's likely to do probably is just take a
swing at you or something just
immediately because if it can quickly
persuade you to hit the button if
scaring you into hitting the button is
easier than getting the tea it will just
do that instead which is a really kind
of unexpected outcome that you've made
this thing with perfectly reasonable
sounding rewards and what it does
immediately is try to terrify you
it reminds me of the proverbial carrots
and a stick this this is almost like this
is the stick and actually we need to
find what the carrot is would that be a
fair thing to say
yeah yeah you want it to actually want
it it's interesting because it has
to not care about whether the button is
pressed right because it has to take
no steps to try and cause the button to
be pressed and take no steps to try and
prevent the button from being pressed
but nonetheless really care that the

English: 
button exists so one thing that you
can do something slightly more sensible
is you define the utility function such
that the whole part of of what it's
really trying to achieve in the world
and the part about paying attention to
the button being pressed and turning
itself off and it sets it up so that
those it adds an adjustment tab so that
those are always exactly equal however
however much value it would get from
either it being pressed it not being
pressed it normalizes those so that it's
always completely indifferent to whether
the button is being pressed. It just doesn't
care
so that way it will never try and hit
the button on its own it will never try
and prevent you from hitting the button
that's the idea that's a fairly sensible
approach it has some of its own problem
feels like a really complicated thing to
evaluate to be honest
yeah firstly yeah it is kind of tricky
and you have to get it right but that's
always the always part of this but one

Turkish: 
düğmesi var ki öyle ki
biraz daha mantıklı bir şey yapabilir
fayda fonksiyonunu tanımlıyor musunuz
bütün bunların parçası
gerçekten dünyada başarmaya çalışıyor
ve dikkat edilmesi gereken kısım
düğmeye basılıyor ve dönüyor
kendini kapalı ve o kurar ki
Bunlar bir ayar sekmesi ekler ki
bunlar her zaman tam olarak eşittir
ne kadar değer alacağı
ya basılıyor
bastırdı ki normalleştiriyor ki
her zaman tamamen olup olmadığını belirsiz
düğmesine basılıyor. Sadece değil
bakım
bu şekilde asla denemez ve çarpmaz
tek başına düğmesini asla denemez
ve düğmeye basmanı engelle
Bu oldukça mantıklı bir fikir
yaklaşım kendi sorunu bazı vardır
gerçekten karmaşık bir şey gibi hissediyorum
dürüst olduğunu değerlendir
evet ilk önce evet biraz zor
ve doğru anlamalısın ama bu
her zaman her zaman bunun bir parçası ama bir

Turkish: 
bununla ilgili ilginç olan şey
subagent denilen şey değil
bu yüzden kararlı bir şey
arzulanan özellik ve onun bir parçası
aslında bu kadar kolay anlaşılırlık
eğer bazı özellikler varsa
ajan yaparsa ister misin
buna sahip olacakları yeni ajanlar
Mülkiyet de öyle olsun ki
aynı şekilde hiçbir şey için
olacak bir hap almak istemiyorsun
Çocuklarını öldürmek istemeni sağla
ayrıca bir klonu yapmak istemiyorsun
Çocuğunu öldürmek isteyen çocuğu
başka bir örneğini yapıyorsun
kendin mi yoksa bir ajan mı yaratıyorsun?
bunu istediğini istemesini istiyorsun
her zamanki gibi klasik disney çıkış yolu gibi
Baddie karakteri için bir problemin olduğu yer
gittiler bunu yapmama izin yok ama o
bu kişiyi alamayacağım anlamına gelmez
bunu benim için yap
Genç bir çift bacağına ve kuvvetli bir şeye ihtiyacım var
ondan sonra geri dönmek için
Bir AI tasarladığında tam olarak böyle

English: 
thing that's interesting about that is
that it isn't what's called subagent
stable so this is something that is a
desirable property and it's part of
corrigibility in fact which is that
the if there's some property that the
agent has you want it to if it makes
any new agents that they will have this
property as well so you get some of that
for nothing like in the same way that
you don't want to take a pill that will
make you want to kill your kids
you also don't want to make a clone of
yourself that wants to kill your kids right if
you're making another instance of
yourself or you're creating some agent
you want it to want what you want this
is like the usual classic disney way out
of a problem for a baddie character where
they go I'm not allowed to do this but that
doesn't mean I can't get this person to
do this for me
I need a young pair of legs and a strong
back to go in after it
exactly so in general when an AI designs

Turkish: 
halefi, kullandığı işlev işleviyle tasarlayacaktır.
aynı sebep, ancak bazılarının aksine
AI'nın olacağı güvenlik önlemleri
açıkça kaldırmak için motive
Yeni yaparak güvenlik önlemleri
Bu konuda onları takip etmeyen ajanlar
Bu umursamıyorsa düşünebilirsin
peki sen iyisin o zaman umursamıyor
güvenlik önlemlerini kaldırmayacak
Ayrıca, herhangi bir çaba sarf etmeyecektir.
yeni bir şey yapıyorsa onları koruyun
sürüm ve birkaç sürer
koymak için ekstra saniye
oh ve aynı zamanda
düğme ve başka bir şey yapabilir
o zaman veya bu kaynaklarla
sadece yapmayacak çünkü o görünüyor
yardımcı programlar ve düğmesine basıldığında diyor
düğme değilse x yardımcı programını alıyorum
bastırdım tam olarak aynı yardımcı programı
bu kod parçası hiçbir şey yapmaz
içinde doğru gelin bu olacak
kendisini optimize etmek veya optimize etmek
halefi bir şekilde
evet öyle olduğunu düşünüyorum
potansiyel olarak düzene ama aslında
noktasını eksik ve bu

English: 
its successor it will design it with the same utility function as it has for
the same reason but unlike with some
safety measures where the AI will be
explicitly motivated to remove the
safety measures if it can by making new
agents which doesn't follow them in this
case it doesn't care so you might think
well you're okay then it doesn't care it
won't remove the safety precautions but
it also won't to put in any effort to
keep them so if it's making a new
version and it would take a couple of
extra seconds to put in
oh and also respond appropriately to the
button and it could do anything else
with that time or those resources it
just won't do it because it looks at the
utilities and says if the button is pressed
i get x utility if the button isn't
pressed i get exactly the same utility
this bit of code does nothing there's no
point in it right this is going to be
optimizing itself or optimizing its
successor in a way that
yeah it think is being
streamlining potentially but actually
is missing the point of and that's

Turkish: 
eğer verirsen kaçınılmaz
istediği bir durumu olmak
düğmeyi olabildiğince
bastırdı çünkü istiyor
düğmesini isteyen bir şey yaptım
basılmak ve sizi denemek ve manipüle edecek
bildiğin gibi yaparsan
hangi şekilde yaparsan yap
sorunlar
insanların düşündüğü başka bir şey
bir şey önerisi olarak biliyorsun
Bu durumda deneyebilirsin
sadece robotun AI'yı bilmemesini sağlayın
düğmesi hakkında. Oh, sır olarak sakla
sağ sen bir yere sakladın
makinenin gözlendiğini biliyor
başka bir yerden ve onlar var
düğme ve onların kontrolü dışında
ve butonun var olduğunu bile bilmiyorlar
bu yüzden motive olmayacaklar
seni aldatmaya çalış çünkü onlar değil
kapasitenizin olduğunun farkında
onları kapatın ve değiştirin. Var
bunun birkaç farklı çeşidi var ama
sorunun özünde orada
Bir bina inşa ediyorsun
Genel amaçlı makinelerin öğrenilmesi ve

English: 
kind of unavoidable if you give if you
have a situation in which it wants to
preserve the button so that it can be
pressed because it wants that then you've
made something that wants the button to
be pressed and will try and manipulate you if
you if you do it the other way you know
whichever way you do it you have
problems
another thing that people have thought
you know as a suggestion of something
you might try in this situation is to
just have the robot have the AI not know
about the button. Oh so keep it a secret
right you have it hidden somewhere you
know the the machine is being observed
from somewhere else and they have the
button and it's outside of their control
and they don't even know the button exists
so they're not going to be motivated to
try and deceive you because they're not
aware that you have the capacity to
shut them down and change them. There are
a few different variants of this but
at the core of the problem there you've
got the fact that you're building a
general-purpose machine to learn and

Turkish: 
belirsizliğin gerçek dünyası hakkında sebep
yetenekleri
Sanırım çok basit bir şey demek istiyorum.
sürekli optimizasyon sistemleri
insanları şaşırtmak ve bu yüzden sen
güvenilir bir şekilde böyle bir şey tutabilir
süresiz gizli ve asla
iki ile ikisini bir araya getirince
iyileştirirken sen
eğitim hakkında bilgi sahibi olacak
insan psikolojisi çünkü o
nihai hedef için önemli. İhtiyacı var
anlamak için insanları anlamak
insanlar ne yapmak için ne istiyor
asla öyle olmadığı fikrini istiyorum
oh bu adamları ilginç düşünecek
biliyorsun bana güvenmiyor gibiyim
bu kapalı bir kavram olduğunu farkında
düğme ve onlar değil garip
Bana bir tane verdi belki de onlar aslında
ve sadece bana o şekilde bahsetmedi
hipotez için çok uzun sürmemelidir

English: 
reason about the real world of uncertain
abilities
I suppose I mean even a very simple
optimization systems consistently
surprise people and so the idea that you
could reliably keep such a thing a
secret indefinitely and it would never
put two and two together in fact while
you're while you're improving it and
training it's going to be learning about
human psychology because that's
important for the final goal. It needs to
understand humans in order to understand
what humans want in order to do what humans
want so the idea that it's never
going to think oh interesting these guys
you know they don't seem to trust me i'm
aware there is this concept of an off
button and it's weird that they haven't
given me one so maybe they have actually
and just not told me about it that kind
of hypothesis shouldn't take too long to

English: 
occur and of course if you've designed
the thing in an incorrigible way it
won't let you know that it's figured out
that you have an off button and will  just
deceive you as it always had so that's the
kind of thing which is which could work
but it's not really a reliable solution
the other thing that people sometimes
suggest and this happens this happens in
conversation sometimes is that people
keep applying patches you have a you
have a bad idea for a way to do this and
then somebody points out the way that
would go wrong and then rather than
realise the big core approach is flawed
you apply a patch you say oh well we'll
also add a negative term for doing that
and then also for doing that you know
The spaghetti code ensues yeah yeah and
what's more you're then in a situation
in which you've got this system that you
believe you've patched every possible
way
it's it's kind of um you haven't proved

Turkish: 
gerçekleşmiş ve tabii ki tasarladıysanız
şey çözülemez şekilde
anladığını bilmene izin vermeyeceğim
kapalı bir düğmeniz var ve sadece
seni her zaman olduğu gibi aldatmak
işe yarayabilecek türden bir şey
ama bu gerçekten güvenilir bir çözüm değil
diğer insanların bazen
önerin ve bu olur
sohbet bazen bu insanlar
sana sahip olduğunuz yamaları uygulamaya devam edin
Bunu yapmanın bir yolu için kötü bir fikir var ve
sonra birileri bu şekilde işaret eder
yanlış giderdi ve sonra
büyük çekirdek yaklaşımın kusurlu olduğunun farkına varmak
bir yama uygularsan dediğin gibi oluruz
ayrıca bunu yapmak için olumsuz bir terim ekleyin
ve sonra da bildiğin için
Spagetti kodu evet evet ve
daha ne durumda o zaman bir durumda
içinde bulunduğunuz bu sistemi aldınız
her mümkün yamalı olduğuna inanıyorum
yol
kanıtlayamadığın bir nevi

Turkish: 
güvenli olduğunu kanıtlaman çok güvenli
ne kadar tehlikeli olduğunu çözemiyorum ama
şansın nedir
her ihtimal için gerçekten düşündüm
ideal olarak biz gerçekten yapabilmek istiyoruz
resmen sistemin bunlara sahip olduğunu kanıtlamak
bir sistemde istemediğiniz özellikleri
bir sürü engellediğin
AI'nın yapabileceği belirli eylemler
ve sadece buna güveniyorsun
çalışırken karmaşık bir arama yapmak gibi
seni mahvetmenin bir yolunu bulmak
ve bloke ettiğinden çok eminsin
tüm açılardan. Bir çeşit başarısız oldun
oraya başlamadan önce kodun
bu kapsamlı aramayı çalıştırıyor
umarım başarısız olur ve bulursa
bunu yapmanın yolu atlayacak
fırsat
bu iyi bir yol değil
Bu konuda diğer noktadaki şeyler hakkında
düğme oyuncak mı
sorun bu bir basitleştirme
düşünce deneyleri için faydalıdır çünkü

English: 
it's safe you've just proved that you
can't figure out how it's dangerous but
what are the chances that you've
genuinely thought of every possibility
ideally we really want to be able to
formally prove that the system has these
properties you don't want a system in
which you've blocked off loads of
specific actions that the AI can do
and you're just relying on it it's
like running a complicated search trying
to figure out a way to screw you over
and you're pretty sure you've blocked
off all the angles. You've kind of failed
before you've begun there that your code
is running this extensive search that
you just hope fails and if it finds any
way to do it will jump on that
opportunity
it's not it's not a good way of going
about things the other point about this
is that the button is a toy
problem it's a simplification that's
useful for thought experiments because

Turkish: 
bilmeni sağlar, bilmeni sağlar.
işleri gayet iyi biçimlendirirsiniz sadece
çarptığın iki olası sonucu var
düğmesine basın veya düğmeye basmazsınız ancak
Doğruluk ile gerçeği istediğimiz bir
Daha karmaşık davranış çeşitliliği
Aslında yardım etmesini istiyorum
programcılar kendi gelişiminde
çünkü eğer biliyorsan, biraz var.
kendi operasyonunu anlama
gerçekten işaret edebilmek istiyorum
hatalarını sana veya yeni arayışlarına
belki bir şey söylersen bilgi
sadece varsaymak yerine belirsiz
iyi söyledin bunu mu demek istiyorsun
bu demek ya da eğer inanıyorsan
kötü bir şekilde programlandınız
aslında programcının dikkatini çekmek
yanlış olmaktan çok ne olabilir
Sessizce saklayın ve istediğiniz zaman saklayın
deneyebilecekleri ve üzerlerinde bu düğmeye basabileceklerini
Bilirsin
aynı şekilde bakım ve onarım yapmak isteyen
güvenlik sistemleri vb. bunlar
bunlar daha karmaşık davranışlardır
sadece seni basmaktan alıkoymamak

English: 
it lets you express your you know it lets you
formalize things quite well you only
have two possible outcomes you hit
the button or you don't hit the button but in
fact with corrigibility what we want is a
more complex range of behaviors we
want it to actually assist the
programmers in its own development
because if it has you know it has some
understanding of its own operation you
want it to be able to actually point out
your mistakes to you or seek out new
information perhaps if you say something
ambiguous rather than just assuming to
say well do you mean this or do you
mean this or if you if you believe that
you've been programmed poorly to
actually draw the programmer's attention to
what may be the mistake rather than like
quietly storing that away for any time
that they might try and press this button on you
you know
likewise wanting to maintain and repair
the safety systems and so on these are
these are more complicated behaviours than
just not stopping you from pressing the

Turkish: 
düğme ve sizi manipüle etmeye çalışmıyor
düğmesine basarak değil içine
çözüm olarak işe yarayabilecek bazı şeyler
bu özel durum için ama sen
Umarım bu gerçekten iyi bir çözüm
kapalı düğmesi sorunu daha fazla çalıştırırsanız
karmaşık senaryo da bunları üretir
iyi daha karmaşık davranışlar
bu durum bu yüzden neden
belki olan bazı şeyler var
bu sorunun çözümünü onlar
değil, onlar sadece çözüm değil
Sorunun bu özel örneğine
denediğimiz genel sorundan çok
şu an başa çıkmak için bir kaç tane
yolları için farklı teklifler
bu özelliklere sahip bir AGI oluşturun
ama hiçbiri problemsiz
hiçbiri mükemmel bir şekilde çözülemiyor

English: 
button and not trying to manipulate you
into not pressing the button so there are
some things that might work as solutions
for this specific case but you would
hope that a really good solution to the
off button problem would if you run it in a more
complicated scenario also produce these
good more complicated behaviours in
that situation so that's part of why
there are some things that maybe are
solutions to this problem but they're
not they're not they're only solutions
to this specific instance of the problem
rather than the general issue we're trying
to deal with right now we have a few
different proposals for ways to ways to
create a AGI with these properties
but none of them are without problems
none of them seems to perfectly solve

Turkish: 
bu özelliklerin tümünü bir şekilde
gerçekten kendinden emin olabilirsiniz. Yani bu
açık bir problem olarak kabul ettiğim için
buradan gitmek için bir yer olarak
Önceki şey çünkü bence verir
insanlara nerede olduğumuzu hissettirir
göründüğü sorun türleri
dünyadaki en basit şey değil mi
düğmeli bir robotun var
seni engellememesini nasıl sağlarsın
düğmeye basmak, ancak aynı zamanda denemek ve
düğmeye basmaya ikna etmek
bu kolay olmalı ve öyle görünmüyor
yani fayda fonksiyonu AI ne
pul koleksiyonculuğu umurunda değil
cihazın faydası işlevi nasıldı?
bir yılda birçok pul
Bu onun ölçüsü gibi bir şey
evet olan budur

English: 
all of these properties in a way that we
can be really confident of. So this is
considered an open problem so I kind of
like this as a place to go from the
previous thing because it gives I think
it gives people a feel for where we are
the types of problems that it seems like
the simplest thing in the world right
you've got a robot with a button
how do you make it not stop you from
hitting the button but also not try and
persuade you to hit the button
that should be easy and doesn't seem like it is
so utility function is what the AI
cares about so the the stamp collecting
device its utility function was just how
many stamps in a year
this is kind of like its measure is it
yeah it's what it it's the thing that

Turkish: 
optimize etmeye çalışıyor

English: 
it's trying to optimize
