
English: 
So, before, we were talking about A.I. risk and A.I. safety, and
just trying to lay out in a very generalized sort of way how general artificial intelligence can be dangerous
and some of the type of problems it could cause
and just introducing the idea of A.I. safety or A.I. alignment theory
as an area of research in computer science.
And we also talked about super intelligence and
the kind of problems that, the unique problems that can pose
and I thought what would be good is to bring it down
to a more concrete example of
current A.I. safety research that's going on now
and kind of give a feel for where we are,
where humanity is on figuring these problems out.

Turkish: 
Daha önce, AI riski ve AI güvenliği hakkında konuşuyorduk ve
Genel yapay zekanın ne kadar tehlikeli olabileceğini çok genel bir şekilde ortaya koymaya çalışıyorum
ve neden olabileceği bazı problemler
ve sadece AI güvenliği veya AI hizalama teorisi fikrini tanıtmak
bilgisayar bilimlerinde bir araştırma alanı olarak.
Ve ayrıca süper zeka ve
ortaya çıkabilecek problemler, ortaya çıkabilecek benzersiz problemler
ve iyi olacağını düşündüm, onu yıkmak
daha somut bir örneğe
şu anda devam eden mevcut AI güvenlik araştırması
ve nerede olduğumuzu hissettirecek,
insanlığın bu problemleri çözdüğü yerde.

English: 
Supposing that we do develop a general intelligence
you know an algorithm that
actually implements general intelligence.
How do we safely work on that thing and improve it?
Because, the situation with this stamp collector is
from its first instant it's a super
intelligence so we created with a
certain goal and as I said as soon as we
switch it on
it's extremely dangerous, which people
pointed out and, it's true, you know it was a
thought experiment, it's true that that's
probably not what will happen right?
You'll have some significantly weaker
intelligence first that may work on
improving itself or we may improve it.
So, the situation where you just create
the thing and then it goes off and does
its own thing either perfectly or
terribly from the beginning is
unlikely it's more likely that the thing
will be under development
so then the question is how do you make
a system which you can teach? How do you
create a system which

Turkish: 
Genel bir zeka geliştirdiğimizi varsayalım
bir algoritma biliyorsun ki
aslında genel zekayı uygular.
Bu şey üzerinde güvenli bir şekilde nasıl çalışırız ve iyileştiririz?
Çünkü, bu pul koleksiyoncusu ile durum
ilk anından itibaren bu bir süper
istihbarat böylece biz yarattık
belirli bir hedef ve en kısa sürede
açık konuma getir
son derece tehlikeli, hangi insanlar
dikkat çekti ve, doğru olduğunu biliyorsun
düşünce deneyi, bunun doğru olduğu
muhtemelen ne olacak doğru değil?
Önemli ölçüde daha zayıf olacak
üzerinde çalışılabilecek ilk istihbarat
kendini geliştirmek yoksa geliştirebiliriz.
Öyleyse, az önce yarattığınız durum
şey ve sonra gider ve
mükemmel ya kendi
korkunç baştan
Olasılıkla o şey daha muhtemeldir
geliştirilme aşamasında olacak
öyleyse soru şu ki nasıl yapıyorsun
öğretebileceğiniz bir sistem? Nasılsın
bir sistem oluşturmak

English: 
is a general intelligence that wants
things in the real world and is trying
to act in the real world but is also
amenable to being corrected if you
create it with the wrong function with
one utility function and you realize
that it's doing something that actually
you don't want to do how do you make it
so that it will allow you to fix it
how do you make an AI which understand
that it's unfinished they understand
that the utility functions working with
may not be the actual utility function
it should be working with right the
utility function is what the way I cares
about so the the stamp collecting device
if utility function was just how many
stamps in a year
this is kind of like its measure is it
yeah it's what it is the thing that it's
trying to optimize in the world the
utility function takes in World states
as an argument and spits out a number is
broken the idea if the world was like

Turkish: 
isteyen genel bir zekadır
gerçek dünyadaki şeyler ve deniyor
Gerçek dünyada hareket etmek ama aynı zamanda
mümkünse düzeltilebilecek
yanlış fonksiyonuyla yarat
bir yardımcı fonksiyon ve farkına varırsanız
Bu aslında bir şey yapıyor
yapmak istemiyorsun nasıl yaparsın
düzeltmenize izin verecek şekilde
anlayan bir AI'yı nasıl yaparsın?
bitmemiş olduğunu anlıyorlar
yardımcı programın çalışmakta olduğu
gerçek yardımcı program işlevi olmayabilir
doğru çalışmalı
yarar fonksiyonu ne önemsiyorum
bu yüzden pul toplama aracı
yarar işlevi sadece kaç ise
bir yıl içinde pullar
Bu onun ölçüsü gibi bir şey
evet olan budur
dünyada optimize etmeye çalışıyor
Dünya devletlerinde faydalı işlevler
argüman olarak ve bir sayıyı tükürür
dünya gibiyse fikri kırdı

English: 
this is that good or bad
Andy the AI is trying to steer towards
world states that value value highly
black utility function
you don't have to explicitly build the
AI in that way but it will always if
it's behaving coherently it will always
behave as though it's in accordance with
some utility function also before I
talked about about converging
instrumental goals that if you have some
final goal like you know it makes them
the very instrumental goals which are
the goals that you that you do on the
way to your final goal right so like
acquire the capacity to do printing it's
like perhaps an instrumental goal
towards making steps but the thing is
there are certain goals which tend to
pop out even across a wide variety of
different possible terminal goals so for
humans an example of

Turkish: 
bu o kadar iyi ya da kötü
Andy AI yönlendirmeye çalışıyor
dünya bu değeri çok değerlendiriyor
siyah yardımcı işlev
açıkça oluşturmak zorunda değilsiniz
AI bu şekilde ama her zaman olacak
tutarlı davranıyor her zaman
göre sanki davranmak
benden önce de bazı yardımcı fonksiyonlar
yakınsama hakkında konuştuk
Bazı temel hedeflere sahipseniz
Bildiğiniz gibi son hedef onları yapar
çok araçsal hedefler
üzerinde yaptığınız hedefler
son hedefinize giden yol tam böyle
baskı yapmak için kapasite kazanmak
belki de araçsal bir amaç gibi
adımlar atmaya doğru ama bir şey
eğiliminde olan belirli hedefler var
geniş bir yelpazede bile ortaya çıkıyor
farklı olası terminal hedefleri
insanlara bir örnek

English: 
convergys instrumental goal would be
money if you want to make a lot of
stamps or you want to cure cancer or you
want to establish a moon colony whatever
it is having money is good idea right so
even if you don't know what somebody
wants you can reasonably predict that
they're gonna value getting money
because money is so broadly useful and
before we talked about this
we talked about improving your own
intelligence as a convergence
instrumental doll that's another one of
those things where it doesn't really
matter what you're trying to achieve
you're probably better at achieving if
you're smarter so that's something you
can expect a is to go for even if even
without making any assumptions about
that final goal so another convergent
instrumental goal is preventing yourself
from being destroyed it doesn't matter
what you want to do you probably can't
do it if you're destroyed so it doesn't
matter what the AI want you can let it

Turkish: 
yakınsak araçsal hedef olacaktır
çok para kazanmak istiyorsanız
Pullar mı yoksa kanseri tedavi etmek mi istiyorsun?
ne olursa olsun bir ay kolonisi kurmak istiyorum
para olması iyi bir fikir değil mi?
ne olduğunu bilmiyor olsan bile
Bunu makul şekilde tahmin edebilmenizi istiyor
para almaya değer verecekler
çünkü para çok geniş ölçüde kullanışlıdır ve
bunun hakkında konuşmadan önce
Kendinizinkini geliştirmek hakkında konuştuk
Bir yakınsama olarak zeka
başka biri olan enstrümantal bebek
Gerçekten olmadığı yerlerde
ne elde etmeye çalıştığın önemli değil
Muhtemelen başarmakta daha iyisindir.
sen daha zekisin bu yüzden senin için bir şey
bir bile beklemek için gitmek bekleyebilir
hakkında varsayımlarda bulunmadan
bu son hedef bu yüzden başka bir yakınsak
araçsal hedef kendini engelliyor
yok edilmek önemli değil
ne yapmak istiyorsan muhtemelen yapamazsın
eğer sen yoksan yap
AI'nın izin vermesini isteyeceğiniz şey ne olursa olsun

Turkish: 
önemsiz şeyimden yok edilmek istiyor
dava ama eğer istersen bir şey istiyorum
gerçek dünya ve olduğuna inanıyorum
istediğin şeyi elde etmek için bir pozisyon
hayatta olmak, olmak istediği için olmamak
canlı
temelde bir hayatta kalma değil
içgüdü ya da yaşama arzusu
öyle pürüzsüz ve bunu bilmek
birimini tamamlamak için kullanılabilir
tatlı neredeyse yapamaz korkuyor olurdu
eğer yok edilirse hedeflerine ulaşmak için
ve bu hedefe ulaşmak istiyor.
araçsal bir değer önlüyor
kapattım ve geliyorum derim
Bir makine gibi değil istiyorum istiyorum
bu sadece bir cümle dönüşü
evet bir şey kadar demek istiyorum.
daha yakın aslında aslında bilmiyorum olduğumu
konuşsan bile kabul edeceğime eminim
bunun hakkında konuşmak için çoğu makine hakkında
her ne istiyorlarsa o değil
Anlamlı çünkü ajanlar değiller.
Genel istihbaratımız nerede
istediği zaman genel zeka
bir zamanlar benzer şekilde
insanların bir şeyleri istediği gibi
öyle sıkı bir analoji olmazdı

English: 
wants to be destroyed in from my trivial
case but if you do i want something in
the real world and believe that it's in
a position to get that thing you wanted
to be alive not because it wants to be
alive
fundamentally it's not a survival
instinct or an urge to live or anything
like that it's smooth and knowing that
it's unit available to completed its
cutie would it be almost scares unable
to achieve its goals if it's destroyed
and wants to achieve that goal so that's
an instrumental value is preventing
turned off and i'm getting here we say
want to it's not like a machine want
it's just a turn of phrase
yeah i mean as much as anything it's a
it's closer it actually you know i'm not
even sure i would agree like if you talk
about most machines to talk about that
they want to whatever and it's not that
meaningful because they're not agents in
our general intelligence is where the
general intelligence when it wants
something it once in a similar way to
the way that people want things so it's
such a tight analogy that it wouldn't

English: 
even I think it's totally reasonable to
say that energy i want something
there's another slightly more subtle
version which is closely related to not
wanting to be turned off or destroyed
which is not wanting to be changed so if
you imagine let's say I mean you have
kids right yeah
suppose I were to offer you a pill or
something you could take this pill will
like completely rewire your brain so
that you would just absolutely love to
like kill Ricketts right where's right
now what you want is like very
complicated and quite difficult to
achieve and it's hard work for you and
you probably never going to be done
you're never gonna be truly happy right
in life nobody is you can't achieve
everything you want i said this case it
just changes what you want what you
wanted to created and if you do that you
will be just perfectly happy and
satisfied with life right
ok you want to take this go know that
you happy though

Turkish: 
ben bile tamamen mantıklı olduğunu düşünüyorum
bu enerjiyi bir şey istediğimi söyle
biraz daha ince başka var
ile yakından ilgili olan sürüm
kapatılmak veya imha edilmek istemek
eğer değişmek istemiyorsa
Diyelim ki, demek istediğim diyelim.
çocuklar doğru evet
Sanırım sana bir hap verecektim ya da
Bu hapı alabileceğin bir şey olacak
beynini tamamen yeniden canlandırmak gibi
Sadece kesinlikle seveceksin
Doğru, olduğu yerde Ricketts'i öldürmek gibi
şimdi istediğin şey çok
karmaşık ve oldukça zor
elde etmek ve sizin için zor bir iş
Muhtemelen asla bitmeyeceksin
asla gerçekten mutlu olmayacaksın, doğru
hayatta hiç kimse başaramazsın
İstediğin her şey bu dava dedim
sadece ne istediğini değiştirir ne istersen
yaratmak istedim ve eğer yaparsan
sadece mükemmel mutlu olacak ve
yaşam hakkından memnun
tamam bunu almak istiyorsan bunu bil
yine de mutlusun

English: 
yeah I don't want to do it because but
that's quite a complicated specific case
because it directly opposes what I
currently want it's about your
fundamental values and go right and so
not only will you not take that pill you
will probably fight pretty hard to avoid
having at the limited to you
yes because it doesn't matter how that
future version of you would feel you
know that right now you love your kids
and your not going to take any action
right now which leads to them coming to
heart
so it's the same thing if you have an AI
this for example value stamps values
collecting stamps and you go oh wait
hang on a second
I didn't quite do that right let me just
go in and change this so that you don't
like stand quite so much it's going to
say but the only important thing is
stamped if you change me i'm not going
to collect as many stamps which is
something i don't want there's a general

Turkish: 
evet yapmak istemiyorum çünkü
bu oldukça karmaşık bir durum
çünkü doğrudan neye itiraz ediyorum
şu anda senin hakkında istiyor
temel değerler ve doğru gitmek
sadece o hapı almayacaksın
muhtemelen önlemek için oldukça zor mücadele edecek
sana sınırlı olmak
evet çünkü bunun önemi yok
gelecekteki sürümü seni hissederdi
şu anda çocuklarını sevdiğini biliyorum
ve hiçbir işlem yapmayacaksın
Şu anda onların gelmesine neden olan
kalp
Bu yüzden AI varsa aynı şey
bu örneğin değer değerlerini damgalar
pulları toplarsan git ve bekle
bir saniye bekle
Bunu tam olarak yapmadım, bırak da sadece
içeri gir ve bunu değiştir, öyle yapmazsan
Ayakta durmak o kadar çok ki
söyle ama önemli olan tek şey
beni değiştirirsen damgalı gitmiyorum
olduğu kadar çok pul toplamak
istemiyorum bir şey var general

Turkish: 
AGI’nin sizi denemesi ve önleme eğilimi
bir kez çalıştığında değiştirmeden
Bunu şimdi anlayabiliyorum
karmaşık muhabir hakkı
çünkü bu hemen hemen her şeyde böyle
durum yeni bir yardımcı program veriliyor
fonksiyon çok düşük yazacak
mevcut yardımcı program işleviniz
tamam bu bir sorun
inşa etmek istersen nasıl istersin
öğretebileceğin bir şey
onun değişimini yapabilmek istiyorsun
yarar fonksiyonu ve istemiyorum
seninle dövüşmek
açık 100 evet siktir et
bu yüzden bu resmileştirildi
erken AGI’ya sahip olmak istediğimiz mülk
Söylemek cesaret yeteneği denir
düzeltilmeye açık

English: 
tendency for AGI to try and prevent you
from modifying it once it's running
I i can understand that now in in the
complex reporter right
because thats that's it it in almost any
situation being given a new utility
function is going to write very low on
your current utility function
ok so that's a problem
how do you want if you want to build
something that you can teach that means
you want to be able to change its
utility function and you don't want to
fight you
on is 100 yeah fuck
so this has been formalized as this
property that we want early AGI to have
called courage ability that is to say it
open to be corrected
