
Turkish: 
Bir veya iki yorum yaptık ve insanlar nasıl olduğunu soruyor.
Verileri eşitlemek ne kadar kolay ya da ne kadar zor olmalı, o yüzden bu bir sorun değil mi?
Kesinlikle, sanırım birkaç yıl önce 2013 yayınlanmış bir çalışma olduğunu düşünüyorum.
Küçük bir Avrupa ülkesinde 1,5 milyon telefon kaydı aldıkları,
yazarlardan muhtemelen Belçika.
Ve onlar
rastgele seçilen dört konum
en yakın hücre kulesini konumlandıracaklar ve ondan benzersiz bir şekilde tanımlayabilecekleri, yeniden tanımlayabilecekleri
Veritabanının% 95'i ve 11 veri noktası seçerek% 100
Bu insanların kim olduğunu benzersiz bir şekilde tespit edebildiler.

English: 
We've had one or two comments and people asking the questions about how
how easy or how difficult it must be to deanonymize data, so it's a problem, isn't it?
Absolutely, I mean I think a few years ago 2013 there was a published study
where they took 1.5 million phone records for in a small European country,
probably Belgium from the one of the authors.
And they
randomly selected four locations
they would sort of locate the nearest cell tower and from that they could uniquely identify, re-identify
95% of the database and by choosing 11 data points they got 100%
They were able to uniquely identify who these people were.

Turkish: 
Bunun altında, bilirsiniz, insanlar hakkında bazı basit gözlemler bir yerde yaşamaya, bir yerde çalışma eğilimindedir.
ve hatta bu iki veri noktası muhtemelen insanları benzersiz şekilde tanımlamak için yeterlidir.
Sonra bununla ilgili her şeyi arayabilir ve muhtemelen etraftakileri takip edebilirsiniz.
Bu yüzden, büyük miktarda rastgele verinin neye benzediği ile ilgili pek çok örnek var.
çünkü aslında içinde bu devasa yapı miktarını içeriyor.
Veri kümesini nasıl anonimleştirebileceğini hayal etmek her zaman zor
ve bir kişiyle ilişkilendirilmiş kayıtları olan bir veri seti oluşturur.
aslında sadece adı sileriz veya bazı kodlarla değiştiririz, rastgele bir sayı.
Gelecekteki olası tüm saldırılara karşı bunu savunmak çok zor
çünkü birisi, alanların üç veya dördünü içeren, bilmiyorum, başka bir veri setiyle ortaya çıkabilir
Bu, anonim veri kümesiyle aynıdır ancak onunla ilişkili bir isimdir.

English: 
Underlying that is, you know, some simple observations about people tend to live somewhere, work somewhere
and even those two data points are probably enough to uniquely identify folks.
And then you can look for everything else tagged with that and you can probably track people around.
So it's actually lots of examples of where what seems like a large amount of random data is not
because it actually contains within it this huge amount of structure.
It's always difficult to imagine how one can anonymize the data set
and it's create a data set that has records which are associated with an individual
where we essentially just delete the name or replace it with some code, a random number.
It's very difficult to defend that against all possible future attacks
because someone could turn up with another data set which includes, I don't know, three or four of the fields
that are the same as the anonymous data set but with a name associated with it.

English: 
And then by correlating those two data sets together you'll get a set, may not be a one-off,
but you might get a set of candidates of
"I Think the following four people, the following four anonymous records could be this person because they match on some other fields"
And then you could start saying "Well, let's look at then an anonymous record what the other fields are
and maybe there's something entertaining or scurrilous about that or privacy invasive that people wouldn't want to know".
And this is very much the attack we saw on the film rating database where
people rated films with their names on them and then an anonymized data set was published
with so and so rented all these you know this anonymous person rented all these films
give us a better recommendation algorithm for them. So there's a big record of all these anonymous identifiers.
But of course you watch a film and you write a review,

Turkish: 
Ve sonra bu iki veri setini birlikte ilişkilendirerek bir set elde edersiniz, bir kereye mahsus olmayabilir,
ama bir takım adaylar alabilirsin
"Aşağıdaki dört kişiyi düşünüyorum, aşağıdaki dört isimsiz kayıt bu kişi olabilir, çünkü diğer bazı alanlarda eşleşiyorlardı"
Ve sonra "Peki, hadi diğer alanların ne olduğu isimsiz bir kayda bakalım.
ve belki de, insanların bilmek istemediği, mahremiyet istilacı veya bununla ilgili eğlenceli veya titiz bir şey var ".
Ve bu, film derecelendirme veritabanında gördüğümüz saldırıdır.
insanlar üzerinde adlarını yazan filmleri derecelendirdiler ve daha sonra anonim bir veri seti yayınlandı
bütün bunları kiralarsanız, bu anonim kişinin tüm bu filmleri kiraladığını biliyorsunuz.
bize onlar için daha iyi bir tavsiye algoritması verin. Yani tüm bu isimsiz tanımlayıcıların büyük bir kaydı var.
Ama elbette bir film izliyor ve bir inceleme yazıyorsunuz.

Turkish: 
bu yüzden, eleştirilerini yayınlamış olan bu grup, izledikleri her filmi izlememiş olsa da,
İlişkilendirebileceğiniz gerçeği, bu filmleri açıkça kiraladıkları ve sonra
incelemelerini kısa bir süre sonra yapmaları, bunu ve genel tanımlayıcıyı almanıza neden olur
ve belki de insanların bilmesini istemedikleri filmler de dahil, izledikleri tüm filmlerle ilişkilendirilir.
Klasik, politikacıların bilirsin, yetişkinlerin içeriğini izlerken yakalanmasına neden oluyor ve bu onlar için çok utanç verici.
Mesele şu ki, birileri burada kayıtların hala tüm verileri içerdiği anonim veriler diyorsa
Ve bu bir bireyle ilişkilendirilir ya da belki sözde analiz edilmiş diyebiliriz.
Ortaya çıkabilecek tüm olası gelecek veritabanlarına karşı korumak çok zor
onlarla ilişkili gerçek isimlerle. Ve işte sorun bu işte
deanonymization her zaman orada olan bir tehdittir.
Yani, sahip olduğunuz kişi başına bir rekorsa, bu temel bir problemdir,

English: 
so even though this set of people who had published their reviews had not reviewed every film they watched,
the fact that you could correlate they obviously rented these movies and then
made their reviews probably shortly afterwards causes you to be able to take that and public identifier
and associate it with all the movies they've watched including the ones perhaps they didn't want people to know about.
The classic is politicians getting, you know, caught watching adult content and that's very embarrassing for them.
And the thing is that if someone says here's anonymous data where the records still contain all the data
And it's associated with an individual or maybe we could call that pseudo-analyzed
It's very difficult to protect against all possible future databases that might arise
with real names associated with them. And that's the very that's the problem with the
deanonymization is a threat that's always there.
So, that's a fundamental problem if what you have is a record per person,

Turkish: 
ne yaptığın önemli değil. Bence belki de başka bir şey daha var
Bu alanda belirtilenler: Bazen insanların anonim tanımlayıcıyı seçme biçimleri gerçekten oldukça zordur.
Bu yüzden New York taksi şirketi tüm alıcıları tüm sarı taksilerin bırakma noktalarını yayınlamaya karar verdi.
ve sürücünün rozet numarasını anonimleştirdiler.
Şimdi aslında sadece o kadar çok rozet yok, bu yüzden birisi rozetlerin ve dolayısıyla olası tüm hash değerlerini hesapladı.
Sadece her şeyi tersine çevirebiliyorsun ve böylece yeniden tanımlayabiliyorsun. Çünkü algoritmik bir araç vardı.
"isimsiz tanımlayıcı" üretmek için. Aslında gerçekten yapmak istediğin şey sadece
Bunu yapmak istiyorsanız, gerçekten sadece rastgele bir sayı oluşturmanız gerekir.
Değerlerin alanı o kadar büyük olmadığında karma değeri yapmayın.
Kaba kuvvet saldırıları. Biraz kriptografi gibi
Bilirsin
Gerçekten zordu, İkinci Dünya Savaşı sırasında gizemi kırmak için çok çalıştım, değil mi?

English: 
no matter what you do. I think there's another there's another thing as well which is perhaps
mentioned in that space: sometimes the way in which people choose the anonymous identifier is pretty pretty dire really.
So New York cab company decided to publish all the pick up an drop off points of all the yellow cabs
and they anonymized the badge number of the driver.
Now in fact there are just aren't that many badges, so someone computed all the possible hash values of the badges and hence
you're able to just invert the whole thing and so you're able to reidentify. Because there was an algorithmic means
to produce the "anonymous identifier". In fact what you really want to do is just
If you do want to do this you really just need to then generate a random number.
Do not make it a hash value when the space of values is not that large.
Brute force attacks. It's a bit like cryptography
you know
It was really hard, it took a lot of work to break enigma during the Second World War, right?

Turkish: 
Ancak bu günlerde ortalama PC'niz sanki saniyeler içinde kırardı.
Yani, yavaşça artıyor, biliyorsunuz, mevcut olan işlem gücü ve sahip olduğumuz gerçeği
Üzerlerinde yüzlerce GPU bulunan GPU kartları veya bazılarında gördüğümüz gibi şifreleme hızlandırıcıları
modern işlemcilerden bazıları. Eğer oradaki bütün o motorlara sahipseniz
o zaman sorun şu ki, sorunu daha da zorlaştırmaya devam etmeniz gerekiyor.
Yani yapmayı deneyebileceğin bir sonraki şey iyi söylemek.
Neden nüfus sayımı verileri için yayınlamadıkları bir nüfus sayımı tekniğinin benimsediği teknikleri yapmıyoruz.
Çünkü bu çok iyi bir ızgara bile, verileri yayınladıkları istatistikler kadar toparlar.
sizin seviyelerdesiniz yüz binlerce insanı tanıyorsunuz ve bu tamamen engellemiyor
Yeniden tanımlama, ancak kesinlikle büyük ölçüde zorlaştırmaya başlar.

English: 
But these days your average PC would crack it in seconds if that.
So, It's slowly increasing, you know, processing power that's available, and the fact that we have
GPU cards with hundreds of GPUs on them or even more so cryptographic accelerators as we see in some of the
some of the modern processors. If you have all of that those engines there
then the challenge is that you simply have to keep making the problem harder and harder.
So the next thing you could try to do is say well
Why don't we do the sort of techniques that the Census adopt which is they don't publish per postcode data
because even that's a too fine grid they they aggregate the data out such that the statistics that they publish
are at the levels of you know hundreds of thousands of people and that doesn't completely prevent
re-identification, but it certainly starts to make it substantially harder.

Turkish: 
Ve kriptografi gibi bazı zamanlar misyonu, onu büyük ölçüde zorlaştırmak ve ötesine koymaktır.
Makul hesaplama kaynakları. Sonuçta tüm şifreleme bu kategoriye girer.
Kriptografiyi kıramayacağın gibi değil, kaba kuvvet uygularsın.
Sadece bin yıl sürebilir, fakat hatırlayın: Bin yıl sürmesi beklenenler
1945’te şimdi, modern bir bilgisayarda milisaniye var, bu yüzden her zaman bunu hesaba katarsınız.
Dolayısıyla mesele, insanların yeniden tanımlamaları için bunu yapmanın ne kadar zor olduğu.
Ve elbette, temelde, bilirsiniz, aşağı indiğinizde
İstihbarat ajanlarının yıllarca yapacağı şey buydu, demek istediğim, her türden bakacaklar.
rastgele bilgi kaynakları ve hepsinin birlikte nasıl ilişki kurduğunu anlamak.
Dolayısıyla, toplanmış olsanız bile, bu grup içinde yeniden tanımlamak yine de mümkün olabilir.
Ve sadece sizin yüz kişi veya başka bir şey söyleyeceğiniz şekilde toplanmanız gerekmez.

English: 
And some of the times like cryptography the mission is to make it substantially harder and to put it beyond
Reasonable computational resources. After all all cryptography falls into that category.
It's not like you cannot break cryptography, you just do brute force.
It just may take a thousand years, but remember: what was predicted to take a thousand years
in 1945 is now, you know, milliseconds on a modern computer so you always go to factor in that.
So the issue is how difficult to make this for people to re-identify.
And of course essentially, you know, when you get down to it
This is what intelligence agents would be doing for years, I mean, they'll be looking at all sorts of
random sources of information and understanding how they all correlate together.
So, even when you are aggregated, it may still be possible to to re-identify within that group.
And it has to be not just that you aggregate to within say a hundred people or something,

Turkish: 
Aynı zamanda, o grupta on ya da yirmiden daha azını tanımadığım hiçbir popülasyon olamayacağı da olmalı.
Yani oğlumun okuldaki bir anketi doldurması istendi ve "Ah, hepsi tamamen isimsiz" dediler.
ve posta kodunu istediler. Şimdi akşam yemeğinde oturdu ve beni sürekli tekrar tekrar dinledi.
Ve o sadece o sahte bir posta kodu koymak
Ve dedi ki, "Bu saçmalık çünkü bu sokakta okul çağındaki okulda sadece ikimiz varız" dedi.
Ben de dedim ki "Hayır, bundan daha kötü, evlat. Köşede yaşıyor, farklı bir posta kodu.
farklı sokak adı nedeniyle ". Bu sokakta kesinlikle on beş yaşında bir çocuk var.
Bu yüzden benzersiz tanımlayıcı oldu. Ve birisinin "Peki bu iyi olacak" diye düşündüğü bir şey,
Biliyorsun, çünkü aslında sokaklarımızda yaşayan çok sayıda insan olmasına rağmen,
o zaman sadece onbeş yaşında bir kişi vardı, bu yüzden benzersiz bir şekilde tanımlanmıştı.
Yani, anonim olmaya çalışmak için bir araya geldiğiniz zaman bile karmaşık bir problem çünkü düşünmek zorundasınız.

English: 
it also has to be that there can be no population of I don't know less than ten or twenty in that group.
I mean my son was asked to fill in a survey at school, and they said "Oh, it's all completely anonymous"
and they asked for his postcode. Now he sat at dinner long enough listening to me go on about this repeatedly
And he simply he then put in a bogus postcode
And he said "Well, that's ridiculous, because there's only two of us kids at school of a school age on this street".
And I said "No, it's worse than that, son. He lives around the corner that's a different postcode
because of the different street name". There's precisely one Fifteen year old child on this street.
So it was uniquely identifying. And something that someone thought "Well that will be fine",
you know, it wasn't because actually although there are a number of people living on our street,
there's only one there was only one fifteen year old at the time, so it was uniquely identifying.
So, It's a complex problem even when you aggregate to try to anonymize because you've got to think about

English: 
is it a unique sample within that aggregate in which case it's still a problem
So you find that the people have been doing this for years, which is people like
the Office of National Statistics, they have tried and tested mechanisms
where they've evaluated the risk of re-identification and that's how they publish things like census data
and the data that they publish every month that comes out of the ONS. They're very careful about them.
Now, this is something that actually has become, recently I've noticed become very
interesting to lots of companies who are trying to deal with data protection:
the new General Data Protection Regulation coming in the EU.
Where they're saying "Well what on Earth could we possibly do
because we were allowed to keep these synonymous records", but what does that mean?
And I heard a very sensible colleague from a large company say:
"Well, why don't we do what the ONS does because they've had a
hundred years experience on this and they seem to know what they're doing and

Turkish: 
Bu toplamın içinde benzersiz bir örnek mi?
Yani, insanların bunu yıllardır yaptığını buluyorsunuz.
Ulusal İstatistik Ofisi, mekanizmaları denemiş ve test etmişlerdir.
Yeniden tanımlama riskini değerlendirdikleri ve nüfus sayımı verileri gibi şeyleri yayınladıkları yer
ve ONS’ten çıkan her ay yayınladıkları veriler. Onlara çok dikkat ediyorlar.
Şimdi, bu gerçekten olmuş bir şey, son zamanlarda farkettim ki çok
veri koruma ile uğraşmaya çalışan birçok şirket için ilginç:
AB’de gelen yeni Genel Veri Koruma Yönetmeliği.
Nereye diyorlar ki "Peki ne yapabiliriz?"
çünkü bu eşanlamlı kayıtları tutmamıza izin verildi ”, peki bu ne anlama geliyor?
Ve büyük bir şirketten gelen çok mantıklı bir meslektaşım şöyle dedi:
"Öyleyse neden ONS’in yaptığını yapmıyoruz çünkü
Bu konuda yüz yıllık deneyim ve ne yaptıklarını biliyor gibi görünüyorlar

English: 
surely we can carry the same level of risk as they can". So it is a very subtle problem
but like most of these things in the same way that I would simply say that
there is no cryptography that is completely bulletproof, it's a question of just how difficult is it to crack the crypto
When it comes to anonymization the question is how difficult is it to break the anonymization?
And he's simply applying new interesting and different perspectives and different data assets
to the original one, you know, things that the original creator never thought about
will be the attacks so our mission always has to be simply to make it at least provably
challenging computationally to do
And that's and it should personally maybe some genius is gonna quote someone that really does work,
but I've yet to see anyone who would believe that we truly can anonymize in the same way that
other than one-time pads in cryptography we can't do a crypto that's not open to brute force attack.

Turkish: 
elbette yapabildiklerimizle aynı risk seviyesini taşıyabiliriz. ”Bu yüzden çok ince bir problem
ama bu şeylerin çoğunu aynı şekilde söyleyeceğim gibi
Tamamen kurşun geçirmez bir kriptografi yoktur, bu kriptoyu kırmanın ne kadar zor olduğu sorusudur.
İsimsizleşmeye gelince soru, isimsizleşmeyi kırmanın ne kadar zor olduğu?
Ve sadece yeni ilginç ve farklı bakış açıları ve farklı veri varlıkları uyguluyor.
orijinaline, orijinal yaratıcının hiç düşünmediği şeyleri bilirsiniz.
saldırılar olacak, bu yüzden görevimiz her zaman en azından kanıtlanabilir bir şekilde yapmak için olmalı.
hesaplamalı yapmak zor
Ve bu şahsen olmalı, belki de bazı dahiler gerçekten işe yarayan birinden alıntı yapacak.
ama henüz aynı şekilde anonimleştirilebileceğimize inanan birini görmedim.
Kriptografideki bir defalık pedler dışında, kaba kuvvet saldırısına açık olmayan bir şifreleme yapamayız.

Turkish: 
Gerçekten önemli değil, ama buna karşı ayrımcılık yapmaya başladılar ve bir BitTorrent, BitTorrent’e karşı birçok insanın ayrımcılığını yaptığı klasik
Fakat elbette, birçok insanın BitTorrent'i mükemmel meşru sebeplerden dolayı kullandığı ortaya çıktı.
Evet, BitTorrent dosya paylaşımı vardı ve hala bir sürü şey var.

English: 
Doesn't really matter, but they started discriminating against that and a BitTorrent was the classic where lots of people were discriminate against BitTorrent
But then of course it turns out that many people were using BitTorrent for perfectly legitimate reasons.
Yes, there were BitTorrent file sharing and there still is plenty of it around
