오세윤: 시간이 없으니까 빨리 빨리 진행을 하겠습니다. 그리고 혹시 25분까지 하고 시간이 남으면 레코딩 안하는 조건에서 저희가 개발하는 것 잠깐 보여드리고요. 설명하겠습니다.
저희 연구소 홈페이지에 나와 있는 조직이고요. 루케버그 사이버, 여러 가지 하는 본부가 있고 둘 중에 본부 급으로 어드밴스드 테크놀로지 하는 쪽으로 해서 국방고등기술원이 있습니다.
저는 원래 빅데이터, 이쪽을 업무를 하고 있습니다. 업무를 하고 있는 게 한 채에 몇 백억이 돼요. 하고 있는데 제가 답답한 것들 정리해서 주위사람한테 설명을 해주다보니까
강의를 하게 돼서 회사에서 가끔 시간 날 때 이렇게 하고 있습니다. 그리고 인공지능 빅데이터 쪽에서 제일 유명한 학회 중에 하나가 GPU 개발자회의가 있는데
제가 여기 열심히 다니고 있고 작년에 코엑스에서도 유사한 것을 제가 한 적이 있습니다. 빅데이터 개요서부터 쭉 얘기할건데 빅데이터 플랫폼 기술은 되게 어렵기 때문에
컴퓨터 Science 배운 사람들이 이것을 안 배우고 IT업체에 가서 3년 일한 다음에 할 수 있는 일이에요. 그러니까 제가 가볍게 소개만 시켜드리고
오늘은 70% 시간을 대부분 빅데이터, 머신러닝, 인공지능, 이런 것들 AI Autonomy, 정리를 해 드리겠습니다.
빅데이터에서부터 되게 많이 나와서 요새 클라우드 있고 그런데 IoT 클라우드가 많이 나와 있다. 인트로고요. 컴퓨터 데이터 네트워크 보면 이것 다 돼있어요.
컴퓨터 인터넷 연결이 안 되는 건 이상이 없고 모바일도 거의 다됐죠. 저기 아프리카 이런 데만 없고 이제 IoT 사물과 인터넷이 연결이 되려고 하고
이제 조금만 있으면 여기처럼 구글글래스 약간 망하긴 했지만 이것을 보고 카메라가 있어서 이것을 보면 귀로 설명을 다해 준다. 이것은 우리가 번호를 찾을 필요가 없어요.
여기까지는 여러분이 알고 계시는 데이터 마이닝, 빅데이터 분석 이런 것으로 처리가 되는데 이제부터 데이터가 많기 때문에 이 부분으로 가게 되면 오늘 말씀드리게 되는 빅데이터 분석을 해야 되는 겁니다.
여기 보면 며칠 전거예요. 2018년인데 간호사, 선생님, 다 있어요. 미국에서 1등 직업이 나오잖아요. 앞에서 11만 불 한 1억 3천, 2천. Data scientist 이고
톱10 jop보면 빅데이터 ICT 하는데 15만 불씩 받으니까 한 1억 6, 7천, 이렇게 지금 잘나가는 직업으로 되어 있는데요. 이제 빅데이터 말씀드리겠습니다. 16년 기사인데요.
하우스 오브 카드라는 유명한 미드가 어떻게 만들었냐면 넷플릭스가 제 마음대로 한 게 아니라 빅데이터 조사를 해서 하우스 오브 카드 옛날에 나온 것을 리메이크하지 않고
감독은 데이비드 핀처, 주연배우는 케빈 스페이시가 선호 된다라는 것을 조사를 했어요. 데이터분석으로. 그냥 제작자가 아니라 아무나 써가지고 정성조사를 하지 않았어요.
그리고 직감이 아닌 데이터기반으로 했는데 엄청나게 인기가 있어서 우리나라 정치인들도 이것 많이 봤다고 얘기하고 있습니다.
J팝이 구글트렌드라는 것 조금 이따 보여드릴텐데 누구나 알 수 있는 거예요. 옛날에 중요도가 100이었는데 이렇게 줄었고요. K팝이 요새 난리 났죠. 이게 100까지 올라갔어요.
이게 전부 다 빅데이터 분석을 통해서 전 세계 사람 관심이 있는 것 가지고 했습니다. 공교롭게도 작년에 보니까 중국, 일본, 한국이 빅데이터 센터 만든다고 하는데 애로사항이 많이 있습니다.
용어 정리해 드린다고 그랬어요. 오늘 4차 산업혁명 어쩌고저쩌고 하시잖아요. 다 아십니다. 처음에 1차는 기계화 증기기관, 전기, 컴퓨터 지금 여기 온 거예요.
4차 산업혁명이 뭐냐. AI, IoT, 클라우드, 빅데이터, ICBM, 혹은 ICBMS 정보통신부가 이것 옛날에 많이 쓰고 있더라고요.
다 이런 것이어도 되고 4차 산업혁명은 뭔지 모르지만 혁신으로 하려고 한다라는 것만 읽으면 돼요. 파란색만.
그러면 4차 산업혁명이 뭐냐면 아까도 되게 복잡하게 했을 때 딱 두 개만 이해를 하시면 돼요. 뭐냐. 초연결 IoT 됐죠, 빅데이터 됐죠.
초지능 AI 됐죠. 그래서 초연결, 초지능, 이 두 가지가 산업혁명의 특징이고 이 특징을 바탕으로 해서 뭔가 잘해보자. 이게 4차 산업혁명이 되겠습니다.
어디 가서 물어보시면 얘기하세요. Hyper-Connectivity, Super-Intelligence가 산업혁명의 두 가지 키워드야. 이렇게 얘기하시면 되겠습니다.
정보통신기술 보겠습니다. Information Communication Technology 원래 IT인데 Information Technology인데
뭐라고, 뭐라고 돼 있는데 ICBM에다가 AI까지 합쳐서 잘해보자, 그런 얘기예요. 정보통신기술이. 그래서 오늘 보면 IoT랑 클라우드만 딴 방에서 하고 있으니까 제가 거의 설명을 안 할 거고요.
빅데이터-AI 쪽에 관계된 머신러닝, 딥러닝, 이런 것 정리를 해 드리겠습니다. 정보통신기술 잘렸네요. 정보통신기술 한번 설명 드리면 해외는 ICT기술이다 그러면 사장님이 이사회가 즉시 도입을 합니다.
여러분 도서관장이 즉시 도입을 합니다. 그러면 결과는 잘 나올 리가 없잖아요. 그러면서 틀렸지만 그만두지 않고 수정하면서 진행하면서 이렇게 합니다. 외국은.
그리고 지금 쳐다보면 연습문제 풀고 있지 않고 실행단계를 하고 있어요. 그러면 대한민국은 어떠냐. 여러분도 마찬가지일 거예요. 되게 느려요.
도입을 하는 거 콘퍼런스도 하고 컨설팅도 하고 돈도 주고 리포트도 만들고 다 한 다음에 뭘 하냐면 복잡하니까 아, 다음에 합시다. 숙제로 남깁시다.
1억 투자하면 2억 남아? 이렇게 하시는데 이렇게 접속하시면 잘 안 됩니다. 그래서 신규가치창출을 해야 되는데 이것 다른 사람한테 뺏기면 남이 만든 소프트웨어,
남이 만든 인프라, 남이 만든 플랫폼을 차용하셔야 되고 기술종속이 됩니다. 그래서 꼭 여기처럼 하셔야 됩니다. 하나 더 얘기하겠습니다.
월마트가 되게 오프라인 매장이 되게 큰데 아마존은 끝내주잖아요. 온라인매장을 하는데. 이 월마트가 아마존보다 겁나 커요. 그런데 이 온라인에서는 아마존에 상대가 안 됩니다.
그런데 이것을 돌파하는 아이디어를 냈습니다. 어떻게 됐냐. 온라인 전문가를 딱 데리고 와서 네 마음대로 해라. 그래서 어떻게 했냐면 온라인에서 주문을 해요.
그리고 오프라인 매장은 되게 많잖아요. 아마존에는 없는 것. 거기 가서 네가 직접 받으면 몇% DC 해줄게. 그랬더니 사람들이 이것을 이용하기 시작했습니다.
그래서 픽업할인서비스라고 해요. 이게 무슨 소리냐. 남 따라 가려다보면 내내 뒤쳐지니까 우리도 월마트처럼 고민을 해서 극복불가전략 같은 것을 만들지 않으면 계속 기술종속이 된다, 그런 얘기입니다.
그다음에 제가 컴퓨터 Science 전공자가 아닌데 제일 귀찮을 때도 있어요. Architecture, Architecture 그래요. 아셔야 돼요. 설계구조예요.
설계도 플랫폼, 플랫폼 해요. 그러면 하드웨어일 수도 있고 주로 소프트웨어인데 Windows 위에 프로그램이 A프로그램, 한글, SA 탑재될 수 있고 깔 수 있으니까
Windows도 플랫폼이 될 수 있고 당연히 MacOS도 될 수 있고 네이버에 가면 자동차페이지, 메일 페이지, 웹툰 페이지,
그 다음에 물건 파는 페이지가 있으니까 이것도 플랫폼, 페이스북도 플랫폼이 될 수 있습니다. Framework라고 합니다.
복잡하네, 해놓고 이것보다 덜 복잡하게 뼈대구조를 대충 누가 정리해 놓은 것을 쓰는 겁니다. 편리하겠죠. Library, Library하는 게 별 거 아니에요.
그냥 Functional 저장해서 파는 건데 대결을 없애기 위해서 플랫폼이 뭐냐면 여러분들 애기들한테 혹시 레고 사주면 이런 레고입니다. 설계도가 없어요.
레고 블록이 있기 때문에 뭐든지 만들 수 있는데 처음에 뭐 만들려고 하면 되게 힘들어요. 이게 작년 12월에 닉스라고 하는 유명한 학회에서 구글이 발표한 그림에 들어간 겁니다.
그래서 이렇게 된 건데 Framework는 쉽잖아요. 이런 거예요. 이것보다 쉬워요. 헬기를 만들 수 있는 케노, 피보, 프로펠러, 다 갖다놓고 만들 수 있어요. 그래서 금방 헬기 만들 수 있어요.
하지만 이것가지고 탱크를 만들려면 힘들어요. 탱크 만드시려면 이것 쓰셔야 돼요. 대신 훨씬 어려워요.
그래서 많이 쓰시는 저희가 딥러닝하는데 Caffe, Keras, 이런 것들이 있는데 이런 것들이 Framework이고 좀 더 어려운 게 이것이다, 이렇게 이것만 기억을 하셔도 좋습니다.
오픈소스가 뭐냐면 우리는 프로그램을 무조건 돈 주고 사는데 요새 어떻게 하냐면 누군가 프로그램을 짜서 어제 나온 프로그램을 웹에 올립니다.
그리고 같이 share, 같이 씁니다. 기가 막힐 노릇이에요. 워, 하진 않겠지만 2015년에 보니까 대부분의 회사가 여러분 안드로이드, 구글 하시면 그게 다 오픈소스예요.
거기 들어가 있는 앱에 들어가 있는 프로그램 다 오픈소스예요. 그런데 며칠 전에 정부 과기정통부가 벌써 나왔어요. 공개 소프트웨어로 연구개발을 하려면 이렇게 해라.
사람들이 헷갈리니까. 여기 78%였는데 그사이에 2017년 96%, 모든 상용 소프트웨어는 오픈소스를 기반으로 합니다. 아셔야 되고요.
구글에 TensorFlow라고 하는 Framework가 있는데 이거 딥러닝할 때 많이 쓰거든요. AI개발할 때. 이게 144만 줄인데 저 혼자 짜라 그러면 400년이 걸리는 걸 공짜로 줍니다.
이게 오픈소스가 되겠습니다. IBM뿐이 없겠죠. IBM Oracle 같은 것 보면 이게 다 공상이에요. 보면 막 이렇게 써 있어요. 저는 이게 뭔지 몰랐어요. 그냥 이렇게 써 있어요.
IBM과 Oracle, 여러분과 밝은 미래를 함께 한다. 이렇게 써 있어요. 그런데 뭘 하는지는 몰라요.
이런 분들이 여러분한테 뭘 프로DB를 만들어 주고 Framework를 만들어 주고 돈을 달라고 그럽니다. 소프트웨어 파시는데.
그래서 이분들하고 잘 콜라보를 하시려고 하면 지금부터 말씀드리는 것 듣고 똑똑해지셔야 된다. 공개소프트웨어가 여기 있죠. 비공개소프트웨어가 저희가 그동안 쓰던 거예요.
IBM이 다해 줍니다. IBM이 다해주고 NS가 다해줘요. 돈 주고 샀어요. 기술 지원할 때 돈을 달라도 괜찮아요. 그리고 돈이 많이 드니까 불법카피도 씁니다.
공개소프트웨어는 다 올려놨어요. 수백 만 줄을. 돈을 안들도 제가 고칠 수도 있어요. 그런데 이게 문제가 뭐냐면 이것을 만질 줄 아는 엔지니어, Scientist가 필요합니다.
그래서 협력기술, 이런 게 필요한 거예요. 여기까지만 아시고요. 오픈소스, 여러분 요새 AI, 빅데이터 나오는 것은요. 100% 오픈소스예요.
그러니까 누가 갖고 있지는 않아요. 여기는 넘어가고 IBM Watson도 2011년밖에 안 되고요. 구글이 고양이 사진을 자율 분류하는 것을 했대. 2012년.
그 다음에 구글이 DeepMind을 사서 재작년에 16년에 난리 났잖아요. 산 게 14밖에 안 돼요. 인수를 한 게.
그리고 Baidu가 뭐 하고 Google Car는 1M Miles 무자동 운전하는 게 겨우 2년 전, 3년 전, 알파고가 이세돌이긴 게 재작년밖에 안 됐어요.
보시면 아시겠지만 30년 전에 얼마 안 된 겁니다. 그리고 작년에 제가 뭐있었나 봤더니 이제 알파고가 커서 AlphaGoZero가 됐다가 AlphaZero가 돼가지고
이따가 시간이 되면 보여드릴 Neural Network가 아마 Cryptopay입니다. 오늘의 가장 중요한 그림이 되겠습니다.
제가 제일 헷갈렸던 건데 인공지능을 하는 여러 가지 방법 중에 데이터 마이닝이라는 방법이 있습니다. 그리고 이안에 통계학, 패턴인식,
테이터 마이닝 방법 중에 기계학습이라는 하는 머신러닝이 있고요. 그 안에 지도학습, 비지도학습, 강화학습, 이게 알파고에 쓴 거예요. 이런 게 있습니다. 모르셔도 돼요.
Support Vector Machine 이 30년, 50년 전부터 있던 Artificial neural network 이런 게 있어요. 인공신경망, 들어보셨을 거예요.
그런데 인공신경망이 잘 안 되는 걸 Deep neural network 그러니까 인공신경망을 크기를 크게 만든 거예요. 깊게 이렇게 만들어서 머신러닝을 합니다.
그래서 이게 제일 중요하고 이것을 여기서 보면 Deep한 neural network를 가지고 머신러닝을 해서 이것을 합쳐서 딥러닝, 딥러닝합니다.
그러니까 딥러닝이 하늘에서 떨어진 게 아니고요. 얘 밑에, 얘 밑에 머신러닝 기계학습 밑에 딥러닝이 있는 거다.
그리고 빅데터 기술은 오늘 말씀드릴 게 여러분들이 지원을 해주는 건데 이 모든 기술은 컴퓨터과학과 컴퓨터 Science 쪽에 됩니다.
도대체 이게 어디서 나오는지 아셔야 되는데 딥러닝 무서워하면 안 된다, 이게 요지가 되겠습니다. 그래서 간단하게 아주 데이터 마이닝, 머신러닝, 딥러닝, 이런 것을 말씀드릴게요.
데이터 마이닝, 복잡하게 하나도 안 외우셔도 되고요. 뭔가 큰 거를 잘 섞어서 뭐냐. 딱 파란 글씨. 아, 자동으로 뭘 하겠다. 이게 데이터 마이닝 기술이 되겠고
여기 보면 컴퓨터한테 이 숲 속의 갈대밭에 숨어있는 이것은 사람은 패턴인식을 한 다음에 금방 치타를 찾아내는데 컴퓨터는 이게 되게 어려운 일이에요.
이것을 찾는 것을 하는 것을 데이터 마이닝이라고 했고 자동화하는 겁니다. 있는 것을 합친 거예요. 하늘에서 뚝 떨어진 게 아니고.
그래서 데이터 마이닝하는 얘들이 IBM에서 했던 건데 이렇게 해 놨어요. 데이터 마이닝하고 통계, 데이터베이스, 머신러닝, AI, Pattern Recognition 이렇게 돼있다.
그런데 제가 분석을 해 보니까 이게 빅데이터가 아닌데도 자꾸 빅을 붙여요. 데이터 마이닝하는 사람이.
그래서 소셜 sns 서비스분석을 했다는 점, 온라인 쇼핑 히스토리를 추적을 했다는, 그냥 이것 사실은 데이터 마이닝인데 자꾸 빅데이터라고 해서 헷갈리게 합니다.
그래서 빅데이터는 어느 정도 되냐. 최소한 무인자동차, IoT센서, 날씨, 거대구조 우리 GPS, 수백만 사람들의 GPS, CCTV 수만 개, 이 정도는 돼야 빅데이터급이라고 할 수 있겠습니다.
그래서 이게 금방 보신 그림이에요. 고도기술 하는 사람이 만들고 그랬어요. 어떻게 그렸느냐. AI가 다 먹었어요. 데이터베이스도 별로 인기가 없고요. 빅데이터 데이터베이스를 씁니다.
그래서 이렇게 된 것으로 세상이 바뀌고 있다. 계속 맵이 바뀌고 있어요. 머신러닝, 넘어가겠습니다.
머신러닝 유명한 사람이 뭐라고 썼는데 이 말 알 필요가 없고요. 뭐라고 그랬냐면 나 프로그램 안 짤래. 대신에 네가 알아서 해줘. 데이터를 통해서.
이 머신러닝 기계학습은 왜하냐. 이것만 아시면 돼요. 예측을 하려고 합니다. 데이터를 가지고 예측을, 누가 그걸 왜 해? 그러면 예측을 하려고.
서비스예측을 하려고. 수요 예측을 하려고. 무조건 예측을 하려고 하는 거가 머신러닝이이고 이 머신러닝 밑으로 들어가는 게 딥러닝이고
기자들이 자꾸 딥러닝 가지고 인공지능이라고 등치해서 얘기하고 있거든요. 예측을 하는 거예요. 프로그램을 우리가 일일이 짜지 않습니다.
이것이 전통적인 방법입니다. 어떻게 하냐면 데이터가 있어요. 그러면 분석해봐. 그러면 지가 코딩을 합니다. A+B=C이고 다 프로그램 짜고 컴퓨터에 돌리면
덜커덕하고 오, 내년 되면 예측수치가 처음으로 커졌는데요. 이게 저희가 알고 있는 전통적인 방법인데요. 딥러닝, 머신러닝으로 가면 어떻게 하냐면 프로그램을 안 짭니다.
어떻게 하냐면 데이터, 이게 Input이에요. Output 세트를 연습용을 만들어요. 페어로. 이것을 데이터세트라고 합니다.
데이터세트를 주고 정리를 해서 컴퓨터에 넣으시면 지가 프로그램을 짜줍니다. 그래서 사람들이 되게 불편해하는데 프로그램을 짜야 되는데 프로그램을 자꾸 짜지 말라 그래요.
예제를 주면 프로그램이 나옵니다. 계속 설명을 하겠습니다. 어떻게 하느냐. 데이터를 주면요. 입력데이터, X와 Y를 주면 막 프로그램을 지가 알아서 짜가지고 여기서 프로그램이 나와요.
그래 갖고 이 프로그램을 훈련과정 프레임과정에서 빼서 실제 써먹을 때 고양이 사진 같은 것을 예측을 할 때 넣어서 나중에 맞추는 건데 헷갈리시면 설명 더 드릴게요.
데이터 X와 Y를 집어넣어서 프로그램이 나온다할 때 무슨 소리냐면 프로그램 짜지 않고 코딩하지 않고 입력, 출력, 이게 X와 Y예요.
입력, 출력에 의한 예제 세트에 의해서 자동 프로그램 되는 게 딥러닝, 머신러닝이 되겠습니다. 그래서 내가 할 게 뭐냐.
X, Y 세트를 많이 모아주면 많이 모아주면 데이터가 많아지겠죠. 빅데이터 세트를 모아주면 알아서 해주게요. 오픈소스를 가지고 할 수 있는 거가 요새 신문에 나오고 알파고 만든 기술이고
AI, 빅데이터 한다는 기술이 전부 이것에 속하는 게 되겠습니다. 머신러닝 과정을 흐릿하게 아시면 안 되니까 머신러닝, 딥러닝을 하려면 4가지가 필요해요.
뭐냐 하면 데이터가 필요한데 그림을 주고 이 그림이 X예요. 그 다음에 이 그림은 항공기다. Airplane이다라고 답을 다줘야 돼요.
세트를 넣으면 이것 가지고 훈련을 하는데 사야 될 것은 이것이 필수입니다. 그리고 아까 제가 Framework해 드렸죠.
뭐냐 하면 헬리콥터 만드는 레고 블록, 누가 다 만들어 놨어요. 제가 혼자 짜려면 400년 걸린 것 갖다 쓰시면 돼요. 짜시면 안 돼요. 이것을 갖다가 쓰고요.
그 다음에 모델을, 어떤 것을 할 건지 제가 대충 어림을 해줘야 돼요. 혼자는 안 돼요. 이 3세트를 가지고 그 다음에 컴퓨터가 있으셔야 돼요.
컴퓨터 GPU라고 하는 컴퓨터가 들어가 있는 큰 컴퓨터를 가지고 4개 가지고 훈련을 해서 훈련이 되면 여기서 고양이가 있고 cat이 있죠.
그러면 다음에 모르는 고양이 사진이 왔으면 우리는 알지만 컴퓨터는 몰라요. 그러면 여기서 훈련된 여기서 훈련돼서 뭔가 Function이 나왔을 거 아니에요. 프로그램이 나왔잖아요.
그 프로그램을 모르는 입력에 프로그램을 넣어주면 cat하고 맞춰내는 것. 여러분도 여기에 나중에 도서관정보데이터가 들어가고 여기 들어가서 나와서 이게 나오면
나중에 모르는 도서정보의 서비스고도화를 예측을 얘가 하게 되는 겁니다. 더 설명을 하겠습니다. 그래서 이게 아주 넘기 힘든 거라 프로그램을 원래 이렇게 짜셨어요.
사람, 머그컵, 보트를 하고 싶으면 우리는 프로그램을 짭니다. 밝기가 얼마면 hats이고 edge가 얼마이면 일일이 다 짜주는데 잘 만난 게 새로운 이벤트가 생기면 또 짜야 돼요.
영원히 프로그램을 짜야 돼요. 이 짓을 안하면 겁니다. 어떻게 하냐면 그냥 X, Y, 고양이, boats, mugs, hats의 세트만 넣어주고 컴퓨터에 넣어주면
나중에 자동으로 프로그램 생성이 되는 이게 머신러닝의 데이터인데 이것을 구분하셔야 돼요. 자꾸 짜시면 안 됩니다. 이 짜는 것은 컴퓨터가 알아서 해줍니다. 여러분은 뭐해야 됩니까?
데이터 세트, 이것이니까 이것이, 이것이니까 이것이를 많이 만들어 주면 스스로 학습을 하게 돼있습니다. 그래서 이게 옛날 거예요. 아까 보신 그림이에요.
데이터가 프로그램, 이렇게 짜면 아웃풋이 나오던 게 아니고 데이터 X와 정답 Y 세트를 주니 컴퓨터가 어떻게 잘하면 미래를 예측할 수 있는 프로그램이 나와서
이 프로그램 가지고 알파고가 지금 바둑을 두고 있는 거예요. 안 본 대국인데 지가 해내고 있는 거예요. 더 설명을 하겠습니다.
Supervised Learning, Unsupervised Learning, Reinrofcement Learning, 이게 알파고가 한 건데 이거 뭐냐면 이것은 X와 Y세트를 줘서 훈련을 시킨 거고 이것은 출력 값을 저희가 몰라요.
그러니까 뭐냐면 이것은 고양이 cat 여기는 개 그림, dog하고 세트를 준거고 이것은 고양이, 개인지 인터넷에 다 쓰는 거야. 정리 좀 해봐. 그러면 정리를 합니다.
비슷한 것끼리 그룹핑을 하는, 이게 비지도학습이고 이것은 좀 다른 스타일입니다. 알파고 같은 게 있습니다.
그래서 여기 보면 어느 게 동그라미인지 X인지 가르쳐주고 얘는 그런 거 없어요. 그냥 그룹핑만 하는 거고 이것은 알파고처럼 Reinforcement 하는 거고 넘어가겠습니다.
그래서 진짜 본업으로 들어가는 것, 딥러닝 빅데이터라고 하는데 딥러닝은 파란색만 보시면 되는데 데이터가 아까 그랬잖아요. 겁나 많아야 된다고.
수백 만 개 이상의 X와 Y데이터 세트가 있고 이것을 가지고 훈련을 많이 해야 되니까 컴퓨터가 있어야 됩니다. GPU가 달린.
이 두 가지가 핵심키워드가 돼서 여기 보시면 컴퓨터에 이것 하나가 2억정도합니다. 128개이니까 250억 정도 돼요.
이런 거가 필요한 건 아닌데 이런 컴퓨터가 있으면 도움이 됩니다. 이 안에는 그래픽카드인데 병렬처리를 도와주는 GPU가 탑재가 되어 있고 인공신경망이 돼 있으려면.
기술 트렌드, 갑자기 딥러닝 머신러닝 써서 오, 에러가 줄었다, 에러가 줄었다, 에러가 줄었다, 이런 얘기예요. 이것은 어디 네이버 지식검색하면 다나오는 거니까.
그래서 이게 뭐냐면 데이터가 조금이면 옛날에는 빨간색으로 보시면 데이터가 조금 이면 여기다가 많아지면 쫙 성능이 모아지다가
어느 이상 되면 데이터가 아무리 많아도 더 이상 성능이 좋아지지 않는 게 저희가 갖고 있던 기존기술인데 요새 건 어떻게 하냐면 여기 져요.
데이터가 적으면 빨간색보다 파란색이 성능이 떨어지는데 어느 임계점을 돌파하면 끝없이 물론 100이 끝이겠지만 성능이 계속 좋아지는 데이터의 량이라든가 Neural network가 커지는 빅데이터가 되는 거죠.
이렇게 되는 거가 상태이고 그냥 제가 마음대로 하면 우리 이쯤 어디 있는 것 같아요. 점점점 차이가 벌어지고 있으니까.
그러면 딥러닝, 딥러닝 해서 몇 년 전에 갑자기 난리가 났는데 왜 난리가 났냐. 이게 있어요. 옛날에 제가 Traditional Artificial Neural Network라고 옛날부터 있던 거거든요.
이게 이 파란 입력과 출력 빼고 이 파란색을 여러 줄을 집어넣으면 계산이 안 됐어요. 그래 가지고 인공신경망으로다가 논문을 쓰면 다 망했어요.
그런데 2012년 이때부터 저희가 갑자기 이렇게 깊은 파란색 줄이 많은 이런 것을 계산할 수 있게 됐어요. 왜 이렇게 됐느냐. 3가지 이유가 있습니다.
하나는 뭐냐면 딥러닝을 하는데 저희가 소프트웨어기술이 많이 좋은 에버리지를 많이 받고요. 빅데이터가 많이 생겨서 연습문제가 많이 생겼어요.
연습문제가 없으면 여러분은 연습문제용 데이터 X와 Y세트를 구하러 다니려고 나오게 되는데 벤치마킹 데이터가 무지하게 많이 생겼고요.
여기 보시는 것처럼 그 다음에 GPU라고 하는 이따가 설명드릴 이런 것들이 생겼습니다. 큰일 났네, 시간에 없어서. 그래서 컴퓨팅 구조, 이런 것들 들어가고요. 이것도 넘어가고요.
그래서 예전에는 이렇게 개 그림이 있으면 이렇게 정리가 됐던 건데 지금은 처음부터 끝까지 다 알아서 해 준다. 그리고 여기에 보시면 이게 훈련입니다.
이게 y=W*X 3개의 변수가 있는데 두 개를 알면 하나를 맞출 수 있는데 연습문제 풀 때는 이것을 모르고 이것이 똑똑해지면 나중에 이것을 맞춰낼 수 있다. 넘어가겠습니다.
딥러닝 Framework 있는데 tensorflow 이것을 쓰셔야 된다. 물체탐지가 뭐냐면 이것을 보고 컴퓨터가 맞춥니다. 어, 이게 뭐지? boat, person 맞추고요.
Object Detection Neural Network인데 여기 보면 어디에 뭐가 있는지도 맞추고요. 잘 훈련을 시키면. 저절로 되지는 않습니다. 이런 것을 해낼 수 있습니다.
그래서 여기서 소규모 결론을 짓자면 딥러닝은 별 것 아니다. 옛날 Neural Network이고 옛날에는 조금밖에 안 되는데 요즘에는 막 천 개씩, 이런 것들도 할 수 있다.
빅데이터 얘기를 하겠습니다. 하드디스크에서 1TB를 복사할 때 여기서 100Mb/s 정도 되는데 이것을 처리할 때 복사만 하는데 세 시간 걸립니다.
만약에 하드디스크를 1,000개까지 돼있다 그러면 복사하는데 12초밖에 안 걸린다. 이게 분산처리기술 빅데이터 기술이 될 거고요.
마이어 쇤버거거가 쓴 빅데이터가 만드는 세상, 굉장히 좋은 책이니까 읽어보시고요. 시간이 없어서 넘어가겠습니다.
빅데이터가 구글 트렌드 분석하면 이렇게 뜨고 있고요. 인공지능과 빅데이터가 예전에는 끝 단밖에 안 겹쳤는데 요새는 이렇게 겹치고 있습니다.
빅데이터는 기존의 IT기술로 이게 굉장히 중요한 말인데 언제 빅데이터 기술을 써요? 그러면 여러분 컴퓨터에서 다 로딩이 되고 분석이 된다면 이 기술 쓸 필요가 없어요.
현재 여러분 컴퓨터에 로딩도 안 되고 읽을 수도 없고 처리가 안 되는 큰 데이터일 때만 빅데이터를 쓰게 돼있기 때문에 조그만 데이터, 내가 조금 많다 그래서 빅을 붙이시면 안 됩니다.
그리고 이렇게 엑셀 테이블처럼 예쁘게 된 게 아니라 이렇게 비정형으로 막 로그데이터, 사진, 음성, 다 넣을 수 있는 이런 것을 핸들링할 수 있도록 해야 되고 이것도 빅데이터 기술도 아까 똑같습니다.
미래를 예측하려고 하고 있습니다. 프로그램이 오픈소스인데 이렇게 막 미친 듯이 막 1개월, 2개월, 3개월에 공짜로 저희한테 공급이 되고 있고요. 제가 쓰고 있는 프로그램들 보겠습니다.
그래서 빅데이터, AI 기술, 다른 팀이 들어오면 이것을 가지고 저희가 AI를 만들 수 있고 자율주행, 러닝플랫폼, VR, AR, 이런 것들을 할 수 있다.
AI랑 자율주행기술이 있는데 이것 헷갈리시는 분들이 많습니다. Intelligence는 Ability이고요. 뭔가 결정할 수 있고 그다음에 Capability는 그 결정된 것을 실행할 수 있는 능력입니다.
그래서 Autonomy, 자율주행기술은 뭐냐면 Self-governing condition이고 이건 Ability예요. 달라요.
그래서 뭐냐면 Capability가 높으면서 노란색처럼 Intelligence가 떨어지는 놈이 있을 수 있고 빨간색처럼 Capability는 떨어지는데 Intelligence가 높을 수도 있고
이게 이렇게 대입해서 각각의 여러 가지 액션 스페이스를 구할 수 있는데 이것을 가지고 자율주행 1단계, 2단계, 하이레벨, 이렇게 얘기하는데 이 두 개랑 이것을 섞어서 보시면 안 됩니다.
Intelligence다르고 능력 다르고 자율이 다른 겁니다. 그래서 여기 보면 이상하게 조사를 해 봤더니 가까운 시일 내에 AI가 판칠 거다라고 예상을 하는 건 아시아 사람밖에 없어요.
유럽 사람들은 되게 냉철한데 이 아시아 사람들은 내년에 갑자기 뭔가가 돌아다닐 거라고 하고 있는데. 시간이 없어서
하여간 GPU가 많이 들어가면 4일치 걸릴 게 30분에도 해결이 될 수 있다. 컴퓨터는 되게 비쌉니다. GPU, CPU는 뭐냐면 고급연산자가 있는데요.
고급연산자로 계산하는 것을 나눠주는 건데 뒤에서 설명하겠습니다. 도서관이 나왔습니다. 제가 우연히 갔다 썼는데 이게 Relational DB, 관계형 DB가 되겠습니다.
도서관에 책이 만 권이 있습니다. 물류창고에 물건이 만 개가 있습니다. 천 개가 새로 들어왔어요. 그러면 우리는 건물을 새로 지어야 됩니다. 부속건물을.
여기까지 똑같은데 관계형 데이터베이스는 어떻게 하냐면 가나다라 순으로 정리가 돼있기 때문에 책 천 권이 들어오면 저 뒤에 있는 천 권을 따로 별로 건물에 넣을 수가 없어요.
어떻게 하냐면 이것을 다 밀어야 돼요. 다 제거해서 다 때려 부셔야 돼요. 그래서 여러분이 IBM ORacle한테 돈을 주고 DB를 만든 사람한테 고쳐달라고 하면 돈을 많이 달라 그럽니다.
왜, 이것 다 때려 부셔야 되니까. 물류창고는 어떻게 하냐면 빅데이터 쪽에서 쓰는 것은 물류창고 지을 것을 해놓고 밑에 겹쳐서 그냥 갖다 넣으면 돼요.
이런 식으로 접근하는 게 비정형데이터 노이스케어리라고 하는 이 콘셉트가 된다라는 것 알고 계시면 좋겠고요. 이것 설명하겠습니다. 시간 얼마 남았죠. 큰일 났다. 이것 설명 많이 못하겠네요.
교수님이 50명 채점을 할 수 있는데 총장님이 200명해라고 해서 밤새서 됩니다. 그런데 총장님이 만 명을 해라. 그러면 밤새도 안 돼요.
내일모레까지 평균을 내라. 그러면 어떻게 하셔야 되냐면 이것을 풀기 위해서 50명의 알바를 구해서 채점을 하고 이것을 해야 되는데
채점할 때 누가 국어시험지 갖고 있는지 누가 데이터 잃어버렸는지 이것을 다 관리해 주는 것들이 제가 오늘 하고 있는 빅데이터 처리기술이 되겠습니다.
그래서 빅데이터 기술의 집합체라고 하는 Hadoop데이터 시스템을 쓰고 있고요. 그래서 하드웨어, 소프트웨어 할 수 있고 넘어가겠습니다. 이것도 넘어가고요. 그래서 이것 설명 드리겠습니다.
이게 인프라 플랫폼 서비스인데 여러분이 컴퓨터랑 건물을 사고 아무 것도 없어요. 그러면 인프라 서비스를 사시는 겁니다. IaaS라고 합니다.
거기다가 OS도 넣고 약간의 프로그램도 넣으면 플랫폼서비스를 받는다고 하고요. 도서관처럼 이거 다에다가 도서정보 처리하는 것까지 소프트웨어, 홀랑 다 다 사시면 SaaaS라고 합니다.
소프트웨어 서비스가 되는 겁니다. 이것 구분을 하시고요. 여러분 데이터가 분명히 안 봐도 뻔합니다. DVD서비스는 이렇게 됐고 도서정보는 이렇게 되고 하나씩 하다보니까 아마 이렇게 되셨을 거예요.
이것을 어떻게 하셔야 되냐면 이렇게 바꾸시고 싶은 마음이 있으실 건데요. 이 바꾸는 방법은 이렇게 DATA HUB방법과 DATA LAKE방법이 있는데 넘어가겠습니다.
정리를 해야 되니까 국방 분야 쪽에 저희가 하고 있는 것, 이것을 저희가 데이터를 모아가지고 막 처리를 합니다. 여러분 것은 어떤가 하면 똑같아요.
여기 비행기에서 오는, 자율 주행차에서 오는 이러한 자율을 멀티미디어, 원시데이터, 사용자정보, 비정형데이터, 콘텐츠데이터, 이런 것 다 모으셔가지고
의사결정, 지능형서비스고도화, API설계, 분석플랫폼, 이런 것 하고 싶으신 거잖아요. 그래서 딴사람이 한걸 보셔도 충분하다. 이런 것들이 있고요.
결언을 하겠습니다. 무엇을 하셔야 되는지 제가 정리를 해 드려야 되잖아요. 오늘부터 뭐하시느냐. 사서하고 뭐하시려면 오늘부터 데이터세트 모으셔야 됩니다.
그런데 쓰레기를 아무렇게나 모으시면 쓰레기가 나옵니다. 그래서 여러분이 관심을 갖고 정리해서 모으시면 빅데이터 서비스 고도화를 하실 수 있고요.
IT애들이 와가지고 막 뭐라고 하면 공부 좀 하셔가지고 IT를 배우셔야지 이거, 그냥 여러분 호구 잡힙니다. 그래서 좋은 서비스에는 여러분들 같은 숙련된 도서학술정보 하시는 전문기술이 필요하고
그래야 좋은 서비스플랫폼이 나올 수 있습니다. 그리고 계속 자료를 보셔서 기술 트렌드 파악을 하시는데 3가지가 필요합니다.
이런 것 깊이 들어가려면 통계, 학교 때 배웠고요. 수학, 배웠고 이것이 필요합니다. 전문가. problem solve, problem definition능력,
이것은 한 분야에서 10년은 계셔야 하실 수 있거든요. 그래서 이런 능력이 있으셔야 할 수 있다. 여러분들의 적극적인 개입이 없으면 IT애들이 아무렇게나 만들어 놓고 나간다, 이렇게 되겠습니다.
마지막으로 정부3.0에서 이런 것을 했었어요. 이게 뭐냐면 진짜 이것 휴대폰 서비스입니다. 이게 박근혜 정부에서 했었던 정부3.0 휴대폰 단말 서비스예요.
뭐가 뭔지 보이지가 않아요. 여러분이 도서정보 서비스를 만들 때 이렇게 만드시면 안 됩니다. 어떻게 만드셔야 되냐. 이것은 영국 거예요. 영국 것은 정부3.0 비슷한 거 들어가면 이렇게 딱 돼있어요.
제일 중요한 게 앞에 딱 나와 있고 딱해서 들어가서 할 수 있게 사용자의 편리성을 위하게 되는데 여러분은 이게 아니라 이런 것을 만드셔야 합니다.
저것을 만들려면 어떻게 해야 되냐면 시간이 안 되더라도. 1분 동안 얘기하겠습니다. 사용자가 무엇이 필요한 건가. 우리만 할 수 있는 것.
데이터에 기반해서 아이, 귀찮아. 그러지 마시고 수고를 마다하지 않으셔야 되고요. 빨리 빨리 만들고 빨리 빨리 사용자한테 불편한데요, 피드백 받고 반복을 하셔야 되고
할아버지도 쓸 수 있고 젊은 사람도, 애기도 쓸 수 있다는 것을 감안해서 소프트웨어를 주문을 하셔야 되고요.
고려를 하시고 웹 사이트, 아까 정부3.0, 웹 사이트를 만들면 만들었다고 해도 아무도 안 씁니다. 웹 사이트를 만드시면 안 되고 빅데이터를 기반으로 한 디지털서비스를 만드셔야 되고요.
일관성은 지키되 획일적이지 않고 참여하는데 이게 어디서 나오는 거냐. 제가 만든 게 아니고요. 아까 보셨던 영국 정부의 디지털 서비스의 설계 10대 원칙,
여기서 참고 많이 하셔서 사용을 하시면 좋겠습니다. 프로그램 짜시고 하시면 이론은 이런데 실제로는 잘 안 된다는 거예요. 소프트웨어 짜시는 게. 잘 준비해서 하시고요.
저 1~2분 남았나요? 감사하고요. 질문 혹시 있으세요, 궁금한 것? 없으시면 여기서 마치겠습니다. 감사합니다.
