모바일  |   유튜브  |   facebook  |   newsstand  |   지면보기   |  
2024년 03월 29일 (금)
전체메뉴

[춘추칼럼] 데이터를 쌓아야 한다는데- 박형주(국가수리과학연구소장 아주대 석좌교수)

  • 기사입력 : 2016-10-28 07:00:00
  •   
  • 메인이미지

    몇 해 전에 구글의 수학자를 워크숍에 초청했다. 발표 동영상을 찍지 말아 달라 하더니 발표 파일도 남기지 못한다고 양해를 구했다. 그럴 수밖에 없으려니 했다. 나름 폐쇄적인 회사의 숙명을 가지고 있는 회사니까. 시대를 앞서가는 연구를 하고 자율주행 자동차 등에서 치고 나가는 구글에게, 그 과실의 사업화를 위한 기업 비밀 유지가 왜 중요하지 않겠는가.

    그런 구글이 작년 11월에 기계학습 소프트웨어인 텐서플로를 누구나 수정까지 할 수 있게 공개하자 인공지능에 한발 걸친 사람들은 환호했다. 보통 사람들은 기계학습이니 딥러닝이니 하는 말을 들어본 적도 없던 때였다. 올봄에 알파고 충격이 우리나라를 강타한 뒤에는 초등학생에게도 생소하지 않은 말이 됐으니 상전벽해다.

    알파고로 화들짝 놀란 우리 사회에 열띤 후속 논의가 이뤄졌다. 인공지능의 주요 알고리즘은 공개되어 오픈 이노베이션으로 발전할 것이니, 부족한 데이터를 쌓는 게 시급하다는 의견이 대세다. 구글이 알고리즘은 공개해도 데이터는 공개 안 한다고도 한다. 어디서 이런 착시와 오해가 생겼을까. 구글이나 테슬라가 자율주행 자동차의 상세 작동 알고리즘을 공개할 거라는 건 환상이다.

    집단지성으로 기술을 다 같이 발전시키는 게 합리적이지만, 지금은 보편적(generic) 수준의 개방을 크게 넘지 못한다. 알파고 기술이 공개됐다는 것도 오해다. 알파고의 요소 알고리즘과 전체적인 작동방식은 네이처 논문의 형식으로 공개됐지만, 타사의 인공지능 바둑 프로그램이 알파고의 정확도를 재현하고 있나? 상세 알고리즘이 있으면, 공개된 기보 데이터를 수집해서 학습한 뒤에, 끊임없이 다른 프로그램과 두어보면서 방대한 추가 데이터를 만들고 축적해서 학습할 수 있다. ‘하면서 배우는(learning by doing)’ 것이다.

    결국 타 기업이 못 따라가는 이유는 데이터의 부족이 아니라, 몬테카를로 서치를 어느 정도의 규모로 하는지, 딥러닝의 히든레이어 수는 어떻게 정하는지 등의 기술적 내용이 철저하게 비밀로 유지되는 탓이다.

    알파고를 만들어낸 영국 회사 딥마인드는 그 상세 알고리즘을 모기업인 구글에게도 비밀로 한다고 알려져 있다. 예전 인공지능의 대세였던 규칙기반 방식에 비해서 지금의 기계학습은 데이터를 학습하며 의미를 읽어낸다.

    의료에서 질병 가능성을 판단하기 위해 환자의 신체 측정치가 예전 환자들의 측정치와 흡사한지를 계산하는 데서 보듯이, 그 핵심은 수학의 최적화 이론 활용이다.

    애플도, 페이스북도, 구글도, 테슬라도, 우버도, 중국 기업 바이두도 모두 강력한 자체 인공지능 알고리즘 연구팀을 운영한다. 이 분야 우수 연구자들을 휩쓸어가는 바람에, 대학과 연구소들은 인재 구하기가 너무 힘들다고 하소연한다. 이 인재들이 열심히 데이터만 모으고 있나. 결국, 기초 연구가 중요하다. 데이터를 모을 뿐 아니라, 그 데이터로부터 의미를 읽어내는 알고리즘 연구에서 세계적인 경쟁력을 가져야 한다.

    박형주 (국가수리과학연구소장 아주대 석좌교수)

  • < 경남신문의 콘텐츠는 저작권법의 보호를 받는 바, 무단전재·크롤링·복사·재배포를 금합니다. >
  • 페이스북 트위터 구글플러스 카카오스토리