알파고의 미래를 예상해 봅시다 (바둑 한정)
1. 알파고의 과거
우리가 아는 알파고의 과거는 '판후이 대국즈음(2015. 10월)'입니다. 판후이의 현재기력은 '한국기원 프로 연습생 수준'으로 알려져 있고, 공식대국에서는 알파고가 5-0 으로 이겼습니다. 비공식대국(속기)에서는 3-2로 이겼습니다.
알파고의 기력 향상을 위해 당시 구글은 입수할 수 있는 모든 기보를 입수해 알파고에 학습시켰을 것입니다. 동아사이언스 기사(http://news.donga.com/3/08/20160226/76688297/1)에 따르면 여기저기서 취득한 16만개의 기보 중 프로기사의 기보는 1만 5천개라고 하였습니다. 저작권 문제로 오래전 기보를 위주로 습득했다고 하는데, 그것이 사실인지는 더 확인해봐야겠습니다.
(일부 기사에서는 프로바둑 기보 3천만건을 입력시켰다고 하는데 "16만 기보 × 평균 200수 = 3200만수" 를 바알못 기자가 잘 못 이해하고 작성했으리라 생각됩니다. )
2. 알파고의 현재
이세돌 사범과의 5차례 대국을 통해서 알파고의 실력(기력)은 새롭게 평가되었습니다. 강점/약점이 동시에 있는 것이 확실하지만, 어쨌건 결론은 인간이 도달할 수 있는 최정상급 수준과 같거나 그 이상일 것이라는 점입니다.
"불과 5개월 전만 해도 2점 아래의 실력이었는데... 어떻게 이런 일이...!"
바둑을 조금이라도 알고 있는 사람이라면 그 누구라도 놀라지 않을 수 없는 결과입니다.
실력이 상승할 수 있는 큰 그릇을 만든 것은 "프로그램머의 노력"이라고 할 수 있지만, 그 그릇을 채운 것은 "알파고(AI 프로그램)의 노력"임이 분명하므로, 우리는 그 사이에 어떤 노력이 있었을지를 분석해야 합니다.
우선 알파고가 추가로 습득한 '인간의 기보'는 과거에 습득한 것에서 크게 늘지 않았을 것이 확실합니다. 저작권 문제가 있다면 더욱 그러했을 것이고, 저작권 문제가 아니더라도, 추가할 수 있는 기보가 있다면 과거에 추가하지 않았을 까닭이 없습니다.
그렇다면 알파고가 그 사이에 기력을 저 정도로 올릴 수 있는 유일한 방법은 "인간vs인간" 또는 "인간vs알파고"의 대국이 아니라 "알파고vs알파고"의 셀프대국일 것이라는 추정이 가능해집니다.
이는 '허사비스'가 밝히기도 한 내용인데, 셀프대국을 통해 좋은 데이터를 만들고, 그것으로 기력이 오르고, 오른 기력으로 더 좋은 데이터를 만들고, 또 기력이 오르고... 이러한 과정이 현재의 알파고를 만드는데 가장 중요한 역할을 했다고 볼 수 있습니다.
5개월간 얼마나 많은 self-play 를 하였는지 아직 밝혀진 바가 없습니다만, 알파고 싱글머쉰과 Dist 버전을 적절히 상대를 조합하여 대국하고, 또 속기바둑을 두는 식으로 대량의 기보를 만들어냈을 가능성이 높아 보입니다.
(인터넷에 떠도는 소문에 의하면 매일3만판=매월100만판을 학습한다고 합니다. 공식 확인되지 않은 정보입니다.)
이러한 셀프기보 중에서 좋은 수준이라고 평가한 기보는, 기존 16만건이라는 인간의 기보중에서 하급이라고 평가되는 것들을 대체하였을 가능성이 높습니다. 그 결과 "Human expert positions" 였던 정책망은 "Human expert positions+Alphago's positions" 로 변화되면서 네트워크 기반이 탄탄해졌을 것입니다.
3. 알파고의 미래
누군가는 알파고의 약점을 보았으니 '이제 잡을 수도 있다'라고 생각하겠지만, '잡을 수도 있는 대상'은 오늘의 알파고이지 미래의 알파고가 아닙니다. 인간이 오늘의 알파고에 있는 약점에 집착하는 동안, 알파고는 계속 강해질 것입니다. 분명 미래의 알파고는 오늘의 알파고보다 강합니다. 알파고의 집은 커지고, 맛은 줄어듭니다. 5개월만에 강해진 오늘의 알파고에게 느낀 충격을, 5개월 후의 알파고에게 또 느끼게 될 가능성이 높습니다.
오늘의 알파고를 만든것은 8할이 알파고 자신입니다. 미래의 알파고를 만드는 것은 10할이 알파고 자신이 될 것입니다. 다만 인간이 그러하듯 기력이 오르면 오를수록 기력을 빠른 시간에 올리는 일은 AI에게도 어려운 일이 될 것입니다. 그것이 저의 오판일수도 있습니다만...
허사비스 ""
알파고가 오를 수 있는 어떤 한계에 다다랏다고 판단되는 때는, 정책망/가치망 이외의 새로운 망을 추가한 베타고가 탄생할 수 있는 순간이기도 할 겁니다. 현재보다도 더 신의 바둑에 가까운 미래의 알파고라는 좋은 사범이 있다면, 새로운 망으로 태어난 베타고를 만드는 것은 그렇게 어렵지 않은 일일지도 모르겠습니다.
문제는 구글이나 딥마인드에게 바둑AI시장은 최후의 목표가 아니기 점입니다. 돈이 된다고 판단하지 않는 이상 추가적인 투자 내지는 연구를 지속할 것인지 불분명합니다.
알파고에게 가장 큰 위험은 "딥마인드에서 알파고에게 바둑을 그만두도록 결정"하는 것입니다.
from YTN 뉴스