AlphaGo Zero: Learning from scratch (A.K.A 제파고)

SINCE 2015.01.19.
SEARCH

by OrangeDay

세상의 모든 계산기 자유(질문) 게시판

세상의 모든 계산기 자유(질문) 게시판 일반

AlphaGo Zero: Learning from scratch (A.K.A 제파고)

- 세상의모든계산기
  *.165.6.43
- 2021.08.23 - 22:42 2017.10.19 - 09:00 1126 7

드디어 알파고의 마지막 행보 중 하나인 알파고 논문이 발표 되었습니다.

https://deepmind.com/blog/alphago-zero-learning-scratch/

아직 자세하게 읽어보진 않았지만 알파고 개발사에 대한 총정리 버전이 될 것 같습니다.

네이쳐 논문 링크 : https://www.nature.com/articles/nature24270.epdf?author_access_token=VJXbVjaSHxFoctQQ4p2k4tRgN0jAjWel9jnR3ZoTv0PVW4gB86EEpGqTRDtpIz-2rmo8-KG06gqVobU5NSCFeHILHcVFUeMsbvwS-lxjqQGg98faovwjxeTUgZAUMnRQ

눈에 띄는 점

1. Alpago Zero (A.K.A 제파고) 가 등장했습니다.

인간 기보 학습이나 인간의 어떠한 수동 조작(개입) 없이 오직 self-play training 로만 성장하게 만든 것이 Alphago Zero(A.K.A 제파고)입니다. 이러한 방법으로 단 3일만에 이전 논문의 알파고(=돌파고) 를 압살하는 수준까지 성장할 수 있었으며, 커파고(=마파고=Master) 수준까지는 21일, 커파고 보다 훨 쎈 수준까지는 40일(총 2900만판의 self-play)이 걸렸다고 말하고 있습니다. (40 Block 기준)

* 논문에 따르면 제파고(완성 버전)가 마파고를 89승 11패로 이겼다고 합니다. (게임당 2시간짜리 시합)

2. 기존 알파고와의 차이

기존 알파고들은 가치망(=승률분석), 정책망(=가능성 있는 다음 수 예측)이라는 2가지 신경망을 사용하였는데, 제파고는 이 둘을 통합한 단일 신경망으로 승률분석과 다음 수 예측을 모두 수행한다고 합니다. 그것이 학습이나 가치판단에 더 효율적이었다는 설명입니다.
그리고 제파고는 "rollouts" 를 하지 않는다고 합니다. (이건 잘 모르겠습니다)

* rollout = fast, random games used by other Go programs to predict which player will win from the current board position

틀린 예측 (알파고에 대한 오해)

TPU 를 보고 놀란 나머지 이전 논문에 적힌 GPU 도 혹시 TPU 인 것은 아닐까 의심했습니다.
http://www.allcalc.org/18193

"TPU 를 썼지만 공개할 시점이 아니라서 GPU 숫자로 적당히 에둘러서 표현한 것은 아닐까?" 이런 의심이었는데...
틀렸네요. 초기버전(판파고)은 GPU로 개발했고, 중간에(돌파고부터) TPU(ver.1) 로 갈아탄게 확인되었습니다.
1. 돌파고(=Alphago V.18) ELO Rating 이 4500 이라는 스샷이 올라온 적이 있습니다.
  http://www.allcalc.org/16539
  
  그런데 이번 발표(그래프)를 통해서 보면 돌파고의 Elo Rating 은 3700~3800 정도로 표시되었습니다.
  당시에도 같거나 더 높은 수준의 (다양한) 상대방이 없어서 (이기는 게임만 하다보니) 레이팅에 인플레이션이 있는 것 같다는 말이 있었습니다만, 제파고(의 성장)를 기준으로 Elo Rating 이 재정립된 것 같습니다.
  
  오늘(17.10.19) 기준으로 cgos 에 있는 탑 클래스의 딥젠고 ELO가 4000 내외 수준인데 이것도 더 높은 수준의 상대내지 동급의 상대와 두는 바둑의 횟수가 늘어나면 비슷한 과정을 겪을 것 같고, 인간 최고 수준(커박)의 ELO도 인공지능과의 대국을 추가하여 재평가한다면 다소나마 약간씩 떨어질 가능성이 있어 보입니다.
  
  * [수정] 논문에 보면 Alphago Fan(3144), Lee(3739), Master(4858), Zero(5185) 로 정확하게 나와 있습니다. 그리고, 그 산출 근거를 다음과 같이 적시하였습니다. "The results of the matches of AlphaGo Fan against Fan Hui and AlphaGo Lee against Lee Sedol were also included to ground the scale to human references, as otherwise the Elo ratings of AlphaGo are unrealistically high due to self-play bias." 알파고끼리의(아마도 여타 AI 포함일 듯) 셀프대국만 반영하면 편향으로 인해 레이팅값이 비현실적으로 높아지는데, 이를 막기 위해 인간(~~판후이~~ & 이세돌)과의 대결 결과를 인간 기준 척도의 기준점으로 삼았다고 밝혔습니다. 만약 돌파고 레이팅 4500이 인간대상으로도 통하였다면 3550인 이세돌과 대국에서 승리할 확률이 99.58% 라는 말인데, 4승1패를 설명하기가 너무 곤혹스러웠던 것 같습니다.
  그럼에도 불구하고 4500을 3739로 깍은 것은 너무 과격?한 것이 아닌가 싶기도 합니다. '인간과의 대결 횟수가 너무 적기 때문'입니다. 그리고 왜 판파고의 레이팅(3144)은 왜 조정하지 않았을까요? 좀 더 자세히 알아볼 필요가 있을 것 같습니다.

결론

제목(Learning from scratch)에서 알 수 있듯, 이번 논문의 핵심은 "인간의 개입 없이, AI의 자력으로만 바둑이라는 Category를 마스터하였으며, 그것은 인류가 아직 도달하지 못한 미지의 영역이다."는데 있겠습니다.
딥마인드(구글)은 이러한 AI의 활동 분야를 바둑이라는 Category 에 한정하지 않고 넓혀 나갈 것이고, 그로 인해 인류가 아직 밟아보지 못한 수많은 길이 새로이 열릴 것입니다.

이 게시물을..

세상의모든계산기 Lv. 25

계산기는 거들 뿐
혹은
계산기를 거들 뿐

라플라스 계산오류형

- 세상의모든계산기 (*.165.6.43) 2017.10.19 13:22 #comment_21423
  
  의문점1 : 제파고의 성장은 계속될 것인가? 아니면 어느 점으로 수렴할 것인가?
  
  의문점2 : "완성 단계?에 이른 것인지, 성장이 더뎌졌다" 고 판단되어지는 33일 이후에 갑자기 도약하듯? 2차례 성장하였는데 제파고 내부에 어떤 변화가 있었던 것일까? (특정 정석에 대한 선택? 버림? 때문일까?)
  
  Attached file
  chrome_2017-10-19_12-28-19_1.png 40.0KB / 98
  
  0
  
  댓글
- 세상의모든계산기 (*.165.6.43) 2017.11.23 15:37 #comment_22138
  
  DeepMind has yet to find out how smart its AlphaGo Zero AI could be
  Posted Nov 2, 2017 by Darrell Etherington (@etherington)
  
  https://techcrunch.com/2017/11/02/deepmind-has-yet-to-find-out-how-smart-its-alphago-zero-ai-could-be/
  
  0
  
  댓글
- 세상의모든계산기 (*.165.6.43) 2017.10.19 20:50 #comment_21431
  
  관련 기사
  https://brunch.co.kr/@madlymissyou/18
  
  0
  
  댓글
- 과객 (*.199.238.5) 2017.10.20 08:12 #comment_21444
  
  딥마인드가 영국 회사인데, 이런 거 보면 영국의 과학 기술도 굉장한...
  스마트폰 AP 로 쓰이는 ARM 도 영국 회사...
  
  하긴 뉴턴, 스티븐 호킹을 배출한 나라이니...
  
  0
  
  댓글 수정 삭제
- 세상의모든계산기 (*.165.6.43) 2017.10.20 09:04 #comment_21451
  Rollout 과 관련하여 논문에 나온 내용을 뽑아보겠습니다.
  - Finally, it uses a simpler tree search that relies upon this single neural network to evaluate positions and sample moves, without performing any Monte-Carlo rollouts.
  - In each position st, a Monte-Carlo tree search (MCTS) α_θ is executed (see Figure 2) using the latest neural network f_θ. Moves are selected according to the search probabilities computed by the MCTS, at ~ πt.
  - Figure 2: Monte-Carlo tree search in AlphaGo Zero.
  - Monte-Carlo tree search (MCTS) may also be viewed as a form of self-play reinforcement learning.
  - MCTS programs have previously achieved strong amateur level in Go, but used substantial domain expertise: a fast rollout policy, based on handcrafted features, that evaluates positions by running simulations until the end of the game; and a tree policy, also based on handcrafted features, that selects moves within the search tree.
  this single neural network to evaluate positions and sample moves,
  
  without performing any Monte Carlo rollouts.
  0
  
  댓글
- 세상의모든계산기 (*.165.6.43) 2017.10.20 09:18 #comment_21454
  
  MCTS 를 여전히? 사용하여 (완전 랜덤은 아니지만) random 한 게임을 진행하는 것은 맞다.
  
  마파고까지의 프로그램들은 승률 계산을 위해 rollouts(=빠르게 MCTS를 돌리는 것) 을 사용하였는데, 승률 계산을 다른 영역에 맏기므로 rollout을 할 필요가 없다.
  
  이런 결론이네요.
  
  Compared to the MCTS in AlphaGo Fan and AlphaGo Lee, the principal differences are that AlphaGo Zero does not use any rollouts; it uses a single neural network instead of separate policy and value networks; leaf nodes are always expanded, rather than using dynamic expansion; each search thread simply waits for the neural network evaluation, rather than performing evaluation and backup asynchronously; and there is no tree policy. A transposition table was also used in the large (40 block, 40 day) instance of AlphaGo Zero.
  
  0
  
  댓글
- 세상의모든계산기 (*.165.6.43) 2017.10.20 17:43 #comment_21475
  
  ELO Rating 으로 추정해 본 승률
  
  Attached file
  TI-Nspire CAS Student Software_2017-10-20_17-37-25.png 10.9KB / 99 TI-Nspire CAS Student Software_2017-10-20_17-43-23.png 20.7KB / 117
  
  0
  
  댓글

댓글 쓰기 에디터 사용하기 닫기

목록 목록

라플라스 계산오류
목록

전체 일반 377 질문 496 웃김 2 팁 & 정보 16 퀴즈 2 리뷰 11 퍼옴 & 링크 6 공지 1

"회원 로그인/가입 버튼 어딨나요?"

2024.09.13 - 18:54 394915
[필독] 사이트 운영원칙 & 게시판 이용시 주의사항 (주제 / 제목 / 질문글)
1
2015.03.31 - 11:21 399082 1
[필독] 계산기 질문글 작성시 주의사항! (부제 : 바람직한 질문글 작성 요령)
2
2015.03.01 - 08:58 220145 2

917 질문 TI NSPIRE CX CAS에서 극한값 질문 다시 한번 문의 드립니다.
N
조니 4시간 전 25
안녕하세요. 세모계님 이번에는 조금 특이한 경우로 가져와 봤습니다. 시그마가 일반항으로 표현이 안되는 경우입니다. 그런 경우는 극한값이 구해지지 않네요. 그런데 바젤함수라고 수학적으로 극한값이 증명이 된 문제입니다. 방법이 없을까요? 늘 감사드립니다.

916 질문 TI NSPIRE CX CAS에서 극한값 오류 문의 드립니다.
조니 2025.07.30 - 21:46 228 2
안녕하세요. 세모계님 오랫만에 문의 드립니다. 다름 아니라 극한값 오류가 있어서 문의 드립니다. 간단한 식인데 극한 값을 못 찾네요. 그래프로 그려보니 플러스 무한대는 1 마이너스 무한대는 0인데 말이지요. 답변 가능하시면 풀이 부탁 드립니다. 감사합니다.

915 질문 SHARP EL-5500X 계산기로 회귀직선식 구할때 수치오류가 뜹니다ㅜㅜ
살려주세요 2025.07.27 - 18:07 228 1
안녕하세요 바화기를 준비중인 학생입니다 bradford 준비를 위해서 공학용 계산기로 회귀직선식을 구하는법을 공부중에 있는데요 gpt를 통해서 mode>1)stat>1)a+bx>x>(x,y)>y를 차례대로 수행후 change를 누르고 alpha를 누른뒤 stat을 누르면 a,b,r값을 구할 수 있음을 알게 되었습니다. 문제는 엑셀을 통해서 구해본 값과 수치가 다릅니다. 바화기 작업형 후기에서 나온 그래프와 엑셀의 값은 일치하는데 공학용 계산기 값은 달라요 왜 이런지 알려주실 분을 구합니다.. 입력한 변수 값은 동일합니다 x: 0.02,0.04,0.06 y: 0.155,0.305,0...

914 질문 샤프 EL-5500X 계산기에서 1차방정식....
브루스 페인 2025.07.23 - 10:27 294 4
건축설비기사 자격증을 준비중인대, 카시오 계산기 관련 유투버등 동영상은 많은대 샤프계산기는 정말 찾기 힘들고.. 간단한 1차 방정식인데도 편하게 설명해주는곳이 없어서 질문드립니다. 문1) 10(22-14)=X(22-(-10)) 에서 X값 구하는 경로 좀 알려주세요! 문2) (1/2.5)=(1/3.13)+(X/1.17) 에서 X값 구하는 경로... SOLVE 기능 사용하는데도 제가 해보니 엉뚱한 답이 나와서 문의 드립니다.. 고수님들 부탁 좀 드릴께요!!

913 일반 Tetration, Power Tower Function 을 이용한 프렉탈 패턴 찾기 #mytetration
세상의모든계산기 2024.05.25 - 18:33 2425 7
관련 프로젝트 링크 https://github.com/DMTPARK/mytetration https://github.com/creeras/mytetration/tree/main/cuda https://tetration.org/original/Tetration/index.html 1. 테트레이션 Tetration 거듭제곱을 거듭하여 만들어지는 연산 --> 0차? 연산, 다음수, a' = a+1 --> 1차 연산, 덧셈, a+n = a+1+1+1+1+......+1 --> 2차 연산, 곱셈=덧셈을 거듭, a*n = a+a+a+a+......+a --> 3차 연산, 거듭제곱=곱셈을 거듭, ana^n = a*a*a*a*......*a --> 4차 연산, 거듭제곱을 거듭, an^n a = a^a^a^a^...^a (왼쪽에서 오른쪽 연산? 오른쪽...

912 일반 시티즌 CT-600
황금장신구 2025.07.01 - 14:58 352 1 1
안녕하세요 반갑습니다. 시티즌 CT-600입니다 산식체크기능이 있습니다. 아마 ct-500부터 적용된 기능으로 압니다. 현역으로 사용중입니다.

911 질문 샤프 공학계산기 EL5100TS
유니유니 2025.06.20 - 16:54 429 1
계산기로 이식을 구할려고 하는데 사용법을 몰라서 부탁드립니다.

910 질문 [TI-Nspire] 질문 delvar 변수 삭제시 오류 cannot accept change: invalid input
크롱 2025.06.15 - 17:10 591 3
안녕하세요 제가 새로운 calculator와 spreadsheet을 만들고 여러 함수들을 저장해 사용하고 있었는데 spreadsheet에 있는 값들고 var 안에 저장이 되더라구요. spreadsheet에 의해 저장된 값들은 없애고 싶은데 따로 방법이 없나요? delete Var을 해도 삭제가 되지 않습니다. 감사합니다.

909 질문 Overwrite
린 2025.06.13 - 13:57 487 1
새로운 파일을 만들고 저장하는과정에서 같은 폴더에 저장했더니 overwrite가 떴고 yes를 눌렀더니 기존 폴더에있는게 모두 없어져버렸어요.. 복구할수있는방법이 없을까요? 다시입력하기엔 시간이없습니다..제발..

908 질문 ti cx cas 새 폴더 만드는 방법
신 2025.06.10 - 20:36 555 2
혹시 My Documents 폴더 안에서 새로운 폴더를 만들 수 있는 방법이 있을까요?

907 질문 FX-570ES 질문드립니다.
짜방 2025.06.10 - 01:25 580 1
옛날 20년 전에 학교다닐때, 계산기에 모드인지, 쉬프트 모드 인지, 어디로 들어가서 몇번 누르면 [ ] <<이런게 뜨면서 01 누르고 들어가서 메모할 숫자나 공식 써두고, 02들어가서 또 하고 쭉쭉 섰었는데. 무슨 기능인지 생각이 안나는데 알수 있을까요?ㅠ

906 질문 TI nspire cx cas 소프트웨어로 이미지 삽입할 때의 이미지 크기 문의
TI 2025.06.07 - 15:28 322
전에 소프트웨어를 "Student 버전 무료 체험"으로 사용했었을 때는, 컴퓨터 화면을 스크린샷해서 ti 문서에 삽입했을 때 사진크기가 크게 삽입이 되었는데, 이번엔 "Teacher버전 무료 체험"으로 사용중인데, 똑같이 스크린샷해서 문서에 삽입해도 사진 크기가 훨씬 작게 삽입되어서, 일일이 사진크기를 드래그해서 키워줘야 되네요 ㅠㅠ 혹시 이런 차이를 해결할 수 있는 방법이 있을까요....? (사진을 더 크게 삽입되게 하기) 아니면, 사진을 마우스로 드래그해서 키우는 방법말고 단축키로 사진크기를 키우는 방법도 있으려나용

905 질문 TI NSPIRE CX CAS에서 삼각함수를 TAYLOR 급수 말고 삼각함수의 급수로 표현이 가능할까요?
조니 2025.05.21 - 20:17 1021 2
안녕하세요. 세모계님 예를 들어서 SIN(X)를 TAYLOR 급수나 SERIES로 표현을 하는 것은 알고 있는데요 SIN 함수를 삼각함수의 합으로 표현이 가능할까요? 예를 들면 SIN(X)는 SIN(X)/2 + SIN(3*X)/3 + .... 이런 식으로 표현이 가능한 것으로 알고 있습니다. 그래서 TAYLOR 급수말고 삼각함수의 급수로도 표현이 가능한지 문의를 드립니다. 감사합니다.

904 질문 Nspire
김용환 2025.06.04 - 09:08 637 6
안녕하세요. 이번에 nspire 계산기를 새로 샀습니다. 설정은 아무것도 안 만지고, degree만 rec으로 바꾸고, 10<30도를 입력하면, 제가 원하는 건 a+bi 형식으로 나오게 하고싶은데, 안되네요.. 또한 반대로 a+bi를 넣으면 20<30도 이런식으로 나오게 하고싶은데 설정 법 알려주시면 감사하겠습니다. 또한 angle을 바꾼다는 건 제가 각이 들어가는 곳에 라디안을 넣을지 도를 넣을지 결정하는 건가요? 계산기가 예를 들어 arcsin(x)면 x에는 각이 아닌 값이 들어가야 한다는 걸 안다는건지...궁금하네요

903 질문 nspire 스프레드 시트 질문
크롱 2025.06.04 - 02:22 598 3 1
안녕하세요 TI nspire cx2를 사용중인데 스프레드 시트에서 다음 식에서 c열을 값을 순서대로 넣어서 normal cdf 값을 구하려고 하는데 Argument mismatch Two or more arguments must be of the same type 라고 계속 오류가 뜹니다. a[]/41 같이 단순한 식은 되는데 복잡한 식이라 계산이 되지 않는 걸까요? 해결하려면 어떻게 해야 할까요? ㅠㅠ

902 질문 nspire 계산기 극좌표 관련 질문입니다.
김용환 2025.06.03 - 19:09 697 3
Radian으로 설정 후, 3+2j를 한 후, ->polar를 하면, e^j[(2/파이)-arctan(2/3)] 이런식으로 나옵니다.. 저 뒷부분의 아크탄젠트 부분도 파이로 나오게 할 수 없나요?

901 질문 fx 570es plus 모델을 구입하였는데요.
안녕하세요 2025.05.30 - 20:50 507 4
안녕하세요. fx570es plus 모델을 구입했는데 지수에 미지수가 들어간 방정식은 풀지 못하는건가요?

900 질문 fx570es plus 지수 입력할 때
안녕하세요 2025.05.31 - 19:02 434 1
안녕하세요. 만약 2의 3제곱을 입력하고 싶다고 가정하면 2 누르고 지수 버튼 누르고 3을 누르잖아요. 그런데 여기서 3을 누르면 바로 지수 입력 칸에서 벗어나지는게 아니라 화살표 ➡️ 버튼을 눌러야 일반 입력으로 돌아오더라고요. 지수에 숫자 하나 누르면 바로 일반 입력으로 됐으면 좋겠는데 그러한 세팅은 없는걸까요?

899 질문 라플라스 계산오류
형 2025.05.30 - 00:51 397 1
여기서 어떤게 잘못된거인지 모르겠습니다 답은 첫번째인데 두번째로 했을때는 왜 이상하게 나오나요? 즉 둘의 어떤 차이로 이런 결과값이 다르게 나오나요

898 질문 방정식을 매트릭스로 변환하는 방법
강사무관 2025.05.24 - 13:31 379 3
안녕하세요 전에도 도움받았습니다만 어디 물어볼 데가 없어 다시 찾아왔습니다 ㅎㅎ (1) 4S1*P-(5S1-2S2)*BL=0 (2) 2S2*P-(6S2-S1)*BL=0 이 두 방정식을 고유치문제로 (A*X=0) 푸려고 합니다 여기서 두 방정식을 행렬형태로 변환하고싶은데, 방정식을 S1, S2의 계수행렬인 A로 변환하는 기능은 없을까요? 문제풀다가 손으로 행렬변환 하다보면 실수하는 일이 잦아서 궁금해졌습니다.

1 2 3 4 5 6 7 8 9 10

글쓰기

SEARCH

AlphaGo Zero: Learning from scratch (A.K.A 제파고)

눈에 띄는 점

틀린 예측 (알파고에 대한 오해)

결론

댓글 7

의문점1 : 제파고의 성장은 계속될 것인가? 아니면 어느 점으로 수렴할 것인가?

의문점2 : "완성 단계?에 이른 것인지, 성장이 더뎌졌다" 고 판단되어지는 33일 이후에 갑자기 도약하듯? 2차례 성장하였는데 제파고 내부에 어떤 변화가 있었던 것일까? (특정 정석에 대한 선택? 버림? 때문일까?)