1. 경향신문 기사 中
작년 3월 이세돌 대국 당시 알파고는 구글이 개발한 AI용 칩인 ‘TPU’ 50개를 동원하는 등 대규모 전산 설비를 썼지만, 올해에는 TPU 4개를 얹은 산업용 컴퓨터(machine) 1대만 썼다.
원문보기:
http://news.khan.co.kr/kh_news/khan_art_view.html?artid=201705251847001&code=970204&nv=stand&utm_source=naver&utm_medium=newsstand&utm_campaign=row1_4#csidx014b2a168e8fece83d99057dbfba69d
2. 블로터 기사 中
이세돌 9단과 대국한 알파고는 구글 클라우드 상 50개의 TPU(Tensor Processing Unit)를 사용했다. TPU는 구글이 머신러닝을 위해 특별히 제작한 처리장치다. 1초에 50개의 수와 10만개의 형태를 탐색할 수 있었다. 현재 커제 9단과 대국 중인 알파고는 ‘알파고 마스터’라고 불리는 버전이다. 이번 구글 I/O 에서 공개된 단일 TPU 머신을 사용하며 2016년 버전 대비 10분의 1의 컴퓨팅 파워를 사용하면서도 더 빨리 계산한다.
http://www.bloter.net/archives/280664
3. NEXTPLATFORM - TPU2에 대한 기사 中
Google’s first generation TPU consumed 40 watts at load while performing 16-bit integer matrix multiplies at a rate of 23 TOPS. Google doubled that operational speed to 45 TFLOPS for TPU2 while increasing the computational complexity by upgrading to 16-bit floating point operations. A rough rule of thumb says that is at least two doublings of power consumption – TPU2 must consume at least 160 watts if it does nothing else other than double the speed and move to FP16. The heat sink size hints at much higher power consumption, somewhere above 200 watts.
https://www.nextplatform.com/2017/05/22/hood-googles-tpu2-machine-learning-clusters/
Comment 13
-
-
-
https://cloud.google.com/tpu/
1개의 클라우드 TPU2는 180 테라플롭스 수준
-
-
-
http://www.comworld.co.kr/news/articleView.html?idxno=49125
‘테슬라 P100’은 단정밀도 10.6테라플롭스(TFlops, 1초당 1조 회의 부동소수점 연산), 배정밀도 5.3TFlops의 높은 성능을 기반으로 딥러닝 훈련에 뛰어난 성과를 보인다.
-
-
-
http://www.g-enews.com/view.php?ud=2017050113481491230bf3fa6eb9_1
이 HPC에 20개의 엔비디아 테슬라 P100 GPU를 꽂으면 94테라플롭스(TF)성능(싱글 프리시전 기준)이 나온다. 20개의 P40 엔비디아 GPU를 장착하면 240TF의 성능까지 구현할 수 있다.
-
-
-
http://drmola.com/pc_column/77217
-
-
-
In-Datacenter Performance Analysis of a Tensor Processing Unit ™
https://drive.google.com/file/d/0Bx4hafXDDq2EMzRNcy1vSUxtcEk/view※ 이 논문은 TPU2 가 아닌 TPU(1세대) 을 대상으로 작성된 논문입니다.
-
-
-
http://www.zdnet.co.kr/news/news_view.asp?artice_id=20170524073246
모듈 1개 성능 = 180 TP = 45 TP * 4개* "가벼워진 '알파고'…구글 전용칩 1개로 작동" 이라는 제목은 오류
-
-
-
NVIDIA V100
출처 : https://devblogs.nvidia.com/parallelforall/inside-volta/?ncid=so-fac-vt-13920
Tesla V100 delivers industry-leading floating-point and integer performance. Peak computation rates (based on GPU Boost clock rate) are:
7.5 TFLOP/s of double precision floating-point (FP64) performance;
15 TFLOP/s of single precision (FP32) performance;
120 Tensor TFLOP/s of mixed-precision matrix-multiply-and-accumulate.
-
-
-
https://www.nvidia.com/en-us/data-center/dgx-1/?ncid=van-dgx-1
DGX-1 with Tesla V100 가격은 149,000$
ㄴ V100 칩이 8개 장착
-
-
-
팩트 정리를 해 보면...
1. 돌파고의 TPU는 TPU1 으로 불림2. 커파고의 TPU는 TPU2 로 불림
(칩을 TPU2 Chip 으로 부르기도 하는 듯)3. TPU2 모듈 1개는 TPU2코어 4개로 구성
4. TPU2 모듈의 성능 = 45테라플롭스/개*4개 = 180테라플롭스 (
5. https://www.tensorflow.org/tfrc/ 구글 텐서 크라우드?는 100개의 TPU2 모듈로 구성
각각의 TPU2 칩은 두개의 BlueLink 25GB/s 케이블로 연결
-
-
-
추정
CPU 종류와 그 비율
출처 : https://www.nextplatform.com/2017/05/22/hood-googles-tpu2-machine-learning-clusters/
We believe that Google connected each CPU board to exactly one TPU2 board using both OPA cables to achieve 25 GB/s aggregate bandwidth. This one-to-one connectivity answers a key question for TPU2 – Google designed the TPU2 stamp with a 2:1 ratio of TPU2 chips to Xeon sockets. That is, four TPU2 chips for every dual-socket Xeon server.> 클라우드가 아닌 싱글머쉰에서 알파고가 돌아갔다면 제온 2소켓 보드 + TPU2 모듈*1개 구성이 맞는 듯
> CPU는 구글 문서에 나온대로 INTEL XEON E5-2699v3 인것 같음. 실질적 계산 역할은 그리 크지 않은 듯.
(seldom 하게 2.3GHz 이외 클럭으로 동작)> 전력소모는 구글 문서에 나온대로 TDP 861W, IDLE 290W, BUSY 384W (싱글머쉰 기준) 이 맞는 듯
-
-
-
추가 정보
http://learningsys.org/nips17/assets/slides/dean-nips17.pdf
-
-
-
https://dreamgonfly.github.io/blog/cuda-cores-vs-tensor-cores/
-
TPU2