본문 바로가기
IT분야 해외뉴스

AMD 차세대 서버 플랫폼 Maranello

by leeyj. 2008. 5. 21.

고토 히로시무의 Weekly 해외 뉴스

AMD 차세대 서버 플랫폼 「Maranello」



● DDR3 메모리의 성숙에 맞추어 플랫폼 계획 변경

 AMD는 2010년에 12 코어의 고급 지향 서버전용 CPU 「Magny-Cours(매그니코어)」를 투입한다. Magny-Cours는 AMD가 「Direct Connect Module」라고 부르는 MCM(Multi-Chip Module) 기술을 사용해 2개의 6 코어 CPU 「Sao Paulo(상파울로)」를 1개의 패키지로 만든다. Magny-Cours 세대부터는 CPU 소켓도 「Socket G34」가 되어 4 링크의 HyperTransport 3.0으로 네이티브 DDR3 인터페이스가 지원된다.

 저번 뉴스에서 전한 대로 AMD는 서버 로드맵을 크게 변경했다. Magny-Cours의 투입으로 AMD가 2010년으로 예정하고 있던 네이티브 8 코어 서버 CPU 「Sandtiger(샌드 타이거)」는 뒤로 늦어졌다. Intel과 같이 4 코어와 8 코어의 사이에 네이티브 6 코어 CPU로 가게 되었다.

서버 로드맵 신구 플랜 비교 

 Intel의 6 코어 CPU 「Dunnington(더닝톤)」은 금년(2008년) 후반이므로 내년(2009년) 후반의 AMD의 6 코어 CPU 「Istanbul(이스탄불)」은 1년 늦게 된다. 그러나, 일본 AMD는 「Intel의 6 코어는 당초 MP(Multi-Processor) 만으로 진행 하지 않은 부분도 많다」라고 설명한다. 무엇보다 Intel은 2009년말부터 2010년에 걸쳐 DP(Dual-Processor) 이하의 시장에도 32 nm프로세스의 6 코어 「Westmere(웨스트미어)」를 투입한다고 보여지고 있다.

 일본 AMD에 의하면 네이티브 8 코어의 Sandtiger의 계획은 캔슬 된 것은 아니고 3년간의 로드맵에 안보이게 되었을 뿐이라고 한다. Sandtiger로부터 CPU 코어의 마이크로 아키텍쳐가 일신 되고 「Bulldozer(bulldozer)」코어가 된다. 오리지날 플랜의 Sandtiger는 45 nm제품이었지만 신플랜에서는 32 nm가 된다고 보여진다.

 그 때문에 마이크로 아키텍쳐 자체는 Sao Paulo/Magny-Cours까지 현행의 K10(Barcelona) 코어가 계승된다. 다만, 다소의 확장은 행해지는 것으로 Sao Paulo/Magny-Cours에서는 캐슈스누프를 필터 하는 「Probe Filter」가 포함된다. Probe Filter에서는 멀티 프로세서 시스템으로 각 프로세서의 캐쉬의 태그 내용을 카피한다고 생각된다. 종래 Intel CPU등의 구성에서는 필터는 CPU의 허브가 되는 칩셋 안에  포함했다. 그러나, 프로세서를 다이에 연결하는 경우에는 태그를 각 프로세서에 카피해야 한다. 어떻게 탑재되는지 아직 모른다.

 이번 로드맵 변경으로 Bulldozer로부터 탑재되는 신인스트럭션 확장 「SSE5」도 2011년 이후로 늦어졌다. Intel은 동시기 CPU 「Sandy Bridge(샌드 브릿지)」에 탑재되는 신인스트럭션 확장 「AVX」로 256-bit장의 SIMD를 서포트한다. AMD가 Bulldozer를 늦춘 것과 맞춰 기능확장을 할지를 지켜봐야 한다.

 다만, 일본 AMD는 이번 로드맵 변경은 Bulldozer 개발이 문제가 된 것은 아니고 DDR3 플랫폼이 어느 시점에서 성숙하는지 그 이행 시기를 지켜본 것에 의한 변경이라고 한다. DDR3의 서포트는 오리지날 플랜에서는 2009년전반에 도입할 예정이었던 「Montreal(몬트리올)」부터였지만 현재는 2010년전반 Sao Paulo와 Magny-Cours로부터 되고 있다. DDR3 플랫폼을 1년 정도 늦춘 것이 된다. 다만, DRAM 벤더는 2009년에 초점을 맞추어 DDR3 메모리를 준비시키고 있다.

Intel과의 서버 로드맵 비교

● 캔슬 된 G3MX 메모리버퍼

 서버에서의 DDR3는 메모리 탑재량을 얼마나 확보할지가 중요한 과제가 된다. DDR3에서는 RDIMM여도 4 Rank DIMM로 1 채널 2 DIMM까지 제한되기 때문이다. 1 채널 당에 접속할 수 있는 DIMM 매수가 제약되기 때문에 메모리 탑재량이 중요해지는 상위 서버에서는 메모리체널수를 늘릴 필요가 있다. 또, 1개의 CPU에 탑재되는 CPU 코어수가  증가해 가기 때문에 CPU 퍼포먼스 향상에 알맞은 메모리 대역의 확장도 요구되고 있다.

 이러한 문제 때문에 AMD는 Montreal에서 채용하는 「Socket G3」로 메모리시스템의 큰 변경을 예정하고 있었다. Socket G3에서는 네이티브 DDR3와 함께 메모리버퍼 「G3MX(G3 Memory Extender)」를 서포트할 예정이었다.

 Socket G3 CPU에서는 네이티브 DDR3시에는 듀얼 채널 인터페이스이지만 G3MX에 의해 4 채널의 메모리 포토가 가능해진다고 여겨지고 있었다. 또, 작년가을에 당시 AMD의 CTO였던 Phil Hester(필에스터) 씨에게 인터뷰 했을 때에는 각 채널에 2개의 G3MX 칩을 접속하는 것으로 최대 8 채널의 구성이 가능하다고 설명되었다.

 하지만, AMD는 신로드맵의 Socket G34에서는 G3MX 서포트를 취소해 DDR3만의 서포트로 전환했다. G3MX를 취소한 이유에 대해 일본 AMD의 야마노 히로시행씨(마케팅 본부 프로덕트 마케팅 부장)는 다음과 같이 설명한다.

 「G3MX 솔루션은 일단 캔슬했다. DDR3가 되면 (채널 당 메모리 탑재량에) 제약이 있기 때문에 보다 많은 메모리를 쌓고 싶다고 하는 요구가 있었다. 또, 보다 고급 지향의 시스템을 구성을 하고 싶다고 하는 OEM의 요구도 있었다. 거기서 (대용량 구성과) 플렉시블하게 시스템 대응할 수 있는 솔루션으로서 G3MX를 제안했다.

 그러나, 실제의 디맨드는 많지 않았다. 지금 가지고 있는 아키텍쳐로 커버할 수 있는 범위에서 DDR3(세대)에서도, 마켓을 커버할 수 있다고 생각했다. 확실히, 좀 더 많은 메모리를 탑재하고 싶다고 하는 고객도 있지만 그러한 요구에는 써드파티의 솔루션도 나올지도 모른다」

 이러한 배경으로부터 AMD는 Socket G3와 G3MX를 취소해 Socket G34 CPU에서는 네이티브 DDR3 인터페이스로 한 모양이다. Socket G34에서는 Registered DIMM(RDIMM)와 Unbuffered DIMM(UDIMM)의 양쪽 모두를 서포트한다. 이것은 Intel의 Nehalem(네할렘)과 같다.

● 4 채널의 DDR3 인터페이스를 탑재하는 Socket G34 CPU

 Socket G34 CPU에서는 4 채널의 네이티브 DDR3 인터페이스를 포함한다고 말해지고 있다. Socket G3의 듀얼 채널 네이티브 DDR3시와 비교와 메모리 대역과 최대 메모리 탑재량은 2배가 된다. 원래, Socket G3에서는 G3MX시에는 메모리인터페이스를 DDR3의 2배의 대역으로 가동시키는 사양이 되고 있었다. 그 때문에 스펙(명세서)상의 피크메모리 대역은 네이티브 4 채널 DDR3와 G3MX 베이스의 DDR3로 변함없게 된다. 4 채널 DDR3에서는 DDR3-800시에 25.6 GB/sec, 예정의 최고 전송 레이트인 DDR3-1600시에 51.2 GB/sec의 광대역이 된다.

AMD의 Montreal의 G3MX 섹션

AMD의 Socket G34

 Socket G34에서는 네이티브 4 채널 DDR3가 된 것으로 보드 vender는 비용 증가가 되는 버퍼 칩을 사용하지 않아도 4 채널의 메모리 대역과 메모리 용량을 얻을 수 있게 되었다. 메모리레이턴시의 면에서도 버퍼 칩을 사용하는 경우보다 유리하다.

 또, Intel과의 경쟁에서 네이티브 3 채널 DDR3가 되는 쿼드 코어 Nehalem(네할렘)에 대해 메모리 대역과 메모리 용량으로 이점을 가진다. Nehalem는 DRAM 인터페이스를 통합해 3 채널과 광대역 DDR3 인터페이스를 갖추는 것으로 부동 소수점 연산 퍼포먼스를 비약시킨다. 거기에 대항하기 위해서는 네이티브 4 채널 DDR3가 필요하다고 판단했다고 보인다.

 덧붙여 Intel의 8 코어 서버 CPU 「Nehalem EX(Beckton:벡톤)」는 4 채널의 FB-DIMM2 인터페이스를 갖추어 메모리버퍼로 DDR3 RDIMM를 서포트한다. Nehalem EX에 대해서는 메모리버퍼를 사용하지 않는 것으로 코스트와 지연시간으로 유리하게 할 가능성이 있다.

 그러나, 네이티브 DDR3화에 의해 희생이 되는 것도 있다. 메모리소켓 배치의 플렉서빌러티와 최대 구성시의 메모리 용량이다. 인터페이스폭이 64-bit와 넓은 네이티브 DDR3를 4 채널 꺼내는 것은 배선상 매우 어렵고 보드 레이아웃도 한정된다. Hester씨가 설명한 것 같은 각 채널에 2개의 G3MX의 구성에서는 1 CPU 당 최대 16매의 DDR3 DIMM를 접속할 수 있다. Socket G34의 네이티브 4 채널에서는 거기까지는 실현될 수 없다. 다만, 종래와 같게 써드파티가 메모리버퍼를 제공할 수 있다.

● 서버전용 칩셋 RD890S를 Socket G34에 도입

 Socket G34 플랫폼에는 「Maranello(마라네로)」라고 하는 코드네임이 붙여져 있다. 이것도 F1시리즈로 페라리 본사가 있는 이탈리아 도시다. 덧붙여 Socket G3플랫폼은 「Piranha」였다. 이쪽도 F1에 유래한다.

 AMD는 Socket G34 플랫폼을 서포트하는 서버전용 칩 세트로서 「RD890S」와「RD870S」를 투입한다. AMD는 Opteron에서는 서버전용 칩 세트는 NVIDIA와 Broadcom에 의지하고 있었다. 그러나, Socket G34에서는 다시 자사 칩 세트를 지지한다.

 RD890S의 특징은 PCI Express Gen 2.0을 다수 레인 갖추는 것으로 I/O가상화 지원 하드웨어 「IOMMU(I/O Memory Mapped Unit)」를 갖추는 것. 또, 서버전용으로 고도의 RAS 특별도 갖출 전망이다. IOMMU에서는 I/O주소가 물리 주소 스페이스는 아니고 가상 주소 스페이스 베이스가 된다. 메모리어드레스맵핑의 오버헤드를 줄이기 때문에 RD890S는 상당한 양의 캐시 기억 장치도 내장한다고 말해지고 있다.

 RD890S의 PCI Express Gen2의 레인수는 42. 이 외, 사우스 브릿지 칩과의 접속도 PCI Express x4를 사용하고 있기 때문에 엄밀하게 46 레인의 PCI Express가 된다.

RD890S I/O Hub (North Bridge)

 RD890S의 각 PCI Express 레인은 용도에 최적화된 5개의 PCI Express 인터페이스 코어에 분할되고 있다. 2개의 코어는 광대역의 칩 접속을 위해 최적화되고 있어 그 외에 중저 대역의 칩 접속에 최적화된 코어가 2개, 사우스 브릿지 칩 접속을 위해 최적화된 코어가 1개있다.

 광대역의 칩 접속을 위한 2개의 「GPP0」코어는 각각 16 레인과 2 엔진을 갖춘다. 그 때문에 각각 1기의 x16 또는 2기의 x8의 구성이 가능하다. 즉, RD890S에서는 2기의 x16나 4기의 x8, 혹은 1기의 x16와 2기의 x8라고 하는 광대역 링크의 구성을 취할 수가 있다.

 중저 대역의 칩 접속전용의 코어 「GPP1」는 6 레인과 수는 적지만 6 엔진을 갖춘다. 그 때문에, 6기의 x1로부터 1기의 x4와 1기의 x2의 편성까지, 유연한 인터페이스 구성을 취할 수가 있다. 중저 대역이 1개의 코어 「GPP2」는 4 레인에서 엔진은 1개만. 기본적으로는 1기의 x4를 위한 코어가 되고 있다. 사우스 브릿지 칩용의 「NB/SB」코어도 기본은 같이로 4 레인에 1 엔진. x4링크로 사우스 브릿지 칩과 접속한다.

 RD890S의 PCI Express의 구성은 종래의 노스 브릿지 칩의 PCI Express 인터페이스와 사우스 브릿지 칩의 PCI Express 인터페이스의 양쪽 모두를 겸비한 것이 되고 있다. AMD 칩 세트의 솔루션에서는 PCI Express 접속은 노스 브릿지에 집중시켜 사우스 브릿지 칩측은 저속 I/O인 만큼 한정하는 것 같다. 프로세스 기술의 진보에 의해 그 만큼의 PCI Express를 노스 브릿지 측에 모을 수가 있게 되었다. 덧붙여 RD890S는 TSMC의 65 nm프로세스로 제조된다고 한다.

 Socket G34로부터는 CPU측의 HyperTransport가 4 링크가 된다. 그 때문에 4 way 이상의 멀티 프로세서 구성시의 메모리홉수를 줄이는 것이 가능하다. 또, 칩 세트를 다수 탑재한 구성도 용이하게 된다.

RD890S 시스템 구성예


출 처 : Impress PC Watch  고토 히로시무  칼럼