컨텐츠 바로가기


board


현재 위치

  1. 게시판
  2. 뉴스/이벤트

뉴스/이벤트

뉴스와 이벤트입니다.

마이크로소프트의 맞춤형 AI 칩이 애저에 미치는 영향
제목 마이크로소프트의 맞춤형 AI 칩이 애저에 미치는 영향
작성자 운영자 (ip:)
  • 작성일 2024-01-04 23:19:31
  • 추천 추천 하기
  • 조회수 47
  • 평점 0점

마이크로소프트의 맞춤형 AI 칩이 애저에 미치는 영향

Simon Bisson | InfoWorld
현대 소프트웨어 개발의 역사는 하드웨어 역량과 소프트웨어 요구사항 간의 춤의 역사다. 이 춤은 이제는 매우 기초적인 기능으로 간주되는 인텔 8086에서 시작해 수십년 동안 이어졌고 가상화 지원, 암호화된 메모리 및 데이터에 대한 종단간 액세스, 그리고 까다로운 애플리케이션 스택을 실행하는 확장된 명령어 집합을 제공하는 멀티패싯 프로세서에 이르렀다.
 
ⓒ Image Creator from Microsoft Designer 
춤은 좌우로 흔들린다. 때로는 새로운 세대의 반도체 기능을 만나기 위해 소프트웨어를 확장해야 하고, 때로는 가용한 성능을 마지막 한 방울까지 짜내야 한다. 그리고 마침내 클라이언트 하드웨어와 서버에서, 온프레미스와 퍼블릭 클라우드에서 복잡한 AI 모델을 실행하기 위한 역량을 제공하는 새로운 시스템 수준 가속기와 이미 익숙한 CPU가 결합된 새로운 세대의 하드웨어가 등장하고 있다.

AI 가속기는 익숙한 인텔 및 AMD 프로세서에 포함되는 데 그치지 않는다. ARM의 최신 네오버스(Neoverse) 서버급 설계에도 저전력 요구사항과 함께 포함된다(퀄컴 모바일 및 노트북 프로세서도 마찬가지). 이는 저전력과 고밀도를 통해 비용을 절감하면서 성장을 지속하는 데 도움이 되는, 애저와 같은 하이퍼스케일 클라우드 관점에서 매력적인 조합이다.

시스템 수준 가속기는 윈도우에도 흥미로운 미래를 약속한다. 마이크로소프트가 파이(Phi) 시리즈 소규모 언어 모델의 성능을 지속적으로 개선함에 따라 앞으로 온보드 AI 비서를 클라우드 기반 AI 대안으로 사용할 수 있게 된다.


애저 부스트 : 가상화 오프로드를 위한 반도체

마이크로소프트는 이그나이트(Ignite) 2023에서 애저를 위한 자체 맞춤형 반도체를 발표했다. 이 제품은 2024년부터 고객에게 인도될 전망이다. 마이크로소프트는 꽤 오래 전부터 자체 서비스에서 맞춤형 반도체와 FPGA(field-programmable gate array)를 사용해왔다. 대표적인 예가 집라인(Zipline) 하드웨어 압축, 그리고 프로젝트 브레인웨이브(Brainwave) FPGA 기반 AI 가속기다. 가장 최근에 나온 애저 부스트(Azure Boost)는 하이퍼바이저와 호스트 OS에서 가상화 프로세스를 덜어내 애저 VM의 스토리지와 네트워킹을 가속한다. 애저 부스트는 서버러스(Cerberus) 온보드 공급망 보안 칩셋도 포함한다.

애저 부스트의 목적은 가상머신 워크로드가 최대한 많은 CPU를 이용할 수 있도록 하는 것이다. 데이터 압축이나 보안 관리 작업을 CPU가 아닌 전용 하드웨어가 담당하므로 애저는 동일한 하드웨어에서 더 많은 고객 워크로드를 실행할 수 있다. 시스템을 높은 사용률로 가동하는 것은 퍼블릭 클라우드 경제성의 핵심이며, 하드웨어에 대한 투자 비용을 빠르게 회수할 수 있게 해준다.


마이아 100 : LLM을 위한 반도체

LLM(Large Language Model), 그리고 전반적으로 생성형 AI는 고밀도 컴퓨팅의 중요성을 잘 보여준다. 실제로 오픈AI는 GPT 모델 학습에 마이크로소프트의 GPU 기반 슈퍼컴퓨터를 사용한다. 마이크로소프트 정도의 시스템에서도 GPT-4와 같은 대형 기반 모델은 1조 개 이상의 매개변수를 사용하여 몇 개월 동안의 학습이 필요하다. 차세대 LLM은 학습과 운영 모두에 이보다 훨씬 더 많은 컴퓨팅을 필요로 할 것이다. 검색 증강 생성(Retrieval Augmented Generation, RAG)을 사용해서 이런 LLM을 중심으로 기반 애플리케이션을 구축한다면 소스 콘텐츠를 위한 임베딩을 생성하고 벡터 기반 검색을 제공하기 위한 추가 용량도 필요하게 된다.

GPU 기반 슈퍼컴퓨터는 마이크로소프트가 구독자로부터 설비 투자 비용 일부를 회수할 수 있다고 해도 여전히 막대한 규모의 투자다. 전력, 대역폭, 스토리지 외에 강력한 냉각도 필요하므로 운영 비용 역시 많이 든다. 따라서 이런 리소스는 충분한 공간과 전력, 냉각이 제공되는 극소수의 데이터센터로 제한될 것이라고 예상하기 쉽다.

그러나 대규모 AI가 AWS 및 구글 클라우드와 같은 경쟁사와 비교했을 때 애저의 성공적인 차별화 요소가 되려면 모든 곳에서 사용할 수 있고, 가격도 경제적이어야 한다. 이를 위해서는 지금의 GPU보다 더 높은 밀도와 낮은 전력으로 실행할 수 있는 새로운 반도체가 학습과 추론에 모두 필요하다.

과거 애저의 프로젝트 브레인웨이브 FPGA는 프로그래밍할 수 있는 반도체를 사용해서 주요 알고리즘을 구현했다. 잘 작동하긴 했지만, 특정 ML 모델을 위한 가속기 역할을 하는 단일 용도의 디바이스였다. LLM의 복잡한 신경망을 지원하는 변형을 개발할 수는 있지만, 이를 위해서는 단순한 프로세서를 대규모로 배열해서 시맨틱 모델을 구동하는 다차원 벡터 연산을 지원해야 한다. 이는 대부분의 FPGA 기술이 제공하는 역량 수준을 벗어난다.

벡터 처리는 최신 GPU의 성능이 십분 발휘되는 분야다(원조 설계자 상당수가 초기 슈퍼컴퓨터를 위한 벡터 처리 하드웨어를 개발하면서 경력을 시작한 것을 고려하면 놀라운 일은 아니다). GPU는 기본적으로 행렬과 벡터를 다루는 간단한 프로세서 배열로, 보통 CPU의 명령어 집합에 포함되지 않는 선형 대수 함수에 접근하기 위해 엔비디아의 CUDA와 같은 기술을 사용한다. 이렇게 해서 얻는 가속화를 통해 LLM과 같은 현대적 AI 모델을 구축하고 사용할 수 있다.

마이크로소프트의 새로운 맞춤형 AI 가속기 칩인 마이아 100(Maia 100)은 학습과 추론, 2가지 모두에 맞게 설계됐다. 오픈AI 워크로드를 실행하면서 쌓은 노하우를 바탕으로 구축된 마이아는 기존 컴퓨팅 랙과 나란히 배치되는 새로운 가속기 랙 유닛의 일부로, 기존 애저 인프라와 함께 실행된다. 5nm 공정으로 1,000억 개 이상의 트랜지스터를 제공하는 마이아 100은 분명 매우 크고 밀도도 매우 높은 칩으로, GPU보다 훨씬 더 높은 컴퓨팅 역량을 제공한다.

마이아 개발은 오픈AI 모델과 함께 개선됐으며, 맞춤형 액체 기반 냉각 장치가 포함된 새로운 랙 설계를 사용한다. 이 마지막 부분, 즉 액체 냉각 장치가 최대 규모 애저 데이터센터 이외의 다른 곳에까지 AI 워크로드를 전달하는 데 있어 핵심적인 요소다. 액체 냉각 인프라를 추가하는 데는 많은 비용이 드는데, 마이아 100 랙에 이 장치를 집어넣음으로써 전 세계 어느 데이터센터에나 설치할 수 있게 된다.

마이아 100 랙을 설치하려면 랙 간격을 다시 조정해야 한다. 냉각 시스템으로 인해 오픈 컴퓨트 프로젝트(Open Compute Project) 서버에 크기를 맞춘 애저의 일반적인 21인치 랙보다 크기가 커지기 때문이다. 이 부가적인 공간은 액체 냉각 하드웨어 외에 CPU와 가속기 간에 대량의 데이터를 푸시하는 데 필수적인 4.8TB 고대역폭 연결에도 사용된다.

애플리케이션이 이 새로운 칩을 어떻게 사용할지에 대해서는 여전히 확실치 않은 부분이 남아 있다. 추가적인 세부 사항은 공개되지 않았지만 이 칩은 마이크로소프트 자체의 코그니티브 서비스(Cognitive Service) 및 파이 소규모 언어 모델 외에 오픈AI 및 허깅 페이스(Hugging Face) 등 마이크로소프트가 제공하는 AI 모델도 실행할 가능성이 높다. 자체 모델을 학습시키는 데 사용할 수 있게 되면 애저 AI 스튜디오가 현재 제공하는 다양한 GPU 옵션과 함께 새로운 종류의 가상머신도 등장할 것으로 예상된다.


코발트 100 : 애저의 자체 ARM 프로세서

마이크로소프트는 마이아를 공개하면서 자체 ARM 서버 프로세서인 코발트 100(Cobalt 100)도 발표했다. 코발트 100은 128코어 64비트 프로세서로, ARM의 네오버스 레퍼런스 설계를 기반으로 고밀도, 저전력 애플리케이션을 지원하도록 설계됐다. 애저는 이미 일부 플랫폼 서비스에 ARM 프로세서를 사용 중이며 코발트 100은 서비스형 인프라에 사용되기보다는 이런 플랫폼 서비스를 비롯한 다양한 서비스를 지원할 가능성이 높다.

애저 앱 서비스 코드가 원활하게 실행되고 사용자가 기대하는 결과를 얻을 수만 있다면 사실 코드가 인텔에서 실행되는지, AMD에서 실행되는지, 또는 ARM에서 실행되는지는 알 필요가 없다. 향후 코발트 프로세서는 밀도와 전력 효율성이 중요한 요구사항인 인터넷 기반 서비스를 실행하고, 주 데이터센터를 벗어난 애저 콘텐츠 전송 네트워크의 요소를 호스팅하는 데 사용될 것으로 예상된다.

마이크로소프트의 설명에 따르면, 이런 반도체 엔지니어링은 초기 스토리지 및 네트워킹 제품부터 자체 컴퓨팅 서비스에 이르기까지 포괄적인 지원을 통해 애저 데이터센터에 “시스템 접근 방식”을 제공하는 수단이다. 애저뿐 아니다. 2024년에는 데스크톱과 노트북용으로 인텔과 퀄컴의 NPU 지원 프로세서가 출시되기 시작하는 만큼 윈도우에도 더 우수한 반도체가 제공된다. 지금까지 오랜 기간 동안 소프트웨어가 하드웨어를 이끌어왔다. 코드를 통해 새로운 플랫폼의 한계를 어디까지 끌어올릴 수 있을지, 앞으로의 전개가 기대된다.
editor@itworld.co.kr


첨부파일
비밀번호 삭제하려면 비밀번호를 입력하세요.

목록

삭제 수정 답변

댓글 수정

비밀번호

수정 취소

/ byte