AI 네트워크 구조는 Frontend Network와 Backend Network로 구분되며, 각 네트워크는 서로 다른 역할과 기능을 수행한다. Backend Network는 주로 서버 업체의 내부 네트워크로, 사용자와의 직접적인 상호작용 없이 보안을 중시한다. 반면 Frontend Network는 사용자가 직접 사용하며 외부와의 접촉을 담당한다. 이러한 구조는 AI 모델을 효과적으로 운영하고 안정적으로 데이터를 처리하는 데 필수적이다.
Backend Network는 AI 모델 학습을 위해 클러스터와 연결되어 있으며, 대규모 데이터베이스와 서버 간의 백업 및 복제를 위한 고용량 전송 네트워크가 필요하다. Frontend Network는 활성화된 모델을 포함하고 있으며, 외부 네트워크의 요청에 따라 Inference Cluster에서 처리된 데이터를 송수신한다. 이러한 네트워크 구조는 AI 기술의 발전과 함께 점차 중요성이 증가하고 있다.
네트워크 연결 방식의 특징과 발전
InfiniBand와 Ethernet의 비교
AI 네트워크에서 연결 방식은 InfiniBand와 Ethernet으로 크게 나뉜다. InfiniBand는 비용이 높지만 패킷 무손실 및 고신뢰성의 장점으로 Backend Network에서 널리 사용된다. InfiniBand 솔루션을 개발하던 기업들은 대기업에 인수되었고, Nvidia가 인수한 멜라녹스가 대표적이다. InfiniBand 기술은 Nvidia의 독점 개발로 이어졌으며, NV Link 기술을 통해 네트워크 성능을 크게 향상시켰다.
Ethernet은 개방된 규격으로, InfiniBand의 시장 점유율이 감소하는 상황에서 빠른 발전을 이루고 있다. 2025년에는 Ethernet이 InfiniBand의 시장 크기를 초과할 것으로 예상된다. 이러한 변화는 AI Server 중심으로 심화되는 네트워크 기술 경쟁을 반영하며, Training Server에서의 고용량 데이터 전송 필요성이 증가하고 있다.
AI 네트워크의 대역폭 요구 사항
Nvidia는 InfiniBand와 NVLink 기술을 통해 네트워크 대역폭 향상을 도모하고 있다. Ethernet은 개방된 규격이라는 점에서 빠른 로드맵을 통해 발전 중이다. AI Chip에서의 Nvidia와 비Nvidia 간의 경쟁은 네트워크에까지 확장되고 있으며, 네트워크 모듈 개발 업체들은 AI Chip과 HBM의 성능 향상에 맞춰 고대역폭을 달성하기 위한 경쟁이 심화되고 있다.
그러나 단순한 하드웨어 업그레이드로는 대역폭 증가에 한계가 존재한다. 현재 스위치 구조에서는 Trace Loss, Via Loss, PCB Trace Loss, Connector Loss와 같은 손실이 발생하며, 이는 네트워크 성능에 부정적인 영향을 미친다. 따라서 이러한 손실을 줄이기 위한 기술적 접근이 필요하다.
CPO 기술과 그 발전 방향
CPO(Co-Packaged Optics) 기술의 필요성
CPO 기술은 스위치와 모듈 간의 물리적 거리를 축소하고 구조를 단순화하여 발생하는 손실을 줄이기 위해 개발되고 있다. 현재 추진 중인 2.5D 구조는 패키징 기판 위에 모듈을 함께 패키징하여 스위치와 모듈 간의 거리를 줄이는 장점을 가지고 있다. 그러나 여전히 기판 전송 간 손실이 발생하며, Bump Loss가 두 번 발생하는 한계점이 있다.
CPO 개발 업체들이 목표로 하는 3D 구조는 모듈을 Si Interposer에 함께 패키징하는 방식이다. 3D 구조는 성능 기준으로 이상적인 방향성이지만, Si Interposer 면적 확대와 추가적인 반도체 공정으로 인해 높은 비용 문제가 발생한다. 주요 CPO 기술 개발 업체로는 TSMC, Intel, 삼성전자, ASE, Broadcom 등이 있다.
CPO 기술의 시장 전망
가장 선두에 있는 TSMC는 COUPE 플랫폼을 통해 2025년에 Pluggable SiPh를 도입할 계획이며, 2026년에는 6.4Tb/s CPO 스위치를 출시할 예정이다. 삼성전자는 I-CubeSo, I-CubeEo 플랫폼을 통해 2027년에 SiPh 양산을 목표로 하고 있다. 그러나 광트랜시버 및 CPO의 가치 사슬은 미국과 대만 중심으로 형성되어 있으며, 국내에서는 유리기판이 간접적인 수혜를 받을 것으로 예상된다.
유리기판은 Si Interposer의 값비싼 원자재 및 공정 비용을 절감하는 역할을 할 수 있으며, 기존 CoWoS 구조 대비 신호 품질을 30% 이상 개선할 수 있다. 또한, MLCC를 내장하여 전력 소모량을 50%까지 줄일 수 있는 기술 방향성도 긍정적이다.
AI 네트워크의 향후 방향
AI 기술 발전과 네트워크의 상관관계
AI 기술이 발전함에 따라 네트워크 구조와 기술 또한 지속적으로 변화하고 있다. AI 모델의 성능을 극대화하기 위해서는 고속의 데이터 전송과 안정성이 필수적이다. 이러한 요구에 부응하기 위해 다양한 네트워크 기술이 개발되고 있으며, InfiniBand와 Ethernet의 경쟁은 더욱 치열해질 전망이다.
CPO 기술의 중요성
CPO 기술은 AI 네트워크의 대역폭 문제를 해결할 수 있는 중요한 기술로 자리 잡고 있다. 이를 통해 스위치와 모듈 간의 거리 문제를 해결하고, 성능을 극대화할 수 있다. 향후 이러한 기술이 상용화됨에 따라 AI 네트워크의 효율성과 성능이 크게 향상될 것으로 기대된다.
AI 네트워크 구조는 앞으로도 지속적인 발전과 혁신이 필요하다. 이를 통해 AI 기술의 성능을 극대화하고, 더 나아가 다양한 산업에 적용할 수 있는 가능성을 열어줄 것이다.
