철인엔지니어와 IT 이야기
Arista UCN Design Guide (8) - Hitless Upgrades for the Campus 본문
Arista UCN Design Guide (8) - Hitless Upgrades for the Campus
철인엔지니어 2021. 4. 14. 19:44Hitless Upgrades for the Campus
Arista는 수년 동안 고객에게 데이터 센터 내에서 지속적인 업그레이드를 제공해 왔습니다. 이를 캠퍼스로 확장하여 다음과 같은 설계 요소를 통해 네트워크 전반의 캠퍼스 hitless 업그레이드를 도입함으로써 캠퍼스 네트워크 운영을 혁신할 수 있습니다.
* Network Wide - CloudVision은 업그레이드 및 롤백을 포함한 자동화된 네트워크 전체 변경 제어를 제공합니다.
* Spine & Campus Spine - 유지 보수 모드를 통한 Hitless 업그레이드, NSF 및 MLAG Active-Active Layer 2 SSO를 통한 이중화 기능* Leaf & Access - MLAG ISSU 및 싱글 홈 스위치 SSU를 통해 에지에서 Hitless 업그레이드할 수 있습니다.
* EOS - EOS의 다중 프로세스 상태 공유 아키텍처는 본질적으로 무중력 서비스 소프트웨어 패치, SFC(소프트웨어 장애 억제) 및 SFR(Steful Fault Repair)을 제공합니다.
Arista Smart System Upgrades
SSU(Smart System Upgrade)는 애플리케이션 트래픽 흐름에 부정적인 영향을 주지 않으면서 모든 인프라 요소에 대해 유지보수를 수행하도록 설계된 EOS 네트워크 솔루션입니다. SSU는 단순성, 유연성 및 반복성의 동일한 클라우드 네트워킹 원칙을 기반으로 합니다. SSU는 단순화된 상태 비저장 접근 방식을 사용하여 애플리케이션 트래픽 흐름에 영향을 미치지 않도록 합니다. 기본 EOS(Astara Extensible Operating System) 기능과 다른 애플리케이션 및 인프라 구성 요소와의 직접 통합 기능을 결합합니다. SSU는 트래픽이 우회되거나 영향을 전혀 받지 않는 네트워크 요소를 투명하게 제거하거나 추가할 수 있도록 함으로써 소프트웨어 유지보수에 대한 보다 넓은 네트워크 관점을 제공합니다. 캠퍼스 인프라 유지 보수를 위해 설계된 Arista의 SSU는 다음과 같은 주요 이점을 제공합니다.
* 네트워크 요소를 지능적으로 추가, 제거하고 Spline 또는 Leaf 에 맞게 사용자 정의할 수 있습니다.
* 시스템 중단 없이 새 소프트웨어를 프로그래밍 방식으로 업그레이드합니다.
* 모든 애플리케이션 및 인프라 요소와 개방형 통합이 가능합니다.
* 단순화된 솔루션: 다른 접근 방식에 필요한 과도한 상태 유지 보수 및 상태 전환 프로세스의 복잡성을 의도적으로 방지합니다.
캠퍼스 운영 팀은 오늘날의 '상시' 캠퍼스 인프라를 관리하기 위해 보다 지능적인 도구와 확장 가능한 기능 세트가 필요합니다. Arista EOS는 운영 비용을 절감하는 동시에 운영 가동 시간을 증가시키면서 혁신을 위한 기반을 제공합니다.
Maintenance mode
유지 보수 모드는 최소한의 구성으로 포트, 카드 또는 전체 스위치와 같은 스위치 요소를 서비스에서 쉽게 제거할 수 있는 프레임워크입니다. 스위치를 네트워크 밖으로 빼는 것은 EOS 이미지 업그레이드를 포함하여 하드웨어 교체 또는 재실행과 같은 여러 가지 이유가 있을 수 있습니다. 또한 유지 보수 모드 작업을 통해 모든 작업이 완료된 후 스위치 또는 스위치 요소가 네트워크에 정상적으로 다시 가입할 수 있습니다.
유지보수 모드는 단일 EOS 명령을 호출하여 업그레이드하거나 CloudVision을 통해 자동화하여 업그레이드할 장치에 적용됩니다. 이 명령은 Standard Route-Weighting메커니즘을 사용하여 노드가 네트워크 트래픽을 과도하게 사용하지 않도록 간편하게 제거합니다(그림 참조). 구성된 인터페이스에서 모든 트래픽이 배출된 경우에만 장치가 유지 보수 모드로 전환됩니다. 이 시점에서 운영자는 소프트웨어 업그레이드 또는 기타 시스템 유지 보수(하드웨어 모듈 스왑, 리케이블 작업)를 수행할 수 있습니다. 운영 트래픽에 영향을 주지 않고 특정 장치에서 사용할 수 있습니다. 유지보수가 완료되면 운영자가 유지 보수 모드를 비활성화하여 장치를 토폴로지에 정상적으로 다시 추가할 수 있습니다.
Multi-chassis Link Aggregation (MLAG) ISSU
MLAG ISSU는 네트워크 운영자가 서비스 중단을 예약할 필요 없이 업그레이드를 전환할 수 있는 기능을 제공합니다. 업그레이드 프로세스 중에 ISSU는 네트워크 영향을 최소화하기 위해 트래픽을 피어 스위치(밀리초)로 리디렉션하며, EOS를 동기화할 수 있습니다. 업그레이드된 피어가 MLAG 세션을 다시 설정하고 액티브-액티브 연결을 복원할 수 있도록 버전 간 SysDB를 동기화해야 합니다. 그리고 다른 스위치에서 ISSU 프로세스를 반복하여 Hitless 업그레이드를 완료할 수 있습니다.
Leaf 스위치 업그레이드를 지능적으로 조정하면 버전 간 마이그레이션이 가능하며, 운영 중단이나 패킷 손실에 영향을 주지 않고 기능을 추가할 수 있습니다. 이러한 업그레이드 조정은 Arista CloudVision 내에서 관리할 수도 있습니다. 변경 제어 및 업그레이드 기능을 제공합니다.
Accelerated System Upgrade (ASU)
ASU는 운영 체제가 모든 패킷 프로세서의 포워딩 상태를 유지하면서 재시작되어 제어 영역이 업데이트되는 동안 트래픽이 포워딩되도록 하는 빠른 재로드 기능입니다. Arista의 EOS 운영 체제의 안정적인 포워딩 기능을 통해 다운스트림 네트워크 요소가 업그레이드 프로세스 동안 아무런 문제 없이 계속 작동할 수 있습니다. 이렇게 하면 업그레이드 프로세스 동안 네트워크를 계속 사용할 수 있습니다.
MLAG ISSU 및 ASU Arista EOS를 활용하면 서비스 중단을 예약할 필요 없이 시스템 업그레이드를 수행할 수 있습니다.
이는 업그레이드 전반에 걸쳐 취약한 인프라 서비스와 운영 중단의 위험과 같은 기존 스택 설계와 대조됩니다. 더 심각한 것은 스택 멤버가 서비스로 돌아가지 않고 스택이 작동하지 않는다는 것입니다.
거대 클라우드 기업들이 사용하는 Arista EOS의 혁신은 이제 데이터 센터뿐 아니라 네트워크를 통해 캠퍼스에 이르기까지 엔터프라이즈에 도움이 됩니다.
Automated Software Upgrades with CloudVision Portal
Change Control and Upgrade Builder
변경 제어는 네트워크 관리자에게 여러 네트워크 변경사항을 단일 변경사항으로 결합할 수 있는 메커니즘을 제공합니다. 변경 제어는 여러 변경 작업, 이미지 업그레이드 및 변경사항 실행 예약 기능으로 구성될 수 있습니다. 변경 제어 기반 태스크는 변경 실행 전후에 스냅샷을 생성하여 변경사항 확인에 대한 빠른 비교 방법을 제공합니다.
변경 제어는 상태 스트리밍을 활용하여 변경 전후의 네트워크 상태를 캡처함으로써 유지 보수에서 수행되는 운영 작업을 자동화합니다.
Drag and Drop기능을 사용하여 작업 순서를 다양한 단계로 지정할 수 있습니다. 예를 들어, 백본 스위치는 한 번에 하나씩 업그레이드 하도록 설정되어 있고 EOS 업그레이드를 수행하기 전에 백본을 BGP Maintenance(유지관리) 모드로 전환하여 트래픽을 배출하도록 설정되어 있습니다. 마찬가지로, Leaf 스위치의 MLAG 쌍은 한 번에 하나의 MLAG 피어를 업그레이드하고 자동으로 버전 호환성 및 기타 매개 변수를 확인하는 기본 제공 MLAG ISISS 액션을 사용하여 업그레이드 하도록 구성됩니다.
단계 전후에 특정 작업을 추가하여 CLI 명령에 대한 스냅샷 도구를 사용하여 사전 출력 데이터를 수집하고, 예를 들어 Slack(슬랙) 알림을 통해 특정 사용자 그룹에 경고할 수도 있습니다. 특정 메트릭, 응용 프로그램에 대한 Reachability 가능성 등을 확인하는 사용자 스크립트도 작업으로 추가할 수 있습니다.
단계와 작업이 설정되면 검토 단계에서는 구성을 포함한 모든 변경사항을 검토하고 변경사항을 실행하기 전에 해당 변경사항을 승인할 수 있습니다. 승인이 완료되면 변경 컨트롤을 실행하거나 원하는 시간에 예약할 수 있습니다. 각 작업의 진행률을 모니터링할 수 있으며 상태 레포지토리를 활용하여 계획된 변경 전후의 상태 변경을 검토합니다.