[번역] Performance Troubleshooting – Which vSAN Performance Metrics Should be Looked at First?

출처 : https://blogs.vmware.com/virtualblocks/2019/06/10/troubleshooting-vsan-performance-metrics/

성능 문제 해결은 기반 인프라 및 토폴로지에 관계없이 많은 관리자에게 복잡한 작업이 될 수 있다. vSAN과 같은 분산 스토리지 플랫폼은 성능에 영향을 미칠 수 있는 다른 요소를 도입하며, 이러한 고려사항에 대한 문제 해결 방법이 적합해야 한다. 아래 제공된 지침은 관리자가 vSAN 성능 서비스에서 발견된 메트릭스를 사용하여 성능 문제의 원인을 분리하는 데 도움이 될 것이다.

vSAN 환경에서 성능 문제를 해결할 때 가장 일반적인 질문 중 두 가지는 1)어떤 지표가 가장 중요한가? 그리고 2)측정지표는 어떤 순서로 봐야 하는가? 이다. 여러분이 자신의 환경에서 더 쉽게 행동을 취할 수 있도록 이 두 가지 특정한 질문을 다루어 보겠다.

성능 문제 해결 워크플로우 검토

먼저 그림 1과 같이 vSAN 환경에서 성능 문제를 해결하기 위한 기본 프레임워크를 살펴봅시다. 다섯 가지 단계 각각은 근본 원인이 제대로 식별될 가능성을 개선하는 데 매우 중요하며, 완화를 위한 단계는 체계적인 방법으로 수행된다.

Figure01.png

그림 1. vSAN 성능 문제 해결 워크플로우

활성 VM의 스토리지 관련 성능 문제에 대한 주요 지표는 게스트 VM 지연 시간이다. 가상화 관리자의 경우 일반적으로 두 가지 알림 메커니즘 중 하나를 통해 이러한 사실을 인지하게 된다:사용자나 관리자의 불만 사항 또는 성능 임계값을 모니터링하는 시스템 경고. 지연 시간의 원인을 결정하는 것은 StorageHub의 Troubleshooting vSAN Performance에서 설명한 것처럼 문제 해결 프로세스가 시작되는 지점이다.

가장 중요한 메트릭은?

불행히도 vSAN 성능 서비스에서 이용할 수 있는 지표들이 모두 어떤 형태로든 서로 연관되어 있기 때문에 이는 명확한 해답이 아니다. 환경 조건과 성능 문제의 근본 원인은 어떤 지표가 다른 지표보다 더 중요한지 결정할 것이다. 이것이 발견 프로세스(문제 해결 워크플로우의 2단계와 3단계)가 프로세스에 매우 중요한 이유다. 성능 지표로부터 진정한 통찰력을 얻기 전에 환경의 상태를 이해하는 것이 중요하다. 분리된 측정지표는 분리해서 볼 때 매우 적은 도움을 줄 수 있지만 다른 측정지표와 함께 볼 때 의미가 있다.

스토리지 지연 시간은 I/O 제공을 완료/해결하는 시간을 정의하기 때문에 모든 스토리지 성능 메트릭 중 가장 구별되며, 일반적으로 밀리초(ms) 단위로 보고된다. 시스템이 후속 I/O를 처리하기 위해 대기하거나 해당 I/O를 대기하는 다른 명령을 실행해야 하는 시간이다. 하이퍼바이저를 사용하면 스토리지 스택의 일부(ESXTOP을 통해 확인 가능) 또는 VM에서 스토리지 디바이스로 가는 전체 엔드 투 엔드 경로에 대해서만 지연 시간 측정을 수행할 수 있다. 지연 시간은 조건부 메트릭이라는 점에 유의하십시오. 이러한 지연 시간을 느끼고 있는 I/O의 양에 대한 컨텍스트를 제공하지 않는다. 그것은 또한 측정되고 있는 위치만을 나타낸다. 지연 시간은 스토리지 스택의 위아래 여러 위치에서 측정할 수 있다. 이 때문에 지표를 보는 순서가 중요해진다.

측정지표 검토

문제 해결 프레임워크의 검색 단계가 완료되면 성능 메트릭스를 사용하는 프로세스가 시작될 수 있다. 지표를 보는 순서는 어떤 수준의 경합이 일어날 수 있는지 해독하는 데 도움이 될 수 있다. 그림 2는 이 문제를 더 잘 이해하고 분리하기 위해 지표를 볼 수 있다는 점에서 순서를 나타내며, StorageHub의 Troubleshooting vSAN Performance 문서의 "Appendix C: Troubleshooting Example"에서 사용한 것과 동일한 순서다.

Figure02.png

그림 2. 성능 메트릭 순서 보기

아래에서는 각 단계에 대해 좀 더 자세한 컨텍스트를 제공한다.

  1. VM 수준에서 메트릭을 보고 해당 VM에 비정상적으로 높은 스토리지가 발생하는지 확인
  2. 관련 지연 시간 이는 게스트 VM에서 볼 수 있는 스토리지 지연 시간이 실제로 존재하는지 확인해야 한다.
  3. 클러스터 수준에서 메트릭을 보고 컨텍스트를 제공하고 다른 이상 징후를 확인하십시오. 이렇게 하면 클러스터의 다른 곳에서 잠재적인 "소음"을 식별하는 데 도움이 될 것이다.
  4. 호스트에서 메트릭을 보고 식별된 지연 시간과 관련된 스토리지 I/O 유형을 분리하십시오.
  5. 호스트의 메트릭을 보고 디스크 그룹 수준을 확인하여 지연 시간 유형 및 소스를 확인하십시오.
  6. 호스트의 메트릭을 보고, 호스트 네트워크 및 VMkernel 메트릭을 검토하여 문제가 네트워크와 관련되었는지 확인

3단계~5단계에서는 vCenter UI에서 쉽게 수행할 수 있는 VM 개체가 있는 특정 호스트를 식별했다고 가정한다. 단순성을 위해 호스트 수준 메트릭은 해당 VM에 대해 개체가 상주하는 호스트만 보아야 한다.

권장 사항: 성능을 향상시키기 위해 환경을 변경할 때는 부지런하고 신중해야 한다. 한 번에 여러 설정을 변경하거나, 간단한 구성 문제를 간과하거나, 성능의 변화를 측정하지 않으면 상황이 더 악화되고, 해결하기가 더 복잡해질 수 있다.

요약

성과 문제의 주요 기여자를 추적하는 과정은 복잡할 수 있지만, 이 프로세스를 단순화하고 해결 시간을 단축하는 데 도움이 될 수 있는 실천요강이 있다. 이 정보는 스토리지의 "Troubleshooting vSAN Performance " 가이드와 쌍으로 제공되고, StorageHub는 자신의 vSAN 환경에서 성능 문제를 진단하고 해결하는 방법을 더 잘 이해하기 위한 시작이다.

 


Revision #1
Created Sat, Jun 29, 2019 1:04 PM by ikhwan.koo
Updated Sat, Jun 20, 2020 4:28 AM by ikhwan.koo