[번역] vSAN Health Service - Data Health – vSAN Object Health (2108319)

출처 : https://kb.vmware.com/s/article/2108319

제목 : vSAN Health Service - Data Health – vSAN Object Health (2108319)

목적

이 문서는 vSAN Health Service의 Data health – vSAN Object Health에 대해 설명하고, 오류를 보고하는 이유에 대해서 자세히 알아본다.

해결

질문: Data Health – vSAN Object Health의 기능은?

오브젝트 상태 점검은 매우 빠른 시각에 두 가지 측면을 제공하도록 설계됐다.

  • 클러스터 내의 모든 객체를 요약하여 클러스터 전반의 개요를 제공한다.
  • 오브젝트 상태가 정상인지 또는 비정상인지 여부뿐만 아니라 관리자가 조치를 취해야 하는지 또는 환경이 위험에 처해 있는지 여부를 평가하는 데 도움을 주기 위해 오브젝트 상태를 분류한다.
질문: 오류 상태는 어떤 의미인가?

어떤 오브젝트가 건강하지 않을 때 가질 수 있는 가능한 상태들이다.

Data move : vSAN이 클러스터의 ESXi 호스트 및 스토리지에 대한 데이터를 구축(build)하는 이유는 사용자가 유지 보수 모드, 제거 요청, 재조정 작업 때문이다. 이 상태의 오브젝트는 정책을 완전히 준수하고 정상이지만 vSAN은 이를 적극적으로 재구성하고 있다. 물체가 위험에 처하지 않기 때문에 걱정하지 말아야 한다. 그러나 개체가 이 상태에 있는 동안 성능에 영향을 미칠 수 있다. 재동기화 구성 요소 뷰를 교차 참조하여 활성 데이터 동기화 작업에 대해 자세히 알아본다.

Healthy: 오브젝트는 정책과 정확히 일치하며 완벽한 상태에 있으며 현재 이동 중이거나 다른 방법으로 작업되지 않고 있다.

Inaccessible: 어떤 오브젝트는 허용하도록 구성된 것보다 더 많은 (영구적이거나 일시적인) 장애를 겪었으며, 현재 사용할 수 없고 접근할 수 없다. 고장이 일시적이지 않은 경우(예: ESXi 호스트 재부팅)에는 이러한 액세스 불가능한 상태에서는 이러한 오브젝트를 사용하는 가상 시스템이 올바르게 작동할 수 없으므로 가용성을 복원하기 위해 장애가 발생한 ESXi 호스트, 네트워크 장애, 디스크 제거 등과 같은 기본 근본 원인을 최대한 빨리 해결한다.

Non-availability related incompliance : 이것은 다른 상태들 중 어느 상태도 적용되지 않을 때 모든 상태들을 사로잡는 상태다. 이 상태의 개체는 해당 정책을 준수하지 않지만 가용성(NumberOfFailuresToTolrate) 정책을 충족하고 있는 경우다. 현재 이 상태를 적용할 수 있는 문서화된 사례는 없다.

Non-availability related reconfig : vSAN이 가용성과 관련 없는 스토리지 정책 변경을 요청했기 때문에 클러스터의 ESXi 호스트 및 스토리지에 대한 데이터를 재구성하는 중이다. 즉, 이러한 오브젝트는 NumberOfFailuresToTollate 정책을 완전히 준수하며 데이터 이동은 NumberOfDiskStripesPerObject와 같은 또 다른 정책 변경을 충족하기 위한 것이다. 이 상태의 물체는 위험하지 않기 때문에 걱정할 필요가 없다.

Reduced availability - active rebuild : 그 오브젝트는 고장을 겪었지만, 그 실패를 견딜 수 있도록 구성되었다. I/O가 계속 흘러 객체에 접근할 수 있으며, vSAN은 객체를 규정 준수 상태로 되돌리기 위해 새로운 구성요소를 재구축하여 객체를 재보호하는 작업에 적극적으로 임하고 있다.

Reduced availability with no rebuild: 이 개체에 장애가 발생했지만 vSAN은 이를 용인할 수 있었다. 예를 들어 I/O가 흐르고 있으며 객체에 액세스할 수 있다. 그러나 vSAN은 개체를 다시 보호하는 작업을 수행하지 않고 있다. 이는 지연 타이머(사용가능성 감소 - 재구축 없음 - 지연 타이머) 때문이 아니라 다른 이유 때문이다. 클러스터에 리소스가 부족하기 때문일 수도 있고, 과거에 리소스가 부족했기 때문일 수도 있고, 과거에 재보호 실패가 있었고 vSAN이 아직 재시도하지 않았기 때문일 수도 있다. 리소스가 모두 소모될 수 있는 경우 첫 번째 평가에서는 제한 상태 점검을 참조한다. 후속 장애에 대한 완전한 보호로 돌아가려면 가능한 한 빨리 장애를 해결하거나 리소스를 추가해야 한다.

Reduced availability with no rebuild - delay timer: 이 오브젝트는 장애가 발생했지만 vSAN은 이를 허용할 수 있었다. I/O가 흐르고 있으며 오브젝트에 접근할 수 있다. 그러나 vSAN은 재보호 발행(issuing) 전 60분(기본값) 지연 타이머가 만료되기를 기다리고 있어 아직 오브젝트 재보호 작업을 진행하지 않고 있다.

지연 기간 내에 실패한 실체를 복구할 수 없는 것으로 알려진 경우, 지연 타이머를 건너뛰고 즉시 재보호에 착수하라는 명시적 요청을 발행하도록 선택할 수 있다.

그러나 장애가 발생한 호스트가 능동적으로 재부팅 중이거나 잘못된 드라이브를 당겼다가 다시 삽입되고 있다는 사실을 알고 있다면, 개체를 완전히 다시 보호하는 가장 빠른 방법이므로 이러한 작업이 완료될 때까지 기다리는 것이 바람직하다.

Reduced Availability With Paused Rebuild : 오브젝트가 장애를 겪었거나 최근 정책이 가용성 요구사항이 더 높은 것으로 변경되었다. 그러나 사용 가능한 리소스가 부족하여 오브젝트 재구축이 일시 중지된다.

Reduced Availability With Policy Pending : 오브젝트 정책이 최근에 변경되었지만 개체에 아직 적용되지 않은 경우다. 오브젝트의 현재 가용성이 새 정책이 예상하는 것보다 작다. 임시 상태이며 리소스 제한으로 인해 새 정책이 수락될 수 있는지 여부에 따라 결국 'healthy' 또는 'Reduced Availability With Policy Pending Failed'로 전환된다는 점에 유의한다. 그리고 클러스터에서 사용 중인 과도 용량에 따라 오브젝트는 몇 분에서 몇 시간까지 상태를 유지하게 된다. 이 상태에 대해 사용자 작업이 필요하지는 않다.

Reduced Availability With Policy Pending Failed : 오브젝트 정책이 변경되었지만 사용 가능한 리소스가 부족하여 오브젝트에 적용하지 못한다. vSAN이 오브젝트에 새 가용성 정책을 자동으로 다시 적용하여 오브젝트의 규정을 완전히 준수할 수 있도록 하려면 사용자가 클러스터에 리소스를 추가해야 한다.

Non-availability Related In-compliance With Policy Pending : 오브젝트 정책이 최근에 변경되었으며 아직 적용되지 않았다. 오브젝트는 여전히 새 가용성 정책을 완전히 준수하지만 새로운 비 가용성 관련 정책을 준수하지 않는다. 임시 상태이며 리소스 제한으로 인해 새 정책이 수락될 수 있는지 여부에 따라 결국 'healthy' 또는 'Non-availability Relate In-compliance With Policy Pending Failed' 상태로 전환된다는 점에 유의한다. 그리고 클러스터에서 사용 중인 과도 용량에 따라 오브젝트는 몇 분에서 몇 시간까지 상태를 유지하게 된다. 이 상태에 대해 사용자 작업이 필요하지 않다.

Non-availability Relate In-compliance With Policy Pending Failed : 오브젝트 정책이 최근에 변경되었지만 리소스가 부족하여 개체에 적용하지 못한다. 오브젝트는 여전히 새 가용성 정책을 완전히 준수한다. vSAN이 오브젝트에 새로운 가용성 관련 정책을 자동으로 다시 적용하여 완벽하게 준수할 수 있도록 하려면 사용자는 클러스터에 리소스를 추가해야 한다.

Non-availability Related In-compliance With Paused Rebuild : 오브젝트가 현재 정책을 준수하지 않지만 가용성(NumberOfFailuresToTolrate) 정책을 충족하고 있는 경우다. 그러나 사용 가능한 리소스가 부족하여 개체 재구축이 일시 중지되었다.

질문 : 문제를 해결하고 오류 상태를 어떻게 수정하는가?

위의 목록에서 오브젝트 상태를 검토하면 오브젝트 관점에서 vSAN 클러스터에서 어떤 작업이 수행되고 있는지, 수정 작업을 수행해야 하는지 여부를 알 수 있다.

오브젝트 상태에 문제가 있거나 오브젝트가 예기치 않은 상태일 경우 VMware Support에 문의한다. 자세한 내용은 My VMware에서 지원 요청을 제출하는 방법(2006985)을 참조한다.

관련 정보

VMware vSANlog 수집에 대한 자세한 내용은 vSAN 지원 로그 수집 및 VMware에 업로드(2072796)를 참조한다.