[번역] Changing the default repair delay time for a host failure in vSAN (2075456)

출처 : https://kb.vmware.com/s/article/2075456

제목 : vSAN에서 호스트 장애시 기본 복구 지연시간 변경 (2075456)

목적

이 문서는 VMware vSAN(이전의 Virtual SAN)에서 복구 지연 시간을 변경하는 단계가 나와 있다. 이 시간은 vSAN 클러스터에 속한 ESXi 호스트에서 장애가 감지된 후 디스크 구성 요소를 복구하기 전에 vSAN이 대기하는 시간이다.

원인

이 VMware vSAN 고급 설정은 호스트가 실패한 상태 또는 유지 보수 모드에 있는 후 vSAN이 디스크 개체를 재구성하기 전에 대기하는 시간을 지정한다. 기본적으로 복구 지연 값은 60분으로 설정되며, 이는 호스트에 장애가 발생할 경우 vSAN이 특정 호스트에 있는 디스크 개체를 다시 빌드하기 전에 60분을 기다린다는 것을 의미한다. 이는 vSAN이 장애가 일시적인지 아니면 영구적인지 확실하지 않기 때문이다.

SSD(Solid State Disk) 또는 MD(Magnetic Disk)와 같은 물리적 하드웨어 구성 요소에서 장애가 감지되면 vSAN은 즉시 디스크 개체를 재구축하여 응답한다.

해결

아래 단계는 vSAN 6.x에 대해 여전히 유효하지만 필요한 경우 vSAN 상태 플러그인의 즉시 개체 복구 버튼을 사용하여 즉시 복구를 시작할 수 있다.

기본 복구 지연 시간을 변경하려면 ESXi 고급 옵션 vsan.clomrepairdelay를 수정한다.

기본 60분은 다양한 구성을 포함하도록 설계되었으며, 위의 옵션을 너무 공격적으로 설정하면 불필요한 재동기화 작업이 발생할 수 있으며, 이 고급 옵션을 변경할 때 다음 요소를 고려한다.
- ESXi 업데이트 설치(업데이트를 수행하는 경우)
- ESXi 호스트 부팅 시간(전원 켜기 자체 테스트 포함)
- vSAN에 대한 SSD 로그 복구

참고: 클롬 수리(clom repair) 지연에 대해 설정할 수 있는 최대값은 4294967295이다.

vSAN 6.7 U1 이상

vSAN 6.7 U1에서 vCenter에서 "Clom Repair" 값을 변경하는 옵션이 도입됨 따라서 vCenter를 사용할 수 있는 경우 클러스터 개체 > Configure > vSAN > Services > Advanced 옵션:

rtaImage.png

Object Repair Timer 옵션을 원하는 값으로 변경:

rtaImage-2.png

UI를 통해 위에서 변경한 후 Maintenance/Disk Group/Disk/reboot 관련 작업을 진행하기 전에 최소 180초 이상 기다린다.

이전 버전의 vSAN과 마찬가지로 GUI를 사용하는 경우 명령줄을 통해 clomd 서비스를 다시 시작할 필요가 없음

vSAN 6.7 GA 이하인 경우

복구 지연 시간을 변경하려면 vSAN 클러스터의 각 ESXi 호스트에서 다음 단계를 실행한다.

1. 각 ESXi 호스트에 대한 SSH 세션을 연다. 자세한 내용은 ESXi 5.x(2004746년)에서 ESXi Shell 사용을 참조한다.

2. 복구 지연 시간을 변경하려면 다음 esxcli 명령을 실행한다.

esxcli system settings advanced set -o /VSAN/ClomRepairDelay -i <value in minutes>

또는 다음 esxcfg 명령을 사용할 수 있다.

esxcfg-advcfg --set <Value in minutes> /VSAN/ClomRepairDelay

ClomRepairDelay 값을 매우 낮게 설정하면 호스트가 재부팅되거나 일시적으로 네트워크가 중단되어 ESXi 호스트가 네트워크 파티셔닝될 때 구성 요소의 불필요한 복사가 발생할 수 있다.

다음 명령을 실행해서 CLOM(Cluster Level Object Manager) 서비스 clomd를 다시 시작해서 변경 내용을 적용한다.

/etc/init.d/clomd restart

clomd 서비스를 다시 시작하면 CLOM 작업이 잠시 중단된다. 정전 기간은 1초 미만이 되어야 한다. 그러나 clomd 서비스가 재시작될 때 가상 시스템을 프로비저닝하는 경우 해당 프로비저닝 작업이 실패할 수 있다.

4. vSAN 클러스터의 각 ESXi 호스트에 1~3단계를 적용한다.

VMware vSphere Web Client를 사용하여 복구 지연 시간을 변경하려면 vSAN 클러스터의 각 ESXi 호스트에서 다음 단계를 실행한다.

    1. vSphere Web Client를 사용하여 VMware vCenter Server에 관리자 자격 증명을 사용하여 로그인한다.
    2. vSAN 클러스터를 선택하고 ESXi host > Manage > Settings을 강조 표시한다.
    3. Advanced System Settings > VSAN.ClomRepairDelay를 선택한다.
    4. Edit을 누른다.
    5. VSAN.ClomRepairDelay 값(분 단위)을 수정한다.
      /etc/init.d/clomd restart

      clomd 서비스를 다시 시작하면 CLOM 작업이 잠시 중단된다. 정전 기간은 1초 미만이 되어야 한다. 그러나 clomd 서비스가 재시작될 때 가상 시스템을 프로비저닝하는 경우 해당 프로비저닝 작업이 실패할 수 있다.

    6. 다음 명령을 실행해서 CLOM(Cluster Level Object Manager) 서비스 clomd를 다시 시작해서 변경 내용을 적용한다.
    7. VSAN 클러스터의 각 ESXi 호스트에 1~6단계를 적용한다.
향후 고려 사항

고장이 해결된 후에는 설정을 기본값인 60분으로 재설정해야 한다. 위의 단계를 참조로 사용한다.