Gleam Sky

PowerEdge R610 하드 장애

PowerEdge R610 하드 장애 기록

동작환경

Bios : 1.3.6

Raid Perc 6/i 6.2.0-0013 (구입 후 장애 교체를 받은 뒤 펌웨어 버전 불명)

HDD FUJITSU, TOSHIBA, SEAGATE 등 제조사와 72G 146G가 섞에 있는 상태로 Raid5 , Hotswap  설정으로 운영

0,1,2,3,4 레이드5, 5 핫스왑

0번과 4번이 장애 LED를 표시하고 서버에 접근할 수 없다는 연락을 받음

재부팅 후 장애 LED 표시는 사라졌지만 부팅 불가로 데이터 손실 가능성으로 장애 대응을 꺼려하여 서버를 직접 처리하기 위해 배송 받음

레이드 바이오스 화면 상태

0(정상),1(정상),2(정상),3(정상),4(리빌드) 레이드5, 5(정상) 핫스왑

접지 문제 확인을 위해 하드 재 장착 후 레이드 바이오스 화면에서 모든 하드 정상 표시, 4번 하드 리빌딩 7x%까지 진행 중 실패, 2-3번 리빌딩을 시도해도 마찬가지임

재부팅 후 정상 부팅 확인 완료

4번 하드 가이드에서 제거 후 5번 하드가 리빌딩 하도록 시도, 71%까지 진행 후 실패

동시에 2개가 인식 불가가 되면서 하드 불량이나 패리티가 깨진걸로 추정이 되어 내부 데이터 포기

레이드 바이오스 화면에서 4번하드가 Foreign 상태에서 핫스왑으로 전환이 불가능하여 Foreign 정보삭제

물리적하드는 인식하지만 레이드 구성 참여가 되지 않는 상태로 복구 불가능

4, 5 번 하드를 물리적 위치 교환 후

서버, 레이드카드 등 최신 바이오스가 있는걸 확인 후 바이오스 업을 위해서 신규 OS 설치 시도

델 윈도우 10 DVD로 설치를 시도하였으나 신규 설치가 되지 않아, 복원 시도 – 복원에 시간이 많이 걸림

중단 후 CentOS 7 minimal ISO 를 넣은 USB의 부팅 영역이 인식 되지 않아 설치 불가능

윈도우 10 미디어 생성툴로 작성된 USB로 윈도우 10 설치, 드라이버 모두 인식

윈도우용 바이오스는 2012 R2 버전용으로 받음

윈도우 설치 후 Perc 6/i 레이드 카드 바이오스 버전 업 -> 6.4.0-002

재 부팅 후 레이드 바이오스 화면에서 모든 하드 정상 인식

0(정상),1(정상),2(정상),3(정상),4(정상) 레이드5, 5(정상) 핫스왑

레이드 바이오스에서 하드 초기화 완료를 기다린 다음

윈도우 부팅 후 서버 바이오스 버전 업 1.3.6 -> 6.4.0

CentOS 7 minimal ISO 를 넣은 USB으로 정상 부팅이 되어, 설치 완료

홈페이지에서 하드 및 내장 네트워크 카드의 바이오스를 최신으로 변경

dsu 를 이용하여 바이오스 최신으로 변경

0,1,2,3,4 하드를 작동 중 물리적 분리를 하여 핫스왑과 처음 장애 LED를 보여주었던 0, 5(이전 4)번 하드의 동작 상태를 확인

Exit mobile version