Admin's Way: hetzner.de проблемы с жесткими дисками

В связи с очередным сбоем на хетснеровских серверах раскопал и вернул черновик в строй.

Сегодня в выходной меня разбудили и сообщили, что сервер, расположенный у любимого мною хостера совсем молчит и что это не есть хорошо, поскольку он не партизан в плену, а боевой сервер.

Краткое расследование показало проблемы с /dev/sda

=============================================================

Feb 3 11:50:36 hz kernel: ata1.00: exception Emask 0x0 SAct 0x1c SErr 0x0 action 0x0

Feb 3 11:50:36 hz kernel: ata1.00: irq_stat 0x40000008

Feb 3 11:50:36 hz kernel: ata1.00: failed command: READ FPDMA QUEUED

Feb 3 11:50:36 hz kernel: ata1.00: cmd 60/f8:10:a8:2c:18/00:00:a8:00:00/40 tag 2 ncq 126976 in

Feb 3 11:50:36 hz kernel: res 41/40:f8:98:2d:18/00:00:a8:00:00/00 Emask 0x409 (media error) <F>

Feb 3 11:50:36 hz kernel: ata1.00: status: { DRDY ERR }

Feb 3 11:50:36 hz kernel: ata1.00: error: { UNC }

Feb 3 11:50:37 hz kernel: ata1.00: configured for UDMA/133

Feb 3 11:50:37 hz kernel: ata1: EH complete

Feb 3 11:50:41 hz kernel: ata1.00: exception Emask 0x0 SAct 0x4 SErr 0x0 action 0x0

Feb 3 11:50:41 hz kernel: ata1.00: irq_stat 0x40000008

Feb 3 11:50:41 hz kernel: ata1.00: failed command: READ FPDMA QUEUED

Feb 3 11:50:41 hz kernel: ata1.00: cmd 60/f8:10:a8:2c:18/00:00:a8:00:00/40 tag 2 ncq 126976 in

Feb 3 11:50:41 hz kernel: res 41/40:f8:98:2d:18/00:00:a8:00:00/00 Emask 0x409 (media error) <F>

Feb 3 11:50:41 hz kernel: ata1.00: status: { DRDY ERR }

Feb 3 11:50:41 hz kernel: ata1.00: error: { UNC }

Feb 3 11:50:41 hz kernel: ata1.00: configured for UDMA/133

Feb 3 11:50:41 hz kernel: ata1: EH complete

=============================================================

# hdparm -t /dev/sda

/dev/sda:

Timing buffered disk reads: 28 MB in 3.07 seconds = 9.13 MB/sec

=============================================================

cat /proc/mdadm сообщал, что он в курсе происходившего и ведет проверку (recheck) массивов, на что просит не много не мало а полтора года (размер дисков по 3Tb). А все виртуальные машины на сервере начали вести себя очень плавно и неспеша. Я естественно расстроился такому повороту событий, поскольку за полтора года меня четвертуют, колесуют и на кол посадят за тормозящие корп сайты. Гугл вселил в меня надежду, что проблема моя далеко не нова и что помочь ей можно сменив шлейф, винт ну или на крайняк контроллер - это кому уж как повезет.

Не мудрствуя лукаво я заполнил форму на robot.your-server.de в разделе requests. Где в наиболее подходящем из шаблонов ( requests - Dedicated and Virtual Server requests... - Server problems - Hard drive is broken) мне предлагалось описать с каким из винтов у меня проблемы, указать серийный номер и привести кусок логов, который поверг меня в наибольший восторг. Именно это я и сделал, не забыв указать в примечаниях, что я не уверен в настройках BIOS и тому как сервер отнесется к смене загрузочного диска.

Примерно через пол часа я получил ответ с просьбой выслать вывод от smartctl --all /dev/sda и советом почитать статьи из их базы знаний

http://wiki.hetzner.de/index.php/SMART/en - первая рассказывает о нелегких буднях smartctl и о том как правильно ее использовать во благо

http://wiki.hetzner.de/index.php/Festplattenaustausch_im_Software-RAID/en - вторая как оказалось имеет русский перевод

http://wiki.hetzner.de/index.php/Festplattenaustausch_im_Software-RAID/ru - и содержит подробные инструкции по смене диска в RAID массиве.

Первое я незамедлительно выслал, а сам тем временем начал сверять свои действия с инструкцией и убедившись, что все выполнил правильно, так же рапортовал об этом саппорту.

Саппорт как оказалось тоже умеет гуглить и умеет считать свои денежки, видимо поэтому они первым делом предложили мне не горячиться, а попробовать начать с замены шлейфа. Я незамедлительно согласился, дав так-же свое согласие на кратковременное отключение сервера для совершения сего действа. Спустя пол часа отсутствия сервера в сети я забил тревогу и написал в саппорт, что что-то видимо пошло не так, поскольку сервер по прежнему на запросы не отвечает и в сети не виден как мне, так и сайту управления хостингом. Ответ меня несколько удивил и порадовал - мне дали шанс увидеть консоль своего сервака.

=============================================================

Dear Client.

We have connected a remote console (LARA) to your server for check this.

Access details:

http://*.hetzner.de

Username: **

Password: ***

More information can be found in our wiki:

http://wiki.hetzner.de/index.php/LARA/en

=============================================================

Правда радость моя не была долгой, Error:Authentication failed. обломил мои ожидания. Зато пока я тыкался в ЛАРУ коварные саппортеры успели таки ребутнуть и поправить загрузку сервака (а может просто забыли включить)) или холодный старт сервера у них занимает более получаса - ну там с каким нибудь аппаратным тестированием памяти/вентиляторов/еще чего полезного).

Однако факт, что я получил обратно свой сервак с заработавшими винтами

=============================================================

# hdparm -tT /dev/sda

/dev/sda:

Timing cached reads: 27346 MB in 2.00 seconds = 13688.79 MB/sec

Timing buffered disk reads: 510 MB in 3.01 seconds = 169.66 MB/sec

=============================================================

И настала пора возвращать разделы в RAID из которого, как оказалось, я зря их вывел. Вот только автоматическое определение дисков не дало мне и тут поскучать и оставшиеся бесхозными разделы были определены как новые RAID массивы

=============================================================

# cat /proc/mdstat

Personalities : [raid0] [raid1] [raid6] [raid5] [raid4] [raid10]

md125 : active (auto-read-only) raid1 sda1[0]

33553336 blocks super 1.2 [2/1] [U_]

md126 : active (auto-read-only) raid1 sda2[0]

524276 blocks super 1.2 [2/1] [U_]

md127 : active raid1 sda3[0]

2896184639 blocks super 1.2 [2/1] [U_]

md2 : active raid1 sdb3[1]

2896184639 blocks super 1.2 [2/1] [_U]

md1 : active (auto-read-only) raid1 sdb2[1]

524276 blocks super 1.2 [2/1] [_U]

md0 : active (auto-read-only) raid1 sdb1[1]

33553336 blocks super 1.2 [2/1] [_U]

unused devices: <none>

=============================================================

Но тут уже было все просто и первые два раздела были добавлены за пару минут:

=============================================================

# mdadm -S /dev/md125

# mdadm --manage /dev/md0 --add /dev/sda1

# cat /proc/mdstat

Personalities : [raid0] [raid1] [raid6] [raid5] [raid4] [raid10]

md126 : active (auto-read-only) raid1 sda2[0]

524276 blocks super 1.2 [2/1] [U_]

md127 : active raid1 sda3[0]

2896184639 blocks super 1.2 [2/1] [U_]

md2 : active raid1 sdb3[1]

2896184639 blocks super 1.2 [2/1] [_U]

md1 : active (auto-read-only) raid1 sdb2[1]

524276 blocks super 1.2 [2/1] [_U]

md0 : active raid1 sda1[2] sdb1[1]

33553336 blocks super 1.2 [2/1] [_U]

[>....................] recovery = 2.4% (812160/33553336) finish=6.0min speed=90240K/sec

=============================================================

А вот повторив операцию с последним я напоролся на ошибочку

=============================================================

# mdadm -S /dev/md127

mdadm: failed to stop array /dev/md127: Device or resource busy

Perhaps a running process, mounted filesystem or active volume group?

# vgscan

Reading all physical volumes. This may take a while...

Found duplicate PV RrnPfgBunCs217VgnxsZifyY9Lxw42Jx: using /dev/md127 not /dev/md2

Found volume group "vg0" using metadata type lvm2

=============================================================

самым простым мне показалось поправить /etc/lvm/lvm.conf и перегрузиться

=============================================================

filter = [ "a|^/dev/md2$|", "r/.*/" ]

=============================================================

# reboot

...

# vgscan

Reading all physical volumes. This may take a while...

Found volume group "vg0" using metadata type lvm2

# pvdisplay

--- Physical volume ---

PV Name /dev/md2

VG Name vg0

PV Size 2.70 TiB / not usable 1.31 MiB

Allocatable yes

PE Size 4.00 MiB

Total PE 707076

Free PE 367876

Allocated PE 339200

PV UUID RrnPfg-BunC-s217-Vgnx-sZif-yY9L-xw42Jx

# mdadm -S /dev/md127

# mdadm --manage /dev/md2 --add /dev/sda3

mdadm: added /dev/sda3

# cat /proc/mdstat

Personalities : [raid0] [raid1] [raid6] [raid5] [raid4] [raid10]

md2 : active raid1 sda3[2] sdb3[1]

2896184639 blocks super 1.2 [2/1] [_U]

[>....................] recovery = 0.0% (2571392/2896184639) finish=731.4min speed=65933K/sec

md1 : active raid1 sda2[2] sdb2[1]

524276 blocks super 1.2 [2/2] [UU]

md0 : active (auto-read-only) raid1 sda1[2] sdb1[1]

33553336 blocks super 1.2 [2/2] [UU]

unused devices: <none>

=============================================================

Осталось поправить обратно /etc/lvm/lvm.conf, дождаться пока соберется массив и ребутнуться для проверки.

Admin's Way

понедельник, 4 февраля 2013 г.

hetzner.de проблемы с жесткими дисками

Комментариев нет:

Отправить комментарий

понедельник, 4 февраля 2013 г.

hetzner.de проблемы с жесткими дисками

Комментариев нет:

Отправить комментарий

понедельник, 4 февраля 2013 г.