четверг, 11 марта 2010 г.

Как избежать проблем с СХД (хотя бы отчасти)

image Несколько дней назад (по большей части от любопытства) занимался реанимацией IBM DS4500. На всякий случай – с 2003 до 2006го года это была старшая система класса midrange у IBM. Потом на смену ей пришла DS4800, а с год назад и DS5100/DS5300, а пациент все работал и работал на благо … ну наверняка на чьё-то благо он все-таки работал. Только вот в какой-то момент ему стало тошно от такой жизни и решил он уйти на покой вместе со всеми данными. Сказал, что и дисков он своих знать не хочет, и с контроллерами у него не все ладно (да на всякий случай от одного сразу и открестился). И пришлось вокруг старичка попрыгать разве что не с бубном. По счастью, завести эту DS4500 удалось (конечно не без какой-то там матери, но главное при помощи девственно чистого файберного диска, лежавшего в загашнике). После “оживления” оказалось, что и контроллеры оба замечательно себя ощущают, и диски все живы, и даже данные оказались на своих местах. Но повозиться пришлось изрядно, а одна из основных причин состояла на мой взгляд в том, что прошивка на системе стояла чуть ли не та, с которой она вышла с завода. Сама по себе, возникшая проблема со старой прошивкой связана скорее всего не была, но вот будь она (прошивка) поновее, решение проблем потребовало бы в несколько раз меньше времени. Поэтому решил я дать несколько рекомендаций для тех, кто администрирует различные системы хранения:

  • Как правило, производитель рекомендует определенную версию прошивки для каждой системы (разумеется, со временем рекомендуемая версия меняется). Не стоит пренебрегать этим! Даже если проблем с системой нет, раз в пол-года проверяйте актуальные рекомендации и просматривайте список изменений. Даже если Вы не будете обновлять систему, Вы хотя бы будете знать какие проблемы были исправлены (вполне возможно что Вы уже с этими проблемами сталкивались, но не соотнесли их с СХД) – предупрежден, значит вооружен!
  • Самую последнюю прошивку, которая вышла “вот только вчера ночью”, устанавливать можно лишь в том случае, когда в системе есть серьезные проблемы, которые мешают ее нормальной эксплуатации! Прошивать “продуктив”, чтобы проверить “ту самую фишку”, которую только что анонсировали, не стоит – проблемы, которые могут возникнуть, сильно омрачат Вашу радость от мизерных улучшение. Если все-таки нужны новые возможности, то оптимальный путь – дождаться следующего обновления и, если не было найдено критических ошибок, доведите версию ПО до предыдущей.
  • Убедитесь, что фоновые процедуры проверки работают – в противном случае можете оказаться лицом к лицу с “вылетевшим”  вторым (третьим) диском при перестроении массива. Чем это грозит наверное можно даже и не упоминать.
  • Регулярно проверяйте состояние батарей, защищающих кэш. Заранее озаботьтесь заказом новых. Помните, что при выходе батареи из строя, большинство СХД отключают кэш записи. После этого производительность может снизиться в нескольких раз. Конечно есть ненулевой шанс найти батарейку “живьем” в Москве или другом городе, но если система Ваша не новая (а тем более, если она уже снята с производства), батарейка эта наверняка провалялась на складе не один год. Так что нашли-то Вы ее “живьем”, а вот по факту она окажется “трупом”.  Лучше прождать два-три месяца (в наших реалиях), но получить батарею, которая прослужит хотя бы пару лет.
  • Следите за состоянием массива даже если он находится на вторых (третьих или четвертых) ролях. Потому как по закону подлости на нем обязательно окажутся данные, которые есть в единственном экземпляре (“вот только вчера записали, а сегодня хотели бэкап сделать”) и которые ни в коем случае нельзя потерять. Только вот массив-то уже месяц был в критическом состоянии, а сегодня его совсем медным тазом прикрыло.

Ну и два главных совета:

  1. Постарайтесь, чтобы слова “О, а у нас оказывается есть СХД!” звучали не только тогда, когда эта СХД сломалась!
  2. Если есть финансовая возможность продлевать сервисное обслуживание, то этим Вы существенно облегчите себе жизнь! А если такой возможности вроде бы и нет, то постарайтесь аргументировать для людей, выделяющих финансы, необходимость этого продления – в случае возникновения проблем в системе без сервиса, решать эти проблемы придется скорее всего Вам самому.
Понравился пост? Подпишись через RSSRSS, EmailEmail или twitter!

Комментариев нет: