пятница, 27 марта 2015 г.

Data Ontap 8.3 GA - новости и изменения

Я совсем недавно уже писал про одно из нововведений в cDOT 8.3 - поддержку MetroCluster, но считаю нужным упомянуть и другие возможности, которые пользователи получат в новой версии. Список изменений весьма обширен - более 40 из 90 страниц отведены перечислению именно новых возможностей.

Что первым бросается в глаза? Конечно система управления - теперь System Manager интегрирован в Data ONTAP! Больше не нужно устанавливать на компьютер приложение, мучаться с версиями Java - достаточно открыть браузер, набрать адрес и после этого мы получаем полноценную систему управления (на HTML5). Уверен, это это придется по душе очень многим админам!

NetApp System Manager

Еще одна приятная возможность для администратора - можно сильно упростить жизнь за счет использования 'network subnet'. Вместо того, чтобы назначать каждому логическому интерфейсу (LIF) конкретный адрес, администратор назначает пул адресов для широковещательного домена (broadcast domain). А уже при создании LIF, ему присваивается адрес из пула. Такой подход может быть крайне удобен в больших и часто меняющихся инфраструктурах. 

Использование IP Spaces для изоляции SVM - еще одна возможность для построения развитой инфраструктуры. IP Spaces позволяют получать доступ к кластеру из несвязанных подсетей - даже если клиенты имеют одинаковые адреса:
Схема IP Spaces
В данном случае, клиенты в IPSpace A физически отделены от клиентов IPSpace B, но работают с одним кластером. Эта возможность актуальна для компаний, которые предоставляют системы NetApp в аренду "по кусочкам".

Миграция LUN - администратор должен был очень внимательно подходить к процессу планирования системы с самого начала - если уж создали LUN, то перемещать его потом даже внутри системы будет не слишком просто и потребуется остановить доступ к данным. Теперь можно спокойно перемещать LUN внутри SVM без прерывания доступа к данным. Миграция происходит совершенно прозрачно для пользователя и работающих приложений. Далеко не всегда можно заранее спланировать рост нагрузки и требования, поэтому возможность онлайн миграции крайне важна для обеспечения эффективности.

В больших конфигурациях, можно получить слишком большое количество путей от хоста до LUN - это является проблемой управления, но может влиять и на производительность. Для того, чтобы поддержать число путей в рамках разумных границ, теперь используется технология Selective LUN Mapping (SLM) - хост видит только нужные пути до системы, а лишние спрятаны (но могут быть включены при необходимости. Коллеги писали об этом совсем недавно (есть примеры команд).

Автоматизация процесса обновления ПО. Еще одна "крутая фишка". В самых разных ситуациях я сталкивался с тем, что система работает, на ней наблюдаются какие-то проблемы (не критичные, но малоприятные). Спрашиваешь, а почему не обновить на новый микрокод - там же есть исправление как раз вашей проблемы? "Мы бы с удовольствием, но для нас очень проблематично выделить время на обновление и столкнуться с угрозой остановки сервиса. Кроме того, это очень сложная процедура." И это длится год за годом!  Теперь такая проблема больше не должна волновать - администратору достаточно всего трех команд, чтобы запустить процесс обновления:
cluster image package get cluster image validate cluster image update 
После этого система начнет процесс обновления (все происходит онлайн - данные доступны, пользователи ничего не замечают). Контролировать процесс можно командой:
cluster image show-update-progress
Конечно нужно быть готовым к неприятностям, но лучше всего просто заранее изучить документацию - тогда неприятностей можно и избежать.

Обновлять систему стало легко, но так ли просто обновить несколько кластеров сразу на нескольких площадках, объединенных в единую инфраструктуру? Далеко не факт. Но если мы используем репликацию (Snap Mirror), то для ее  нормального функционирования нужно было поддерживать одинаковые версии и всегда обновлять сначала "получателя" данных. В случае, если репликация идет в обе стороны, приходится останавливать SnapMirror на время апгрейда. Теперь у нас есть version-flexible SnapMirror, благодаря которому можно спокойно обновлять любой из узлов без остановки репликации. Еще одна задача администрирования решена! Для поддержки распределенной отказоустойчивый инфраструктуры это очень важное нововведение.

Раз уж затронули SnapMirror, то теперь при передаче данных используется компрессия, что позволяет снижать нагрузку на сеть и каналы связи. Не могу сдержаться - FalconStor NSS умел так делать еще лет 10 тому назад! :) В любом случае, это еще один плюс в копилку.

У заказчиков, использующих SnapVault появлиась возможность восстанавливать данные на уровне отдельных файлов (технология On-Demand Data Management). Данные доступны пользователю сразу и он может с ними работать, пока происходит копирование на основную систему.

Перейдем к производительности и эффективности хранения.

Больше не записываем нули на диски! Для томов с включенной дедупликацией, в онлайне находятся блоки из одних нулей и они не записываются на диски (Inline zero write detection and elimination). В VMware, например, мы создаем eager zeroed диски, чтобы обеспечить неизменный уровень производительности, но из-за архитектуры WAFL, нам нет нужды записывать нули на диски. Кроме того, существуют и другие специфические задачи, когда за счет исключения нулевых блоков, мы получаем заметный прирост производительности.

Еще одно направление оптимизации - All-Flash Optimized personality.  Для All-Flash систем мы отказываемся от всех алгоритмов по оптимизации работы с обычными дисками, так как все это бесполезно для SSD дисков. Как следствие, производительность системы возрастает, а там, где борьба идет за микросекунду, любая оптимизация может быть критичной. AFF personality доступна только для FAS80xx и не позволяет использовать обычные диски - только SSD.

Также улучшена производительность на случайных операциях чтения - наиболее заметно для SSD, но и на обычных дисках при определенных типах нагрузки должно быть видно.

Следить за производительностью стало удобнее - собирать статистику можно уже не на уровне агрегата, а на уровне отдельного тома (qos statistics volume show).

Что касается эффективности, то самая большая проблема в младших системах (с небольшим числом дисков) это объяснить заказчику, куда делось все то дисковое пространство, за которое он заплатил. Для каждого контроллера отдельные диски выделим под root (рекомендуется RAID-DP) плюс еще пара дисков в резерв (spare). И вот, в самой младшей системе от 12 дисков осталось 2 под данные.
NetApp FAS без ADP

Да, конечно, можно немного "поколдовать" и улучшить ситуацию (здесь RAID4, там один spare диск) - в результате, что-то подходящее можно собрать. Но, во-первых, это нужно делать руками (и игнорировать предупреждения системы), а, во-вторых, даже в этом случае, мы получаем не слишком-то большой объем. Поэтому систему из 12 дисков сложно использовать как active-active, так как на одном из контроллеров будет всегда слишком мало дисков. Наконец-то, в Data ONTAP 8.3 появилось решение - Advanced Disk Partitioning (ADP).  После метрокластера, мне кажется, это вторая по значимости новость - можно на одних и тех же физических дисках размещать два агрегата - для root и для данных. Причем, для root мы можем собрать RAID-DP и два spare "блока", а для данных  один резервный блок. Теперь конфигураций с 12ю дисками можно уже пользоваться "из коробки" - полезного пространства стало гораздо больше.
NetApp FAS active-passive при использовании ADP

И даже для системы с 12 дисками можно использовать active-active режим работы (полезная емкость конечно ниже, но мы можем делить нагрузку между контроллерами):
NetApp FAS active-active при использовании ADP

ADP очень хорошо работает и для AFF конфигураций - стоимость SSD дисков довольно высока и "выбрасывать" их на создание рутового агрегата довольно расточительно. Благодаря ADP, AFF система будет показывать лучшую экономику, при сравнении с конкурентами, чем ранее.

И третьим плюсом от ADP является оптимизация нагрузки на SSD диски в FashPool - на одних и тех же дисках можно создать агрегаты для каждого из контроллеров. Широкий страйпинг позволит обеспечить лучшую производительность системы.
NetApp FlashPool при использовании ADP

Advanced Disk Partitioning можно использовать на младших системах (22хх) для совмещения root и data агрегатов на одних дисках, всех AFF конфигурациях и для всех систем в FlashPool.

В версии 8.3 также существенно увеличен максимальный объем FlashPool - рост в 4 раза:
FAS8080 EX 144 TiB
FAS8060 72 TiB
FAS8040 48 TiB
  FAS8020 24 TiB
FAS25xx 16 TiB

Я кратко описал только часть тех новых возможностей, которые стали доступны после выхода версии 8.3 Data ONTAP. Кто-то конечно мог уже попробовать и оценить многие из перечисленных возможностей, обновившись еще на 8.3 RC1 версию, но сейчас, когда GA уже здесь, можно планировать апгрейд и тем, кто не решался использовать ранние версии. Безусловно, очень важно внимательно изучить документацию перед апгрейдом - всегда есть нюансы.

Почитать на тему:

Clustered Data ONTAP 8.3 Release Notes
Clustered Data ONTAP 8.3 Network Management Guide
Clustered Data ONTAP 8.3 SAN Administration Guide
Clustered Data ONTAP 8.3 Physical Storage Management Guide

Понравился пост? Подпишись через RSSRSS, EmailEmail или twitter!

среда, 25 марта 2015 г.

Data ONTAP 8.3 и MetroCluster

На прошлой неделе объявлено о GA версии 8.3 Clustered Data ONTAP - внутри довольно много нововведений. Больше “совместимой” 7-mode версии нет - только clustered вариант. Но одним из ключевых изменений я вижу вот это:
"Starting with Data ONTAP 8.3, MetroCluster configurations are supported in clustered Data ONTAP."
Начиная с Data ONTAP 8.3 в clustered Data ONTAP поддерживаются конфигурации MetroCluster.

Важно отметить, что это не совсем тот, знакомый по 7й версии MetroCluster - это сильно переработанный механизм обеспечения отказоустойчивости в двухсайтовых конфигурациях.

Как только мы начинаем говорить про отказоустойчивость, сразу появляются два важных параметра:
  • RPO, Recovery Point Objective - максимально допустимая потеря данных при сбое
  • RTO, Recovery Time Objective - максимально допустимое время восстановления сервис СХД (обеспечение доступности данных для приложений)
Отказоустойчивость в системах с MetroCluster в Data ONTAP 8.3 базируется на двух столпах:
  • NDO (NonDisruptive Operation) при большинстве локальных сбоев внутри датацентра (отдельные компоненты, узел кластера, сбои сети и т.п.). Кроме того, обеспечивается непрерывность обслуживания и во время проведения планового обслуживания системы.
  • Непосредственно MetroCluster повышает доступность за счет наличия второго датацентра и зеркалирования данных на удаленную систему
Между узлами кластера обеспечивается автоматическое переключение в рамках одного датацентра и ручное переключение нагрузки при полном сбое в основном ЦОДе. При этом, заказчик получает нулевой RPO (данные не теряются) и RTO порядка 120 секунд для запланированных переключений между площадками и порядка несколько минут для “аварийных” переключений (администратору достаточно выполнить только одну команду).

Функционирование MetroCluster “прозрачно” для ОС и прикладных приложений, поэтому нет необходимости во внесении  существенных изменений в имеющуюся инфраструктуру. Переход на резервную площадку не требует переподключения хостов к SAN или NFS ресурсам, так как все пути до СХД остаются неизменными. Только для SMB клиентам понадобится подключиться заново (в силу ограничений протокола).

MetroCluster интегрирован непосредственно в Data ONTAP и не требует никаких дополнительных лицензий - нужно только правильно спланировать архитектуру системы.

Больше нет разделения на Fabric MetroCluster (FMC) и strech MetroCluster (SMC) - есть только один MetroCluster, который может быть использован на расстояниях до 200км.
NetApp MetroCluster image

Как уже наверное стало понятно из вышесказанного, в новой версии мы больше не “растягиваем” одну пару контроллеров между площадками, а размещаем на каждой площадке по HA-паре. Несомненный плюс такого подхода - снимается одно из главных возражений против использования метрокластера, которое регулярно приходилось слышать. А что будет, если у нас выйдет из строя один контроллер? Раньше нас ждал переезд на вторую площадку (как правило, в ручном режиме) и, безусловно, такие мероприятия доставляют мало удовольствия. В то же время, исследования показывают, что незапланированные проблемы, приводящие к выходу из строя целой площадки составляют всего около 1% от всех возможных нештатных ситуаций. Чаще всего вообще причина остановки - плановое обслуживание. Прозрачное переключение между узлами в HA-паре позволяет практически полностью избавиться от такого рода проблем - теперь плановые работы можно проводить именно “по плану”.

Что же нужно, чтобы “построить” MetroCluser?
  • Для связи между площадками используются FC линки, которых желательно иметь не менее четырех.
  • Также потребуется установить на каждой площадке по 2 FC коммутатора
  • Все контроллеры должны иметь доступ к дискам на всех площадках, поэтому дисковые полки нельзя подключить через SAS напрямую, а нужно использовать FC-SAS гейты (ATTO 6500N).
  • Желательно на каждой площадке установить не менее 4 дисковых полок (минимум 2). Когда каждая полка содержит диски только одного пула, администрировать систему заметно проще - не нужно вручную назначать диски контроллерам, а значит и запутаться вероятность ниже.
  • По FC-VI карте в каждый контроллер
  • Все правильно подключить и настроить :)
После этого, каждый контроллер в двух HA-парах начнет синхронно зеркалировать все изменяющиеся данные (включая информацию о конфигурации) на вторую площадку. На самом деле, на каждой площадке может быть и больше двух контроллеров - у нас же clustered Data ONTAP! 
NetApp MetroCluster connections
Как видим, получается не такую уж и маленькую система. При этом, совсем младшие модели будут иметь много ограничений по доступным портам - часть слотов расширения займут FC-VI карты.

После того как все настроено, данные будут зеркалироваться между площадками. Операции чтения по-умолчанию происходят с “локальных” для контроллера дисков. Контроллер  A1 будет всегда читать данные с дисков в "A1 Plex0". Однако, для некоторых типов нагрузки, с точки зрения производительности, может быть выгоднее  включить чередование операций чтения с разных площадок (это можно настроить). А вот операции записи будут подтверждаться только после того, как второй контроллер в паре и парный контроллер на второй площадке отрапортуют о получении данных (в NVRAM).  



Помимо данных, зеркалируется и содержимое NVRAM контроллеров. Поэтому каждый контроллер использует для “своих” нужд только четверть от общего объема NVRAM и реплицирует данные на два других контроллера (локального и удаленного партнера). В нормальном режиме функционирования в NVRAM каждого контроллера, помимо "своих" данных, есть еще и данные двух других контроллеров (в NVRAM контроллера A1 - данные из NVRAM контроллеров A2 и B1). Еще четверть резервируется на случай выхода из строя одного из контроллеров после сбоя на площадке, т.е. на случай, когда у нас останется в живых только один контроллер из четырех. И даже в этом случае система будет продолжать работать! 

Конечно, думая о внедрении MetroCluster, мы должны помнить и об ограничениях:
  • Нельзя защитить только часть данных - в MetroCluster должны дублироваться абсолютно все данные. На двух площадках всегда должно быть одинаковое количество дисковых ресурсов и нельзя создать агрегат без зеркалирования. Конечно можно на одной площадке использовать 60% доступных локальных дисковых ресурсов, а на второй 40%. Такая схема будет поддерживаться, но зеркалировать нужно все.
  • Не поддерживаются Infinite Volumes.
  • Не поддерживается Advanced Disk Partitioning.
  • Не поддерживается NSE (NetApp Storage Encryption). Если требуется шифрование, можно использовать виртуализацию СХД и подключить сторонние системы, которые такой режим поддерживают.
  • Действуют ограничения на количество SSD дисков в стеке полок (не более 48). Кроме того, рекомендуется не смешивать в одной полке SSD и обычные диски.
  • Ограничение конкретной модели FAS на число дисков распространяется не на HA-пару, а на 4 контроллера (т.е. на две площадки), так что на каждой площадке может быть не более 50% от возможного числа дисков.
  • Рекомендуется “ручное” переключение между площадками в случае сбоя
  • Восстановление всегда "ручная” операция, требующая вмешательства администратора СХД 
Еще несколько слов про переключение между площадками. Рекомендация делать переключения вручную неслучайна - вероятность выхода целой площадки из строя весьма мала, но последствия могут быть самыми разными, поэтому важно понимать что мы делаем и зачем. Кроме того, может быть ситуация, когда обе площадки живы, а вот канал связи между ними потерян - в таком случае, никакие переключения делать не стоит. Обычно в таких случаях используется третья площадка, которая “следит” за происходящим. В случае с MetroCluster есть т.н. tiebreaker software, который и выполняет эту роль. Да, с его помощью можно полностью автоматизировать переключение на резервную площадку при сбое, но, поверьте, это не самая лучшая идея. Поэтому лучше использовать этот софт только как средство дополнительного мониторинга.

Не могу сказать, что MetroCluster это универсальное и наилучшее решение для создания катастрофоустойчивых решений - такие решения строго индивидуальны и нет "серебряной пули", которая бы решала все проблемы. С одной стороны, весомым аргументом за метрокластер всегда была цена "входа" в решение - да, нужно было дублировать дисковые полки, но фактически было достаточно одной системы (всего пары контроллеров). Но, с другой стороны, именно эта особенность системы всегда вызывала больше всего нареканий. Сейчас мы, безусловно, получили "взрослое" решение, но не отпугнет ли заказчика итоговая цена? Думаю, что если и отпугнет, то далеко не всех - катастрофоустойчивые системы не бывают бесплатными и это, к счастью все понимают.

Почитать по теме:





Понравился пост? Подпишись через RSSRSS, EmailEmail или twitter!

пятница, 20 марта 2015 г.

Microsoft - Software Defined Datacenter легко!

В то время как партнеры VMware уже поставляют системы EVO:RAIL, которые могут быть полностью развернуты для использования всего за 15 минут, Microsoft выпускает электронную книгу "Microsoft System Center Deploying Hyper-V with Software-Defined Storage & Networking". 

Всего 236 страниц и вы сможете легко:

  • выбрать железо
  • спланировать архитектуру
  • развернуть кластер
  • настроить сеть
  • настроить дисковые ресурсы

Архитектура системы Hyper-V: SDS, SDN

Вот, теперь можно и начать разворачивать виртуальные машины!

В 15 минут конечно не уложились и попутно настроили десяток серверов, но зато "бесплатный" гипервизор и вся инфраструктура на базе Microsoft. Это конечно все сарказм и шутки - документ на самом деле интересный и полезный. Стоит прочитать или хотя бы помнить, что он существует.

Если VMware предлагает EVO:RAIL с тем, чтобы пользователи могли сами развернуть всю инфраструктуру максимально быстро при минимальных знаниях, то Microsoft, по всей видимости, дает возможность партнерам заработать на сервисе и продавать заказчикам услуги по развертыванию. Это конечно имеет смысл, но вот вопрос что выберет партнер - развернуть за 15 минут VMware и оставшееся время потратить на обучение сотрудников заказчика, либо потратить день на развертывание Hyper-V?
Понравился пост? Подпишись через RSSRSS, EmailEmail или twitter!

среда, 18 марта 2015 г.

Очередное пополнение среди конвергентных решений: Huawei + DataCore

Huawei и DataCore объявили о партнерстве в области Software Defined Storage и hyperconverged систем.  

DataCore Software, как мне кажется, не очень хорошо известны на российском рынке, но эта компания очень давно работает на рынке программных реализаций систем хранения и ее продукт SANsymphony активно конкурирует с такими системами как, например, Falconstor NSS
Huawei FusionServer

Конвергентная система состоит из серверов Huawei FusionServer RH с предустановленным программным обеспечением DataCore SANsymphony и поддерживает  различные гипервизоры (Hyper-V и VMware). Максимальная конфигурация включает 64 узла в кластере, а минимально необходимо только 2 узла, чтобы обеспечить отказоустойчивость. Решение не ограничивается простым кластером - за счет синхронной репликации на расстояниях до 100м обеспечивается катастрофоустойчивость в распределенном кластере. При правильной организации, полный сбой на одной из площадок не приведет к остановке всей инфраструктуры. Кроме того, поддерживается и асинхронная репликация - все это позволяет строить полноценные катастрофоустойчивые решения.

DataCore Random Write Accelerator позволяет существенно ускорить операции записи за счет использования быстрых SSD дисков, а многоуровневое хранение (multi-tiering) повысит не только скорость работы, но и эффективность использования дискового пространства.

Отличительной особенностью данного решения является то, что заказчик не ограничен в использовании лишь встроенных дисковых ресурсов (и DAS полок). SANsymphony это, по сути своей, еще и виртуализоватор СХД, поэтому в систему можно подключать как имеющиеся, так и новые системы хранения. Не секрет, что в SDS довольно низкая утилизация дискового пространства - в силу изолированности узлов требуется, как минимум, две копии данных плюс дополнительные резервы на снапшоты и пр. Использование внешних СХД может увеличить утилизацию дискового пространства, при этом, управление ресурсами будет по-прежнему сосредоточено в одном месте.

Huawei - DataCore solution

Сотрудничество Huawei и DataCore уже имеет некоторую историю - вот один интересный документ с тестом DataCore на оборудовании Huawei "Oracle OLTP Performance Acceleration Using Huawei OceanStor Dorado and DataCore SANsymphony-V Storage Virtualization Gateway”.

Единственное, что меня всегда немного “напрягало” в SANsymphony это то, что он работает в Windows среде, но, с другой стороны, StarWind тоже работает и ничего :)

Учитывая, что сейчас Huawei может предложить практически любое оборудование, начиная от серверов и СХД, заканчивая инженерными системами в ЦОД, данное решение позволяет получить законченную конвергентную систему от одного вендора, которая отлично масштабируется и сможет закрыть практически все требования. А уж если вспомнить про текущую политическую ситуацию, такое решение от азиатского вендора может оказаться весьма и весьма интересным как для "станционных" компаний, так и для тех, кто опасается возможных ограничений. 


Понравился пост? Подпишись через RSSRSS, EmailEmail или twitter!

пятница, 13 марта 2015 г.

Полезные ссылки для подготовки любой презентации

С удовольствием сходил на конференцию "Бизнес и ИТ. Вокруг ЦОД. Вокруг Облака. Вокруг IP” - это одно из немногих мероприятий, с которого не хотелось уйти с середины. Дмитрий Мацкевич - молодец! :) 

Несмотря на очень интересные темы выступлений, не могу сдержаться и не дать несколько ссылок, которые, как мне кажется, в обязательном порядке нужно изучить перед подготовкой к любой презентации. Организаторам всегда стоит  рассылать в виде мягкого намека всем приглашенным докладчикам.
  • Нет никакого смысла размещать текст на слайде - если человеку нужно больше 2-3 секунд, чтобы прочитать (и осознать!) слова на слайде, он вас уже не слышит - он думает над текстом, а вашу мысль он не поймет, потому что половину пропустит.  Если у вас настолько значимая информация, что ее необходимо передать всем - пришлите по почте, это будет гораздо полезнее и точно дойдет до адресата.
  • Когда готовите презентацию, отодвиньтесь на пару метров от экрана и сдвиньтесь вбок. Хорошо, если у вас монитор с не очень большим углом обзора - вот примерно так 50% аудитории и будут видеть ваши слайды. Удобно, все понятно на слайде? Если нет - переделать срочно!
  • Никогда не размещайте значимую информацию в нижней и верхней части слайда - наверняка многие ничего там не увидят из-за невысокого потолка или голов впереди.
  • Никогда не используйте 50 оттенков серого на слайде - проектор передаст из низ 2 (или 1), а остальные будут либо черными, либо белыми. Хуже могут быть только желтый, розовый и голубой цвета - они вообще должны быть под запретом. Думайте про используемые сочетания цветов.

А вот обещанный “must read":


Seth Godin: 10 советов, как готовить презентацию
http://blog.ted.com/10-tips-for-better-slide-decks/
"No more than six words on a slide. EVER. There is no presentation so complex that this rule needs to be broken."

Garr Reynolds: The Naked Presenter / Обнаженный оратор 
http://amzn.com/0321704452
https://www.ozon.ru/context/detail/id/28289241/
Chuck Hollis:
http://chucksblog.emc.com/chucks_blog/2010/06/from-presenting-to-engaging.html
"went from 40 slides, to 20 slides, to 10 slides, to just a few as conversation starters... And then I took the biggest step of all -- no slides."
http://chucksblog.emc.com/chucks_blog/2013/06/how-i-give-a-really-good-customer-presentation.html
Просто для души почитать:
http://presentationzen.blogs.com
Понравился пост? Подпишись через RSSRSS, EmailEmail или twitter!

среда, 11 марта 2015 г.

Sandisk выходит на новые рынки

Компания Sandisk, которая всем хорошо известена как производитель флешек и SSD дисков, на днях представила свои новые продукты, предназначенные на этот раз вовсе не для домашнего использования. Новинками являются внешние системы хранения InfiniFlash IF100, IF500 и IF700.

И первое, то бросается в глаза, это конечно прекрасный дизайн передней панели системы InfiniFlash IF100:
Sandisk InfiniFlash IF100

Разве может быть что-то круче? Разве что только новый IBM z13.

IF100 это не только самостоятельный продукт, но и исходный блок для систем IF500 и IF700. Фактически IF100 это просто JBOF (Just a Bunch Of Flash) - никакого интеллекта, только мощь, только объем. Всего в 3U размещается половина петабайта (512ТБ или 256ТБ - на выбор)! Помимо фантастической плотности, неоспоримым преимуществом является  потребляемая мощность - меньше 0.5кВт. Вот уж точно отличная возможность экономить на счетах за электричество! Система InfiniFlash построена на 64 картах с Flash памятью проприетарного формата, каждая карта имеет объем 8ТБ и является энергонезависимой (выключения питания не страшны).
Sandisk InfiniFlash IF100 internal
Система имеет 8 независимых SAS портов для подключения серверов. Традиционно для внешних систем, зарезервированы основные компоненты, такие как вентиляторы и блоки питания. Все основные компоненты могут быть заменены без отключения системы (горячая замена). Однако, что касается самой flash памяти, то никаких средств резервирования нет - только горячая замена отдельных модулей. Пользователь должен сам заботиться о том, чтобы в случае сбоя одной карты или всего JBOF, данные не пропали. 

Так как IF100 предназначен прежде всего для Hadoop, такое “пренебрежение” отказоустойчивостью оправдано, но есть и одно "но". Производитель декларирует стоимость порядка 1$ за ГБ. Но, если мы будем защищать данные стандартными средствами, нам потребуется 3 копии, а это уже будет 3$ за ГБ. Звучит конечно не так страшно, но давайте вспомним, что у нас каждая система имеет объем 512ТБ, а это уже 1.5 миллиона $. Как говорил крот в небезызвестном мультфильме, “а в год получается не так уж и мало”. 
дюймовочка - крот

Единственный способ снизить цену - использовать дисковую емкость для второй и третьей реплики, но это хорошо работает для Hadoop (хотя экономия на энергозатратах уже и не такая большая получается) и совсем не очень хорошо работает для классических бизнес-приложений. 

Давайте посмотрим на производительность. Декларируется величина не ниже 780.000 IOPs (данных о времени отклика не приводится - только “меньше 1мс"), хотя в некоторых материалах я видел и другие цифры - до 1 миллиона IOPs (возможно такие значения достигаются в каких-то "хитрых" тестах). С одной стороны, это довольно хороший результат, но, с другой стороны, если мы опять учтем объем системы, то величина совсем не такая уж и фантастическая - меньше 2IOPs  на ГБ. Для обычного SSD можно получить в разы и десятки раз более высокие показатели. При этом, номинальный трансфер составляет 7ГБ/сек и это тоже далеко не чудеса производительности - на рынке есть системы, которые показывают результаты лучше.

Если к JBOF IF100 добавить интеллекта, то получится уже IF500 - внутри нее работает InfiniFlash Operating System (OS), которая позволяет строить горизонтально расширяемую систему. IF500 уже полноценная СХД, которая обеспечивает унифицированный доступ (блочный, файловый, объектный - все на базе Ceph), а кроме того включает традиционные “enterprise” возможности - мгновенные снимки, репликацию и thin provisioning. В комплект IF500, помимо JBOF IF100, входит и пара серверов, на которых выполняется InfiniFlash OS.
Sandisk InfiniFlash building blocks

Также анонсирована система IF700, которая нацелена скорее на классические бизнес-приложения и включает SanDisk ION Accelerator, для создания высокопроизводительной системы с блочным доступом (от 128ТБ до 512ТБ). Защита данных, как и в IF100, вновь отдается на откуп прикладному приложению. 

Что ж, очень интересное начало! Big data рынок растущий и новые решения будут востребованы. Некоторый скепсис вызывает производительность - здесь я вижу только одну причину странных величин производительности в расчете на объем: в первом поколении систем старались сделать работающую систему с минимально достаточными для узкой задачи параметрами (hadoop). А когда (и если) получится преодолеть системные ограничения новой платформы, начать более активно выводить InfiniFlash и на другие рынки. Пока мне действительно сложно представить новое детище Sandisk где-то вне big data.
Понравился пост? Подпишись через RSSRSS, EmailEmail или twitter!

пятница, 6 марта 2015 г.

HP приобретает Aruba Networks

HP объявили о приобретении Aruba Networks - компании, которая хорошо известна на рынке беспроводных сетей. Сумма сделки порядка 2.7 млрд$ - довольно внушительная сумма, если учитывать результативность прошлых попыток занять твердые позиции на этом рынке. А такие попытки у HP уже были - в 2008 году была приобретена Colubris (кто-то еще помнит про них?). Потом, вместе с приобретением 3Com, была еще одна попытка, но и она не имела серьезного успеха. Да, какие-то wireless продукты есть у HP в линейке и поставляются заказчикам, но в корпоративном секторе о какой-то их значимой доли говорить явно нельзя.

Процесс покупки должен завершиться во второй половине этого года. Интересный вопрос предстоящей сделки - наличие у Aruba Networks множества OEM-соглашений. Технологии Aruba сейчас продают Alcatel-Lucent, Brocade, Dell, Juniper - что предпримут они и что будет предпринимать HP в этом отношении? И конечно, Dell в этом списке интригует больше всего - не будут же они перепродавать продукцию прямого (и самого главного) конкурента, только чтобы сохранить доступ к продуктовой линейке Aruba. Узнаем ли мы о еще одном приобретении, на этот раз Dell-ом, другой сетевой компании или Dell только выберет нового поставщика? Ответ, я думаю, будет уже в этом году.

Я позволю себе короткую цитату из пресс-релиза HP: 
At the same time, the industry is about to go through the next major wave of wireless protocol roll-out with 802.11ac, ushering in another significant change in wireless performance. Over the next 3-5 years, we believe this wave will drive a massive network refresh not just to our customers’ wireless access points, but to their campus switches as well.
В то же время, индустрию вот-вот подхватит волна внедрения протокола 802.11ac в беспроводные сети, что приведет к очередному скачку производительности. Мы считаем, что в течение ближайших 3-5 лет это станет причиной не только массовой замены беспроводных точек доступа, но и коммутаторов во всем кампус. (перевод мой)

Все это безусловно верно и текущая ситуация создает очень неплохую перспективу на ближайшие годы. Но хочется надеяться, что весь накопленный в Aruba потенциал R&D не похоронят в ближайшие год-два, а, напротив, получится его эффективно использовать для развития всего сетевого направления. А это, в свою очередь, даст возможность серьезно конкурировать с Cisco на ее поле.
Понравился пост? Подпишись через RSSRSS, EmailEmail или twitter!

IBM FlashSystem - что за RAID внутри?






Раз я упомянул анонс новых систем  IBM FlashSystem 900 и V9000, то наверное стоит немного уделить внимания уникальной “фишке” этих систем - реализации отказоустойчивости.

В  FlashSystem используется RAID5 для защиты от сбоя всего модуля MicroLatency, но это далеко не единственная технология, обеспечивающая отказоустойчивость:
  • RAID5 защищает систему от сбоя модуля. В зависимости от числа модулей, конфигурация массива вальируется от 2D+1P+1HS, до 10D+1P+1HS. В системе всегда только один RAID массив для модулей, поэтому объем всех модулей должен быть одинаковым
  • RAID5 внутри каждого модуля защищает от сбоя отдельного чипа
  • Variable Stripe RAID внутри каждого модуля защищает от частичного сбоя чипов NAND
  • ECC на уровне чипа защищают от битовых и блочных ошибок
Кроме того, как и в любых системах на базе flash, присутствует зарезервированное пространство, которое используется когда очередная ячейка выходит из строя.

Совместное использование двух уровней RAID ("внутри” отдельных модулей и между всеми модулями) и носит фирменное название 2D RAID (two-dimensional RAID).

Благодаря такой многоуровневой защите можно минимизировать возникновение ошибок, приводящих к необходимости менять целый модуль MicroLatency. Кроме того, сохраняется возможность использовать RAID5 (а не RAID6) и не сталкиваться с повышенными рисками множественных ошибок (хотя объем самих модулей может достигать 5.7ТБ).   

Технология RAID “внутри” модуля MicroLatency была запатентована еще компанией TMS (где и родились предшественники нынешних FlashSystem -  тогда они назывались RamSAN) и носит название Variable Stripe RAID (VSR). Она позволяет не просто обеспечить отказоустойчивость при большинстве частичных сбоев внутри модуля, но и позволяет  большой срок службы модуля, а это, в свою очередь, снижает  стоимость, так как  не нужно закладывать дополнительные расходы на “лишние" замены в гарантийный срок.

Каждый MicroLatency модуль имеет внутри несколько чипов Flash и 4 FPGA контроллера, которые и реализуют VSR. Каждый из этих контроллеров, в свою очередь, “отвечает” не более чем за 20 чипов. Но RAID внутри модуля построен не на уровне чипов, а на уровне слоя (plane) в отдельных чипах (по 16 слоев в каждом чипе). Все это позволяет спокойно пережить сбой до 256 блоков перед тем как весь слой будет считаться сбойным. Чтобы модуль все-таки вышел из строя необходимо, как минимум:
  • признать сбойными  64 слоя
  • сбой 4 чипов в модуле целиком
Таким образом, разработчики FlashSystem постарались сделать все возможное, чтобы продлить жизнь отдельного модуля MicroLatency и обеспечить отказоустойчивость.

Отличительной особенностью VSR является:
  • RAID защищает не отдельный чип, а только слой чипа. Это позволяет гораздо эффективнее использовать модули, не производя лишних замен и перестроений массивов;
  • страйп не фиксирован в размере - в зависимости от состояния слоев, он может быть не в стандартной конфигурации 9D+1P, а 8D+1P, 7D+1P или 6D+1P.
Именно вариативный размер страйпа позволяет максимизировать объем полезного пространства в модуле, не “отбраковывая” рабочие части остальных чипов. Давайте посмотрим как это работает. В случае, когда мы используем обычный RAID-массив (пусть даже и на уровне слоя микросхемы), сбой в любом из слоев приведет к тому, что нам будет нужно исключить все такие же (еще рабочие!) слои остальных чипов, чтобы сохранить архитектуру массива:
Сбой на обычном RAID массиве

При использовании Variable Stripe RAID, нам достаточно перестроить страйп на меньшем количестве элементов:

Сбой в массиве Variabe Stripe RAID
Т.е. мы потеряем только малую часть одного чипа и не потеряем в скорости для имеющихся данных. Так как сбои чаще всего происходят не на уровне всей микросхемы, а на уровне отдельных блоков, мы получаем прекрасную возможность избежать лишних перестроений массивов, “отбрасывания” целых чипов из-за сбоя в одном слое и, разумеется, гораздо быстрее можем исправить проблему, так как в перестроении участвует лишь очень малая часть данных.

Кроме того, VSR работает “внутри” каждого модуля, не требуя для восстановления "перекачки" данных к центральному процессору или  FPGA, отвечающему за RAID на уровне системы. А это, в свою очередь, позволяет избежать деградации производительности при перестроении массивов, что для All Flash систем, где мы ожидаем получить гарантированный уровень производительности, очень важно.

И вот только в том случае, когда исчерпаны все “внутренние” ресурсы MicroLatency модуля по обеспечению отказоустойчивости, система использует RAID5 между модулями и задействует spare модуль для перестроения массива.

Что почитать:
IBM Redbooks про FlashSystem

Патент TMS на технологию VSR - здесь все очень подробно про VSR
Понравился пост? Подпишись через RSSRSS, EmailEmail или twitter!

среда, 4 марта 2015 г.

Вышла LeftHand OS 12

Вышла версия 12 LeftHand OS для систем HP StoreVirtual.

Изменений не очень много, но есть и интересные:
  • Space Reclamation - теперь системы StoreVirtual поддерживают T10 UNMAP, что позволяет возвращать неиспользуемое дисковое пространство обратно в пул. Поддерживается как в VMware,  так и в Windows.
  • HP StoreVirtual Multipathing Extension Module (MEM) - этот модуль оптимизирует доступ к данным по разным путям в vSphere 5.x (является аналогом StoreVirtual DSM для Microsoft MPIO). MEM, кроме того, оптимизирует трафик и в мультисайтовых конфигурациях.
  • Новый REST API - поддержка основных функций (выделение дискового пространства, создание и модификация пулов) через web based API.
  • Увеличена производительность репликации, а также скорость загрузки системы.
Новость не касается владельцев конвергентных систем HP 200-HC StoreVirtual - пока версия 12 для них не сертифицирована.

Стоит напомнить, что сейчас любой обладатель сервера на базе процессора Intel Xeon E5v3 имеет вполне легальную и бесплатную возможность использовать HP StoreVirtual VSA с объемом дискового хранилища 1ТБ. Лицензию можно зарегистрировать здесь. В комплекте нет только поддержки Adaptive Optimization (автоматическая миграция "горячих" данных на более быстрые диски). Да, cервер может быть любой! Совсем не обязательно быть покупателем техники HP.

StoreVirtual VSA (в бесплатном варианте или в виде demo-лицензии) замечательно подходит для ознакомления с продуктом - можно посмотреть все возможности, протестировать свое ПО. И, если все тесты увенчались успехом, можно смело переезжать на "железную" реализацию, а можно и остаться на VSA, если производительности хватает.
Понравился пост? Подпишись через RSSRSS, EmailEmail или twitter!

вторник, 3 марта 2015 г.

IBM FlashSystem 900 и V9000

Совсем недавно были анонсированы новые системы хранения All Flash Array от IBM - FlashSystem 900 и V9000. Странно, но, как я уже писал, линейка FlashSystem не попала в “программу переименования за миллиард”, хотя интегрированная система FlashSystem V9000 вот уж точно должна была бы стать частью портфеля Spectrum.

IBM FlashSystem 900 

В основе архитектуры IBM FlashSystem лежит идея о минимизации задержек на всем пути от внешнего интерфейса до чипа flash-памяти, на котором непосредственно и хранятся данные. Именно это позволяет получить очень хорошие результаты по производительности. Важно отметить, что когда мы говорим о производительности AllFlash систем, оценивать нужно не количество IOPs - их набрать не так уж и сложно, а в первую очередь о как можно низкой задержке (latency). Хорошим результатом можно считать результат меньше 1мс, но борьба уже идет за 500мкс и ниже.

В то время как многие другие производители активно используют стандартные процессоры в “ядре” своих СХД, IBM для FlashSystem продолжает выдерживать “железный” подход ("hardware only datapath”), когда вместо программного кода (пусть даже на разновидности  real time OS) активно используются FPGA и кастомизированные компоненты.

Примечательно, что в системе используются не стандартные SSD диски, а специальные модули (MicroLatency Modules), это позволяет избежать “лишних” интерфейсов, а следовательно и лишних задержек. В 900й серии использование таких модулей позволяет обеспечить латентность 90мкс на запись и 155мкс на чтение. При этом объем одного такого модуля может достигать 5.7ТБ В прошлой серии (840) использовались eMLC (enterprise multi-level cell) чипы, в новой же системе перешли на использование более дешевых, но усовершенствованных MLC чипов от Micron (IBM Enhanced MLC). Смешно, но здесь машина IBM по созданию акронимов нашла на камень - не так уж просто будет объяснить клиентам чем eMLC отличается от E-MLC, поэтому наверное решили “Enhanced” в названии оставить без сокращений. :)

Хотя FlashSystem 900 и имеет фиксированную конфигурацию (только один модуль), но обладает необходимыми возможностями, для того, чтобы использовать систему для tier-1 приложений:
  • обновление микрокода без остановки (не требуется даже снижать нагрузку)
  • возможность заменить на ходу любой из компонентов системы
  • избыточность всех компонентов
  • шифрование данных (AES-XTS 256) без потери производительности
Полезная емкость системы варьируется в зависимости от объема и количества используемых MicroLatency модулей. Минимальный полезный объем - 2.4ТБ, а максимальный - 57ТБ. Важно помнить, что смешивать модули разного объема в одной системе нельзя, поэтому стоит аккуратнее просчитывать необходимые перспективы расширения.
IBM FlashSystem 900 back

Для подключения СХД к серверам можно использовать различные интерфейсы:
  • Fibre Channel (FC) - 8*16Gbit  или 16*8Gbit 
  • Fibre Channel over Ethernet (FCoE) - 16*10Gbit
  • iSCSI - 16*10Gbit
  • Infiniband - 8*40Gbit (QDR)
Все интерфейсные карты в системе должны быть одинаковыми и “смешивать” протоколы в рамках одной системы нельзя.

Декларируется, что FlashSystem 900  может обеспечить до 1.1 миллиона случайных операций чтения 4КБ блоков и до 10ГБ/сек поток на чтение данных. Для операций записи (100% random) - 600.000 IOPs и 4.5ГБ/сек.

Результатом гонки за минимизацией задержек стало полное отсутствие таких привычных для систем энтерпрайз-класса "фишек" как мгновенные снимки, репликация, компрессия, thin provisioning. Если какие-то из этих возможностей действительно необходимы, то у заказчика есть два пути: подключить FlashSystem 900 к своей системе виртуализации СХД (это  может быть например SVC или V7000), либо приобрести уже интегрированную систему FlashSystem V9000. 


IBM FlashSystem V9000
По сути это своего рода гибрид из IBM SVC и FlashSystem 900, но это именно гибрид, а не просто две системы объединенные общей фронтальной заглушкой, как могло бы показаться с первого взгляда. Если мы подключаем FlashSystem к SVC, то мы должны управлять двумя системами, в то время как для V9000 мы имеем единую систему управления.

Во-первых V9000 позволяет расширяться как “вертикально” - добавив до 4х storage enclosures (до 57ТБ каждый), так и “горизонтально” - доведя количество контроллеров V9000 с двух до восьми (4 системы V9000 в кластере). Такое расширение позволит получить до 456ТБ полезного пространства исключительно на Flash. А если учесть возможности RealTime Compression, то мы получим уже 2.2ПБ полезной емкости. И это всего в 34U - достаточно одного(!) серверного шкафа, чтобы вместить весь этот ураган производительности и обеспечить такой объем. Но и это еще не все - можно использовать V9000 и как обычный виртуализатор СХД - все-таки это и SVC тоже, а значит можно к нему подключить имеющиеся системы и использовать на них такие возможности как thin provisioning, снапшоты и многие другие. 

Кроме того, поддерживается репликация между V9000 и системами SVC, V7000 - можно строить катастрофоустойчивые решения на базе AllFlash системы IBM. По понятным причинам (полку с Flash модулями нельзя поделить между площадками) не поддерживается конфигурация распределенного кластера (streched cluster).

Конечно, программная “прослойка” между FlashSystem и серверами не обходится даром, поэтому мы вынуждены заплатить латентностью, но плата эта не так уж велика - мы все равно получаем 200мкс на чтение, а это действительно очень мало. Кроме того, за счет использования "горизонтального” масштабирования мы можем получить до 2.5 миллионов IOPs  и поток до 19.2ГБ/сек (блоками по 128КБ). А за счет поддержки QoS в V9000 можно гарантировать приложениям требуемый уровень производительности дисковой системы.

Таким образом, FlashSystem 900 нацелена на тех заказчиков, которым нужна экстремально высокая производительность и они готовы пожертвовать программным функционалом систем enterprise-уровня (но хотят сохранить enterprise уровень отказоустойчивости и управляемости). Интегрированная система FlashSystem V9000 ориентирована на заказчиков, которым требуется не только производительность, но и возможность расширить систему, получить богатый программный функционал и возможность защитить данные с помощью репликации. Кроме того, V9000 может быть интересна тем, кто еще не имеет enterprise СХД в своем ЦОД, рассматривает возможности консолидации своих дисковых систем за счет виртуализации.

С нетерпением жду результатов SPC - IBM любит эти тесты. Как раз недавно неожиданно отметились HDS со своей системой VSP G1000, показав отличный результат в 2М IOPs при цене 1$ за IOPs. Вот только чтобы достигнуть цену в 1$ за IOPs пришлось дать почти 60% скидку на железо, зато теперь в лидерах рейтинга.
Понравился пост? Подпишись через RSSRSS, EmailEmail или twitter!