Статьи
Декабрь 18, 2006

СИСТЕМЫ ХРАНЕНИЯ ДАННЫХ: КОНЦЕПЦИИ МЕНЯЮТСЯ


  

Система хранения данных — важная составляющая информационной системы предприятия. Динамика сектора систем хранения данных обусловлена бурным развитием рынка информационных систем, который предъявляет новые требования к организации хранения корпоративных данных. Глобальные изменения претерпевают сами концепции хранения, которые, в конечном итоге, и определяют выбор программно-аппаратного комплекса.

По прогнозам аналитиков, архивы корпоративной информации удваиваются каждые два года. При существующей тенденции можно смело прогнозировать дальнейшее ускорение темпов роста, что ставит перед менеджментом компаний задачи управления массивами корпоративных данных, организации их долговременного хранения, своевременной актуализации и защиты. Ежедневное наращивание объемов корпоративной информации делает поставленные задачи весьма нетривиальными.

В попытке их решения общество предлагает различные концепции. Одной из таких попыток стало создание теории управления жизненным циклом информации — Information Lifecycle Management (ILM), смысл которой заключается в постоянном контроле за возникновением, использованием, хранением и утилизацией данных. ILM стала основой построения комплексных иерархических систем хранения информации (Hierarchical Storage Management, HSM).

Базисом HSM является ранжирование и жесткая кластеризация массивов корпоративной информации с целью минимизации издержек хранения. Естественно, не вся информация одинаково значима для предприятия, соответственно, нет смысла нести высокие затраты на хранение неактуальной информации, размещая ее на дорогостоящих накопителях. Используя концепцию HSM, массивы корпоративных данных подлежат ранжированию по ряду факторов: важности, актуальности, частоте использования, рисков при потере и т.д. Данные с высоким приоритетом размещаются на более быстрых и производительных носителях, к примеру, RAID-массивах. Менее важная информация размещается на емких, но медленных носителях: DVD-дисках, магнитных лентах. Использование концепции HSM позволяет не только снизить затраты на хранения информации, но и эффективно управлять динамикой корпоративных данных.

Однако, говорить о HSM как об основополагающей теории еще очень рано. Различные системы хранения корпоративной информации реализуют принципы HSM в той или иной степени. Сейчас рынок систем хранения состоит из нескольких взаимосвязанных сегментов: рынок программного обеспечения, аппаратных комплексов, рынок различных концепций хранения данных. Для качественного анализа необходимо рассмотреть устройство корпоративных систем хранения. В данном обзоре мы постараемся рассмотреть наиболее распространенные технологии хранения данных, организацию сетей хранения и аппаратное обеспечение, представленное на мировом рынке. Проанализируем также основные тенденции рынка систем хранения в контексте HSM.

Хранение данных

Организация системы хранения корпоративных данных начинается с выбора концепции хранения, которая определяет выбор программно-аппаратного комплекса. Инфраструктура системы хранения данных включает различные аппаратные средства хранения данных, которые могут объединяться в сети хранения данных, организацию доступа серверов к массивам данных, а также программное обеспечение управления хранением данных.

На мировом рынке наибольшее распространение получили три основных концепции хранения, каждая из которых имеет особенности организации, преимущества и недостатки, что, в конечном итоге, определяет оптимальные области их использования.

SAN (Storage Area Network)

Концепция SAN ориентирована на гетерогенные информационные системы со сложной инфраструктурой. Особенностью решений SAN является организация выделенной сети, которая обеспечивает взаимодействие различных аппаратных устройств хранения данных, систем и подсистем хранения, серверов. Устройства централизованно управляются с центральной консоли администратора сети, что позволяет значительно снизить издержки на администрирование и контроль, а также более эффективно проводить обновление программного комплекса и отслеживать состояние лицензий. Концепция SAN базируется на протоколе Fibre Channel, оптимизированном для быстрой передачи больших объемов данных. Между сервером и хранилищем применяется блочный механизм обмена, что уменьшает накладные расходы при обмене информацией и увеличивает производительность системы.

Важным моментом концепции SAN является консолидация хранимых данных, благодаря чему каждый сервер, подключенный к системе, получает доступ к массивам данных независимо от их физического местоположения, что делает системы SAN оптимальными для использования в крупных международных организациях с развитой филиальной структурой. Кроме того, консолидация данных позволяет перераспределять ресурсы аппаратного комплекса между серверами. Благодаря глобальной файловой системе SAN предусматривает также возможность одновременного доступа нескольких серверов к одному файлу, при этом права доступа серверов разграничиваются с помощью программного деления сети на зоны.

Осуществление передачи данных в сетях SAN проводится по параллельным каналам, что позволяет разгрузить основную локальную сеть предприятия от множества задач, включая репликацию, резервное копирование, восстановление данных. Кроме того, использование сетей SAN позволяет освободить также серверные ресурсы локальной сети, так как работа с данными осуществляется посредством выделенных серверов или серверных устройств сети хранения.

Большим достоинством сетей SAN является простота масштабирования, управляемость и высокая производительность. Существенным недостатком, ограничивающим распространение концепции SAN в среде малого и среднего бизнеса, является высокая цена и необходимость расходов на покупку дополнительного оборудования, специализированного программного обеспечения, а также обучение персонала. Средний размер бюджета проекта по установки сети SAN составляет несколько сотен тысяч долларов.

NAS (Network Attached Storage)

Концепция NAS является основным конкурентом SAN и представляет собой сетевую архитектуру, оптимизированную для обеспечения сетевого файлового сервиса. Как и SAN, решения NAS также предназначены для работы в гетерогенных средах и не зависят от платформ, используемых в архитектуре информационной системы.

Особенностью NAS как концепции хранения данных является то, что хранилища данных не выделяются в специальную сеть хранения, а с помощью сетевого интерфейса интегрируются непосредственно в локальную сеть предприятия. Хранилища данных NAS полностью интеллектуализированы посредством встроенного процессора, операционной системы и управляющего программного обеспечения, что позволяет локализовать управление хранением данных и упрощает его администрирование.

Взаимодействие хранилищ NAS с локальной сетью реализовано через протоколы CIFS, NFS, HTTP, FTP, однако доступ осуществляется только на уровне файлов. Решения NAS нетребовательны к типам операционных систем и оборудования, единственным требованием концепции является использование транспортных протоколов TCP/IP. Использование трафика локальной сети для передачи больших массивов данных существенно затрудняет работу последней.

Кроме того, серьезным недостатком NAS являются трудности масштабирования. Суть проблемы состоит в том, что наращивание числа NAS-серверов в корпоративной информационной системе не приводит к пропорциональному расширению дискового пространства. Кроме того, рост числа серверов влечет за собой трудности с их администрированием, так как каждый сервер имеет свой список пользователей, и использование ресурсов различных NAS-серверов требует знания множества паролей. Причем, сокращение числа паролей приводит к снижению уровня безопасности системы.

SAS (Server Attached Storage) или DAS (Direct Attached Storage)

Концепция хранения данных SAS не может рассматриваться в качестве альтернативы NAS или SAN, так как является простым классическим способом хранения небольших массивов данных. В решениях SAS устройства хранения подключаются непосредственно к рабочему серверу через высокоскоростной канальный интерфейс, обычно посредством использования SCSI-интерфейса. SAS допускает также совместное использование хранилищ данных несколькими серверами, что оправданно в малых локальных сетях предприятий, однако затрудняет работу масштабных информационных систем. Кроме того, в решениях SAS существуют ограничения на объемы данных одного устройства хранения. Однако преодолеть данный недостаток SAS позволяет использование роботизированных DVD/CD библиотек, подключенных через сервер, особенно с помощью программного обеспечения, где предусмотрена миграция наиболее часто запрашиваемых файлов из библиотеки в сервер.
SAS-решения оптимизированы для использования в небольших локальных сетях, когда существует необходимость высокоскоростной обработки небольших объемов данных. В числе достоинств технологии можно назвать также низкую стоимость решений, что оправдывает ее применение в небольших локальных сетях предприятий малого и среднего бизнеса.

Возможности построения аппаратной составляющей системы хранения данных весьма обширны. На мировом рынке сегодня представлены самые разные типы накопителей данных: дисковые и RAID-массивы, JBOD, стримеры и ленточные библиотеки, оптические носители, роботизированные DVD-библиотеки. Кроме того, многообразны также возможности скоростных сетевых соединений между системами хранения данных и локальной сетью предприятия. Если система хранения данных основана на включении хранилищ в локальную сеть предприятия, то в этом случае используются различные протоколы соединений поверх Ethernet: CIFS, NFS, HTTP, FTP, которые весьма стандартны, а для транспортировки массивов данных — транспортные протоколы TCP/IP.

Накопители данных

RAID-массивы (Redundant Array of Independent Disks) представляют собой объединенный массив дисковых накопителей, управляемый интеллектуальной подсистемой. Достоинством дисковых массивов является консолидация хранимой информации, то есть, такое распределение архивов данных, в котором имеющиеся емкости используются наиболее эффективно.

Все представленные на рынке массивы можно разделить на две категории: логические и физические. В случае логических массивов хранимая информация распределяется по имеющимся мощностям хранения с помощью программного обеспечения, для физических массивов предусмотрено наличие интеллектуального дискового контроллера. Для систем хранения с повышенными требованиями к скорости обработки данных и отказоустойчивости, как правило, используется интерфейс SCSI, для упрощенных конструкций массивов используется IDE-интерфейс. Особенностью организации RAID-массивов является распределение частей одного и того же файла на несколько дисков массива — Strimming, что позволяет повысить надежность хранения, а также существенно увеличить скорость работы с данными. В некоторых конфигурациях RAID-массивов предусмотрена возможность “горячей” замены поврежденных дисков, т.е., не прерывая работы всего дискового массива, эта же технология позволяет избежать потери данных при повреждениях дисков. В массивах RAID предусмотрена также коррекция ошибок с помощью кодов ECC (Error Correction Code). Максимальная гибкость работы с потоками информации достигается за счет использование специальных дисковых RAID-контроллеров, использование которых позволяет значительно повысить производительность системы.

Программное обеспечение, используемое для управления массивами, интегрируется в общую информационную систему предприятия. Задачи, решение которых обеспечивает программное обеспечение RAID-массивов, это, прежде всего, устойчивость работы системы хранения, к примеру, выбор альтернативного пути передачи данных и принятие решений в случае отказа сервера или мэйнфрейм-системы.

Ленточные накопители привлекательны, прежде всего, невысокой ценой и при этом обладают значительной емкостью для хранения данных (2-8 ГБ и более для 4 мм и 8 мм лент DAT). Кроме того, автономные ленточные накопители могут объединяться в своеобразные “массивы”, называемые ленточными библиотеками, суммарная емкость которых оптимизирована для хранения значительных объемов корпоративной информации. Роботизированные ленточные библиотеки обладают практически теми же возможностями, что и дисковые массивы: консолидация хранимых данных, распределение прав доступа между серверами. Ленточные библиотеки отличаются высокой надежностью, высоким быстродействием и возможностью расширения.

Система хранения данных может использовать библиотеки в качестве ресурса общего доступа, для этого в библиотеке для каждого сервера выделяется отдельный накопитель. Следует заметить, что такой подход оказывается эффективным только при малом объеме хранимых данных. При наращивании числа серверов необходимо использовать принцип избыточности данных, широко применяемый в дисковых массивах. Использование данного принципа для консолидации данных системы хранения в ленточных библиотеках достигается при динамическом распределении накопителей между серверами системы. Единственным требованием является соответствие программного и аппаратного обеспечения библиотек стандартам оборудования и программного обеспечения, используемого в системе хранения данных. Для динамического разделения накопителей существует ряд фирменных решений различных производителей аппаратного обеспечения.

Одной из наиболее перспективных технологий хранения данных является запись на оптические носители — DVD и CD диски. Предельная емкость одного диска достигает сегодня 653 МБ, при этом технология продолжает развиваться. Можно прогнозировать, что в ближайшем будущем емкость дисков достигнет нескольких гигабайтов.

Роботизированная библиотека представляет собой массив DVD или CD-R дисков, размещенных в отдельном корпусе, суммарная емкость библиотеки измеряется десятками терабайт. Помимо дисковых массивов, в корпусе библиотеки расположены приводы, обеспечивающие запись и считывание информации. Число приводов может быть различным в зависимости от конкретной модели. Библиотеки имеют возможность подключения дополнительных дисков, хранящихся вне корпуса. Подключение дополнительных дисков осуществляется посредством mail-слота или специальных магазинов на несколько десятков дисков.

Роботизированная библиотека управляется специальным программным обеспечением, которое может быть представлено как базовым ПО для небольших массивов данных, так и программным обеспечением для иерархического управления хранилищами (Hierarchical Storage Management, HSM). Основными функциями программного обеспечения роботизированных библиотек являются: управление аппаратными средствами, в частности, для выполнения операций чтения и записи, организация кэширования данных, а также организация и управление виртуальной файловой системой библиотеки. Управляющее ПО позволяет представить библиотеку в составе системы в виде одного логического диска огромной емкости.

В рамках концепции иерархического управления хранилищами осуществляется перенос информации с RAID-массивов в DVD-библиотеки, программному обеспечению задаются определенные рамки, устанавливаемые администратором системы, где корпоративным данным присваивается определенный приоритет, определяется актуальность и частота используемой информации.

Сегодня в сетях хранения данных доминирует технология Fibre Channel. Наряду со скоростными параметрами важнейшим преимуществом Fibre Channel является возможность работы на больших расстояниях и гибкость топологии, которая базируется на тех же принципах, что и локальные сети, что значительно упрощает построение мультиузловых конфигураций систем, в том числе без единой точки отказов. Технология обеспечивает скорость передачи данных 1-2 Гбит/с., для передачи данных используются как оптоволоконные, так и медные среды. При организации доступа к территориально удаленным узлам на расстоянии до 10 км используется стандартная аппаратура и одномодовое оптоволокно для передачи сигнала. При большой удаленности узлов используются специальные усилители.

При построении сети хранения могут использоваться все допустимые топологии Fibre Channel: “точка-точка” (прямое подключение сервера к дисковому массиву); арбитражная петля (Arbitrated Loop, FC-AL); коммутируемое подключение (FC-SW). Технология Fibre Channel поддерживает блочный ввод-вывод по протоколу SCSI, при котором операции чтения-записи идентифицируют определенное устройство хранения (диск или ленту) и определенный блок на диске. При использовании соответствующих адаптеров FC способны обрабатывать другие широко распространенные протоколы передачи данных, такие как TCP/IP, FDDI и ATM. Технология Fibre Channel позволяет получить доступ к данным на уровне отдельных записей, а не целых файлов. Кроме того, FC-каналы оптимизированы для высокопроизводительной и надежной передачи больших блоков данных с минимальными затратами. Технология Fibre Channel непрерывно развивается, ее поддерживают такие игроки рынка систем хранения, как Hewlett-Packard, Sun Microsystems, Quantum, Silicon Graphics.

Виртуализация систем хранения данных

Термин “виртуализация хранения данных” означает объединение в одном или нескольких массивах всей совокупности разнотипных накопителей и обеспечение прозрачного доступа к ним. Благодаря этому серверы освобождаются от непосредственной привязанности к определенным физическим или логическим устройствам; вместо этого они обращаются к некоему пулу, обладающему требуемым качеством обслуживания (определение Л. Черняка, “Открытые системы”).

Виртуализация в контексте систем хранения может быть реализована на двух уровнях: виртуализация внешней памяти на уровне интеграции разнородных накопителей в единый “виртуальный” пул и на уровне сетей хранения SAN.

Виртуализация внешней памяти подразумевает объединение разных видов накопителей в единую логическую структуру, обращаясь к которой, серверы системы хранения получают возможность работы с единым массивом хранимых данных. При этом важным является обеспечение прозрачности обращений сервера к логическому массиву, что может быть достигнуто только за счет использования открытых стандартов.

Основным преимуществом при использовании консолидации внешней памяти является высвобождение программных и аппаратных ресурсов, экономия затрат на владение системой за счет сокращения времени работы с массивами данных. Кроме того, консолидированные массивы данных значительно проще администрировать, в том числе и при их наращивании.

Консолидация внешней памяти может протекать по двум сценариям: гомогенная консолидация, которая подразумевает концентрацию массивов данных на одном сервере хранения, гетерогенная консолидация обозначает объединение разных приложений. Среди преимуществ первого пути можно назвать ускорение работы с массивами, объединенными в одну логическую структуру, вторая совокупность решений направлена на более полное задействование системных ресурсов.

Интерес представляет также тенденция виртуализации сетей хранения данных, которая подразумевает интеграцию некой управляющей надстройки, которая отвечает за организацию сети хранения и реализует абстрагирование данных от физического места их нахождения. Виртуализация сетей хранения SAN может быть осуществлена посредством создания симметричных и асимметричных пулов. В первом случае управляющая надстройка — устройство SAN Storage Manager — пропускает через себя весь трафик между серверами и хранилищами данных, это позволяет представить разнородные хранилища данных в виде единого дискового пространства. Такое решение обеспечивает простоту установки и администрирования, а также повышает прозрачность взаимодействия серверов с массивами данных. Функциональность таких устройств не зависит от количества и архитектур серверов и систем хранения. Создание асимметричных пулов оставляет возможность прямой связи между сервером и хранилищами данных. Управление сосредоточено в сервере метаданных, где хранится информация о размещении данных. Метаданные передаются в серверы с помощью специального программного обеспечения, называемого инсталлируемой или виртуальной файловой системой. Оба этих решения предполагают кластеризацию с целью повышения надежности системы и исключения SAN Storage Manager из списка слабых мест системы. Следует заметить, что решения виртуализации систем хранения не имеют “обратного” действия, и исключить их из системы чрезвычайно сложно.



все статьи

 
     Производство Данио-Пресс. © 2018 ИНФОСТОР. Все права защищены.