2 Электронный журнал ИССЛЕДОВАНО В РОССИИ 1226 Применение концепции IP-storage для создания распределенных систем хранения данных высокой степени готовности. Фадеев А.Ю. ( alex@mipt.ru )

Книги по разным темам Pages: | 1 | 2 |

Одним из предположений модели является независимость каналов от клиента к каждому IP-storage. Данные каналы характеризуются такими параметрами, как битовая скорость Vb, межкадровая задержка T, максимальный размер кадра M, показатель качества, определяемый как отношение полного размера кадра к полезной нагрузке пакета. Для сети Fast Ethernet эти параметры имеют значения: Vb =100 Мбит/с=104857600 бит/с, T =0,мкс, M =1518 байт= 12144 бит, =1518/1500=1,012.

Для описания такой системы мы будем исходить из модели IP-storage и модели RAID. Так как наиболее распространенными на данный момент являются RAID-0, RAID-1 и RAID-5, они и будут рассмотрены.

2.1. Модель IP-storage Можно было бы начать наше исследование с классической модели жесткого диска [Stodolsky et al. 1993], вводя такие понятия, как access delay, seek delay, rotation delay, heads-switch delay и др. Но дело в том, что современный жесткий диск представляет собой слишком сложную конструкцию, логическое представление которого в терминах числа головок, числа цилиндров и др. имеет мало общего с реальной конструкцией диска.

Сегодня диски имеют буферы, размеры которых измеряются несколькими мегабайтами.

Все это приводит к тому, что выводы, которые можно было бы извлечь из модели такого диска, будь она даже построена, были бы весьма сомнительны, так как слишком многое зависит сейчас от эффективности буферизации и предсказаний, осуществляемых контроллером диска.

В нашей модели предполагается, что IP-storage обладает такими характеристиками, как время доступа (что включает в себя задержки в контроллере, время поиска и позиционирования и любые другие необходимые задержки) и время передачи информации.

Таким образом, время необходимое на чтение блока информации с такого объекта равно t = ta + tt, где ta - время доступа, tt - время передачи блока.

tt определяется как максимум из времени передачи данных с физического носителя по внутренней шине (IDE, SCSI) и времени передачи по шине, связывающей IP-storage с контроллером. В нашем случае (и это будет показано в следующем разделе, где будет рассматриваться прототип системы) tt будет полностью определяться второй компонентой. Случай, когда tt будет определяться первой компонентой, не рассматривается в данной работе, поскольку в таком случае задача вырождается в случай Электронный журнал ИССЛЕДОВАНО В РОССИИ 1231 с локальными накопителями, который с одной стороны хорошо изучен, с другой стороны, как было отмечено выше, слишком сильно зависит от характеристик конкретных накопителей.

В случае с сетью типа Ethernet, время передачи блока данных по сети можно определить как S tt =, V где S - размер передаваемого блока, а V - скорость, на которой он передается. В сети Ethernet, пакеты передаются не строго один за другим, а через интервал, равный в случае Fast Ethernet 0,96 мкс. Это обусловлено моделью доступа к разделяемой среде и необходимо для работы механизма определения коллизий. Как известно, кадры в сети Fast Ethernet передаются с битовой скоростью 100 Мбит/сек, но эффективная битовая скорость ниже, из-за конечных размеров пакетов (максимум 1518 байт вместе с заголовком и завершителем Ethernet). Ее можно определить так V =, Vb +T M где T - минимальная задержка между кадрами Ethernet, M - максимальный размер кадра, Vb - битовая скорость.

При выбранных для Fast Ethernet значений T и M, при передаче данных кадрами в байт, получим эффективную битовую скорость в 50 Мбит/сек. Именно поэтому приложения, требовательные к пропускной способности, передают данные кадрами максимального размера.

Таким образом, для tt получим tt = S 1Vb +T M.

Вспомнив, что здесь у нас S - это биты на уровне кадров Ethernet, запишем, 1 T tt = S +, Vb M где - коэффициент эффективности протоколов передачи данных, учитывающий overhead IP, транспортных протоколов (TCP или UDP), вышележащих протоколов (например, iSCSI), определяемый как отношение полной переданной информации к полезной информации. Заметим, что, вообще говоря, зависит от параметра MTU (Maximum Transfer Unit) в данной сети. Для сетей Ethernet, Fast Ethernet MTU=1500, для других сетей MTU будет меньше или больше, таким образом, не является полностью независимым от сети параметром.

- коэффициент эффективности канального протокола.

Замечу, что всегда больше единицы, чем ближе к единице, тем эффективней ведется передача данных. Посмотрим, какую производительность мы можем ожидать в случае использования блоков разного размера.

= ta 1 T + + Vb M S Электронный журнал ИССЛЕДОВАНО В РОССИИ 1232 Таким образом, мы получили формулу, позволяющую вычислить производительность IPstorage, зная две ключевые характеристики: ta - время доступа и - коэффициент эффективности. В данной модели накопителя считается, что сеть полнодуплексная, таким образом, различий между записью на накопитель информации и чтении с него информации нет. Единственно возможное отличие - параметр ta для записи и чтения может иметь разное значение. Конечно, это справедливо только в случае, когда локальная скорость дискового накопителя (и на чтение, и на запись) существенно выше скорости сети и не накладывает своих ограничений. Но именно это предположение мы и ввели в 1 T самом начале. Заметив, что величина + зависит только от характеристик Vb M сети и не зависит от вышележащих протоколов или от характеристик накопителя, мы можем упростить запись формул, введя кумулятивный коэффициент (легко заметить, что имеет размерность скорости передачи информации и по смыслу является эффективной канальной скоростью).

1 T = + Vb M Для сети Fast Ethernet, = 9,84 10-9 c/бит. КПД Fast Ethernet оказывается равным Vb 0,2.2. Модель RAID-Рассмотрим теперь в рамках нашей модели IP-storage модель массива RAID-0. Пусть в нашем массиве N дисков, тогда мы можем записать ожидаемые характеристики чтения и записи для такого массива.

Так как чтение и запись в таком массиве ведется параллельно на все диски массива, и на S каждый диск записывается бит, мы можем записать N S tt =, N S t = ta +, N N 1 T =, где = + Vb M ta + N S единственно заметив, что ta может различаться для чтения и записи.

2.3. Модель RAID-Модель RAID-1 характерна тем, что чтение в такой схеме также ведется параллельно со всех дисков, более того, за счет оптимизации очередности обращений к дискам массива можно добиться более высокой производительности. Запись данных ведется на один диск, на дублирующий диск записываются те же данные, но это не приводит к росту производительности. Таким образом, для чтения, S tt =, N Электронный журнал ИССЛЕДОВАНО В РОССИИ 1233 S t = ta +, N N 1 T =, где = + r Vb M ta + N S где - коэффициент эффективности алгоритма распределения запросов, чем меньше , тем эффективней чтение.

Скорость на запись равна скорости записи на одиночный носитель 1 T =, где = + w Vb M ta + S 2.4. Модель RAID-В схеме RAID-5 чтение также ведется со всех дисков массива, соответственно скорость чтения определяется аналогично RAID-N = r ta + N S С записью дело обстоит сложнее. При каждой операции записи, выполняется операция read-modify-write для распределенной parity массива.

Parity вычисляется так pnew = dnew dold pold S Для записываемого блока данных размером S, размер parity будет.

N Это означает необходимость выполнить дополнительно две операции чтения (старые dold данные и старую parity pold ) и одну дополнительную операцию для записи новой parity pnew. Таким образом, вместо одной операции записи выполняется две операции чтения и две операции записи, таким образом, мы получим для t S tar taw + S t = + + + N N чтениестарой информации запись новой S S + + + tar tar + N N чтениестарой parity запись новой N + t = 2tar + taw + S, N отсюда скорость записи N 1 T =, где = + w Vb M N + 1 tar + taw + N N S Электронный журнал ИССЛЕДОВАНО В РОССИИ 1234 Как видим, запись - слабое место RAID-5.

2.5. Анализ модели Исследования модели проводилось на прототипе системы. Использовалась реализация iSCSI для Linux [Palekar et al. 2001]. Для измерения производительности использовался адаптированный вариант теста Skippy [Talagala et al. 2000]. При исследовании одиночного IP-storage были определены параметры модели =1,75, tar =0,027 с и taw =0,0025 с. На рис.1 приведены графики зависимости скорости записи на массивы с одинаковой эффективной емкостью (два диска) RAID-0 (N=2), RAID-1 (N=4) и RAID-5 (N=3) при данных параметрах модели.

RAID-8 RAID-RAID-0 200 400 600 800 1000 Block size, kbytes Рис.1. Зависимость скорости записи для RAID-0, RAID-1 и RAID-5 от размера блока. =1,75, w tar =0,027 с. и taw =0,0025 с.

Как видим, RAID-5 обеспечивает наихудшую скорость записи, особенно сильно это выражено для блоков небольших размеров (менее 200 кбайт). При больших блоках отставание в скорости от RAID-1 (фактически - от скорости одиночного IP-storage) не столь велико, если не вспоминать о том, что задействовано три диска. При дальнейшем увеличении числа дисков в RAID-5 его производительность растет. При N=4 она сравнивается с RAID-1. При больших значениях N становится выгоднее (с точки зрения производительности и стоимости) использовать RAID-5, правда скорость записи небольших блоков все равно остается низкой. Кроме того, проводилось сравнительное тестирование iSCSI, NBD и NFS. Результаты [Фадеев 2002] позволяют утверждать, что iSCSI достаточно эффективный протокол для реализации IP-storage.

3. Заключение На модельной системе было продемонстрировано создание распределенной системы хранения данных с использованием TCP/IP по технологии RAID. Применение протокола iSCSI позволило создать RAID систему без ограничений классических протоколов (SCSI, Fiber Channel) на распределенность системы и другим свойственных Throutput, MB/s Электронный журнал ИССЛЕДОВАНО В РОССИИ 1235 классическим технологиям SAN недостатков. Применение технологии RAID позволило решить проблемы, возникающие в классических NAS системах. В частности значительно упростилась процедура восстановления после сбоев за счет применения механизма восстановления на ходу и журналируемой файловой системы. Благодаря сочетанию высокой эффективности и низкой стоимости, предложенный метод может найти применение в коммерческих системах. Фактически, используя преимущества моделей SAN и NAS, данный подход может существенно изменить представления о том, как должны быть организованы распределенные системы хранения данных в наши дни.

СПИСОК ЛИТЕРАТУРЫ Aversa L., Bestavros A., (1999), Load Balancing a Cluster of Web Servers using Distributed Packet Rewriting, Tech. Rep. 1999-001, Boston University, Computer Science Department, Bestavros A., Mehrotra S., (2001), DNS-based Internet Client Clustering and Characterization, Tech.

Rep. 2001-012, Boston University, Computer Science Department, Borovick L., Gray R., Sheppard E., Strauss P., Turner V., (2001), Reweaving SAN Fabrics: Worldwide Open Systems SAN Interconnect Fabric Forecast and Analysis, 2001-2005, Rep. 25016, IDC, Breuer P.T., Lopez A.M., Ares A.G., (2000), The Network Block Device, Linux Journal, №73, Hartman J.H., (1995), The Zebra Striped Network File System, Tech. Rep. CSD-95-867, University of California Berkeley, Computer Science Division, ftp://sunsite.berkeley.edu/pub/techreps/CSD95-867.html ITcentrix (1999), Storage Networks: On the Road to Virtual Consolidation, ITcentrix, Jurgens C., (1995), Fibre Channel: A Connection to the Future. IEEE Computer, 28(8), August 1995, pages 88-Long D.D.E., Montague B.R., Cabrera L., (1994), SWIFT/RAID: A Distributed RAID System, Tech.

Rep. UCSC-CRL-94-06, University of California at Santa Cruz, ftp://ftp.cse.ucsc.edu/pub/tr/ucsc-crl-94-06.ps.Z Marzullo K., Schmuck F.B., (1987), Supplying High Availability with a Standard Network File System, Tech. Rep. 87-888, Cornell University, Department of Computer Science, Palekar A.A., Ganapathy N., Chadda, A., Russel, R.D., (2001), Design and Implementation of a Linux SCSI Target for Storage Area Networks, Proceedings of the 5th Annual Linux Showcase & Conference, Oakland, California, USA November 5Ц10, 2001, ftp://ftp.iol.unh.edu/pub/iscsi/LinuxConfPaper.pdf Palekar A.A., Russel R.D., (2001), Design and Implementation of a SCSI Target for Storage Area Networks, IETF, ftp://ftp.iol.unh.edu/pub/iscsi/tr0101.pdf Patterson D.A., Gibson G.A., Katz R.H., (1987), A Case for Redundant Arrays of Inexpensive Disks (RAID), Tech. Rep. CSD-87-391, University of California Berkeley, Computer Science Division, ftp://sunsite.berkeley.edu/pub/techreps/CSD-87-391.html Satyanarayanan M., Kistler J.J., Kumar P., Okasak M.E., Siegel E.H., Steere D.C., (1990) Coda a highly available file system for a distributed workstation environment, IEEE Trans. on Computers 39,4 (Apr. 1990), pages 447-Stodolsky D., Holland M., Courtright W.V.II, Gibson G.A., (1993), A Redundant Disk Array Architecture for Efficient Small Writes, Tech. Rep. CMU-CS-93-200, School of Computer Science, Carnegie Mellon University, Talagala N., Arpaci-Dusseau R., Patterson D., (2000), Micro-Benchmark Based Extraction of Local and Global Disk Characteristics, University of California Berkeley, Computer Science Division, Электронный журнал ИССЛЕДОВАНО В РОССИИ 1236 Tech. Rep. Pages: | 1 | 2 | Книги по разным темам

Blog