Книги, научные публикации Pages:     | 1 |   ...   | 3 | 4 | 5 | 6 | 7 |   ...   | 8 |

Андрей Робачевский Операционная система Рекомендовано Министерством общего и профессионального образования Российской Федерации в качестве учебного пособия для студентов высших учебных заведений ...

-- [ Страница 5 ] --

) { newsockfd = Получить запрос if () 0) { Породить дочерний процесс close (sockfd) Дочерний процесс exit (0) } else close (newsockfd) Родительский процесс } В этом сценарии, в то время как дочерний процесс обеспечивает фактиче ский обмен данными с клиентом, родительский процесс продолжает "прослушивать" поступающие запросы, порождая для каждого из них от дельный процесс обработчик. Очередь позволяет буферизировать запросы на время, пока сервер завершает вызов accept(2) и затем создает дочерний процесс. Заметим, что новый сокет newsockfd, полученный в результате вызова accept(2), адресует полностью определенный коммуникационный канал: протокол и полные адреса обоих узлов Ч клиента и сервера. На против, для сокета sockfd определена только локальная часть канала. Это позволяет серверу продолжать использовать sockfd для "прослушивания" последующих запросов.

Наконец, если для сокетов потока при приеме и передаче данных могут быть использованы стандартные вызовы read(2) и то дата грамм должны пользоваться специальными системными вызовами (эти вызовы также доступны для сокетов других типов):

ftinclude int send(int s, const char int int int s, const char int len, int flags, const struct sockaddr int int s, char *buf, int len, int flags);

int recvfrom(int s, char int len, int flags, struct sockaddr int www.books-shop.com 274 Глава 3. управления процессами Функции и используются для передачи данных удаленно му узлу, а функции recv(2) и Ч для их приема. Основным раз личием между ними является то, что функции и recv(2) могут быть использованы только для "подсоединенного" сокета, т. е. после вызова Все эти вызовы используют в качестве первого аргумента дескриптор соке та, через который производится обмен данными. Аргумент msg содержит сообщение длиной которое должно быть передано по адресу toaddr, длина которого составляет байтов. Для функции использует ся адрес получателя, установленный предшествовавшим вызовом Аргумент buf представляет собой буфер, в который копируются полученные данные.

Параметр может принимать следующие значения:

Передать или принять экстренные данные вместо обычных Просмотреть данные, не удаляя их из системного буфера (последую щие операции чтения получат те же данные) Пример использования сокетов В заключение приведем пример использования сокетов для организации межпроцессного взаимодействия. Поскольку в данном разделе не затрагива ются сетевые вопросы, то и которые будут использованы в приме ре, принадлежат домену UNIX. Как и в предыдущих примерах, функцио нальность нашей распределенной системы не отличается разнообразием:

клиент посылает серверу сообщение "Здравствуй, а сервер отправ ляет его обратно клиенту, который после получения выводит сообщение на экран.

В примере использованы сокеты датаграмм, которые в домене UNIX прак тически не отличаются от сокетов потока. В качестве адреса сервера пред лагается имя файла (мы полагаем, что в системе запущен только один сервер из данного каталога). Предполагается, что клиенты заранее знают этот адрес. Сервер связывает созданный сокет с этим ло кальным адресом и таким образом регистрируется в системе. Начиная с этого момента он готов к получению и обработке сообщений. Сервер на чинает бесконечный цикл, ожидая сообщений от клиентов, блокируясь на вызове При получении сообщения сервер отправляет его об ратно, вызывая Сервер:

MAXBUF char www.books-shop.com между процессами struct int sockfd;

int saddrlen, caddrlen, n;

/* Создадим сокет*/ if = < 0} { создать } /* Свяжем сокет с известным локальным адресом. Поскольку адрес в домене UNIX представляет собой имя файла, который будет создан системным вызовом сначала удалим файл с этим именем в случае, если он сохранился от предыдущего запуска сервера */ =.

saddrlen = + if (struct sockaddr saddrlen) < 0) { связывания сокета с exit } /* Теперь запустим бесконечный цикл чтения сообщений от клиентов и отправления их обратно */ = ) { caddrlen = n = buf, MAXBUF, 0, (struct sockaddr if ( n < 0) { /* Благодаря вызову recvfrom мы знаем адрес клиента, от которого получено Используем этот адрес для передачи сообщения обратно if buf, n, 0, (struct sockaddr caddrlen) != n) { } } Клиент создает сокет датаграмм и связывает его со своим уникальным ад ресом. Уникальность адреса определяется уникальностью имени файла.

Поскольку одновременно могут работать несколько клиентов, возникает задача выполнения условия уникальности. Для этого мы используем функ цию позволяющую по заданному шаблону и на основании идентификатора текущего процесса получить уникальное имя, заменяя соответствующим образом символы Связывание сокета позволяет при отправлении сообщения неявно указать его "адрес отправи теля", так что серверу не составляет труда отправить сообщение обратно.

www.books-shop.com 276 Глава 3. Подсистема управления процессами Клиент:

ttinclude char = "Здравствуй, ttdefine char { struct sockaddr_un serv_addr, int sockfd;

int saddrlen, caddrlen, /* Установим адрес сервера, с которым мы будем обмениваться Для этого заполним структуру данных которую будем использовать при отправлении данных серверу с помощью вызова Значение адреса известно по предварительной договоренности */ = saddrlen = + Создадим датаграмм */ if = < 0) { создать } Необходимо связать сокет с некоторым локальным адресом, чтобы сервер имел возможность возвратить посланное Этот ад рес должен быть уникальным в пределах коммуникационного домена т. е. данной операционной системы. Для обеспечения этого условия, воспользуемся функцией которая возвращает уникальное имя, основанное на представленном шаблоне и идентификаторе нашего процесса. = caddrlen = + if (struct sockaddr caddrlen) < 0) { связывания } /* Итак, отправляем сакраментальное приветствие */ msglen = if msg, msglen, 0, (struct sockaddr saddrlen) != msglen) { передачи www.books-shop.com процессами /* Прочитаем if = buf, MAXBUF, О, NULL, < 0) { printf получения сообщения И выведем его на экран /* Уберем за собой */ exit (0) } Сравнение различных систем межпроцессного взаимодействия Заканчивая разговор о межпроцессном взаимодействии в UNIX, приведем сводную сравнительную таблицу рассмотренных систем.

Каналы FIFO Сообще Разделя ния емая па (домен мять UNIX) Ч Имя файла Ключ Ключ Имя файла Простран ство имен Системный Именован Очередь Разделяемая Коммуника Объект канал ный сообщений область па ционный узел мяти msgget Создание объекта Связывание connect Непосред Передача write write msgsnd write ственный до данных ступ sendto close close close Уничтоже ние Если говорить о производительности то наиболее быстрым способом передачи данных между неродственными процессами является разделяемая память. Разделяемая память является частью адресного пространства для каждого из взаимодействующих процессов, поэтому чтение и запись в эту область неотличимы, например, от чтения и записи в область собственных данных процесса. Однако при использовании разделяемой памяти необхо www.books-shop.com 278 Глава 3. управления процессами димо обеспечить синхронизацию процессов. При использовании семафо ров, необходимо иметь в виду следующие обстоятельства:

Применение семафоров может увеличить число процессов в очереди на выполнение, поскольку несколько процессов, ожидающих разре шающего сигнала семафора, будут одновременно разбужены и пере ведены в очередь на выполнение.

Применение семафоров увеличивает число переключений контекста, что, в свою очередь, увеличивает нагрузку на систему.

В то же время, использование семафоров является наиболее стан дартным (POSIX. хотя и неэффективным способом обеспечения синхронизации.

Очереди сообщений предназначены для обмена короткими (обычно менее 1 Кбайт) структурами данных. Если объем данных превышает эту величи ну, использование сообщений может значительно увеличить число сис темных вызовов и уменьшить производительность операционной системы.

Интенсивность межпроцессного взаимодействия в системе можно опреде лить с помощью команды т. Вывод команды показывает число ис пользования объектов IPC в секунду:

17 53 sema/s 0.20 20. 17 0.60 12. 17 08 2.20 10. 17 13 0.80 25. 17 18 0.00 15. Average 0.76 16. Заключение В этой главе начато обсуждение внутренней архитектуры ядра UNIX, ко торое будет продолжено в следующих главах. Поскольку процессы являют ся движущей силой операционной системы, мы начали обсуждение имен но с этого вопроса. Действительно, не считая нескольких системных про цессов, являющихся частью ядра и выполняющих узкосистемные функ ции, основная работа операционной системы происходит по запросам и в контексте прикладных процессов.

В главе обсуждается, каким образом прикладной процесс взаимодействует с ядром операционной системы, как происходит справедливое распределе ние системных ресурсов между задачами, и тем самым обеспечивается многозадачность UNIX. Также рассматриваются принципы организации виртуальной памяти, когда каждый процесс имеет независимое адресное пространство, размер которого в ряде случаев значительно превышает объ ем оперативной памяти компьютера. Наконец, здесь представлены струк туры данных ядра, связанные с управлением процессами и памятью.

www.books-shop.com Файловая БОЛЬШИНСТВО данных в операционной системе UNIX хранится в файлах, организованных в виде дерева и расположенных на некотором носителе данных. Обычно это локальный (т. е. расположенный на том же компью тере, что и сама операционная система) жесткий диск, хотя специальный тип файловой системы Ч NFS (Network File System) обеспечивает хране ние файлов на удаленном компьютере. Файловая система также может располагаться на CD ROM, дискетах и других типах носителей, однако для простоты изложения сначала мы рассмотрим традиционную файловую систему UNIX, расположенную на обычном жестком диске компьютера.

Исконной файловой системой UNIX System V является s5fs. Файловая система, разработанная в Беркли, FFS, появилась позже, в версии UNIX. По сравнению с s5fs она обладает лучшей производительностью, функциональностью и надежностью. Файловые системы современных вер сий UNIX имеют весьма сложную архитектуру, различную для разных вер сий. Несмотря на это все они используют базовые идеи, заложенные работчиками UNIX в AT&T и Калифорнийском университете в Беркли.

Поэтому мы проиллюстрируем основные принципы организации файло вой системы UNIX на примере базовых систем System V (s5fs) и BSD (FFS), которые, кстати, и сегодня поддерживаются в большинстве версий UNIX.

Когда появилась файловая система FFS, архитектура UNIX поддерживала работу только с одним типом файловой системы. Таким образом, создате ли различных версий операционной системы UNIX вынуждены были вы бирать одну файловую систему из нескольких возможных. Это неудобство было преодолено введением независимой или виртуальной файловой систе мы Ч архитектуры, позволяющей обеспечивать работу с несколькими "физическими" файловыми системами различных типов. В этой главе мы рассмотрим реализацию виртуальной файловой системы, разработанную фирмой Sun Microsystems. Данная архитектура является стандартом для SVR4, однако и другие версии UNIX используют подобные подходы. В качестве примера можно привести независимую файловую систему SCO UNIX.

piracy@books-shop.com 280 Глава 4. Файловая Далее мы рассмотрим схему доступа прикладных процессов к файлам Ч всю цепочку структур данных от файловых дескрипторов процесса до фак тических дисковых данных, которую операционная система создает в ре зультате открытия процессом файла и которая затем используется для об мена данными.

В заключение мы рассмотрим буферный кэш Ч подсистему, которая по зволяет значительно увеличить производительность работы с дисковыми данными.

Базовая файловая система System V Каждый жесткий диск состоит из одной или нескольких логических час тей, называемых разделами (partitions). Расположение и размер раздела оп ределяются при форматировании диска. В UNIX разделы выступают в ка честве независимых устройств, доступ к которым осуществляется как к различным носителям данных.

Например, диск может состоять из четырех разделов, каждый из которых содержит свою файловую систему. Заметим, что в разделе может распола гаться только одна файловая система, которая не может занимать несколь ко разделов. В другой конфигурации диск может состоять только из од ного раздела, позволяя создание весьма емких файловых систем.

Файловая система s5fs занимает раздел диска и состоит из трех основных компонентов, как показано на рис.

Рис. 4.1. Структура файловой системы s5fs www.books-shop.com файловая система V Суперблок Содержит общую информацию о файловой системе, например, об ее архитектуре, общем числе блоков и ин дексных дескрипторов, или метаданных П Массив индексных Содержит метаданные всех файлов файловой системы. Индексный дескриптор содержит статус ную информацию о файле и указывает на расположение данных этого файла. Ядро обращается к inode по индексу в массиве ilist.

Один inode является корневым (root) inode файловой системы, через него обеспечивается доступ к структуре каталогов и файлов после монтирования файловой системы. Размер массива ilist является фик сированным и задается при создании файловой системы. Таким об разом, файловая система s5fs имеет ограничение по числу файлов, которые могут храниться в ней, независимо от размера этих файлов.

П Блоки хранения данных. Данные обычных файлов и каталогов хранят ся в блоках. Обработка файла осуществляется через inode, содержа щего ссылки на блоки данных. Блоки хранения данных занимают большую часть дискового раздела, и их число определяет макси мальный суммарный объем файлов данной файловой системы. Раз мер блока кратен 512 байтам, например файловая система SCO UNIX использует размер блока в 1 Кбайт (отсюда и название).

Рассмотрим подробнее каждый из перечисленных компонентов.

Суперблок Суперблок содержит информацию, необходимую для монтирования и управления работой файловой системы в целом (например, для размеще ния новых файлов). В каждой файловой системе существует только один суперблок, который располагается в начале раздела. Суперблок считывает ся в память при монтировании файловой системы и находится там до ее отключения (размонтирования).

Суперблок содержит следующую информацию:

П Тип системы (s_type) П Размер файловой системы в логических блоках, включая сам супер блок, ilist и блоки хранения данных П Размер массива индексных дескрипторов (s_isize) П Число свободных блоков, доступных для размещения П Число свободных inode, доступных для размещения П Флаги (флаг модификации флаг режима монтирования П Размер логического блока (512, 1024, 2048) П Список номеров свободных inode П Список адресов свободных блоков www.books-shop.com 282 Глава 4. Файловая Поскольку число свободных inode и блоков хранения данных может быть значительным, хранение двух последних списков целиком в суперблоке непрактично. Например, для индексных дескрипторов хранится только часть списка. Когда число свободных inode в этом списке приближается к О, ядро просматривает и вновь формирует список свободных inode.

Для этого ядро анализирует поле индексного дескриптора, кото рое равно 0 у свободных inode.

К сожалению, такой подход неприменим в отношении свободных блоков хранения данных, поскольку по содержимому блока нельзя определить, свободен он или нет. Поэтому необходимо хранить список адресов сво бодных блоков целиком. Список адресов свободных блоков может зани мать несколько блоков хранения данных, но суперблок содержит только один блок этого списка. Первый элемент этого блока указывает на блок, хранящий продолжение списка и т. д., как это показано на рис.

свободных блоков для размещения файла производится с конца списка суперблока. Когда в списке остается единственный элемент, ядро интерпретирует его как указатель на блок, содержащий продолжение спи ска. В этом случае содержимое этого блока считывается в суперблок и блок становится свободным. Такой подход позволяет использовать дисковое про странство под списки, пропорциональное свободному месту в файловой системе. Другими словами, когда свободного места практически не остается, список адресов свободных блоков целиком помещается в суперблоке.

Индексные дескрипторы Индексный дескриптор, или inode, содержит информацию о файле, необ ходимую для обработки данных, т. е. метаданные файла. Каждый файл ас социирован с одним inode, хотя может иметь несколько имен в файловой системе, каждое из которых указывает на один и тот же inode.

Индексный дескриптор не содержит:

имени файла, которое содержится в блоках хранения данных каталога;

содержимого файла, которое размещено в блоках хранения данных.

При открытии файла ядро помещает копию дискового inode в память в таблицу in core inode, которая содержит несколько дополнительных полей.

Структура дискового inode (struct dinode) приведена на рис. 4.2. Ос новные поля дискового inode следующие:

Тип файла, дополнительные атрибуты выполнения и права доступа.

Число ссылок на файл, т. е. количество которые имеет файл в файловой системе.

Идентификаторы владельца пользователя и владельца группы.

www.books-shop.com файловая система V di_size Размер файла в байтах. Для специальных файлов это поле содержит старший и младший номера устройства.

Время последнего доступа к файлу.

di_mtime Время последней модификации.

di_ctime Время последней модификации inode (кроме модификации полей di_atime, di_mtime).

di addr[13] Массив адресов дисковых блоков хранения данных.

Рис. 4.2. Структура дискового inode Поле хранит несколько атрибутов файла: тип файла (IFREG для обычных файлов, каталогов, IFBLK или IFCHR для специальных файлов блочных и символьных устройств соответственно);

права доступа к файлу для трех классов пользователей и дополнительные атрибуты выпол нения SGID и sticky bit), значения этих атрибутов были подробно рассмотрены в главе 1.

www.books-shop.com 284 Глава 4.

Заметим, что в индексном дескрипторе отсутствует информация о времени создания файла. Вместо этого inode хранит три значения времени: время последнего доступа время последней модификации содержи мого файла и время последней модификации метаданных файла В последнем случае не учитываются модификации по лей di_atime и di_mtime. Таким образом, di_ctime изменяется, когда изменяется размер файла, владелец, группа, или число связей.

Индексный дескриптор содержит информацию о расположении данных файла. Поскольку дисковые блоки хранения данных файла в общем случае располагаются не последовательно, inode должен хранить физические ад реса всех блоков, принадлежащих данному В индексном дескрип торе эта информация хранится в виде массива, каждый элемент которого содержит физический адрес дискового блока, а индексом массива является номер логического блока файла. Массив имеет фиксированный размер и состоит из 13 элементов. При этом первые 10 элементов адресуют непо средственно блоки хранения данных файла. Одиннадцатый элемент адре сует блок, в свою очередь содержащий адреса блоков хранения данных.

Двенадцатый элемент указывает на дисковый блок, также хранящий адре са блоков, каждый из который адресует блок хранения данных файла.

И, наконец, тринадцатый элемент используется для тройной косвенной адресации, когда для нахождения адреса блока хранения данных файла используются три дополнительных блока.

Такой подход позволяет при относительно небольшом фиксированном размере индексного дескриптора поддерживать работу с файлами, размер которых может изменяться от нескольких байтов до десятка мегабайтов.

Для относительно небольших файлов (до 10 Кбайт при размере блока байтов) используется прямая индексация, обеспечивающая максимальную производительность. Для файлов, размер которых не превышает 266 Кбайт (10 Кбайт + 256x1024), достаточно простой косвенной адресации. Нако нец, при использовании тройной косвенной адресации можно обеспечить доступ к 16777216 блокам (256x256x256).

Файлы в UNIX могут содержать так называемые дыры. Например, процесс может создать пустой файл, с помощью системного вызова lseek(2) сме Размещение данных файла в произвольно расположенных дисковых блоках позволяет эффективно использовать дисковое пространство, поскольку ядро может использовать любой свободный дисковый блок для размещения данных. Однако в файловой системе s5fs блок может использоваться только одним файлом, поэтому последний блок файла ис пользуется, как правило, не полностью. тому же такой подход с течением времени при водит к увеличению фрагментации системы, когда данные файла оказываются произволь но разбросанными по диску, что, в свою очередь, увеличивает время доступа к файлу и уменьшает производительность обмена данными. Единственным способом уменьшения фрагментации файловой системы является создание полной резервной копии на другом носителе (или в другой файловой и При этом запись файлов будет производиться последовательно без фрагментации.

www.books-shop.com Базовая система System V стить файловый указатель относительно начала файла и записать данные.

При этом между началом файла и началом записанных данных образуется дыра Ч незаполненная область. При чтении этой области процесс получит обнуленные байты. Поскольку логические блоки, соответствующие дыре, не содержат данные, не имеет смысла размещать для них дисковые блоки.

В этом случае соответствующие элементы массива адресов inode содержат нулевой указатель. Когда процесс производит чтение такого блока, ядро возвращает последовательность нулей. Дисковые блоки размещаются толь ко при записи в соответствующие логические блоки Имена файлов Как мы уже видели, ни метаданные, ни тем более блоки хранения данных, не содержат имени файла. Имя файла хранится в файлах специального типа Ч каталогах. Такой подход позволяет любому файлу, т. е. фактиче ским данным, иметь теоретически неограниченное число имен (названий), в файловой системе. При этом несколько имен файлов будут соответство вать одним и тем же метаданным и данным и являться жесткими связями.

Каталог файловой системы s5fs представляет собой таблицу, каждый эле мент которой имеет фиксированный размер в 16 байтов: 2 байта хранят номер индексного дескриптора файла, а 14 байтов Ч его имя. Это накла дывает ограничение на число inode, которое не может превышать 65 535.

Также ограничена и длина имени файла: его максимальный размер Ч символов. Структура каталога приведена на рис. 4.3.

Первые два элемента каталога адресуют сам каталог (текущий каталог) под именем и родительский каталог под именем При удалении имени файла из каталога (например, с помощью команды номер inode соответствующего элемента устанавливается равным 0.

Ядро обычно не удаляет такие свободные элементы, поэтому размер ката лога не уменьшается даже при удалении файлов. Это является потенци альной проблемой для каталогов, в которые временно было помещено большое количество файлов. После удаления большинства из них размер каталога останется достаточно большим, поскольку записи удаленных файлов будут по прежнему существовать.

Отсутствие размещенных дисковых блоков для части файла может привести к ным результатам. Например, операция записи в "дыру" может закончиться неудачей из за нехватки дискового пространства. При копировании файла с дырой, копия будет за нимать больше фактического места на диске, чем оригинал. Это связано с тем, что при копировании производится чтение содержимого оригинала, а затем Ч запись в другой файл. Это, в частности может привести к тому, что резервная копия файловой системы не сможет быть обратно распакована, поскольку неразмещенных блоков хра нить законные нулевые байты соответственно, занимать больше места.

www.books-shop.com 286 Глава 4. Файловая подсистема Иллюстрацию этого явления в SCO UNIX можно привести, применив ко манду обеспечивающую вывод неинтерпретированного содержи мого файла дамп).

Можно заметить, что имен файлов, расположенных во второй части вывода команды на самом деле не существует Ч об этом свидетельствуют нулевые значения номеров это же подтверждает вывод команды $ а bin News mail Массив индексных дескрипторов Рис. 4.3. Каталог файловой системы s5fs www.books-shop.com Базовая система System V Недостатки и ограничения Файловая систем s5fs привлекательна благодаря своей простоте. Однако обратной стороной медали является низкая надежность и производитель ность.

С точки зрения надежности слабым местом этой файловой системы явля ется суперблок. Суперблок несет основную информацию о файловой сис теме в целом, и при его повреждении файловая система не может исполь зоваться. Поскольку в файловой системе s5fs суперблок хранится в единст венном варианте, вероятность возникновения ошибок достаточно велика.

Относительно низкая производительность связана с размещением компо нентов файловой системы на диске. Метаданные файлов располагаются в начале файловой системы, а далее следуют блоки хранения данных. При работе с файлом, происходит обращение как к его метаданным, так и к дисковым блокам, содержащим его данные. Поскольку эти структуры дан ных могут быть значительно разнесены в дисковом пространстве, необхо димость постоянного перемещения головки диска увеличивает время дос тупа и, как следствие, уменьшает производительность файловой системы в целом. К этому же эффекту приводит фрагментация файловой системы, поскольку отдельные блоки файла оказываются разбросанными по всему разделу диска.

Использование дискового пространства также не оптимально. Для увели чения производительности файловой системы более предпочтительным является использование блоков больших размеров. Это позволяет считы вать большее количество данных за одну операцию ввода/вывода. Так, на пример, в UNIX SVR2 размер блока составлял 512 байтов, а в SVR3 Ч уже 1024 байтов. Однако поскольку блок может использоваться только одним файлом, увеличение размера блока приводит к увеличению неиспользуе мого дискового пространства за счет частичного заполнения последнего блока файла. В среднем для каждого файла теряется половина блока.

Массив имеет фиксированный размер, задаваемый при создании файловой системы. Этот размер накладывает ограничение на максималь ное число файлов, которые могут существовать в файловой системе. Рас положение границы между метаданными файлов и их данными (блоками хранения данных) может оказаться неоптимальным, приводящим либо к нехватке inode, если файловая система хранит файлы небольшого размера, либо к нехватке дисковых блоков для хранения файлов большого размера.

Поскольку динамически изменить эту границу невозможно, всегда оста нется неиспользованное дисковое пространство либо в массиве inode, либо в блоках хранения данных.

Наконец, ограничения, накладываемые на длину имени файла (14 симво лов) и общее максимальное число inode также являются слишком жесткими.

www.books-shop.com 288 Глава 4.

Все эти недостатки привели к разработке новой архитектуры файловой системы, которая появилась в версии 4.2BSD UNIX под названием Berkeley Fast File System, или FSS.

Файловая система BSD UNIX В версии 4.3BSD UNIX были внесены существенные улучшения в архи тектуру файловой системы, повышающие как ее производительность, так и надежность. Новая файловая система получила название Berkeley Fast File System (FFS).

Файловая система FFS, обладая полной функциональностью системы s5fs, использует те же структуры данных ядра. Основные изменения затронули расположение файловой системы на диске, дисковые структуры данных и алгоритмы размещения свободных блоков.

Как и в случае файловой системы s5fs, суперблок содержит общее описа ние файловой системы и располагается в начале раздела. Однако в супер блоке не хранятся данные о свободном пространстве файловой системы, такие как массив свободных блоков и Поэтому данные суперблока остаются неизменными на протяжении всего времени существования фай ловой системы. Поскольку данные суперблока жизненно важны для рабо ты всей файловой системы, он дублируется для повышения надежности.

Организация файловой системы предусматривает логическое деление дис кового раздела на одну или несколько групп цилиндров (cylinder group).

Группа цилиндров представляет собой несколько последовательных диско вых цилиндров. Каждая группа цилиндров содержит управляющую ин формацию, включающую резервную копию суперблока, массив inode, дан ные о свободных блоках и итоговую информацию об использовании дис ковых блоков в группе (рис. 4.4).

Рис. 4.4. Структура файловой системы FFS www.books-shop.com Файловая система BSD UNIX Для каждой группы цилиндров при создании файловой системы выделяет ся место под определенное количество При этом обычно на каждые 2 Кбайт блоков хранения данных создается один inode. Поскольку разме ры группы цилиндров и массива inode фиксированы, в файловой системе BSD UNIX присутствуют ограничения, аналогичные s5fs.

Идея такой структуры файловой системы заключается в создании класте ров inode, распределенных по всему разделу, вместо того, чтобы группиро вать все inode в начале. Тем самым уменьшается время доступа к данным конкретного файла, поскольку блоки данных располагаются ближе к адре сующем их inode. Такой подход также повышает надежность файловой системы, уменьшая вероятность потери всех индексных дескрипторов в результате сбоя.

Управляющая информация располагается с различным смещением от на чала группы цилиндров. В противном случае, например, при размещении в начале группы цилиндров, информация всех групп оказалась бы физиче ски расположенной на одной пластине диска и могла бы быть уничтожена при выходе из строя этой пластины. Это смещение выбирается равным одному сектору относительно предыдущей группы, таким образом для со седних групп управляющая информация начинается на различных пласти нах диска. В этом случае потеря одного сектора, цилиндра или пластины не приведет к потере всех копий суперблоков.

Производительность файловой системы существенным образом зависит от размера блока хранения данных. Чем больше размер блока, тем большее количество данных может быть прочитано без поиска и перемещения дис ковой головки. Файловая система FFS поддерживает размер блока до Кбайт. Проблема заключается в том, что типичная файловая система UNIX состоит из значительного числа файлов небольшого размера. Это приводит к тому, что частично занятые блоки используются неэффектив но, что может привести к потере до 60% полезной емкости диска.

Этот недостаток был преодолен с помощью возможности фрагментации блока. Каждый блок может быть разбит на два, четыре или восемь фраг ментов. В то время как блок является единицей передачи данных в опера циях ввода/вывода, фрагмент определяет адресуемую единицу хранения данных на диске. Таким образом был найден компромисс между произво дительностью ввода/вывода и эффективностью хранения данных. Размер фрагмента задается при создании файловой системы, его максимальное значение определяется размером блока (0,5 размера блока), а минималь ный Ч физическими ограничениями дискового устройства, а именно: ми нимальной единицей адресации диска Ч сектором.

Информация о свободном пространстве в группе хранится не в виде спи ска свободных блоков, а в виде битовой карты блоков. Карта блоков, свя занная с определенной группой цилиндров, описывает свободное про странство в фрагментах, для определения того, свободен данный блок или piracy@books-shop.com 290 Глава 4. Файловая нет, ядро анализирует биты фрагментов, составляющих блок. На рис. 4. приведен пример карты свободных блоков и соответствия между битами карты, фрагментами и блоками группы цилиндров.

Рис. 4.5. Карта свободных блоков Существенные изменения затронули алгоритмы размещения свободных блоков и влияющие на расположение файлов на диске. В файловой системе s5fs используются весьма примитивные правила размещения. Сво бодные блоки и inode просто выбираются из конца соответствующего спи ска, что со временем приводит, как уже обсуждалось, к значительному разбросу данных файла по разделу диска.

В отличие от s5fs, файловая система FFS при размещении блоков исполь зует стратегию, направленную на увеличение производительности. Неко торые из принципов приведены ниже:

Файл по возможности размещается в блоках хранения данных, при надлежащих одной группе цилиндров, где расположены его мета данные. Поскольку многие операции файловой системы включают работу, связанную как с метаданными, так и с данными файла, это правило уменьшает время совершения таких операций.

Все файлы каталога по возможности размещаются в одной группе цилиндров. Поскольку многие команды работают с несколькими www.books-shop.com Файловая система BSD UNIX файлами одного и того же каталога, данный подход увеличивает ско рость последовательного доступа к этим файлам.

Каждый новый каталог по возможности помещается в группу линдров, от группы родительского каталога. Таким обра зом достигается равномерное распределение данных по диску.

Последовательные блоки размещаются исходя из оптимизации фи зического доступа. Дело в том, что существует определенный проме жуток времени между моментом завершения чтения блока и началом чтения следующего. За это время диск успеет совершить оборот на некоторый угол. Таким образом, следующий блок должен по воз можности располагаться с пропуском нескольких секторов. В этом случае при чтении последовательных блоков не потребуется совер шать "холостые" обороты диска.

Таким образом, правила размещения свободных блоков, с одной стороны, направлены на уменьшение времени перемещения головки диска, т. е. на локализацию данных в одной цилиндров, а с другой Ч на мерное распределение данных по диску. От разумного баланса между эти ми двумя механизмами зависит, в конечном итоге, производительность файловой системы. Например в предельном варианте, когда все данные локализованы в одной большой группе цилиндров, мы получаем типичную файловую систему s5fs.

Описанная архитектура является весьма эффективной с точки зрения на дежности и производительности. К сожалению, эти параметры файловой системы FSS начинают значительно ухудшаться по мере уменьшения бодного места. В этом случае системе не удается следовать вышеприведен ным правилам и размещение блоков далеко от оптимального. Практика показывает, что FSS имеет удовлетворительные характеристики при нали чии более 10% свободного места.

Каталоги Структура каталога файловой системы FFS была изменена для поддержки длинных имен файлов (до 255 символов). Вместо записей фиксированной длины запись каталога FFS представлена структурой, имеющей следующие поля:

Номер inode (индекс в массив Длина записи Длина имени файла [ ] Имя файла Имя файла имеет переменную длину, дополненную нулями до границы. При удалении имени файла принадлежавшая ему запись присое диняется к предыдущей, и значение поля d reclen увеличивается на со www.books-shop.com Глава 4.

ответствующую величину. Удаление первой записи выражается в присвое нии нулевого значения полю d_ino. Структура каталога файловой систе мы FFS приведена на рис. 4.6.

Рис. 4.6. Каталог файловой системы FFS Архитектура виртуальной файловой системы Как было показано, различные типы файловых систем существенно отли чаются по внутренней архитектуре. В то же время современные версии UNIX обеспечивают одновременную работу с несколькими типами файло вых систем. Среди них можно выделить локальные файловые системы различной архитектуры, удаленные и даже отличные от файловой системы UNIX, например DOS. Такое сосуществование обеспечивается путем раз деления каждой файловой системы на зависимый и независимый от www.books-shop.com Архитектура виртуальной файловой системы зации уровни, последний из которых является общим и представляет для остальных подсистем ядра некоторую абстрактную файловую систему. Не зависимый уровень также называется виртуальной файловой системой (рис. 4.7). При этом дополнительные файловые системы различных типов могут быть встроены в ядро UNIX подобно тому, как это происходит с драйверами устройств.

Дисковые носители Монитор Принтер Сеть 4.7. Архитектура виртуальной файловой системы Виртуальные индексные дескрипторы Дисковый файл обычно имеет связанную с структуру данных, назы ваемую метаданными или inode, где хранятся основные характеристики данного файла и с помощью которой обеспечивается доступ к его данным.

Одним из исключений из этого правила является файловая система DOS, в которой структуры файла и его метаданных существенно отличаются от принятых в Тем не менее виртуальная файловая система основана на представлении метаданных файла в виде, сходном с традиционной се мантикой UNIX. Интерфейсом работы с файлами является (от virtual inode Ч виртуальный индексный дескриптор).

www.books-shop.com Глава 4. Файловая Первоначально этот интерфейс был разработан в 1984 году фирмой Sun Microsystems для обеспечения требуемой унификации работы с файло выми системами различных типов, в частности, с NFS и (FFS). Сего дня виртуальная файловая система является стандартом в SVR4, хотя ряд других версий UNIX также реализуют подобную архитектуру (например, независимая файловая система SCO UNIX).

Метаданные всех активных файлов (файлов, на которые ссылаются один или более процессов) представлены в памяти в виде in core inode, в каче стве которых в виртуальной файловой системе выступают Структура данных vnode одинакова для всех файлов, независимо от типа реальной файловой системы, где фактически располагается файл. Данные vnode со держат информацию, необходимую для работы виртуальной файловой сис темы, а также неизменные характеристики файла, например, такие как тип файла.

Основные поля vnode приведены в табл.

Таблица 4.1. Поля vnode Поле Описание u short lag Флаги vnode u short v count Число ссылок на vnode struct filock filocks Блокировки файла struct vfs Указатель на подключенную файловую систему, если vnode является точкой монтирования struct vfs *v_vfsp Указатель на файловую систему, в кото рой находится файл enum vtype v_type Тип vnode: обычный файл, каталог, спе циальный файл устройства, символиче ская связь, сокет caddr t v data Указатель на данные, относящиеся к ре альной файловой системе struct op Операции vnode Каждый vnode содержит число ссылок v_count, которое увеличивается при открытии процессом файла и уменьшается при его закрытии. Когда число ссылок становится равным нулю, вызывается операция которая сообщает реальной файловой системе, что на vnode никто больше не ссылается. После этого файловая система может освободить vnode (и, например, соответствующий ему inode) или помес тить его в кэш для дальнейшего использования.

Поле указывает на файловую систему (структуру vfs, о которой мы поговорим в следующем разделе), в которой расположен файл, www.books-shop.com виртуальной файловой системы ванный данным Если является точкой монтирования, то поле указывает на подключенную файловую систему, "перекрывающую" данный vnode.

Поле v_data указывает на данные, относящиеся к конкретной реальной файловой системы. Например, для дисковой файловой системы указывает на запись в таблице in core inode.

Набор операций над vnode указан полем v_op. В терминах объектно ориентированного программирования этот набор представляет собой вир туальные методы класса vnode. Он является своего рода шлюзом к реаль ной файловой системе, позволяя предоставить общий интерфейс вирту альной файловой системы и в то же время обеспечить специфические реа лизации функций работы с файлами, необходимые для различных типов файловых систем. Некоторые операции, большинство из которых уже зна комы читателю по системным вызовам, приведены в табл. 4.2.

Таблица 4.2. Операции с vnode виртуальной файловой системы () Открыть vnode. Если операция предусматривает соз дание клона (размножение), то в результате будет размещен новый vnode. Обычно операции такого типа характерны для специальных файлов устройств.

close) Закрыть vnode.

( read) ( ) Чтение данных файла, адресованного vnode.

Запись в файл, адресованный vnode.

int Задание управляющей команды.

int Получить атрибуты vnode: тип права доступа, владелец пользователь, владелец группа, идентифи катор файловой системы, номер связей, размер файла, оптимальный размер блока для опе раций время последнего доступа, время последней модификации, время последней модификации vnode, число занимаемых блоков.

int Установить атрибуты vnode. Могут быть изменены GID, размер файла и времена доступа и моди фикации.

Проверить права доступа к файлу, адресованному vnode. При этом производится отображение между атрибутами доступа файлов UNIX и атрибутами ре альной файловой системы (например, DOS).

Произвести трансляцию имени файла в соответст вующий ему vnode.

Создать новый файл и соответствующий ему vnode.

Удалить файла в указанном vnode каталоге.

www.books-shop.com 296 Глава 4. Файловая Таблица 4.2 (продолжение) int _link) () Создать жесткую связь между именем файла и vnode.

int Создать новый каталог в указанном vnode каталоге.

int Удалить каталог.

int Считать записи каталога, адресованного vnode.

int Создать символическую связь между новым именем и именем файла, расположенном в указанном vnode каталоге.

int readlink) Чтение файла Ч символической связи.

int () Синхронизировать содержимое файла Ч записать все данные.

int inactive) Разрешить удаление vnode, т. к. число ссылок на vnode из виртуальной файловой системы стало равным нулю.

Взаимосвязь между независимыми дескрипторами (vnode) и зависимыми от реализации метаданными файла показана на рис. 4.8.

Рис. 4.8. Метаданные файла виртуальной файловой системы Монтирование файловой системы Прежде чем может состояться работа с файлами, соответствующая файло вая система должна быть встроена в существующее иерархическое дерево.

www.books-shop.com Архитектура виртуальной файловой системы Только после этого ядро сможет выполнять файловые операции, такие как создание, открытие, чтение или запись в файл. Эта операция встраивания получила название подключения или монтирования файловой системы.

Каждая подключенная файловая система представлена на независимом уровне в виде структуры vfs, аналоге записи таблицы монтирования дис ковой файловой системы. Структуры v f s всех подключенных файловых систем организованы в виде односвязного списка, в совокупности обеспе чивая информацию, необходимую для обслуживания всего иерархического дерева, а также информацию о реальной файловой системе, которые не изменяются на протяжении работы. Первой записью списка всегда являет ся корневая файловая система. В дальнейшем, список мы будем назы вать устоявшимся термином Ч таблица монтирования. Поля структуры приведены в табл. 4.3.

Таблица 4.3. Поля структуры vfs struct vfs next Следующая файловая система в списке монтирования.

struct vfsops Операции файловой системы.

struct vnodecovered vnode, перекрываемый файловой сис темой.

int Флаги: только для чтения, запрещен бит SUID т. д.

int vfs bsize Размер блока файловой системы.

t vfs data Указатель на специфические данные, относящиеся к реальной файловой сис теме.

Поле содержит указатель на данные реальной файловой систе мы. Например, для дисковой файловой системы s5fs, это поле указывает на суперблок, размещенный в памяти.

Поле vfs_op указывает на операции файловой системы, которые в терми нах объектно ориентированного подхода могут быть названы виртуальными методами объекта vfs. Возможные операции файловой системы приведены в табл. 4.4. Поскольку они существенным образом зависят от архитектуры и конкретной реализации, поля заполняются указателями на соответ ствующие функции реальной файловой системы при ее монтировании.

Таблица 4.4. Операции файловой системы mount) Подключает файловую систему. Обычно операция включает размещение суперблока в памяти и ини циализацию записи в таблице монтирования.

int Отключает файловую систему. Операция включает актуализацию данных файловой системы на нако пителе (например, синхронизацию дискового су перблока и его образа в памяти).

www.books-shop.com 298 Глава 4. Файловая Таблица 4.4 (продолжение) int (*vfs Возвращает корневой vnode файловой системы.

(*vfs Возвращает общую информацию о файловой систе ме, в частности: размер блока хранения данных, чис ло свободных inode.

int Актуализирует все данные файловой системы.

int () Возвращает файловый идентификатор (fid Ч file Iden tifier), однозначно адресующий файл в данной фай ловой системе. В качестве fid может, например, вы ступать номер inode реальной файловой системы.

int Возвращает указатель на vnode для файла данной файловой системы, адресованного fid.

Для инициализации и монтирования реальной файловой системы UNIX хранит коммутатор файловых систем (File System Switch), адресующий процедурный интерфейс для каждого типа файловой системы, поддержи ваемой ядром. UNIX System V этого использует глобальную таблицу, каждый элемент которой соответствует определенному типу реальной файловой системы, например s5fs, или nfs. Элемент этой таблицы vf ssw имеет поля, указанные в табл. 4.5.

Таблица 4.5. Коммутатор файловых систем char name Имя типа файловой системы int init) () Адрес процедуры инициализации struct vfsops *vsw vfsops Указатель на вектор операций файловой системы long vsw flag Флаги Взаимодействие структур виртуальной файловой системы показано на рис. 4.9.

Монтирование файловой системы производится системным вызовом В качестве аргументов передаются тип монтируемой файловой системы, имя каталога, к которому подключается файловая система (точка монтирования), флаги (например, доступ к файловой системе только для чтения) и дополнительные данные, конкретный вид и содержимое кото рых зависят от реализации реальной файловой системы. При этом произ водится поиск vnode, соответствующего файлу Ч точке монтирования (операция () или () трансляции имени), и проверяется, что файл является каталогом и не используется в настоящее время для монти рования других файловых систем.

Затем происходит поиск элемента коммутатора файловых систем соответствующего типу монтируемой файловой системы. Если такой эле www.books-shop.com Архитектура файловой системы мент найден, вызывается операция инициализации, адресованная полем. При этом выполняется размещение специфических для дан ного типа файловой системы данных, после чего ядро размещает структуру v f s и помещает ее в связанный список подключенных файловых систем, как это показано на рис. 4.11. Поле указывает на точки монтирования. Это поле устанавливается нулевым для корне вой (root) файловой системы, элемент v f s которой всегда расположен первым в списке подключенных файловых систем. Поле адресует вектор операций, определенный для данного типа файловой системы. На конец, указатель на данный элемент v f s сохраняется в поле виртуального индексного дескриптора каталога Ч ки монтирования.

Рис. 4.9. Структуры данных виртуальной файловой системы После этого вызывается операция соответствующая данно му типу файловой системы. Конкретные действия определяются реализа цией файловой системы и могут существенно различаться. Например, операция монтирования локальной файловой системы предусматривает считывание в память метаданных системы, таких как суперблок, в то вре мя как монтирование удаленной NFS файловой системы включает переда чу сетевого запроса файловому серверу. Однако монтирование предусмат ривает выполнение и ряда общих операций, включающих:

проверку соответствующих прав на выполнение монтирования;

размещение и инициализацию специфических для файловой систе мы данного типа данных, сохранение адреса этих данных в поле data элемента vfs;

piracy@books-shop.com 300 Глава 4.

размещение для корневого каталога подключаемой файловой системы, доступ к которому осуществляется с помощью операции.

После подключения файловая система может быть адресована по имени точки монтирования. В частности, при отключении файловой системы с помощью системного вызова в качестве аргумента ему передает ся имя точки монтирования. Адресация с помощью специального файла устройства, как это происходило раньше, нарушает унифицированный вид виртуальной файловой системы, так как некоторые типы вообще не имеют такого устройства (например, NFS).

Определение корневого vnode для подключенной файловой системы про изводится с помощью операции Заметим, что в некоторых реализациях независимой файловой системы (например, в SCO UNIX, хо тя там используется другая терминология) одно из полей записи таблицы монтирования явно указывало на корневой vnode. Подход, предложенный фирмой Sun Microsystems, позволяет не хранить корневой vnode постоян но, размещая его только при необходимости работы с файловой системой.

Это минимизирует ресурсы, занимаемые подключенными файловыми сис темами, которые продолжительное время не используются.

На рис. 4.10 приведен вид логического файлового дерева до и после монтирования файловой системы А к каталогу На рис.

приведен вид виртуальной файловой системы после этой операции мон тирования.

Исследовать описанные структуры данных можно с помощью утилиты Для этого применяются команды vfs и отображающие со держимое соответствующих структур данных. Приведем пример такого ис следования файлового дерева операционной системы Solaris 2.5:

crash = = = stdout > / on /dev/dsk/cOt3dOsO read/write on Tue Feb 25 15:29:11 /usr/local on /dev/dsk/cOtOdOsO read/write on Tue /tmp on swap read/write on Tue Feb /dev/fd on fd read/write/setuid on Tue Feb /proc on /proc read/write/setuid on Tue Feb 25 15:29:11 on /dev/dsk/cOt6dO on Mar 25 15:29:43 > FSTYP BSZ PDATA FLAGS ufs 8192 800018 0 f5b79b78 0 notr ufs 8192 32,0 800000 f5c29adO f5c28c88 0 notr 4096 0,0 0 0 notr fd 1024 158,0 2780000 f5c4f5d8 О О proc 1024 156,0 2700000 0 hsfs 2048 f5f20698 f5b60d98 0 rd www.books-shop.com Архитектура виртуальной файловой системы Рис. 4.10. Монтирование файловой системы А к корневой файловой системе www.books-shop.com Глава 4. Файловая Рис. Схема монтирования файловых систем различных типов Мы распечатали список подключенных файловых систем (команда и элементы vfs таблицы монтирования. Рассмотрим подробнее vnode точки монтирования файловой системы раздела > vnode f5c29adO VFSMNTED VFSP VTYPE RDEV VDATA VFILOCKS 2 f5c25c60 f0286570 0 d f5c29ac8 Удостоверимся, что поле (VFSMNTED) адресует элемент vfs подключенной файловой системы, а поле v_fsp (VFSP) указывает на элемент корневой файловой системы.

> vfs f5c25c FSTYP BSZ PDATA FLAGS 8192 32,0 800000 f5c29adO > vfs f FSTYP BSZ MAJ/MIN FSID VNCOVERED PDATA BCOUNT FLAGS ufs 8192 32,24 800018 0 f5b79b78 0 notr Наконец, посмотрим на содержимое inode файловой системы ufs, адресо ванного полем (VDATA) виртуального индексного дескриптора:

> ui f5c29ac UFS INODE TABLE SIZE = SLOT MAJ/MIN LINK SIZE MODE FLAGS 32,24 7552 2 2 0 0 512 rf www.books-shop.com Архитектура виртуальной файловой системы Полученная информация показывает, что запись таблицы ufs адресу ет дисковый индексный дескриптор с номером 7552 Для того чтобы узнать имя файла, используем команду > i Трансляция имен Прикладные процессы, запрашивая услуги файловой системы, обычно имеют дело с именем файла или файловым дескриптором, полученным в результате определенных системных вызовов. Однако ядро системы для обеспечения работы с файлами использует не имена, а индексные деск рипторы. Таким образом, необходима трансляция имени файла, переда ваемого, например, в качестве аргумента системному вызову в но мер соответствующего В табл. 4.6 приведены системные вызовы, для выполнения которых требу ется трансляция имени файла.

Таблица 4.6. Системные вызовы, требующие трансляции имени ехес(2) Запустить программу на выполнение Изменить владельца пользователя chgrp(2) Изменить владельца группу Изменить права доступа Получить метаданные файла Удалить каталог mkdir(2) Создать каталог mknod(2) Создать специальный файл устройства Открыть файл link(2) Создать жесткую связь Говоря формально, полное имя файла представляет собой последователь ность слов, разделенных символом '/'. Каждый компонент имени, кроме последнего, является именем каталога. Последний компонент определяет собственно имя файла. При этом полное имя может быть абсолютным или относительным. Если полное имя начинается с символа '/', представляю щего корневой каталог общего логического дерева файловой системы, то оно является абсолютным, однозначно определяющим файл из любого места файловой системы. В противном случае, имя является относитель ным и адресует файл относительно текущего каталога. Примером относи тельного имени может служить а абсолютное имя этого файла Ч Как следует из этих рассуждений, два ка www.books-shop.com 304 Глава 4. Файловая играют ключевую роль при трансляции имени: корневой каталог и текущий каталог. Каждый процесс адресует эти каталоги двумя полями структуры u_area:

struct Указатель текущего каталога struct vnode Указатель на vnode корневого каталога В зависимости от имени файла трансляция начинается с vnode, адресован ного либо полем либо u_rdir. Трансляция имени осуществляется покомпонентно, при этом для vnode текущего каталога вызывается соот ветствующая ему операция vn_lookup в качестве аргумента которой передается имя следующего компонента. В результате операции возвраща ется vnode, соответствующий искомому компоненту.

Если для vnode каталога установлен указатель то данный каталог является точкой монтирования. Если имя файла требует дальнейшего спуска по дереву файловой системы (т. е. пересече ния точки монтирования), то операция следует указателю для перехода в подключенную файловую систему и вызывает для нее операцию s_root для получения ее корневого vnode. Трансляция имени затем продолжается с этого места.

Пересечение границы файловых систем возможно и при восхождении по дереву, например, если имя файла задано указанием родительского ката лога Ч Если при движении в этом направлении по пути встречается корневой vnode подключенной файловой системы (установлен флаг VROOT в поле то операция vn_lookup следует указателю vfs_vnodecovered, расположенному в записи vfs этой файловой систе мы. При этом происходит пересечение границы файловых систем, и даль нейшая трансляция продолжается с точки монтирования.

Если искомый файл является символической связью, и системный вызов, от имени которого происходит трансляция имени, "следует" символиче ской связи, операция вызывает vn_readlink для получе ния имени целевого файла. Если оно является абсолютным (т. е. начина ется с то трансляция начинается с vnode корневого каталога, адресо ванного полем u_rdir области u area.

Процесс трансляции имени продолжается, пока не просмотрены все ком поненты имени или не обнаружена ошибка (например, отсутствие прав доступа). В случае удачного завершения возвращается vnode искомого файла.

Доступ к файловой системе Как было показано в главе 2, процесс совершает операции с файлами, адре суя их при помощи файловых дескрипторов Ч целых чисел, имеющих ло www.books-shop.com к файловой системе для процесса значение. Это значит, что файловый дескриптор од ного процесса может адресовать совершенно другой файл, нежели файловый дескриптор с таким же номером, используемый другим процессом. Процесс получает файловый дескриптор с помощью ряда системных вызовов, на пример, или выполняющих операцию трансляции имени, в результате которой выделяемый файловый дескриптор адресует определен ный (или и, соответственно, файл файловой системы.

На рис. показаны основные структуры ядра, необходимые для доступа процесса к файлу.

Рис. 4.12. Внутренние структуры доступа к файлу Файловый дескриптор, используемый для доступа процесса к файлу, явля ется индексом таблицы файловых дескрипторов (file descriptor table). Каж дый процесс имеет собственную таблицу файловых дескрипторов, которая расположена в его На рис. 4.12 показаны два процесса, каждый из которых использует собственную таблицу файловых дескрипторов.

Каждая активная запись этой таблицы, представляющая открытый файл, адресует запись системной файловой таблицы (system table), в которой хранятся такие параметры, как режим доступа к файлу (запись, чтение, добавление и т. д.), текущее смещение в файле (файловый указатель), а также указатель па vnode этого файла. Системная файловая таблица одна и совместно используется всеми процессами.

Как следует из рис. 4.12, несколько записей системной файловой таблицы могут адресовать один и тот же файл, который представлен записью в таблице vnode.

www.books-shop.com 306 Глава 4. Файловая Файловые дескрипторы Файловый дескриптор представляет собой неотрицательное целое число, возвращаемое системными вызовами, такими как или pipe(2). После получения файлового дескриптора процесс может использо вать его для дальнейшей работы с файлом, например с помощью систем ных вызовов или Ядро обеспечивает работу процесса с файлами, используя различные структуры данных, часть из которых расположена в процесса. На помним, что эта область описывается структурой user. В табл. 4.7 приве дены поля структуры user, которые используются ядром для обеспечения доступа процесса к файлу.

Таблица 4.7. Поля структуры user, связанные с файловым дескриптором Поле Описание Указатель на системную файловую таблицу Флаги файлового дескриптора Файловый дескриптор связан с этими двумя полями и, таким образом, обеспечивает доступ к соответствующему элементу файловой таблицы (структуре данных В настоящее время в качестве единственного флага файлового дескриптора определен флаг Если этот флаг установлен, то производится закрытие файлового дескриптора (аналогично явному вызову при выполнении процессом системного вызова При этом для запу щенной программы не происходит наследования файлового дескриптора и доступа к файлу.

Более старые версии UNIX используют статическую таблицу дескрипто ров, которая целиком хранится в u area. Номер дескриптора является ин дексом этой таблицы. Таким образом, размер таблицы, которая обычно содержит 64 элемента, накладывает ограничение на число одновременно открытых процессом файлов. В современных версиях таблица размещается динамически и может увеличиваться при необходимости. Следует, однако, иметь в виду, что и в этом случае максимальное число одновременно от крытых файлов регламентируется пределом который рас сматривался в разделе "Ограничения" главы 2. В некоторых версиях, на пример, Solaris 2.5, данные файловых дескрипторов хранятся не в виде таблицы, а в виде блоков структур uf_entry, поля которой аналогичны приведенным в табл. 4.7.

Содержимое таблицы дескрипторов процесса можно посмотреть с помо щью утилиты Команда покажет содержимое u area процсс www.books-shop.com к файловой системе са. Например, для текущего командного интерпретатора мы получим сле дующую информацию:

crash = = stdout > proc # PROC TABLE SIZE = SLOT ST SID NAME FLAGS 121 s 8591 8589 8591 8591 286 48 bash load > user PER PROCESS USER AREA FOR PROCESS PROCESS command: bash, psargs: bash start: PO 24 18:11:31 mem: type: exec of current directory: f5b95e OPEN FILES, POFILE FLAGS, AND THREAD REFCNT:

F Oxf62b6030, 0, 0 F Oxf62b6030, О, О F Oxf62b6030, О, О RESOURCE LIMITS:

cpu time: unlimited/unlimited file size: unlimited/unlimited swap size: 2147479552/ stack size: 8388608/ size: unlimited/unlimited file descriptors: 64/ address unlimited/unlimited SIGNAL DISPOSITION:

Файловая таблица Поля файлового дескриптора u_ofile и содержат начальную информацию, необходимую для доступа процесса к данным файла. До полнительная информация находится в системной файловой таблице и таблице индексных дескрипторов. Для обеспечения доступа процесса к данным файла ядро должно полностью создать цепочку от файлового де скриптора до vnode и, соответственно, до блоков хранения данных, как показано на рис. 4.12.

Каждый элемент файловой таблицы содержит информацию, необходимую для управления работой с файлом. Если несколько процессов открывают один и тот же файл, каждый из них получает собственный элемент файло вой таблицы, хотя все они будут работать с одним и тем же файлом. Важ поля элемента файловой таблицы приведены ниже:

www.books-shop.com 308 Глава 4. Файловая Поле Описание f_flag Флаги, при открытии файла (системные вызовы ореп(2), Каждая операция с файлом проверяется на допустимость со гласно указанным режимам. Другими словами, если процесс открыл файл только для чтения (флаг FREAD), ему будет отказано в операции записи, даже если он имеет на это необходимые права доступа.

FREAD Файл открыт только для чтения. То же, что и O_RDONLY при открытии файла.

Файл открыт только на запись. То же, что и при открытии файла.

FAPPEND Режим добавления. Перед началом операции записи файловый ука затель будет установлен в конец файла. То же, что и O_APPEND при открытии файла.

FNONBLOCK, Возврат без блокирования. Системный вызов не будет ожидать за вершения операции. То же, что и или при от крытии файла.

FSYNC Обеспечить синхронизацию с соответствующими дисковыми структу рами для метаданных и данных файла при совершении операции за писи. То же, что и o_SYNC при открытии файла.

FDSYNC Обеспечить синхронизацию с соответствующими дисковыми структу рами только для данных файла при совершении операции записи. То же, что и при открытии файла.

FRSYNC Совместно с флагами FCYNC и FDSYNC определяет процесс синхрони зации для соответствующих компонентов файла при операции чтения.

Число файловых дескрипторов, адресующих данный элемент файло вой таблицы. Один и тот же элемент файловой таблицы может совме стно использоваться при дублировании дескрипторов с помощью сис темного вызова или в результате f Указатель на виртуальный индексный дескриптор файла.

f_of f set Текущее смещение в файле. Начиная с этого места будет произведе на следующая операция чтения или записи.

Для иллюстрации обсуждения продолжим работу с утилитой С помощью команды user в предыдущем разделе были получены адреса эле ментов файловой таблицы для стандартного ввода (fd=0), вывода (fd=l) и вывода сообщений об ошибках (fd=2). Заметим, что все они указывают на один и тот же элемент. С помощью команды file исследуем его содержимое:

> file Oxf62b ADDRESS RCNT TYPE/ADDR OFFSET FLAGS f62b6030 9 SPEC/f5e91clc 15834 read write > vnode f5e91clc VCNT VFSP VTYPE RDEV VDATA VFILOCKS 2 0 f5c6b2aO с 24,26 www.books-shop.com к файловой системе Поскольку это специальный файл устройства (об этом свидетельствует по ле TYPE элемента файловой таблицы), поле (VDATA) указы вает не на файловой системы а на Ч индексный дескрип тор логической файловой системы specfs, обслуживающей специальные файлы устройств. Более подробно этот интерфейс будет рассматриваться в главе. Таким образом, для продолжения путешествия по струк турам ядра, следует обратиться к snode, адрес которого указан в поле > snode f5e91c SNODE TABLE SIZE = HASH SLOT NEXTR SIZE COUNT FLAGS f5f992e8 f636b27c О О О up ac Поле (REALVP) указывает на vnode файла реальной файловой системы (в данном случае ufs). Поэтому далее поиск аналогичен проде ланному при исследовании таблицы монтирования.

> vnode f5f992e VFSP VTYPE RDEV VDATA 2 0 f0286570 0 с 24,26 f5f992eO > UFS INODE TABLE SIZE = SLOT MAJ/MIN LINK SIZE MODE FLAGS 32,24 317329 2 1 286 7 0 620 rf > ! i В результате мы определили имя специального файла устройства (в дан ном случае Ч это псевдотерминал), на которое производится ввод и вывод командного интерпретатора.

Блокирование доступа к файлу Традиционно архитектура файловой подсистемы UNIX разрешает скольким процессам одновременный доступ к файлу для чтения и записи.

Хотя операции записи и чтения, осуществляемые с помощью системных вызовов или являются атомарными, в UNIX по умолчанию отсутствует синхронизация между отдельными вызовами. Другими слова ми, между двумя последовательными вызовами одного процесса другой процесс может модифицировать данные файла. Это, в частности, может привести к несогласованным операциям с файлом, и как следствие, к нарушению целостности его данных. Такая ситуация является неприем лемой для многих приложений.

piracy@books-shop.com UNIX б б б й Глава 4. Файловая специально для управления блокированием. При этом перед фак тической файловой операцией (чтения или записи) процесс устанавливает блокирование соответствующего типа (для чтения или для записи). Если блокирование завершилось успешно, это означает, что требуемая файловая операция не создаст конфликта или нарушения целостности данных, на пример, при одновременной записи в файл несколькими процессами.

По умолчанию блокирование является рекомендательным (advisory lock).

Это означает, что кооперативно работающие процессы могут руководство ваться созданными блокировками, однако ядро не запрещает чтение или запись в заблокированный участок файла. При работе с рекомендательны ми блокировками процесс должен явно проверять их наличие с помощью тех же функций и lockf(3C).

Мы уже встречались с использованием системного вызова для бло кирования записей файла в главе 2. Там же была упомянута структура flock, служащая для описания блокирования. Поля этой структуры опи саны в табл. 4.8.

Таблица 4.8. Поля структуры flock Поле short Тип блокирования: F_RDLCK обозначает блокирование для чтения (read lock), Ч блокирование для записи (write lock), обозначает снятие блокирования.

short l_whence Точка отсчета смещения записи в файле. Может принимать значения, аналогичные рассмотренным при разговоре о функ ции lseek(2) в главе 2:

SEEK_CUR, SEEK_END.

of f_t l_start Смещение блокируемой записи относительно точки отсчета, указанной полем l_whence.

of f_t l_len Длина блокируемой записи. Нулевое значение l_len указы вает, что запись всегда распространяется до конца файла, независимо от возможного изменения его размера.

Идентификатор процесса, установившего блокирование, воз вращаемый при вызове команды GETLK.

Как следует из описания поля l_type структуры flock, существуют два типа блокирования записи: для чтения RDLCK) и для записи Правила блокирования таковы, что может быть установлено несколько блокирований для чтения на конкретный байт файла, при этом в установ ке блокирования для записи на этот байт будет отказано. Напротив, бло кирование для записи на конкретный байт должно быть единственным, при этом в установке блокирования для чтения будет отказано.

Приведем фрагмент программы, использующей возможность блокирова ния записей:

www.books-shop.com Буферный кэш struct flock lock;

описание lock с целью блокирования всего файла для = 0;

SEEK_SET;

= 0;

файл. Если блокирования, препятствующие данной операции, уже существуют Ч ждем их fcntl(fd, данные в файл Ч нам никто не record, = SETLKW, В отличие от рекомендательного в UNIX существует обязательное вание (mandatory lock), при котором ограничение на доступ к записям файла накладывается самим ядром. Реализация обязательных блокировок может быть различной. Например, в SCO UNIX (SVR3) снятие бита х для группы и установка бита для группы приводит к тому, что блоки ровки, установленные или lockf(3C), станут обязательными. UNIX SVR4 поддерживает установку блокирования отдельно для записи и для чтения, обеспечивая тем самым доступ для чтения многим, а для записи Ч только одному процессу. Эти установки также осуществляются с помощью системного вызова Следует иметь в виду, что использование обяза тельного блокирования таит потенциальную опасность. Например, если процесс блокирует доступ к жизненно важному системному файлу и по каким либо причинам теряет контроль, это может привести к аварийному останову операционной системы.

Буферный кэш Во введении отмечалось, что работа файловой подсистемы тесно связана с обменом данными с периферийными устройствами. Для обычных файлов и каталогов Ч это устройство, на котором размещается соответствующая файловая система, для специальных файлов устройств Ч это принтер, терминал, или сетевой адаптер. Не вдаваясь в подробности подсистемы ввода/вывода, рассмотрим, как во многих версиях UNIX организован об мен данными с дисковыми устройствами Ч традиционным местом хране ния подавляющего большинства На самом файловые системы могут располагаться на удаленных компьютерах (например, в случае NFS). Хотя при работе с такими файловыми системами ввод/вывод тем не менее и в этом случае кэширование блоков данных значи тельно повышает производительность.

www.books-shop.com 312 Глава 4. Файловая Не секрет, что операции дискового ввода/вывода являются медленными по сравнению, например, с доступом к оперативной или сверхоперативной памяти. Время чтения данных с диска и копирования тех же данных в па мяти может различаться в несколько тысяч раз. Поскольку основные дан ные хранятся на дисковых накопителях, дисковый ввод/вывод является узким местом операционной системы. Для повышения производительно сти дискового ввода/вывода и, соответственно, всей системы в целом, в UNIX используется кэширование дисковых блоков в памяти.

Для этого используется выделенная область оперативной памяти, где кэ дисковые блоки файлов, к которым наиболее часто осуществля ется доступ. Эта область памяти и связанный с ней процедурный интер фейс носят название буферного и через него проходит большинство операций файлового ввода/вывода. Схема взаимодействия различных под систем ядра с буферным кэшем приведена на рис. 4.13.

Рис. 4.13. Роль буферного кэша www.books-shop.com Буферный кэш Внутренняя структура буферного кэша Буферный кэш состоит из буферов данных, размер которых достаточен для размещения одного дискового блока. С каждым блоком данных связан заголовок буфера, представленный структурой buf, с помощью которого ядро производит управление кэшем, включая идентификацию и поиск бу феров, а также синхронизацию доступа. Заголовок также используется при обмене данными с драйвером устройства для выполнения фактической операции ввода/вывода. Когда возникает необходимость чтения или запи си буфера на диск, ядро заносит параметры операции ввода/вывода в заго ловок и передает его функции драйвера устройства. После завершения операции ввода/вывода заголовок содержит информацию о ее результатах.

Основные поля структуры buf приведены в табл. 4.9.

Таблица 4.9. Поля структуры buf Описание b_f lags Флаги. Определяют состояние буфера в каждый момент вре мени (например, Ч буфер занят или Ч закон чена операция с буфером) и направление пере дачи B_PHYS) av_f orw, Указатели двухсвязного рабочего списка буферов, ожидающих обработки драйвером Число байтов, которое требуется передать b_addr Виртуальный адрес буфера Номер блока начала данных на устройстве Старший и младший номера устройства Поле b_flags хранит различные флаги связанного с заголовком буфера.

Часть флагов используется буферным кэшем, а часть Ч драйвером устрой ства. Например, с помощью флага осуществляется синхронизация доступа к буферу. Флаг отмечает буфер как модифицированный, или "грязный", требующий сохранения на диске перед повторным исполь зованием. Флаги B_READ, B_WRITE, И B_ERROR ИСПОЛЬ зуются драйвером диска. Более подробно операция ввода/вывода для драй вера будет рассмотрена в следующей главе.

Буферный кэш использует механизм отложенной (write behind), при котором модификация буфера не вызывает немедленной записи на диск.

Такие буферы отмечаются как "грязные", а синхронизация их содержимого с дисковыми данными происходит через определенные промежутки вре мени. Примерно одна треть операций дискового ввода/вывода приходится на запись, причем один и тот же буфер может на протяжении ограничен ного промежутка времени модифицироваться несколько раз. Поэтому бу кэш уменьшить интенсивность записи на www.books-shop.com Глава 4.

и реорганизовать последовательность записи отдельных буферов для повышения производительности ввода/вывода (например, уменьшая время поиска, группируя запись соседних дисковых блоков). Однако этот меха низм имеет свои недостатки, поскольку может привести к нарушению це лостности файловой системы в случае неожиданного останова или сбоя операционной системы.

Операции ввода/вывода На рис. 4.14 представлена схема выполнения операций ввода/вывода с ис пользованием буферного кэша. Важной особенностью этой подсистемы является то, что она обеспечивает независимое выполнение операций чте ния или записи данных процессом как результат соответствующих систем ных вызовов, а также фактический обмен данными с периферийным уст ройством.

Когда процессу требуется прочитать или записать данные он использует системные вызовы read(2) или направляя тем самым запрос файло вой подсистеме. В свою очередь файловая подсистема транслирует этот за прос в запрос на чтение или запись соответствующих дисковых блоков фай ла и направляет его в буферный кэш. Прежде всего кэш просматривается на предмет наличия требуемого блока в памяти. Если соответствующий буфер найден, его содержимое копируется в адресное пространство процесса в случае чтения и наоборот при записи, и операция завершается. Если блок в кэше не найден, ядро размещает буфер, связывает его с дисковым блоком с помощью заголовка buf и направляет запрос на чтение драйверу устройства.

Обычно используется схема вперед (read ahead), когда считываются не только запрашиваемые блоки, но и которые с высокой вероятно стью могут потребоваться в ближайшее время (рис. 4.14, а). Таким образом, последующие вызовы скорее всего не потребуют дискового вво да/вывода, а будут включать лишь копирование данных из буферов в память процесса, Ч операция, которая, как отмечалось, обладает на несколько по рядков большей производительностью (рис. 4.14, При запросе на мо дификацию блока изменения также затрагивают только буфер кэша. При этом ядро помечает буфер как "грязный" в заголовке buf (рис. 4.14, г). Пе ред освобождением такого буфера для повторного использования, его со держимое должно быть предварительно сохранено на диске (рис. д).

Перед фактическим использованием буфера, например при чтении или записи буфера процессом, или при операции дискового ввода/вывода, дос туп к нему для других процессов должен быть заблокирован. При обраще нии к уже заблокированному буферу процесс переходит в состояние сна, пока данный ресурс не станет доступным.

Использование буферного кэша позволяет избежать 95% операций чтения с диска и 85% операций записи на диск для типичной конфигурации операционной системы.

www.books-shop.com Буферный кэш Рис. 4.14. Схема работы буферного кэша www.books-shop.com Глава 4. Файловая Не заблокированные буферы помечаются как свободные и помещаются в специальный список. Буферы в этом списке располагаются в порядке наименее частого использования (Least Recently Used, LRU). Таким обра зом, когда ядру необходим буфер, оно выбирает тот, к которому не было обращений в течение наиболее продолжительного промежутка времени.

После того как работа с буфером завершена, он помещается в конец спи ска и является наименее вероятным кандидатом на освобождение и по вторное использование. Поэтому, если процесс вскоре опять обратится к тому же блоку данных, операция ввода/вывода по прежнему будет проис ходить с буфером кэша. С течением времени буфер перемещается в на правлении начала очереди, но при каждом последующем обращении к не му, будет помещен в ее конец.

Основной проблемой, связанной с буферным кэшем, является "старение" информации, хранящейся в дисковых блоках, образы которых находятся в буферном кэше. Как следует из схемы работы кэша, большинство измене ний затрагивают только данные в соответствующих буферах, в то время, как дисковые блоки хранят уже устаревшую информацию. Разумеется в нормально работающей системе проблемы как таковой не возникает, по скольку в операциях ввода/вывода всегда используются свежие данные буферного кэша. Однако при аварийном останове системы, это может привести к потере изменений данных файлов, сделанных процессами не посредственно перед остановом.

Для уменьшения вероятности таких потерь в UNIX имеется несколько возможностей:

Во первых, может использоваться системный вызов который обновляет все дисковые блоки, соответствующие "грязным" буферам.

Необходимо отметить, что sync(2) не ожидает завершения операции ввода/вывода, таким образом после возврата из функции не гаранти руется, что все "грязные" буферы сохранены на Во вторых, процесс может открыть файл в синхронном режиме (указав флаг в системном вызове При этом все из менения в файле будут немедленно сохраняться на диске.

Наконец, через регулярные промежутки времени в системе пробуж дается специальный системный процесс Ч диспетчер буферного кэ ша (в различных версиях UNIX его названия отличаются, чаще всего используется или Этот процесс освобождает В распоряжении администратора имеется командный интерфейс к системному вызову Ч утилита Поскольку выполнение команды не свидетельствует о фактическом завершении ввода/вывода, администраторы практикуют вызов несколько раз.

Повторные вызовы повышают вероятность что ввод/вывод будет завершен прежде, чем будет введена другая команда или остановлена система, поскольку набор команды за нимает определенное время. Тот же эффект может быть достигнут просто ожиданием не скольких секунд после ввода но набор команды позволяет "скрасить ожидание".

www.books-shop.com Целостность файловой системы "грязные" буферы, сохраняя их содержимое в соответствующих дис ковых (рис. 4.14, д).

Кэширование в SVR Центральной концепцией в архитектуре виртуальной памяти SVR4 являет ся отображение файлов. При этом подходе все адресное пространство мо жет быть представлено набором отображений различных файлов в память.

Действительно, в страницы памяти, содержащие кодовые сегменты, ото бражаются соответствующие секции исполняемых файлов. Процесс может задать отображение с помощью системного вызова при этом страницам памяти будут соответствовать определенные участки отобра жаемого файла. Даже области памяти, содержимое которых изменяется и не связано ни с каким файлом файловой системы, т. н. анонимные страни цы, можно отобразить на определенные участки специального файла уст ройства, отвечающего за область свопинга (именно там сохраняются ано нимные объекты памяти). При этом фактический обмен данными между памятью и устройствами их хранения, инициируется возникновением страничной ошибки. Такая архитектура позволяет унифицировать опера ции ввода/вывода практически для всех случаев.

При этом подходе, когда процесс выполняет вызовы или ядро устанавливает отображение части файла, адресованного этими вызо вами, в собственное адресное пространство. Затем эта область копируется в адресное пространство процесса. При копировании возникают странич ные ошибки, приводящие в фактическому считыванию дисковых блоков файла в память. Поскольку все операции кэширования данных в этом слу чае обслуживаются подсистемой управления памятью, необходимость в буферном кэше, как отдельной подсистеме, отпадает.

Целостность файловой системы Значительная часть файловой системы находится в оперативной памяти.

А именно, в оперативной памяти расположены суперблок примонтиро ванной системы, метаданные активных файлов (в виде системно зависи мых inode и соответствующих им и даже отдельные блоки хранения данных файлов, временно находящиеся в буферном кэше.

Работа буферного кэша зависит от версии и конкретных настроек ядра системы. Например, в SCO UNIX для этого используются несколько параметров. Параметр задает интервал между последовательными пробуждениями его по умолчанию составляет 30 секунд. Параметр задает промежуток времени, кото рый буфер должен оставаться "грязным", прежде чем bdflush сохранит его на www.books-shop.com Глава 4. Файловая Для операционной системы рассогласование между буферным кэшем и бло ками хранения данных отдельных файлов, не приведет к катастрофическим последствиям даже в случае внезапного останова системы, хотя с точки зре ния пользователя все может выглядеть иначе. Содержимое отдельных фай лов не вносит существенных нарушений в целостность файловой системы.

Другое дело, когда подобные несоответствия затрагивают метаданные фай ла или другую управляющую информацию файловой системы, например, суперблок. Многие файловые операции затрагивают сразу несколько объ ектов файловой системы, и если на диске будут сохранены изменения только для части этих объектов, целостность файловой системы может быть существенно нарушена.

Рассмотрим пример создания жесткой связи для файла. Для этого файло вой подсистеме необходимо выполнить следующие операции:

1. Создать новую запись в необходимом каталоге, указывающую на файла.

2. Увеличить счетчик связей в inode.

Предположим, что аварийный системы произошел между первой и второй операциями. В этом случае после запуска в файловой системе будут существовать два имени файла (две записи каталогов), адресующие inode со счетчиком связей равным 1. Эта ситуация показана на рис. (а). Если теперь будет удалено одно из имен, это приведет к удалению файла как такового, т. е. к освобождению блоков хранения дан ных и inode, поскольку счетчик связей di_nlinks станет равным 0. Ос тавшаяся запись каталога будет указывать на неразмещенный индексный дескриптор, или inode, адресующий уже другой файл (рис. б).

Порядок операций с метаданными может иметь существенное влияние на целостность файловой системы. Рассмотрим, например, предыдущий при мер. Допустим, порядок операций был изменен и, как и прежде, останов произошел между первой и второй операциями. После запуска системы файл будет иметь лишнюю жесткую связь, но существующая запись ката лога останется правильной. Тем не менее при удалении имени файла фак тически файл удален не будет, поскольку число связей останется равным (рис. 4.15, в). Хотя это также является ошибкой, результатом которой яв ляется засорение дискового пространства, ее последствия все же менее ка тастрофичны, чем в первом случае.

Ядро выбирает порядок совершения операций с метаданными таким обра зом, чтобы вред от ошибок в случае аварии был минимальным. Однако проблема нарушения этого порядка все же остается, т. к. драйвер может изменять очередность выполнения запросов для оптимизации вво да/вывода. Единственной возможностью сохранить выбранный порядок является синхронизация операций со стороны файловой подсистемы.

www.books-shop.com Целостность файловой системы В нашем примере файловая подсистема будет ожидать, пока на диск не будет записано содержимое индексного дескриптора, и только после этого произведет изменения каталога.

Рис. 4.15. Нарушение целостности файловой системы piracy@books-shop.com Глава 4.

Отсутствие синхронизации между образом файловой системы в памяти и ее данными на диске в случае аварийного останова может привести к по явлению следующих ошибок:

1. Один блок адресуется несколькими mode (принадлежит нескольким файлам).

2. Блок помечен как свободный, но в то же время занят (на него ссыла ется Блок помечен как занятый, но в то же время свободен (ни один inode на него не ссылается).

4. Неправильное число ссылок в inode (недостаток или избыток ссы лающихся записей в каталогах).

5. Несовпадение между размером файла и суммарным размером адресуе мых inode блоков.

6. Недопустимые адресуемые блоки (например, расположенные за преде лами файловой системы).

7. "Потерянные" файлы (правильные inode, на которые не ссылаются за писи каталогов).

8. Недопустимые или неразмещенные номера inode в записях каталогов.

Эти ошибки схематически показаны на рис.

Рис. 4.16. Возможные ошибки файловой системы www.books-shop.com Заключение Если нарушение все же произошло, на помощь может прийти утилита производящая исправление файловой системы. Запуск этой ути литы может производиться автоматически каждый раз при запуске систе мы, или администратором, с помощью команды:

fsck [options] где filesystem Ч специальный файл устройства, на котором находится файловая система.

Проверка и исправление должны производиться только на размонтиро ванной файловой системе. Это связано с необходимостью исключения синхронизации таблиц в памяти (ошибочных) с их дисковыми эквивален тами (исправленными). Исключение составляет корневая файловая систе ма, которая не может быть размонтирована. Для ее исправления необхо димо использовать опцию обеспечивающую немедленный перезапуск системы после проведения проверки.

Заключение В этой главе описана организация файловой подсистемы UNIX. Начав разговор с обсуждения архитектуры традиционных файловых систем UNIX, мы остановились на анализе т. н. виртуальной файловой системы, обеспечивающей единый интерфейс доступа к различным типам физиче ских файловых систем.

Мы также рассмотрели, каким образом происходит доступ процесса к данным, хранящимся в файлах, вплотную подошли к разговору о подсис ввода/вывода, который и продолжим в главе.

www.books-shop.com Фактическая архитектура ввода/вывода скрыта от прикладного процесса несколькими интерфейсами. Один из них Ч интерфейс файловой системы был рассмотрен в предыдущей главе. Взаимодействие с удаленными ресур сами обеспечивается сетевыми интерфейсами сокетов или ТЫ (Transport Layer Interface), которые описываются в главе 6. Однако возможны ситуа ции, когда прикладному процессу требуется взаимодействие с периферий ными устройствами на более низком уровне. Хотя в этом случае роль фай ловой подсистемы не столь велика, как при работе с обычными файлами, все равно ядро предоставляет процессу унифицированную схему, скры вающую истинную архитектуру того или иного устройства.

В конечном итоге работа всех этих интерфейсов, как высокого уровня, (файловая система), так и более низкого (взаимодействие с физическим устройством), обеспечивается подсистемой ввода/вывода ядра операцион ной системы.

В данной главе мы ознакомимся с архитектурой этой подсистемы, основ ным компонентом которой являются драйверы Ч модули ядра, обеспечи вающие непосредственную работу с периферийными устройствами. По скольку характеристики периферийных устройств значительно различают ся, то UNIX использует два основных типа драйверов Ч символьные и блочные. Как следует из названия, драйверы первого типа обеспечивают обмен сравнительно небольшими объемами данных с устройством, что имеет место при работе, например, с терминалами или принтерами. Драй веры второго типа производят передачу данных блоками, что характерно для дисковых носителей данных. Эти типы драйверов входят в традицион ную подсистему ввода/вывода и присутствуют во всех версиях UNIX.

Во второй части главы мы подробно остановимся на архитектуре драйверов подсистемы STREAMS, которая является неотъемлемой частью ядра в вер сиях UNIX System V. Эти драйверы представляют собой отдельный тип, об ладающий такими ценными возможностями, как буферизация и управление потоком данных. К подсистеме STREAMS мы также вернемся в следующей главе при обсуждении архитектуры сетевого доступа в UNIX System V.

www.books-shop.com устройств Драйверы устройств Драйверы устройств обеспечивают интерфейс между ядром UNIX и аппа ратной частью компьютера. Благодаря этому от остальной части ядра скры ты архитектурные особенности компьютера, что значительно упрощает пе ренос системы и поддержку работы различных периферийных устройств.

В UNIX существует большое количество драйверов. Часть из них обеспечи вает доступ к физическим устройствам, например, жесткому диску, принте ру или терминалу, другие предоставляют услуги.

Примером последних могут служить драйверы для работы с вир туальной памятью ядра представляющий "нулевое" устройство.

В процессе запуска системы ядро вызывает соответствующие процедуры ини циализации установленных драйверов. Во многих версиях UNIX эти про цедуры выводят на консоль сообщение о том, что драйвер найден, и инициа лизация прошла успешно, а также параметры драйвера и устройства.

Типы драйверов Драйверы различаются по возможностям, которые они предоставляют, а также по тому, каким образом обеспечивается к ним доступ и Можно рассматривать три основные типа драйверов:

Символьные Этот тип драйверов обеспечивает работу с устройствами с драйверы побайтовым доступом и обменом данными. К таким уст ройствам можно отнести модемы, терминалы, принтеры, манипуляторы мышь и т. д.

Доступ к таким драйверам не включает использование бу ферного кэша, таким образом ввод и вывод как правило не буферизуется. При необходимости буферизации для сим вольных драйверов обычно используется подход, основан ный на структурах данных, называемых Блочные Этот тип драйверов позволяет производить обмен данными драйверы с устройством фиксированными порциями (блоками). На пример, для жесткого диска данные можно адресовать и, соответственно, читать только секторами, размер которых составляет несколько сотен байтов. Для блочных драйверов обычно используется буферный кэш, который и является интерфейсом между файловой системой и устройством.

Хотя операции чтения и записи для процесса допускают обмен данными, размер которых меньше размера блока, на системном уровне это все равно приводит к считыванию всего блока, изменению части его данных и записи изме ненного блока обратно на диск.

www.books-shop.com Глава 5.

Драйверы низкого Этот тип интерфейса блочных драйверов позволяет производить обмен данными с блочными устройст уровня (raw drivers) вами, минуя буферный кэш. Это, в частности, озна чает, что устройство может быть адресовано элемен тами, размер которых не совпадает с размером блока.

Обмен данными происходит независимо от файловой подсистемы и буферного кэша, что позволяет ядру производить передачу непосредственно между поль зовательским процессом и устройством, без допол нительного копирования.

На рис. 5.1 приведена упрощенная схема взаимодействия драйверов уст ройств с другими подсистемами операционной системы UNIX.

Рис. Драйверы устройств UNIX Не все драйверы служат для работы с физическими устройствами, такими как сетевой адаптер, последовательный порт или монитор. Часть драйве www.books-shop.com Драйверы устройств ров служат для предоставления различных услуг ядра прикладным процес сам и не имеют непосредственного отношения к аппаратной части ком пьютера. Такие драйверы называются программными или драйверами псев доустройств. Можно привести несколько примеров псевдоустройств и со ответствующих им программных драйверов:

Обеспечивает доступ к виртуальной памяти ядра. Зная виртуальные адреса внутренних структур ядра, процесс может считывать храня щуюся в них информацию. С помощью этого драйвера может, на пример, быть реализована версия утилиты ps(1), выводящей ин формацию о состоянии процессов в системе.

Обеспечивает доступ к разделу исполняемого файла ядра, содержа щего таблицу символов. Совместно с драйвером /dev/kmem обеспе чивает удобный интерфейс для анализа внутренних структур ядра.

Обеспечивает доступ к физической памяти компьютера.

Является "нулевым" устройством. При записи в это устройство дан ные просто удаляются, а при чтении процессу возвращается 0 бай тов. Примеры использования этого устройства рассматривались в главе когда с помощью /dev/null мы подавляли вывод сообщений об ошибках.

/dev/zero Обеспечивает заполнение нулями указанного буфера. Этот драйвер часто используется для инициализации области памяти.

Базовая архитектура драйверов Драйвер устройства адресуется старшим номером (major number) устройства.

Напомним, что среди атрибутов специальных файлов устройств, которые обеспечивают пользовательский интерфейс доступа к периферии компьюте ра, это число присутствует наряду с другим, также имеющим отношение к драйверу, Ч младшим номером (minor number). Младший номер интерпрети руется самим драйвером (например, для клонов, оно задает старшее число устройства, которое требуется "размножить"). Другим примером использова ния младших номеров может служить драйвер диска. В то время как доступ к любому из разделов диска осуществляется одним и тем же драйвером и, соответственно, через один и тот же старший номер, младший номер указы вает, к какому именно разделу требуется обеспечить доступ.

Доступ к драйверу осуществляется ядром через специальную структуру данных (коммутатор каждый элемент которой содержит ука затели на соответствующие функции драйвера Ч точки входа. Старшее число, по существу, является указателем на элемент коммутатора уст ройств, обеспечивая, тем самым, ядру возможность вызова необходимой функции указанного драйвера. Таким образом, коммутатор устройств оп ределяет базовый интерфейс драйвера устройств.

www.books-shop.com 326 Глава 5.

Этот интерфейс различен для блочных и символьных устройств. Ядро со держит коммутаторы устройств двух типов: для блочных и для символьных устройств. Ядро размещает отдельный массив для каждого типа коммутатора, и любой драйвер устройства имеет запись в соответст вующем массиве. Если драйвер обеспечивает как блочный, так и символь ный интерфейсы, его точки входа будут представлены в обоих массивах.

Типичное описание этих двух массивов имеет следующий вид (назначение различных точек входа мы рассмотрим далее в этом разделе):

struct { int int (*d_close) int int int } struct { int int int int int () int int struct } Ядро вызывает функцию open требуемого драйвера следующим образом:

передавая ей в качестве одного из параметров переменную dev (типа содержащую старший и младший номера. Макрос служит для извлечения старшего номера из переменной dev. Благодаря этому драйвер имеет возможность определить, с каким младшим номером была вызвана функция open и выполнить соответствующие действия.

Коммутатор определяет абстрактный интерфейс драйвера устройства. Каж дый драйвер обеспечивает соответствующую реализацию функций этого интерфейса. Если драйвер не поддерживает каких либо функций стан дартного интерфейса, он заменяет соответствующие точки входа специ альными заглушками, предоставляемыми ядром. Когда ядру требуется за просить какую либо операцию у драйвера устройства, оно определяет эле мент коммутатора, соответствующий данному драйверу (используя его старший номер), и вызывает требуемую функцию.

В названиях точек входа драйвера используются определенные соглаше ния. Поскольку в ядре системы одновременно присутствует большое ко www.books-shop.com личество различных драйверов, каждый их них должен иметь уникальное имя во избежание проблем при компиляции (точнее, при редактировании связей) ядра. Каждый драйвер имеет уникальное обозна чение, используемое в качестве префикса названий функций. Например, драйвер виртуальной памяти ядра имеет префикс mm, таким образом функции этого драйвера будут иметь названия, И.

В табл. 5.1 приведены некоторые точки входа, общие для различных типов драйверов, а символами хх, с которых начинается имя каждой функции, обозначен уникальный префикс драйвера. Стандартные точки входа драй вера отличаются для разных версий UNIX. Например, некоторые версии имеют расширенный коммутатор блочных устройств, включающий такие функции, как и xxwrite В некоторых версиях включены точки входа для инициализации и сброса шины данных.

Таблица 5.1. Типичные точки входа в драйвер устройства Точка входа Сим Блоч Низкого Назначение воль ный уровня ный + + + Вызывается при каждой опера ции открытии устройства. Обес печивает необходимую реини физического уст ройства и внутренних данных драйвера. Например, для каждо го последующего открытия драй вера могут размещаться допол нительные буферы, обеспечи вающие возможность независи мой работы с устройством не скольким процессам.

+ + Вызывается, когда число ссылок на данный драйвер становится равным нулю, т. е. ни один из процессов системы не работает с устройством (не имеет открытым соответствующий файл устрой ства). Может вызывать отключе ние физического устройства.

Например, драйвер накопителя на магнитной ленте может пере мотать ленту в начало.

+ + Ч Производит чтение данных от устройства.

+ + Ч Производит запись данных на устройство.

www.books-shop.com Глава 5, ввода/вывода Таблица 5.1 (продолжение) Точка входа Сим Блоч Низкого Назначение воль уровня ный + + Является общим интерфейсом управления устройством. Драй вер может определить набор команд, которые могут быть пе реданы ему, например с помо щью системного вызова ioctl(2).

+ + + Вызывается при поступлении прерывания, связанного с дан ным устройством. Может выпол нить копирование данных от уст ройства в промежуточные буфе ры, которые затем считываются функцией xxread по запросу прикладного процесса.

+ + Производит опрос устройства.

Обычно используется для уст ройств, не поддерживающих прерывания, например, для оп ределения поступления данных для чтения.

+ + + Вызывается для останова драй вера при останове системы или при выгрузке драйвера.

+ + Общая точка входа для операций блочного Назва ние функции говорит о том, что устройство может обеспечивать собственную стратегию обработ ки поступающих запросов, на пример, изменять их порядок для повышения производитель ности Если уст ройство занято, функция поме щает запросы в очередь. В этом случае фактический инициирует функция обработки прерывания, которая вызывает ся, когда устройство закончит предыдущую операцию ввода/вы вода.

+ + Выводит сообщение драйвера на консоль, обычно при запуске системы.

www.books-shop.com Драйверы устройств Ядро вызывает те или иные функции драйвера в зависимости от запроса.

Например, если процесс выполняет системный вызов для специ ального файла символьного устройства, ядро вызовет функцию для соответствующего символьного драйвера. Если же процесс запрашива ет ту же операцию для обычного дискового файла, ядро вызовет процедуру для блочного драйвера, обслуживающего данную файловую систему.

Вообще говоря, можно выделить пять основных случаев, в которых ядро обращается к функциям драйвера:

Автоконфигурация. Обычно происходит в процессе инициализации UNIX, когда ядро определяет, какие устройства доступны в системе.

Ввод/вывод. Запрос на операцию ввода/вывода может быть иниции рован как прикладным процессом, так и некоторыми подсистемами ядра, например, подсистемой управления памятью.

О Обработка прерываний. Ядро вызывает соответствующую функцию драйвера для обработки прерывания, поступившего от устройства (если устройство способно генерировать прерывания).

Специальные запросы. Ядро вызывает соответствующую функцию драйвера для обработки специальных команд, полученных с помо щью системного вызова ioctl(2).

П Некоторые типы аппаратных архитектур могут требовать сброса и устройства. Определен ные функции драйвера также вызываются при останове операцион ной системы.

На рис. 5.2 и 5.3 приведены схемы доступа к драйверам символьного и блочного устройств.

Как видно из рисунков, схема обработки запроса ядром UNIX различна для символьных и блочных устройств.

При обсуждении точек входа драйверов устройств следует иметь в виду, что большинство функций драйвера, отвечающих за передачу данных, осуществляют копирование информации из адресного пространства ядра, в котором находится сам драйвер, в адресное пространство задачи. Когда ядро вызывает функцию драйвера, все действия выполняются в системном контексте процесса. Однако схема вызова функций может быть различной:

П Функция может быть вызвана по запросу процесса. Например, если процесс выполняет системный вызов read(2), ядро вызывает соответст вующую точку входа драйвера xxread(), обеспечивающего работу с файлом. В этом случае говорят, что функция имеет контекст задачи.

П Функция может быть вызвана другой подсистемой ядра операцион ной системы. Например, для блочного драйвера функция может быть вызвана страничным демоном, для со piracy@books-shop.com Глава 5.

хранения страниц во вторичной памяти (как правило, на жестком диске). Поскольку страничный демон представляет собой системный процесс, выполняющийся только в контексте ядра, функция xxstrategy в этом случае имеет системный контекст.

Рис. 5.2. Доступ к драйверу символьного устройства Если функция вызывается в процессе обработки прерывания, то она имеет контекст прерывания Ч специальный вид системного контек ста. Функции драйвера, отвечающие за обработку прерывания, на пример имеют этот тип контекста.

www.books-shop.com устройств Рис. 5.3. Доступ к драйверу блочного устройства Различия в контексте и причинах вызова тех или иных функций драйвера позволяют представить драйвер устройства состоящим из двух частей:

верхней части (top half) и нижней (bottom half). Функции верхней www.books-shop.com 332 Глава 5.

части драйвера имеют синхронный характер, т. е. вызываются по опреде ленным запросам прикладного процесса и выполняются в контексте.

Таким образом, для этих функций доступно адресное пространство и процесса, и при необходимости эти функции могут перевести про цесс в состояние сна (вызовом функции (} ядра). Функции вво да/вывода и управления принадлежат верхней части драйвера.

Вызов функций нижней части носит асинхронный характер. Например, момент вызова функции обработки прерываний нельзя предугадать, и ядро не может контролировать, когда эта функция будет вызвана. Выполнение таких функций происходит в контексте ядра и обычно не имеет никакого отношения к контексту текущего процесса. Таким образом, функции сис темного контекста не имеют права адресовать структуры данных текущего процесса, например его u area, а также не могут перевести процесс в со стояние сна, поскольку это заблокирует процесс, не имеющий непосредст венного отношения к работе драйвера.

Две части драйвера требуют синхронизации. Например, в случае, когда функции обеих частей используют одну и ту же структуру данных, функ ция верхней части при выполнении должна заблокировать прерывания на период работы с "разделяемой" областью памяти. В противном случае, прерывание может поступить в тот момент, когда целостность структуры данных нарушена, что приведет к непредсказуемым результатам.

Все представленные выше функции, за исключением xxhalt xxpoll и xxintr принадлежат верхней части драйвера. Функция xxhalt вы зывается ядром при останове системы и, таким образом, имеет системный контекст, не связанный с контекстом прикладного процесса.

Функция обычно вызывается при обработке ядром прерывания таймера для всех устройств, указанных как опрашиваемые. Это необходи мо, в частности, для устройств, которые не могут или "не хотят" использо вать аппаратные прерывания. Вместо этого xxpoll может использовать ся для эмуляции прерываний, например вызывая функцию xxintr на каждый тик системного таймера. Поэтому и функция () и функция обработки прерывания () не могут рассчитывать на кон текст прикладного процесса. В большинстве версий UNIX функции опро са и обработки прерываний вызываются не через коммутатор устройств, а через специальные таблицы ядра.

В UNIX SVR4 определены две дополнительные точки входа Ч init и start Драйвер регистрирует эти функции в таблицах ядра и Код начальной загрузки системы запускает функции перед инициализацией ядра, а функции сразу же после инициализации.

www.books-shop.com Файловый интерфейс В главе 4 мы рассмотрели интерфейс т. н. независимой или виртуальной файловой системы, обеспечивающей унифицированный интерфейс работы с различными типами физических файловых систем (например, или s5fs), имеющих разные внутренние структуры и возможности. При этом подходе используется унифицированный формат метаданных активных файлов, которые хранятся в памяти (в in core Ч таблице индексных деск рипторов) и не зависят от конкретной реализации файловой системы. Эти объекты получили название виртуальных индексных дескрипторов или vnode. Для каждого vnode определен набор абстрактных операций, кото рые реализованы функциями реальных файловых систем. Например, vnode файла, расположенного в файловой системе s5fs, адресует вектор операций (или коммутатор файловых систем, FSS) содержащий конкрет ные функции этой файловой системы Ч s5f s_open или.

Этот подход, используемый в большинстве современных версий UNIX, требует соответствующей архитектуры файлового интерфейса к драйверам устройств. Как уже обсуждалось, доступ к периферии в UNIX осуществля ется с помощью специальных файлов устройств, расположенных в корне вой файловой системе некоторого типа, например ufs. В соответствии с архитектурой виртуальной файловой системы, все операции с этими фай лами будут обслуживаться соответствующими функциями реальной файло вой системы, в данном случае Ч ufs.

Однако такой схеме недостает традиционного для UNIX изящества. Спе циальный файл устройства не является обычным файлом системы ufs.

Фактически все операции со специальным файлом устройства выполняют ся драйвером и не зависят от типа файловой системы. Поэтому было бы логичнее отобразить операции vnode не на вектор файловой системы, а непосредственно на коммутатор устройств.

Современные системы ветви System V используют для этого специальный тип файловой системы, называемый devfs или Для этого типа фай ловой системы все операции vnode адресуют соответствующие функции требуемого элемента коммутатора устройств. После первоначального от крытия файла, когда создается vnode, все запросы, связанные со специ альным файлом устройства, проходят через vnode файловой системы specfs.

В то же время открытие файла, например с помощью системного вызова предусматривает ряд операций, реализованных реальной файловой В системах SVR4 принята терминология specfs, операционная система SCO кото рая формально является но фактически имеет многие черты называет этот тип файловой системы devfs.

www.books-shop.com Глава 5.

системой, в которой находится специальный файл устройства (в нашем примере Одной из таких операций является трансляция имени, кото рая не может быть реализована файловой системой specfs, по существу яв ляющейся виртуальной.

Решение данной проблемы рассмотрим на конкретном примере. Допус тим, процесс вызывает функцию для специального файла устрой ства для работы с виртуальной памятью ядра. Функция транс ляции имени файловой системы ufs Ч сначала откроет файла а затем, прочитав каталог, обнаружит файла при этом будет размещен этого файла. Однако опре делит, что тип этого файла IFCHR, т. е. специальный файл символьного устройства. Поэтому вместо функции s_open бессмысленной для этого типа файла, будет вызвана специальная функция файловой системы specfs, которая создаст собственный индексный дескриптор, описываемой структурой (от special inode), для этого файла, если таковой уже не находится в памяти. Согласно стандартной процедуре, также будет создан и виртуальный индексный дескриптор vnode, который будет указывать на вектор операций specops, которые специально предназначены для работы с драйверами устройств. Например, функции или в свою очередь вызовут соответствующие точки входа драйвера Ч функции, или После этого функции s_open будет передан адрес этого vnode, который она, в свою очередь, передаст системному вызову В результате, ореп(2) вернет процессу файловый дескриптор, адресующий vnode файловой сис темы specfs, а не vnode файла /dev/kmem. Таким образом, все дальнейшие операции с /dev/kmem будут перехватываться файловой системой specfs.

Схема связи процесса с этим vnode приведена на рис. 5.4.

Рис. 5.4. Связь процесса с файлом /dev/kmem после его открытия www.books-shop.com Однако изложенная схема является неполной и имеет ряд существенных недостатков. Дело в том, что драйвер конкретного устройства может адресо ваться несколькими специальными файлами устройств, возможно, располо женными в различных физических файловых системах. В этом случае ядро бессильно определить фактическое число связей прикладных процессов с данным устройством, что может потребоваться, например, при вызове функции когда все процессы закончили работу с устройством.

Для решения этой проблемы файловая система specfs предусматривает на личие дополнительного snode, позволяющего контролировать доступ к конкретному устройству. Этот объект, получивший название общего snode (common snode), является единственным интерфейсом доступа к драйверу устройства. Для каждого устройства (драйвера устройства) существует единственный common snode, который создается при первом доступе к устройству. Каждый специальный файл устройства, в свою очередь, имеет собственный snode в файловой системе specfs и соответствующий ему vnode, а также inode физической файловой системы, где расположен спе циальный файл устройства, и соответствующий ему vnode.

Для связи всех этих индексных дескрипторов между собой snode имеет два поля: указывающее на common snode, и s_realvp, указы вающее на vnode специального файла устройства файловой системы, где расположен последний.

Использование тех или иных vnode и связанных с ними inode или snode зависит от конкретных операций, выполняемых процессом с устройством.

Большинство из этих операций не зависят от имени специального файла устройства и, соответственно, от реальной файловой системы, в которой он расположен. Эти операции выполняются через vnode, соответствующий common snode. Однако существует ряд операций, выполнение которых за висит от конкретного специального файла устройства, через который про цесс взаимодействует с драйвером. Примером может служить проверка прав доступа при открытии специального файла устройства, которые рас положены в реальной файловой системы. В этом случае ис пользуется vnode соответствующего специального файла устройства.

Схема описанной архитектуры приведена на рис. 5.5.

Клоны Как уже обсуждалось, старший номер устройства адресует драйвер, в то время как младший номер интерпретируется самим драйвером и может использоваться для различных целей. Например, используя различные младшие номера, процесс может получить доступ к разным разделам же сткого диска, обслуживаемого одним драйвером.

Во многих случаях использование различных младших номеров позволяет нескольким процессам осуществлять одновременную независимую работу с устройством (или псевдоустройством). Каждый младший номер при этом соответствует логическому драйверу, поддерживающему собственные www.books-shop.com Глава 5.

структуры данных при работе с конкретным процессом. Типичным приме ром могут служить псевдотерминалы. В таких случаях процессу требуется получить доступ к устройству, при этом его не интересует его младший номер, поскольку различие в младших номерах не отражает различие в функциональности. Типичным примером являются сетевые протоколы, чаще всего реализованные в виде соответствующих драйверов. Сетевые соединения, основанные на одном и том же протоколе (и, следовательно, работающие с одним и тем же драйвером), используют различные млад шие номера для доступа к драйверу. Это позволяет драйверу обеспечивать обработку нескольких сетевых соединений, для каждого из которых под держиваются собственные структуры данных. Если процессу необходимо установить сетевую связь, ему безразлично, какой младший номер будет у драйвера, главное, чтобы он еще не использовался.

Рис. 5.5. Доступ к устройству через различные специальные файлы www.books-shop.com Драйверы устройств Возможным сценарием доступа к такому устройству может являться пере бор различных младших номеров (соответствующих специальных файлов), пока операция open не завершится успешно. Это будет гарантировать, что процесс получил в свое распоряжение отдельное логическое устройст во. Другой сценарий возлагает всю работу по поиску неиспользуемого младшего номера устройства на специальные драйверы, получившие на звания Когда процесс открывает специальный файл устройства, происходит ини циализация соответствующего snode и вызов функции реа лизованной в файловой системе specfs, о которой только что говорилось.

Эта функция, в свою очередь, вызывает функцию драйвера ххореп пе редавая ей в качестве аргумента указатель на номера устройства, сохра ненного в поле s_dev snode. Одной из схем реализации клонов является использование зарезервированного младшего номера. Когда процесс от крывает специальный файл устройства с этим номером, функция ххореп выбирает неиспользуемый младший номер и соответственно модифицирует данные snode (с помощью указателя на vnode, передавае мые ей Поскольку доступ процесса к драйверу осуществля ется через vnode файловой системы specfs, все последующие операции бу дут использовать новый младший номер. Таким образом, процесс получит доступ к новому логическому устройству. Эта схема приведена на рис. 5.6.

Рис. 5.6. Создание клонов с помощью зарезервированного младшего номера Clone (англ.) Ч размножаться.

www.books-shop.com 338 5.

ввода/вывода Другой подход заключается в использовании специального драйвера, обес печивающего создание клонов, Ч драйвера клонов (clone driver). При этом все драйверы, чье "размножение" обеспечивается таким образом, имеют один и тот же старший номер, адресующий драйвер клонов. Младший но мер адресует собственно драйвер, т. е. представляет собой старший номер реального устройства, для которого создается клон. Примеры использова ния такой схемы можно обнаружить для драйверов системы STREAMS, с помощью которых часто реализуются сетевые протоколы и терминальный доступ, включая псевдотерминалы. Это можно заметить, рассмотрев под робный список файлов, отвечающих за эти устройства:

$ 1 root sys 11, 44 Oct 31 16:36 arp 1 root 11, 5 Oct 31 16: crw rw 1 root sys 11, 3 Nov 3 ip crw 1 root sys 11, 40 Nov 3 crw rw rw 1 root sys 11, 42 Oct 31 16:36 tcp 1 root sys 11, 41 Nov 3 В данном случае старший номер всех драйверов равен 11 Ч это драйвер клонов. Если проанализировать информацию файла, скажем, tcp, To станет понятно, что старший номер драйвера этого протокола равен 42, для фай ла tcp он представлен младшим номером устройства. Когда процесс от крывает этот файл, производится вызов функции clopen() драйвера кло нов, которой передаются номера устройства. Функция clopen() исполь зует младший номер для поиска требуемых точек входа драйвера TCP в коммутаторе устройств cdevswf[] После этого clopen () вызывает про цедуру хxореn() драйвера, в данном случае tcpopen(), передавая ей ука затель на номера устройства и флаг CLONEOPEN. В ответ на это tcpopen() генерирует неиспользуемый младший номер, создает отдельный логиче ский драйвер (т. е. копирует необходимые структуры данных) и соответст вующим образом модифицирует поле индексного дескриптора файловой системы specfs. Таким образом, для получения уникального TCP соединения процессу нет необходимости самостоятельно производить поиск неиспользуемого младшего номера.

Встраивание драйверов в ядро Драйвер устройства является частью кода ядра операционной системы и обеспечивает взаимодействие других подсистем UNIX с физическими или псевдоустройствами. Существует два основных метода встраивания кода и данных драйвера в ядро операционной системы: перекомпиляция ядра, позволяющая статически поместить драйвер, и динамическая загрузка драйвера в ядро в процессе работы системы.

www.books-shop.com устройств Традиционно для встраивания драйвера в ядро UNIX требуется переком пиляция ядра и перезапуск системы. Принципиально эта процедура не отличается от компиляции обычной программы, все компоненты ядра яв ляются объектными модулями и редактор связей объединяет их с объект ным модулем драйвера для получения исполняемого файла. В этом случае драйвер встраивается в ядро статически, т. е. независимо от фактического наличия устройства и ряда других причин, код и данные драйвера будут присутствовать в ядре UNIX до следующей перекомпиляции.

Однако тенденция развития современных версий операционной системы UNIX заключается в предоставлении возможности динамического расши рения функциональности ядра. Это, в частности, относится к файловой системе, драйверам устройств и сетевым протоколам (точнее, драйверам подсистемы STREAMS). Возможность работы с новыми периферийными устройствами без необходимости перекомпиляции ядра обеспечивается загружаемыми драйверами. Вместо того чтобы встраивать модуль драйвера, основываясь на статических таблицах и интерфейсах, ядро содержит набор функций, позволяющих загрузить необходимые драйверы и, соответствен но, выгрузить их, когда необходимость работы с данным устройством от падает. При этом структуры данных для доступа к драйверам устройств также являются динамическими.

Динамическая установка драйвера в ядро операционной системы требует выполнения следующих операций:

Размещение и динамическое связывание символов драйвера. Эта операция аналогична загрузке динамических библиотек, и выполня ется специальным загрузчиком.

Инициализация драйвера и устройства.

Добавление точек входа драйвера в соответствующий коммутатор устройств.

П Установка обработчика прерываний драйвера.

Естественно, код динамически загружаемых драйверов сложнее, и содер жит, помимо стандартных точек входа, ряд функций, отвечающих за за грузку и выгрузку драйвера, а также ряд дополнительных структур. При мер дополнительных функций и структур данных, которые должны быть определены в динамически загружаемом драйвере операционной системы Solaris 2.5, приведен в табл. 5.2.

Таблица 5.2. Дополнительные функции и структуры данных для загружаемых драйверов Функция инициализации и установки, вызываемая при за грузке драйвера Функция, вызываемая перед выгрузкой драйвера, удаляю щая его из системы piracy@books-shop.com 340 Глава 5.

Таблица 5.2 (продолжение) _inf о Функция, возвращающая информацию о драйвере по за просу ядра struct Структура, используемая функциями и _inf о при загрузке, выгрузке и получении информации о драйвере struct Структура, экспортируемая ядру при загрузке драйвера, в частности, содержит адреса точек входа в драйвер Помимо этого Solaris 2.5 предоставляет ряд функций ядра для работы с дина мически загружаемыми драйверами: mod_remove (9F) и mod.

Блочные устройства Драйверы блочных устройств предназначены для обслуживания перифе рийного оборудования, обеспечивающего обмен данными с помощью фрагментов фиксированной длины, называемыми блоками, размер которых значительно превышает один байт. В основном эти драйверы используют ся файловой подсистемой и подсистемой управления памятью. Например, свопинг характеризуется обменом данными с устройством вторичной па мяти, размер которых обычно равен размеру страницы, что составляет 4 или 8 Кбайт. Файловая подсистема производит чтение и запись данных фрагментами, размер которых равен одному или нескольким блокам уст ройства. Типичными представителями блочных устройств являются жест кий и гибкий диски.

Блочные устройства можно разделить на два типа в зависимости от того, используются ли они для хранения файловой системы или нет. Соответст венно различается и схема доступа к этим устройствам. В последнем слу чае доступ к устройству осуществляется только через специальный файл устройства, представляющий интерфейс низкого уровня. Хотя обращение к устройствам, содержащим файловые системы, может также осуществ ляться через интерфейс низкого уровня, доступ к таким устройствам, как правило, осуществляется процессом косвенно, через запросы к файловой системе. Например, чтение или запись обычного файла вызывает опера ции с драйвером блочного устройства (жесткого диска), на котором распо ложена файловая система, хранящая данный файл. В этом случае обмен данными происходит при активном участии буферного кэша, позволяю щего минимизировать число обращений непосредственно к физическому устройству.

www.books-shop.com Блочные Вообще говоря, операции ввода/вывода для блочного устройства могут быть вызваны рядом событий:

Чтением или записью в обычный файл.

О Чтением или записью непосредственно в специальный файл устройства.

Операциями подсистемы управления памятью: страничным замеще нием или свопингом.

Доступ к блочным устройствам осуществляется с помощью трех основных точек входа: и При этом за факти ческое выполнение ввода/вывода отвечает xxstrategy ( ). Единственным аргументом, передаваемым этой функции, является указатель на структуру buf, представляющую собой заголовок буфера обмена, с которой мы уже встречались в предыдущей главе при разговоре о буферном кэше. Структу ра buf содержит всю необходимую для операций ввода/вывода информа цию. Основные поля структуры buf:

Флаги. Определяют состояние буфера (например, или B_DONE) и направление передачи данных B_PHYS) Указатели двухсвязного рабочего списка буферов, ожидаю щих обработки драйвером Размер буфера. Виртуальный адрес буфера Номер блока начала данных на устройстве Число байтов, которые требуется передать Старший и младший номера устройства Использование заголовка buf при передачи блока данных показано на рис. 5.7.

Ядро адресует дисковый блок, указывая vnode и смещение. Если доступ осуществляется к специальному файлу устройства, то смещение является физическим, отсчитываемым от начала устройства. Например, если специ альный файл устройства обеспечивает доступ ко второму разделу жесткого диска, то смещение будет отсчитываться от начала этого раздела. Если vnode представляет обычный файл, то смещение является логическим, отсчитываемым от начала файла.

Таким образом, блок устройства, содержащего файловую систему, может быть адресован двумя способами Ч либо через обычный файл и логиче ское смещение, либо через специальный файл устройства и физическое смещение на этом устройстве. Это, в свою очередь, может привести к раз личной идентификации одного и того же блока и, как следствие, двум различным копиям блока в памяти. Результатом такого несоответствия может стать потеря или нарушение целостности данных. Поэтому непо средственный доступ к специальному файлу такого устройства возможен только при размонтированной файловой системе.

www.books-shop.com 342 Глава 5.

Рис. 5.7. Обмен данными с блочным устройством (диском) Поскольку каждый дисковый блок связан с каким либо файлом и соответ ственно с его vnode, а его образ в памяти Ч с физическими страницами, которые также связаны с vnode (через структуры описания физической памяти Ч page в SVR4, pfdat в SVR3), все операции ввода/вывода связа ны с подкачкой и сохранением страниц и идентифицируются vnode.

Символьные устройства Символьные устройства представляют собой значительную часть перифе рийного оборудования системы, включая терминалы, манипуляторы (например, мышь), клавиатуру и локальные принтеры. Основное отличие этих устройств от блочных заключается в том, что они, как правило, пере дают небольшие объемы данных.

Обмен данными с символьными устройствами происходит непосредствен но через драйвер, минуя буферный кэш. При этом данные обычно копи www.books-shop.com Символьные в драйвер из адресного пространства процесса, запросившего опе рацию ввода/вывода.

Если процесс сделал системный вызов ввода/вывода, например, или со специальным файлом символьного устройства, запрос на правляется в файловую подсистему. Поскольку доступ к устройству обслу живается файловой системой specfs, рассмотренной ранее, в ответ на вы полнение системного вызова процесса ядро выполняет вызов функции или соответственно для или Действия функций и похожи. Обе проверяют тип vnode и определяют, что устройство является символьным. После этого с помощью коммутатора ядро выбирает соответствующую точку вхо да драйвера, используя старший номер, хранящийся в поле v_rdev vnode, и вызывает эту функцию (соответственно или пе редавая ей в качестве параметров старший и младший номера, ряд допол нительных параметров, зависящих от конкретного вызова, а также явно или неявно адресует область копирования данных в адресном пространст ве Интерфейс доступа низкого уровня Символьные драйверы обеспечивают доступ не только к символьным уст ройствам, например, к адаптеру последовательного или параллельного портов, манипулятору "мышь", монитору или терминалам. Часть символь ных драйверов служит в качестве интерфейса доступа низкого уровня к блочным устройствам, таким как диски или накопители на магнитных лентах.

Большинство таких драйверов отличаются от соответствующих им драйве ров блочных устройств характером выполнения операций ввода/вывода. В то время как драйверы блочных устройств производят обмен данными с буферным кэшем, драйверы доступа низкого уровня обеспечивают обмен данных непосредственно с адресным пространством процесса. Отсутствие посредника в виде буферного кэша устраняет необходимость в соверше нии дополнительных операций копирования (драйвер Ч буферный кэш Ч буфер процесса), но в то же время лишает процесс услуг кэширования данных, предоставляемых операционной системой.

Интерфейс доступа низкого уровня используется многими системными утилитами обслуживания файловой системы, например, а также рядом приложений, работающих с накопителями на магнитной ленте, на пример или Этот интерфейс используется некоторыми Несколько иная схема применяется для драйверов подсистемы STREAMS, которые также имеют интерфейс доступа. Эти драйверы будут в данной главе в "Подсистема STREAMS".

www.books-shop.com 344 Глава 5.

ложениями, например СУБД, которые самостоятельно обеспечивают оп тимизированные механизмы кэширования данных на уровне задачи.

Поскольку драйверы низкого уровня не используют буферный кэш, они самостоятельно обеспечивают необходимые буферы для совершения опе рации ввода/вывода. На рис. 5.8 показаны отличия в характере выполнения операции ввода/вывода с блочными устройствами в случаях, когда запрос формируется при участии буферного кэша (драйверы блочных устройств), и когда манипуляция буфером производится драйвером самостоятельно (драйверы низкого уровня).

Интерфейс системных вызовов Рис. 5.8. Различ ные типы доступа к блочным устрой ствам Буферизация Очевидно, что побайтная передача данных между драйвером символьного устройства и прикладным процессом весьма неэффективна. При таком режиме работы байт должен быть сначала скопирован в адресное про www.books-shop.com Символьные странство драйвера, затем некоторое время должно пройти, прежде чем драйвер сможет передать этот символ физическому устройству. Если при этом устройство оказывается занятым, процесс должен ожидать заверше ния предыдущей операции, что, скорее всего, вынудит его перейти в со стояние сна и приведет к переключению контекста.

Существует несколько способов преодолеть данную ситуацию, но все они предполагают обеспечение некоторой буферизации данных драйвером уст ройства. Первый способ заключается в использовании прерываний, когда при поступлении на устройство следующего символа, генерируется аппарат ное прерывание, которое обрабатывается функцией xxintr драйвера не зависимо от функции xxwrite Функция обработки прерывания записы вает данные в буфер, которые затем считываются функцией xxwrite Если устройство не поддерживает прерываний, их поступление можно сэмулировать с помощью функции xxpoll драйвера устройства, которая вызывается ядром через определенные промежутки времени (обычно каж дый сигнал таймера). Обычно функция в свою очередь, вызы вает функцию xxintr (), скажем, на каждый десятый сигнал таймера, обеспечивая тем самым независимое считывание и буферизацию данных.

Буферизация данных для символьных устройств осуществляется с помо щью специальных структур данных, называемых Каждая структура имеет следующие поля:

struct cblock struct cblock Поле с_сс содержит число символов в буфере cblock. Поля и указывают, соответственно, на первый и последний элементы cblock, организованные в виде связанного списка и фактически обеспечивающие буферы хранения данных. Каждая структура cblock может хранить не сколько символов. Когда буфер хранения заполняется, ядро автоматически выделяет новую структуру cblock и помещает ее в связанный список. По ля структуры cblock и их использование приведены на рис. 5.9.

64 символа 5.9. данных с помощью clist www.books-shop.com Глава 5.

Пример буферизации с использованием структуры в драйвере тер минала показан на рис. 5.10.

Рис. 5.10. Пример использования буферов clist в драйвере терминала Архитектура терминального доступа Алфавитно цифровой терминал Ч последовательное устройство, и опера ционная система производит обмен данными с терминалом через последо вательный интерфейс, называемый терминальной линией. С каждой терми нальной линией в UNIX ассоциирован специальный файл символьного устройства Терминальные драйверы выполняют ту же функцию, что и остальные драйверы: управление передачей данных от/на терминалы. Однако терми В зависимости от версии UNIX вместо символов хх в имени файла терминала присутству ет идентификатор, позволяющий поставить в соответствии специальному файлу конкрет ную линию. Например, в SCO UNIX виртуальные экраны системного мо нитора имеют имена /dev/tty02 и т. д.

Pages:     | 1 |   ...   | 3 | 4 | 5 | 6 | 7 |   ...   | 8 |    Книги, научные публикации