Кен Арнольд Джеймс Гослинг
Вид материала | Документы |
Содержание8.2. Сравнение строк |
- Джеймс трефил, 41001.36kb.
- Джеймс А. Дискретная математика и комбинаторика [Текст] / Джеймс А. Андерсон, 42.79kb.
- Человеческая способность эти ценности производить и использовать; является важнейшей, 110.76kb.
- Джеймс блиш города в полете 1-4 триумф времени вернись домой, землянин жизнь ради звезд, 10495.38kb.
- Джеймс Н. Фрей. Как написать гениальный роман, 2872.12kb.
- Дп «авто интернешнл» Київ, вул. Урицького, 1а Тел. (044) 20-60-333 Факс. (044) 20-60-343, 82.44kb.
- Тема Кол-во страниц, 26.85kb.
- Тема Кол-во страниц, 56.3kb.
- Тема Кол-во страниц, 20.7kb.
- Арнольд И. В. Стилистика современного английского языка, 20.42kb.
8.2. Сравнение строк
В классе String имеется несколько методов для сравнения строк и их отдельных частей. Тем не менее, перед тем как переходить к конкретным методам, необходимо остановиться на некоторых аспектах, касающихся интернациональных и локализованных строк Unicode, которые не учитываются этими методами. Например, при сравнении двух строк и попытке определить, какая из них “больше”, происходит числовое сравнение символов в соответствии с их значениями в кодировке Unicode, а не их порядком в локализованном представлении. Для француза символы c и з — это одинаковые буквы, отличающиеся между собой лишь маленьким диакритическим значком. Упорядочивая набор строк, француз проигнорирует отличия между ними и поставит “aзa” перед “acz”. Однако с Unicode дело обстоит иначе — в наборе символов Unicode c (\u0063) идет перед з (\u00e7), так что при сортировке эти строки окажутся расположенными в обратном порядке.
Первая операция сравнения, equals, возвращает true, если ей передается ссылка на объект String с тем же содержимым, что и у текущего объекта, — то есть если строки имеют одинаковую длину и состоят в точности из одинаковых символов Unicode. Если другой объект не относится к типу String или же имеет другое содержимое, то String.equals возвращает false.
Чтобы сравнивать строки без учета регистра, используйте метод equals IgnoreCase. Под выражением “без учета регистра” мы имеем в виду, что символы Л и л считаются одинаковыми, но отличающимися от E и e. Символы, для которых понятие регистра не определено (например, знаки пунктуации) считаются равными только себе самим. В Unicode имеется много интересных аспектов, связанных с регистром символов, в том числе и понятие “заглавного регистра” (title case). Работа с регистром в классе String описывается в терминах регистровых методов класса Character в разделе 13.5.
Для проведения сортировки строк нужно иметь возможность сравнивать их между собой. Метод compareTo возвращает значение int, которое меньше, равно либо больше нуля, если строка, для которой он был вызван, соответственно меньше, равна или больше другой строки. При сравнении строк используется кодировка символов в Unicode.
Метод compareTo полезен при создании внутреннего канонического упорядочения строк. Например, при проведении бинарного поиска необходимо иметь отсортированный список элементов, однако при этом не требуется, чтобы порядок сортировки совпадал с порядком символов в локализованном алфавите. Метод бинарного поиска для класса, в котором имеется отсортированный массив строк, выглядит следующим образом:
private String[] table;
public int position(String key) {
int lo = 0;
int hi = table.length - 1;
while (lo <<= hi) {
int mid = lo + (hi - lo) / 2;
int cmp = key.compareTo(table[mid]);
if (cmp == 0) // нашли!
return mid;
else if (cmp << 0) // искать в нижней половине
hi = mid - 1;
else // искать в верхней половине
lo = mid + 1;
}
return -1; //
}
Так выглядит базовый алгоритм бинарного поиска. Сначала он проверяет среднюю точку исследуемого диапазона и сравнивает значение ключа поиска с элементом в данной позиции. Если значения совпадают, то нужный элемент найден, а поиск закончен. Если значение ключа меньше элемента в проверяемой позиции, то дальше поиск будет вестись в нижней половине диапазона; в противном случае элемент необходимо искать в верхней половине диапазона. В результате работы алгоритма либо будет найден нужный элемент, либо нижняя граница диапазона превысит верхнюю — это означает, что ключ отсутствует в списке.
Сравнивать можно не только целые строки, но и их отдельные части. Для этого применяется метод regionMatches в двух формах: в одной происходит точное сравнение символов, как в методе equals, а в другой — сравнение без учета регистра, как в методе equalsIgnoreCase:
public boolean regionMatches(int start, String other, int ostart, int len)
Возвращает true, если указанная подстрока данного объекта String совпадает с указанной подстрокой строки other. Проверка начинается с позиции start в данной строке, и с позиции ostart - в строке other. Сравниваются только первые len символов.
public boolean regionMatches(boolean ignoreCase, int start, String other, int ostart, int len)
Данная версия regionMatches ведет себя точно так же, как и предыдущая, за исключением того, что логическая переменная ignoreCase определяет, следует ли игнорировать регистр символов при сравнении.
Приведем пример:
class RegionMatch {
public static void main(String[] args) {
String str = "Look, look!";
boolean b1, b2, b3;
b1 = str.regionMatches(6, "Look," 0, 4);
b2 = str.regionMatches(true, 6, "Look," 0, 4);
b3 = str.regionMatches(true, 6, "Look," 0, 5);
System.out println("b1 = " + b1);
System.out println("b2 = " + b2);
System.out println("b3 = " + b3);
}
}
Результаты работы будут выглядеть следующим образом:
b1 = false
b2 = true
b3 = false
Результат первого сравнения равен false, потому что в позиции 6 главной строки находится символ ‘l’, а в позиции 0 второй строки — символ ‘L’. Второе сравнение дает true, поскольку регистр не учитывается. Наконец, результат третьего сравнения оказывается равным false, потому что длина сравниваемой подстроки равна 5, а на протяжение этих 5 символов строки отличаются даже без учета регистра.
Простая проверка на совпадение аргумента с началом или концом строки осуществляется с помощью методов startsWith и endsWith:
public boolean startsWith(String prefix, int toffset)
Возвращает true, если строка начинается с подстроки prefix (со смещением toffset).
public boolean startsWith(String prefix)
Сокращение для startsWith(prefix, 0).
public boolean endsWith(String suffix)
Возвращает true, если строка заканчивается подстрокой suffix.
Вообще говоря, строки не могут сравниваться с использованием оператора ==, как показано ниже:
if (str == “ВPeсa?”)
answer(str);
Такая запись не анализирует содержимое двух строк. Она сравнивает только ссылку на один объект (str) со ссылкой на другой объект (неявный строковый объект, представленный константой “ВPeсa?”). Даже если оба объекта-строки имеют одинаковое содержимое, ссылки на них могут различаться.
Тем не менее два любых строковых литерала с одинаковым содержимым будут указывать на один и тот же объект класса String. Например, в следующем фрагменте оператор ==, вероятно, сработает правильно:
String str = "?Pena?";
// ...
if (str == "?Pena?")
answer(str);
Из-за того, что str изначально был присвоен строковый литерал, сравнение этой переменной с другим строковым литералом равносильно проверке этих строк на одинаковое содержание. И все же необходимо соблюдать осторожность — этот трюк сработает лишь в том случае, если вы уверены в происхождении всех ссылок на строковые литералы. Если str изменится и будет указывать на производный объект String — например, на результат ввода пользователем чего-либо, — оператор == вернет значение false, даже если пользователь наберет строку ВPeсa?.