Соответствующая программа очевидна:
i:=1; state:=0;
{i - первая непрочитанная буква, state - состояние}
while (i<> n+1) and (state <> 4) do begin
if state = 0 then begin
if x[i] = a then begin
state:= 1;
end else begin
state:= 0;
end;
end else if state = 1 then begin
if x[i] = b then begin
state:= 2;
end else if x[i] = a then begin
state:= 1;
end else begin
state:= 0;
end;
end else if state = 2 then begin
if x[i] = c then begin
state:= 3;
end else if x[i] = a then begin
state:= 1;
end else begin
state:= 0;
end;
end else if state = 3 then begin
if x[i] = d then begin
state:= 4;
end else if x[i] = a then begin
state:= 1;
end else begin
state:= 0;
end;
end;
end;
answer := (state = 4);
Иными словами, мы в каждый момент храним информацию о том,
какое максимальное начало нашего образца "abcd" является концом
прочитанной части. (Его длина и есть то "состояние", о котором
шла речь.)
Терминология, нами используемая, такова. Слово - это любая
последовательность символов из некоторого фиксированного конеч-
ного множества. Это множество называется алфавитом, его элементы
- буквами. Если отбросить несколько букв с конца слова, останет-
ся другое слово, называемое началом первого. Любое слово также
считается своим началом. Конец слова - то, что останется, если
отбросить несколько первых букв. Любое слово считается своим
концом. Подслово - то, что останется, если отбросить буквы и с
начала, и с конца. (Другими словами, подслова - это концы начал,
или, что то же, начала концов.)
В терминах индуктивных функций (см. раздел 1.3) ситуацию
можно описать так: рассмотрим функцию на словах, которая прини-
мает два значения "истина" и "ложь" и истинна на словах, имеющих
"abcd" своим подсловом. Эта функция не является индуктивной, но
имеет индуктивное расширение
x ->длина максимального начала слова abcd, являющегося концом x
10.2. Повторения в образце - источник проблем.
10.2.1. Можно ли в предыдущих рассуждениях заменить слово
"abcd" на произвольное слово?
Решение. Нет, и проблемы связаны с тем, что в образце могут
быть повторяющиеся буквы. Пусть, например, мы ищем вхождения
слова "ababc". Вот появилась буква "a", за ней идет "b", за ней
идет "a", затем снова "b". В этот момент мы с нетерпением ждем
буквы "c". Однако - к нашему разочарованию - вместо нее появля-
ется другая буква, и наш образец "ababc" не обнаружен. Однако
нас может ожидать утешительный приз: если вместо "c" появилась
буква "a", то не все потеряно: за ней могут последовать буквы
"b" и "c", и образец-таки будет найден.
Вот картинка, поясняющая сказанное:
x y z a b a b a b c .... <- входное слово
a b a b c <- мы ждали образца здесь
a b a b c <- а он оказался здесь
Таким образом, к моменту
|
x y z a b a b | <- входное слово
|
a b a b | c <- мы ждали образца здесь
|
a b | a b c <- а он оказался здесь
|
есть два возможных положения образца, каждое из которых подлежит
проверке. Тем не менее по-прежнему возможен конечный автомат,
читающий входное слово буква за буквой и переходящий из состо-
яния в состояние в зависимости от прочитанных букв.
10.2.2. Указать состояния соответствующего автомата и таб-
лицу перехода (новое состояние в зависимости от старого и чита-
емой буквы).
Решение. По-прежнему состояния будут соответствовать на-
ибольшему началу образца, являющемуся концом прочитанной части
слова. Их будет шесть: 0, 1 ("a"), 2 ("ab"), 3 ("aba"), 4
("abab"), 5 ("ababc"). Таблица перехода:
Текущее Очередная Новое
состояние буква состояние
0 a 1 (a)
0 кроме a 0
1 (a) b 2 (ab)
1 (a) a 1 (a)
1 (a) кроме a,b 0
2 (ab) a 3 (aba)
2 (ab) кроме a 0
3 (aba) b 4 (abab)
3 (aba) a 1 (a)
3 (aba) кроме a,b 0
4 (abab) c 5 (ababc)
4 (abab) a 3 (aba)
4 (abab) кроме a,c 0
Для проверки посмотрим, к примеру, на вторую снизу строку. Если
прочитанная часть кончалась на "abab", а затем появилась буква
"a", то теперь прочитанная часть кончается на "ababa". На-
ибольшее начало образца ("ababc"), которое есть ее конец - это
"aba".
Философский вопрос: мы говорили, что трудность состоит в
том, что есть несколько возможных положений образца, каждое из
которых может оказаться истинным. Им соответствуют несколько на-
чал образца, являющихся концами входного слова. Но конечный ав-
томат помнит лишь самое длинное из них. Как же остальные?
Философский ответ. Дело в том, что самое длинное из них оп-
ределяет все остальные - это его концы, одновременно являющиеся
его началами.
Не составляет труда для любого конкретного образца написать
программу, осуществляющую поиск этого образца описанным спосо-
бом. Однако хотелось бы написать программу, которая ищет произ-
вольный образец в произвольном слове. Это можно делать в два
этапа: сначала по образцу строится таблица переходов конечного
автомата, а затем читается входное слово и состояние преобразу-
ется в соответствии с этой таблицей. Подобный метод часто ис-
пользуется для более сложных задач поиска (см. далее), но для
поиска подслова существует более простой и эффективный алгоритм,
называемый алгоритмом Кнута - Морриса - Пратта. Но прежде нам
понадобятся некоторые вспомогательные утверждения.
10.3. Вспомогательные утверждения
Для произвольного слова X рассмотрим все его начала, однов-
ременно являющиеся его концами, и выберем из них самое длинное.
(Не считая, конечно, самого слова X.) Будем обозначать его n(X).
Примеры: n(aba)=a, n(abab)=ab, n(ababa)=aba, n(abc) = пус-
тое слово.
10.3.1. Доказать, что все слова n(X), n(n(X)), n(n(n(X)))
и т.д. являются началами слова X.
Решение. Каждое из них (согласно определению) является на-
чалом предыдущего.
По той же причине все они являются концами слова X.
10.3.2. Доказать, что последовательность предыдущей задачи
обрывается (на пустом слове).
Решение. Каждое слово короче предыдущего.
Задача. Доказать, что любое слово, одновременно являющееся
началом и концом слова X (кроме самого X) входит в последова-
тельность n(X), n(n(X)),...
Решение. Пусть слово Y есть одновременно начало и конец X.
Слово n(X) - самое длинное из таких слов, так что Y не длиннее
n(X). Оба эти слова являются началами X, поэтому более короткое
из них является началом более длинного: Y есть начало n(X). Ана-
логично, Y есть конец n(X). Рассуждая по индукции, можно предпо-
лагать, что утверждение задачи верно для всех слов короче X, в
частности, для слова n(X). Так что слово Y, являющееся концом и
началом n(X), либо равно n(X), либо входит в последовательность
n(n(X)), n(n(n(X))), ..., что и требовалось доказать.
10.4. Алгоритм Кнута - Морриса - Пратта
Алгоритм Кнута - Морриса - Пратта (КМП) получает на вход
слово
X = x[1]x[2]...x[n]
и просматривает его слева направо буква за буквой, заполняя при
этом массив натуральных чисел l[1]..l[n], так что
l[i] = длина слова n(x[1]...x[i])
(функция n определена в предыдущем пункте). Словами: l[i] есть
длина наибольшего начала слова x[1]..x[i], одновременно являюще-
гося его концом.
10.4.1. Какое отношение все это имеет к поиску подслова?
Другими словами, как использовать алгоритм КМП для определения
того, является ли слово A подсловом слова B?
Решение. Применим алгоритм КМП к слову A#B, где # - специ-
альная буква, не встречающаяся ни в A, ни в B. Слово A является
подсловом слова B тогда и только тогда, когда среди чисел в мас-
сиве l будет число, равное длине слова A.
10.4.2. Описать алгоритм заполнения таблицы l[1]..l[n].
Решение. Предположим, что первые i значений l[1]..l[i] уже
найдены. Мы читаем очередную букву слова (т.е. x[i+1]) и должны
вычислить l[i+1].
1 i i+1
--------------------------------------------------------
| уже прочитанная часть X | |
--------------------------------------------------------
\-----------Z-----------/ \------------Z------------/
Другими словами, нас интересуют начала Z слова x[1]..x[i+1], од-
новременно являющиеся его концами - из них нам надо выбрать са-
мое длинное. Откуда берутся эти начала? Каждое из них получается
из некоторого слова Z' приписыванием буквы x[i+1]. Слово Z' яв-
ляется началом и концом слова x[1]..x[i]. Однако не любое слово,
являющееся началом и концом слова x[1]..x[i], годится - надо,
чтобы за ним следовала буква x[i+1].
Получаем такой рецепт отыскания слова Z. Рассмотрим все на-
чала слова x[1]..x[i], являющиеся одновременно его концами. Из
них выберем подходящие - те, за которыми идет буква x[i+1]. Из
подходящих выберем самое длинное. Приписав в его конец x[i+1],
получим искомое слово Z.
Теперь пора воспользоваться сделанными нами приготовлениями
и вспомнить, что все слова, являющиеся одновременно началами и
концами данного слова, можно получить повторными применениями к
нему функции n из предыдущего раздела. Вот что получается:
i:=1; l[1]:= 0;
{таблица l[1]..l[i] заполнена правильно}
while i <> n do begin
| len := l[i]
| {len - длина начала слова x[1]..x[i], которое является
| его концом; все более длинные начала оказались
| неподходящими}
| while (x[len+1] <> x[i+1]) and (len > 0) do begin
| | {начало оказалось неподходящим, применяем к нему n}
| | len := l[len];
| end;
| {нашли подходящее или убедились в отсутствии}
| if x[len+1] = x[i+1] do begin
| | {x[1]..x[len] - самое длинное подходящее начало}
| | l[i+1] := len+1;
| end else begin
| | {подходящих нет}
| | l[i+1] := 0;
| end;
| i := i+1;
end;
10.4.3. Доказать, что число действий в приведенном только
что алгоритме не превосходит Cn для некоторой константы C.
Решение. Это не вполне очевидно: обработка каждой очередной
буквы может потребовать многих итераций во внутреннем цикле. Од-
нако каждая такая итерация уменьшает len по крайней мере на 1, и
в этом случае l[i+1] окажется заметно меньше l[i]. С другой сто-
роны, при увеличении i на единицу величина l[i] может возрасти
не более чем на 1, так что часто и сильно убывать она не может -
иначе убывание не будет скомпенсировано возрастанием.
Более точно, можно записать неравенство
l[i+1] <= l[i] - (число итераций на i-м шаге) + 1
или
(число итераций на i-м шаге) <= l[i] - l[i+1] + 1
и остается сложить эти неравества по всем i и получить оценку
сверху для общего числа итераций.
10.4.4. Будем использовать этот алгоритм, чтобы выяснить,