исходной короткой колоде, то среди множества экземпляров их
прообраза А, разбросанных при тасовании по колоде К и как-то
искаженных при этом, должны встретиться и такие экземпляры,
которые содержат как карты, попавшие из А в А, так и карты,
1
попавшие в А (на рис. 19 такой экземпляр А обведен кружком).
2
Следовательно, в том случае, когда А и А -- дубликаты,
1 2
вероятность встреч карт из А и А где-нибудь в колоде К, БОЛЬШЕ,
1 2
чем аналогичная вероятность в случае, когда А и А дубликатами
1 2
не являются (естественно, имеются в виду не сами экземпляры карт
из А и А, а такие же карты).
1 2
В самом деле, в первом случае действует описанный механизм,
объединяющий карты из А и А в колоде К, а во втором -- это
1 2
объединение может произойти лишь чисто случайным образом.
Приведенные соображения позволяют предложить методику,
разделяющую всевозможные пары отрезков А и А колоды К на два
1 2
множества: множество пар-дубликатов (в статистическом смысле) и
множество ``независимых'' пар.
Эта методика требует значительного объема вычислений на ЭВМ.
При применении к хронологическим спискам имен ее результатом
является так называемая МАТРИЦА СВЯЗЕЙ списка, дающая его
разложение на систему дублирующих друг друга ``слоев''. Методика
была впервые предложена авторами в [11-13]. Подробное изложение
метода см. в главе 3.
p3'2'1
Глава 2. ОПРЕДЕЛЕНИЕ СДВИГОВ В ХРОНОЛОГИИ ПО ГИСТОГРАММАМ
ЧАСТОТ РАЗНЕСЕНИЙ СВЯЗАННЫХ ИМЕН
1. ОСНОВНЫЕ ОПРЕДЕЛЕНИЯ
1. 1. БОЛЬШАЯ КОЛОДА КАРТ И СОСТАВЛЯЮЩИЕ ЕЕ МАЛЫЕ КОЛОДЫ
Вернемся к модельной задаче о колодах карт (уже описанной в
предыдущем параграфе), в терминах которой будут сформулированы
необходимые определения.
Предположим, что в нашем распоряжении имеется некоторая
последовательность карт К (колода карт), которая может содержать
ПОВТОРЯЮЩИЕСЯ КАРТЫ. Будем говорить, что колода К СОДЕРЖИТ
ДУБЛИКАТЫ, если она получена из нескольких одинаковых по составу
и порядку более коротких колод карт Х (также содержащих,
возможно, повторяющиеся карты), которые были сложены подряд в
одну общую колоду ХХ... Х, а затем получившаяся таким образом
БОЛЬШАЯ КОЛОДА БЫЛА ПЕРЕТАСОВАНА.
Мы допускаем, что перед тасованием каждый экземпляр исходной
колоды Х был как-то ИСКАЖЕН. Под ИСКАЖЕНИЯМИ будем понимать
случайное исключение, дублирование или замену отдельной карты или
же последовательности подряд стоящих карт. Предположим однако,
что локальные искажения в различных частях каждой из исходных
колод НЕЗАВИСИМЫ друг от друга.
Если же исследуемая колода ДУБЛИКАТОВ НЕ СОДЕРЖИТ (то есть
порядок карт в ней не порожден описанным выше механизмом), будем
называть порядок карт в колоде ПРАВИЛЬНЫМ.
1. 2. ФОРМУЛИРОВКА ПРОБЛЕМЫ
Задача состоит в том, чтобы по известной последовательности
карт в колоде К проверить гипотезу Н о том, что порядок карт в К
0
-- ПРАВИЛЬНЫЙ, то есть К не содержит дубликатов. Если гипотеза Н
0
отвергается, то требуется определить ВЕЛИЧИНЫ СДВИГОВ между
экземплярами исходной колоды Х, расположенными в колоде К (и не
до конца разрушенными при тасовании -- см. рис. 17).
Для решения этой задачи сформулируем следствие гипотезы Н,
0
допускающее проверку методами математической статистики.
1. 3. РАЗБИЕНИЕ БОЛЬШОЙ КОЛОДЫ
Пусть общее число карт в колоде К равно n и из них
m различных. Разобъем колоду К на отрезки ОДИНАКОВОЙ ДЛИНЫ:
К = ( К, К,..., К ),
1 2 N
где через N обозначено общее количество отрезков разбиения.
Пусть каждый из этих отрезков содержит p карт. Разбиение
выберем так, чтобы число карт в отрезке разбиения было
существенно меньше общего числа карт в колоде К:
p \а<\А n.
1. 4. РАЗНЕСЕНИЕ ПАРЫ КАРТ КАК СЛУЧАЙНАЯ ВЕЛИЧИНА
Рассмотрим конечную вероятностную схему равновероятного
выбора с возвращением двух карт из колоды К. Это значит, что
происходит случайный равновероятный выбор карты в колоде К, эта
карта запоминается и возвращается в колоду.
Затем также равновероятно выбирается вторая карта.
Результатом выбора является (случайный) протокол, в котором
записаны порядковые номера в колоде обеих выбранных карт k, k в
1 2
порядке их выбора.
Определим случайную величину \Вз\А, которую мы назовем
РАЗНЕСЕНИЕМ выбранной пары карт. Пусть i и i -- порядковые
1 2
номера отрезков колоды К, в которых содержатся выбранные карты
k и k. По определению положим:
1 2
\Вз\А = |i -- i |.
1 2
Таким образом, РАЗНЕСЕНИЕ \Вз\А -- ЭТО АБСОЛЮТНАЯ ВЕЛИЧИНА
РАЗНОСТИ НОМЕРОВ ОТРЕЗКОВ РАЗБИЕНИЯ, СОДЕРЖАЩИХ ВЫБРАННЫЕ КАРТЫ.
1. 5. ЛОКАЛЬНОЕ ИСКАЖЕНИЕ ЛЕТОПИСИ -- КОЛОДЫ КАРТ
Пусть А -- некоторое событие, определяемое заданной
структурой колоды К (то есть порядком карт в ней и ее разбиением на
отрезки) и выбранной парой карт. Событие А назовем ЛОКАЛЬНЫМ
СОБЫТИЕМ (локальным условием), если наступление этого события
может быть обеспечено заменой карт в одном из отрезков разбиения
колоды К (заменой, возможно зависящей от случая). Другими
словами, локальное событие -- это такое событие, которое может
быть обусловлено ЛОКАЛЬНЫМ ИСКАЖЕНИЕМ колоды К.
МАТЕМАТИЧЕСКИЙ ПРИМЕР. Событие А, состоящее в том, что в
0
некотором отрезке разбиения содержатся карты сразу обоих
выбранных видов является ЛОКАЛЬНЫМ СОБЫТИЕМ. В самом деле,
изменив две карты, скажем, в первом отрезке разбиения так, чтобы
в нем оказались такие же карты, как и выбранные, мы обеспечим
наступление события А.
0
Если же говорить об исторических хрониках, МОДЕЛЬЮ КОТОРЫХ
является колода карт К, то содержательный смысл понятия
``локальное событие'' состоит в следующем. Такие события, с одной
стороны, могут возникать в итоге сознательных действий хрониста
или переписчика, а с другой стороны, для их возникновения не
требуется переделки всего текста хроники.
Скажем, в примере с событием А хронист, включивший в
0
какое-то место хроники имена двух персонажей, сделал это на
основании своих вполне осознанных представлений о том, что они
жили одновременно (или имели сходную судьбу и т. п.) и ему для
этого не надо было перекраивать заново весь текст хроники.
В отличие от этого, ГЛОБАЛЬНЫЕ характеристики распределения
имен в длинных исторических хрониках, мало чувствительные к их
локальным искажениям, НЕ МОГЛИ КОНТРОЛИРОВАТЬСЯ ОТДЕЛЬНЫМИ
ХРОНИСТАМИ. Изменение глобальных характеристик могло произойти
лишь на заключительном этапе компиляции (согласования) крупных
хроник и включения их в единую хронологическую шкалу. Поэтому
именно ГЛОБАЛЬНЫЕ характеристики полезны при исследовании
``скрытой'' структуры летописей.
1. 6. ЛОКАЛЬНАЯ СВЯЗЬ КАРТ В ``ПРАВИЛЬНОЙ КОЛОДЕ''
НЕ ВЛИЯЕТ НА ГЛОБАЛЬНОЕ РАСПРЕДЕЛЕНИЕ ТАКИХ ЖЕ КАРТ
6. В основе предлагаемой методики лежит следующее
интуитивно очевидное утверждение о статистических свойствах
ПРАВИЛЬНОГО ПОРЯДКА карт в колоде К.
ГИПОТЕЗА
Если колода К не содержала дубликатов или же ее тасование
было достаточно полным и структура дубликатов (коротких
идентичных друг другу колод) в ней полностью разрушена, то
ЛОКАЛЬНОЕ УСЛОВИЕ, НАЛОЖЕННОЕ НА ПАРУ ВЫБРАННЫХ КАРТ, НЕ МОЖЕТ
ПОВЛИЯТЬ НА ХАРАКТЕР ГЛОБАЛЬНОГО РАСПРЕДЕЛЕНИЯ ТАКИХ ЖЕ КАРТ ВО
ВСЕЙ БОЛЬШОЙ КОЛОДЕ. В частности, локальное условие не должно
влиять и на закон распределения случайной величины \Вз\А вне
некоторой окрестности нуля, определяемой радиусом затухания
взаимной зависимости отрезков разбиения колоды К.
В самом деле, распределение \Вз\А является ГЛОБАЛЬНОЙ
характеристикой порядка карт в целом и мало чувствительно к
хаотичным локальным изменениям этого парядка.
Это значит, что в случае ПРАВИЛЬНОГО порядка карт в К,
условное распределение случайной величины \Вз\А при условии
произвольного локального события А должно СОВПАДАТЬ вне
некоторой окрестности нуля с безусловным распределением \Вз\А.
Иначе говоря, из гипотезы Н вытекает такое следствие:
0
СЛЕДСТВИЕ ГИПОТЕЗЫ H.
0
Пусть А -- некоторое локальное событие, а \Ве\А -- радиус
затухания зависимости между отдельными отрезками разбиения колоды
К. (В качестве единицы измерения этого радиуса возьмем длину
отрезка разбиения. Таким образом \Ве\А -- целое число.) Тогда
распределение P{\Вз\А = x|A, \Вз\А \Д>\А \Ве\А} должно совпадать
с распределением
P{\Вз\А = x|\Вз\А \Д>\А \Ве\А}.
С другой стороны, в случае, когда гипотеза Н неверна и
0
колода К содержит дубликаты, указанные распределения могут
очень сильно разниться на всем интервале возможных значений
случайной величины \Вз\А (0\Д<\Вз\Д<\АN-1).
МАТЕМАТИЧЕСКИЙ ПРИМЕР. Возьмем событие А, определенное выше
0
и предположим, что колода К содержит дубликаты. Тогда для
некоторых отрезков разбиения К, такие же как и в К карты будут
i i
содержаться также в дубликатах даного отрезка. Таким образом,
пары карт, тождественных с некоторыми картами из К, будут
i
распределены по колоде К не совсем произвольно. А именно, они
будут ``собираться'' в дискретно расположенной серии дубликатов
отрезка К.
i
Значит и разнесение этих пар будет особенно часто принимать
значения либо близкие к нулю, либо равные сдвигам между
дубликатами этой серии в колоде К. Поскольку условие А
0
существенно ограничивает выбор пар карт -- рассматриваются лишь
те, которые (сами или тождественные им) хоть раз попали в один и
тот же отрезок разбиения колоды К, -- то описанная ситуация с
дубликатами будет довольно типичной для ограниченного таким
образом множества пар.
Это изменит распределение случайной величины \Вз\А (по сравнению
с ее распределением на множестве всех пар) и заставит ее чаще
принимать те значения, которые характерны для расстояний между
дубликатами в К. Таким образом, условное распределение \Вз\А при
условии А будет существенно отличаться от ее безусловного
0
распределения.
Сформулированное следствие позволяет проверять гипотезу Н в
0
конкретных хрониках. Более того, анализ условных распределений
вида P{\Вз\А = x|A} с различными локальными событиями А дает
возможность определить величины сдвигов между дубликатами в К.
p3'2'2
2. РАЗНЕСЕНИЯ СВЯЗАННЫХ ИМЕН