23,77 14,97 2,20 3,42 2,49 1,75
---------------------------------------------------------------------------
среднее знач. 23,62 15,95 2,16 3,81 2,36 1,92
отклонение 0,020 0,477 0,08 0,45 0,27 0,26
---------------------------------------------------------------------------
Отчетливо видно, что наименьшими отклонениями обладают
параметры 3 и 2, а именно - 0,016 и 0,023 для Тургенева и 0,020 и
0,08 для Толстого. Но параметр 2 не может служить авторским
инвариантом, так как его значения для подавляющего большинства
разных авторов из нашего списка чрезвычайно близки. Например,
2,17 для Тургенева и 2,16 для Толстого. Поэтому с точки зрения
параметра 2 все писатели "сливаются в одного", что не позволяет
их различать.
Параметр 3 - частота служебных слов - оказывается не только
инвариантом, но и различает достаточное число авторов. Например,
для Тургенева он равен 22,24, а для Толстого 23,62. Разность
равна 1,38, что превышает колебания этого параметра внутри
произведений Тургенева и Толстого.
Для изученных нами писателей параметр 3 может принимать
значения от 19,4 процентов до 27,5 процентов, т.е. диапазон его
значений достаточно велик по сравнению с колебаниями параметра
внутри текстов отдельных авторов.
Приведем теперь таблицу значений параметров 3,7 и 8 для
Гоголя, Герцена, Достоевского, Леонова и Фадеева.
---------------------------------------------------------------------------
параметры: ! 3 ! 7 ! 8 ! параметры: ! 3 ! 7 ! 8 !
---------------------------------------------------------------------------
ГОГОЛЬ 23,82 2,25 2,10 ! ГЕРЦЕН 22,42 2,87 2,03
23,54 2,29 1,86 ! 22,87 3,10 2,04
23,61 2,61 1,82 ! 22,98 2,64 1,92
23,62 2,75 1,90 !
23,85 2,10 2,50 !
---------------------------------------------------------------------------
сред.знач. 23,65 2,45 1,95 ! сред.знач. 22,71 2,91 2,01
отклонение 0,013 0,027 0,35 ! отклонение 0,024 0,16 0,06
---------------------------------------------------------------------------
параметры: ! 3 ! 7 ! 8 ! параметры: ! 3 ! 7 ! 8 !
---------------------------------------------------------------------------
ДОСТОЕВ- 25,26 2,23 1,70 ! ЛЕОНОВ 23,11 2,97 1,81
СКИЙ 25,43 2,48 2,21 ! 23,04 2,58 2,00
25,29 2,13 2,14 !
---------------------------------------------------------------------------
сред.знач. 25,32 2,38 2,02 ! сред.знач. 23,06 2,83 1,90
отклонение 0,007 0,15 0,25 ! отклонение 0,003 0,14 0,10
---------------------------------------------------------------------------
параметры: ! 3 ! 7 ! 8 ! параметры: ! 3 ! 7 ! 8 !
---------------------------------------------------------------------------
ФАДЕЕВ 23,40 2,54 1,78 !
23,43 2,72 1,99 !
---------------------------------------------------------------------------
сред.знач. 23,40 2,62 1,89 !
отклонение 0,002 0,07 0,11 !
---------------------------------------------------------------------------
Приведем таблицу значений параметров 3,1,2,9 для Гончарова и
Лескова.
---------------------------------------------------------------------------
параметры: ! 3 ! 1 ! 2 ! 9 !
---------------------------------------------------------------------------
ГОНЧАРОВ 25,13 11,67 2,09 2,92
24,88 13,16 2,03 3,31
24,98 13,72 2,06 3,68
25,47 15,05 2,10 3,58
---------------------------------------------------------------------------
сред.значение 25,06 13,41 2,06 3,37
отклонение 0,019 0,25 0,03 0,26
---------------------------------------------------------------------------
параметры: ! 3 ! 1 ! 2 ! 9 !
---------------------------------------------------------------------------
ЛЕСКОВ 26,08 15,65 2,05 3,99
25,83 18,11 2,16 4,69
26,18 15,40 2,11 4,02
---------------------------------------------------------------------------
сред.значение 26,01 16,58 2,11 4,28
отклонение 0,010 0,16 0,05 0,163
---------------------------------------------------------------------------
Высокой стабильностью характеризуются значения параметра 3
для А.М.Горького: 22,02, 22,21, 22,20, 22,17 и т.д. Среднее
значение 22,15, а отклонение 0,009.
Кстати, значения всех перечисленных параметров вычислялись с
точностью до ТРЕХ десятичных знаков. В таблицах значения
округлены до двух десятичных знаков. Три знака оставлены только
для отклонений параметра 3 от среднего значения.
Поскольку параметр 3 - процентное содержание всех служебных
слов - выделяется среди остальных параметров своей поразительной
СТАБИЛЬНОСТЬЮ И РАЗЛИЧАЮЩЕЙ СПОСОБНОСТЬЮ, то интересно специально
проследить за его колебаниями в зависимости от объема выборки.
Приведем таблицу, показывающую зависимость величины отклонения от
среднего значения при разных выборках.
---------------------------------------------------------------------------
Писатели ! Процент ! Величина отклонения этого параметра
! служебных ! от его среднего значения при
! слов ! следующих объемах выборок:
! !-------------------------------------
! ! 2000 ! 4000 ! 8000 ! 16000
---------------------------------------------------------------------------
ЧУЛКОВ..............22,15......0,064....0,004......-........-
НОВИКОВ.............23,57......0,136....0,019......-........-
ФОНВИЗИН............23,62......0,069....0,013....0,001......-
РАДИЩЕВ.............22,30......0,054....0,018......-........-
КАРАМЗИН............19,44......0,051....0,014....0,003......-
КРЫЛОВ..............23,67......0,040....0,013......-........-
ГОГОЛЬ..............23,65......0,169....0,066....0,019....0,013
ГЕРЦЕН..............22,71......0,165....0,109....0,025....0,024
ГОНЧАРОВ............25,06......0,229....0,116....0,046....0,019
ТУРГЕНЕВ............22,24......0,126....0,069....0,040....0,016
МЕЛЬНИКОВ-ПЕЧЕРСКИЙ.24,49......0,240....0,062....0,005......-
ДОСТОЕВСКИЙ.........25,32......0,203....0,098....0,030....0,007
САЛТЫКОВ-ЩЕДРИН.....24,56......0,173....0,042....0,016......-
ЛЕСКОВ..............26,01......0,132....0,057....0,017....0,010
ТОЛСТОЙ Л.Н. .......23,62......0,199....0,103....0,036....0,020
ГОРЬКИЙ.............22,15......0,201....0,109....0,020....0,009
БУНИН...............24,64......0,143....0,027....0,013......-
НОВИКОВ-ПРИБОЙ......21,10......0,129....0,090....0,049......-
ФЕДИН...............21,20......0,151....0,064....0,028....0,019
ЛЕОНОВ..............23,08......0,147....0,049....0,014....0,003
ШИШКОВ..............20,60......0,152....0,115....0,019......-
ФАДЕЕВ..............23,40......0,184....0,111....0,018....0,002
---------------------------------------------------------------------------
Как видно из таблицы, стабилизация параметра 3 иногда
наступает на объемах выборок, меньших чем 16000. Особенно это
относится к писателям XVIII века. Например, для Карамзина
стабилизация авторского инварианта наступает при объеме в 8000
слов, для Фонвизина - также 8000 слов. Вероятно, это указывает на
несколько большую устойчивость стиля писателей XVIII века по
сравнению с их коллегами в XIX и XX веках.
Подмеченное нами обстоятельство - ранняя стабилизация -
показывает, что в некоторых случаях авторским инвариантом
(процент служебных слов) можно пользоваться и при изучении
текстов небольших объемов. Однако при широких исследованиях
необходимо все-таки пользоваться выборками в 16000 слов,
поскольку только для них стабилизация параметра 3 наступает
ОДНОВРЕМЕННО для всех исследованных авторов.
После обнаружения авторского инварианта для перечисленных 22
писателей, рамки эксперимента были расширены и аналогичные
подсчеты были проведены еще для пяти авторов: А.Н.ОСТРОВСКОГО,
А.К.ТОЛСТОГО, В.А.ЖУКОВСКОГО, А.С.ПУШКИНА и А.П.ЧЕХОВА. Были
отобраны ПРОЗАИЧЕСКИЕ тексты БОЛЬШОГО объема. Расширенный
эксперимент полностью подтвердил высокую стабильность параметра 3
при выборках в 16000 слов и его способность различать разные
группы авторов. Таким образом, полный список писателей, для
которых параметр 3 оказался устойчивым и различающим авторским
инвариантом, расширился с 22 до 27.
10. КАК МОЖНО ПРИМЕНЯТЬ ОБНАРУЖЕННЫЙ АВТОРСКИЙ ИНВАРИАНТ?
Одно из возможных применений обнаруженного авторского
инварианта - это распознавания плагиата, установления возможного
авторства и т.п. Можно предложить следующую естественную
методику. Если для двух исследуемых произведений значения
параметра 3 (процент служебных слов) разнятся больше, чем на
единицу, то есть основания заподозрить различное авторство
сравниваемых текстов. Чем больше разница в значениях инварианта,
тем подозрение серьезнее.
С другой стороны (как и в проблеме установления отцовства)
близкие значения инварианта отнюдь не означают, что исследуемые
произведения написаны одним автором. Как мы отмечали, встречаются
разные писатели с близкими значениями инварианта. Например,
Леонов и Фадеев, у которых эти числа равны соответственно 23,08 и
23,40.
Кроме того, применять методику распознавания авторов к
текстам МАЛОГО объема следует чрезвычайно осторожно. Возникающие
здесь трудности можно проиллюстрировать на примере крупных и
мелких произведений А.П.Чехова. Параметр 3 (процент служебных
слов) был просчитан вдоль всех его произведений в собрании
сочинений 1960-1964 гг., Москва. Оказалось, что параметр 3 ведет
себя следующим образом:
---------------------------------------------------------------------------
! мелкие рассказы ! большие тексты
---------------------------------------------------------------------------
номер тома ! I ! II ! III ! IV ! V ! VI ! VII ! VIII
---------------------------------------------------------------------------
процент слу- 22,6 22,5 23,4 22,7 23,4 25,4 25,5 25,4
жебных слов
---------------------------------------------------------------------------
Разница между значениями параметра 3 для ранних МЕЛКИХ
рассказов Чехова (I-V тома) и для более КРУПНЫХ повестей и
рассказов позднего периода его творчества (VI-VIII тома) -
достаточно ощутима (рис.8). Причем в ранних МЕЛКИХ рассказах не
только МЕНЬШЕ служебных слов, но главное заключается в том, что
разброс их больше, чем в последующих КРУПНЫХ произведениях.
БОЛЬШИЕ (поздние) тексты Чехова характеризуются ВЫСОКОЙ
СТАБИЛЬНОСТЬЮ авторского инварианта, как впрочем и для всех
других 26 авторов БОЛЬШИХ текстов из нашего списка. В этом смысле
Чехов не выделяется на их фоне - параметр 3 прекрасно
"обслуживает" все его БОЛЬШИЕ сочинения.
В заключение отметим еще одно интересное обстоятельство.
Оказалось, что процент служебных слов наиболее стабилен (при
величине порций в 8000 и 16000 слов) на ПРОЗАИЧЕСКИХ
произведениях и менее устойчив на ПОЭТИЧЕСКИХ текстах. Этот
вопрос заслуживает отдельного рассмотрения и здесь мы не будем на
нем останавливаться.
Обнаружение авторского инварианта в русском литературном
языке делает весьма правдоподобным гипотезу о существовании
аналогичных авторских инвариантов и в других языках. Они могут,
конечно, отличаться от процента служебных слов. Особый интерес