В таких случаях мы ограничивались лишь приблизительным разбиением текста на последовательные фрагменты. Пусть летопись X описывает события на достаточно большом интервале времени (А, В), на протяжении которого менялось по крайней мере несколько поколений персонажей. Пусть летопись X разбита на "главы-поколения" Х(Т), где Г – порядковый номер поколения, описанного во фрагменте Х(Т), в той нумерации "глав", которая фиксирована в тексте.
Возникает вопрос: правильно ли занумерованы, упорядочены эти "главы-поколения" в летописи? Или же если эта нумерация утрачена или сомнительна, то как ее восстановить? Другими словами, как правильно расположить во времени "главы" относительно друг друга? Оказывается, для реальных исторических текстов в подавляющем большинстве случаев выполняется следующая "формула"-правило: полное имя = персонаж. Это означает следующее.
Пусть интервал времени, описываемый летописцем, достаточно велик, например составляет несколько десятков или сотен лет. Тогда – как было проверено нами в результате анализа большого набора исторических документов – в подавляющем большинстве случаев разные персонажи имеют в одном и том же тексте разные полные имена. Полное имя может состоять из нескольких слов, например, Карл Плешивый.
Другими словами, число разных лиц с одинаковыми полными именами ничтожно мало по сравнению с количеством всех персонажей. Это верно для всех нескольких сотен исследованных нами исторических текстов, описывающих Рим, Грецию, Германию, Италию, Россию, Англию и т. д. Ничего удивительного в этом нет. В самом деле, летописец заинтересован в различении разных персонажей, чтобы избежать путаницы. Простейший способ добиться этого – присвоить разным лицам разные полные имена. Это простое психологическое обстоятельство и подтверждается подсчетами.
Сформулируем теперь принцип затухания частот, описывающий хронологически правильный порядок "глав-поколений".
При правильной нумерации "глав-поколений" летописец, переходя от описания одного поколения к следующему, сменяет и персонажей. А именно, при описании поколений, предшествующих поколению с номером Q, он ничего не говорит о персонажах этого поколения, так как они еще не родились. Затем, при описании поколения Q, летописец именно здесь больше всего говорит о персонажах этого поколения, поскольку с ними напрямую связаны описываемые им события. Наконец, переходя к описанию последующих поколений, летописец все реже и реже упоминает о прежних персонажах, так как описывает новые события, персонажи которых вытесняют умерших.
Здесь важно подчеркнуть, что мы имеем в виду не какие-то отдельные имена, а полный резервуар всех имен, использовавшихся в поколении с номером Q.
Вкратце наша модель формулируется так. Каждое поколение рождает новые исторические лица. При смене поколений эти лица сменяются.
Несмотря на внешнюю простоту, этот принцип оказался полезен при создании метода датировки. Принцип затухания частот имеет эквивалентную переформулировку. Так как персонажи практически однозначно определяются своими полными именами (имя = персонаж), то мы будем изучать резервуар всех полных имен текста. Термин "полное" будем обычно опускать, постоянно подразумевая его. Более того, оказалось, что подавляющее большинство исторических имен являются "простыми", состоящими из одного слова. Поэтому при обработке больших исторических текстов со значительным запасом имен можно рассматривать лишь "элементарные имена – кирпичи", разбивая редкие полные имена на отдельные составляющие их слова.
Рассмотрим группу всех имен, впервые появившихся в тексте, в "главе-поколении" с номером Q. Условно назовем эти имена Q-именами, а соответствующие им персонажи Q-персонажами. Количество всех упоминаний, с кратностями, всех этих имен в данной "главе" обозначим через K(Q, Q). Подсчитаем затем, сколько раз эти же имена упомянуты в "главе" с номером Т. Получившееся число обозначим через K(Q, 7).
При этом если одно и то же имя повторяется несколько раз, то есть с кратностью, то все эти упоминания подсчитываются. Построим график, отложив по горизонтали номера "глав", а по вертикали – числа K(Q, T), где номер Q фиксирован, а Г меняется. Для каждого Q мы получаем свой график. Принцип затухания частот тогда формулируется так.
При хронологически правильной нумерации "глав-поколений" каждый график К(Q, T) должен иметь следующий вид. Слева от точки Q график равен нулю, в точке Q – абсолютный максимум графика, потом график постепенно падает, более или менее монотонно затухает (рис. 5.12).
Этот график (на рис. 5.12) мы назовем идеальным.
Рис. 5.12
Сформулированный принцип должен быть проверен экспериментально. Если он верен и если "главы" в летописи упорядочены хронологически правильно, то все экспериментальные графики должны быть близки к идеальному. Проведенная экспериментальная проверка полностью подтвердила принцип затухания частот.
Всего нами было обработано несколько десятков больших исторических текстов. Во всех случаях, когда тексты описывают события эпохи XVI-XX веков, принцип затухания частот подтвердился. Отсюда вытекает методика хронологически правильного упорядочивания "глав-поколений" в тексте, или в наборе текстов, где этот порядок нарушен или неизвестен. Рассмотрим совокупность "глав-поколений" летописи X и занумеруем их в каком-нибудь порядке. Для каждой "главы" X(Q) подсчитаем число K(Q, T) при заданной нумерации "глав". Все числа K(Q, T), при переменных Q и Т, естественно организуются в квадратную матрицу К{T} размера n*n, где n – общее число "глав". В идеальном теоретическом случае частотная матрица К{T} имеет вид, показанный на рис. 5.13.
На рис. 5.13 ниже главной диагонали стоят нули, на главной диагонали расположен абсолютный максимум в каждой строке. Затем каждый график, в каждой строке, монотонно падает, затухает.
Оказывается, аналогичная картина затухания наблюдается и для столбцов матрицы. Это означает, что частота употребления в "главе" X(Q) имен более раннего происхождения "в среднем" тоже падает по мере удаления поколения Т, породившего эти имена, от фиксированного поколения Q.
Рис. 5.13
Для оценки скорости затухания частот удобно пользоваться усредненным графиком
В этой формуле суммирование выполняется по всем парам (Q, Р), для которых разность Р – Q фиксирована и равна Т. Другими словами, график Ксред (T) получается усреднением матрицы К{Т} по ее диагоналям, параллельным главной. Он изображает "усредненную строку" или "усредненный столбец" частотной матрицы. Здесь Т изменяется от 0 до n – 1.
Конечно, экспериментальные графики могут не совпадать с теоретическим.
Если теперь изменить нумерацию "глав" в летописи, то изменятся и числа K(Q, T), поскольку возникает довольно сложное перераспределение "впервые появившихся имен". Следовательно, меняются частотная матрица К{T} и ее элементы. Будем менять порядок "глав" летописи с помощью различных перестановок s.
Каждый раз вычислим новую частотную матрицу K(sT), где sT – новая нумерация, соответствующая перестановке s. Будем искать такой порядок "глав" летописи, при котором все или почти все графики будут иметь вид, показанный на рис. 5.12. В этом случае экспериментальная частотная матрица K{sT} будет наиболее близка к теоретической матрице на рис.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128
Возникает вопрос: правильно ли занумерованы, упорядочены эти "главы-поколения" в летописи? Или же если эта нумерация утрачена или сомнительна, то как ее восстановить? Другими словами, как правильно расположить во времени "главы" относительно друг друга? Оказывается, для реальных исторических текстов в подавляющем большинстве случаев выполняется следующая "формула"-правило: полное имя = персонаж. Это означает следующее.
Пусть интервал времени, описываемый летописцем, достаточно велик, например составляет несколько десятков или сотен лет. Тогда – как было проверено нами в результате анализа большого набора исторических документов – в подавляющем большинстве случаев разные персонажи имеют в одном и том же тексте разные полные имена. Полное имя может состоять из нескольких слов, например, Карл Плешивый.
Другими словами, число разных лиц с одинаковыми полными именами ничтожно мало по сравнению с количеством всех персонажей. Это верно для всех нескольких сотен исследованных нами исторических текстов, описывающих Рим, Грецию, Германию, Италию, Россию, Англию и т. д. Ничего удивительного в этом нет. В самом деле, летописец заинтересован в различении разных персонажей, чтобы избежать путаницы. Простейший способ добиться этого – присвоить разным лицам разные полные имена. Это простое психологическое обстоятельство и подтверждается подсчетами.
Сформулируем теперь принцип затухания частот, описывающий хронологически правильный порядок "глав-поколений".
При правильной нумерации "глав-поколений" летописец, переходя от описания одного поколения к следующему, сменяет и персонажей. А именно, при описании поколений, предшествующих поколению с номером Q, он ничего не говорит о персонажах этого поколения, так как они еще не родились. Затем, при описании поколения Q, летописец именно здесь больше всего говорит о персонажах этого поколения, поскольку с ними напрямую связаны описываемые им события. Наконец, переходя к описанию последующих поколений, летописец все реже и реже упоминает о прежних персонажах, так как описывает новые события, персонажи которых вытесняют умерших.
Здесь важно подчеркнуть, что мы имеем в виду не какие-то отдельные имена, а полный резервуар всех имен, использовавшихся в поколении с номером Q.
Вкратце наша модель формулируется так. Каждое поколение рождает новые исторические лица. При смене поколений эти лица сменяются.
Несмотря на внешнюю простоту, этот принцип оказался полезен при создании метода датировки. Принцип затухания частот имеет эквивалентную переформулировку. Так как персонажи практически однозначно определяются своими полными именами (имя = персонаж), то мы будем изучать резервуар всех полных имен текста. Термин "полное" будем обычно опускать, постоянно подразумевая его. Более того, оказалось, что подавляющее большинство исторических имен являются "простыми", состоящими из одного слова. Поэтому при обработке больших исторических текстов со значительным запасом имен можно рассматривать лишь "элементарные имена – кирпичи", разбивая редкие полные имена на отдельные составляющие их слова.
Рассмотрим группу всех имен, впервые появившихся в тексте, в "главе-поколении" с номером Q. Условно назовем эти имена Q-именами, а соответствующие им персонажи Q-персонажами. Количество всех упоминаний, с кратностями, всех этих имен в данной "главе" обозначим через K(Q, Q). Подсчитаем затем, сколько раз эти же имена упомянуты в "главе" с номером Т. Получившееся число обозначим через K(Q, 7).
При этом если одно и то же имя повторяется несколько раз, то есть с кратностью, то все эти упоминания подсчитываются. Построим график, отложив по горизонтали номера "глав", а по вертикали – числа K(Q, T), где номер Q фиксирован, а Г меняется. Для каждого Q мы получаем свой график. Принцип затухания частот тогда формулируется так.
При хронологически правильной нумерации "глав-поколений" каждый график К(Q, T) должен иметь следующий вид. Слева от точки Q график равен нулю, в точке Q – абсолютный максимум графика, потом график постепенно падает, более или менее монотонно затухает (рис. 5.12).
Этот график (на рис. 5.12) мы назовем идеальным.
Рис. 5.12
Сформулированный принцип должен быть проверен экспериментально. Если он верен и если "главы" в летописи упорядочены хронологически правильно, то все экспериментальные графики должны быть близки к идеальному. Проведенная экспериментальная проверка полностью подтвердила принцип затухания частот.
Всего нами было обработано несколько десятков больших исторических текстов. Во всех случаях, когда тексты описывают события эпохи XVI-XX веков, принцип затухания частот подтвердился. Отсюда вытекает методика хронологически правильного упорядочивания "глав-поколений" в тексте, или в наборе текстов, где этот порядок нарушен или неизвестен. Рассмотрим совокупность "глав-поколений" летописи X и занумеруем их в каком-нибудь порядке. Для каждой "главы" X(Q) подсчитаем число K(Q, T) при заданной нумерации "глав". Все числа K(Q, T), при переменных Q и Т, естественно организуются в квадратную матрицу К{T} размера n*n, где n – общее число "глав". В идеальном теоретическом случае частотная матрица К{T} имеет вид, показанный на рис. 5.13.
На рис. 5.13 ниже главной диагонали стоят нули, на главной диагонали расположен абсолютный максимум в каждой строке. Затем каждый график, в каждой строке, монотонно падает, затухает.
Оказывается, аналогичная картина затухания наблюдается и для столбцов матрицы. Это означает, что частота употребления в "главе" X(Q) имен более раннего происхождения "в среднем" тоже падает по мере удаления поколения Т, породившего эти имена, от фиксированного поколения Q.
Рис. 5.13
Для оценки скорости затухания частот удобно пользоваться усредненным графиком
В этой формуле суммирование выполняется по всем парам (Q, Р), для которых разность Р – Q фиксирована и равна Т. Другими словами, график Ксред (T) получается усреднением матрицы К{Т} по ее диагоналям, параллельным главной. Он изображает "усредненную строку" или "усредненный столбец" частотной матрицы. Здесь Т изменяется от 0 до n – 1.
Конечно, экспериментальные графики могут не совпадать с теоретическим.
Если теперь изменить нумерацию "глав" в летописи, то изменятся и числа K(Q, T), поскольку возникает довольно сложное перераспределение "впервые появившихся имен". Следовательно, меняются частотная матрица К{T} и ее элементы. Будем менять порядок "глав" летописи с помощью различных перестановок s.
Каждый раз вычислим новую частотную матрицу K(sT), где sT – новая нумерация, соответствующая перестановке s. Будем искать такой порядок "глав" летописи, при котором все или почти все графики будут иметь вид, показанный на рис. 5.12. В этом случае экспериментальная частотная матрица K{sT} будет наиболее близка к теоретической матрице на рис.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128