Взламывая стилометрию: как вымышленные поэты и писатели обретают авторскую индивидуальность
В Институте цифровых гуманитарных исследований (DHRI) Сибирского федерального университета прозвучал доклад доцента школы лингвистики НИУ ВШЭ Даниила Скоринкина об авторах, сумевших обмануть метод стилометрии. Этот достаточно надежный способ решения вопросов спорного авторства обычно устойчив к авторским попыткам стилизации и псевдонимам, но некоторым литераторам удается перехитрить статистику при помощи литературных двойников. Даниил Скоринкин рассказал о кейсах Фернандо Пессоа и Ромена Гари. Исследование проведено Борисом Ореховым и Даниилом Скоринкиным.
Стилометрия: не магия, а рабочий инструмент филолога
Стилометрия — метод атрибуции авторства, основанный на распределении в текстах частотностей слов (или иных текстовых единиц, поддающихся статистическому подсчету, например, символьных или словесных n-грамм). В последние 20 лет ключевым стилометрическим методом стала Delta Дж.Ф. Барроуза и ее производные. При достаточном объеме (не менее 5000-10000 слов на автора) и жанровой однородности корпуса Delta уверенно различает «авторский сигнал» и отделяет одного автора от другого, даже если авторы — современники и близки по направлению/стилю/жанру.
В отличие от большинства стилометрических подходов XX века, Delta — не ad hoc решение, а универсальный метод, подтвердивший свою способность отличать тексты одного автора от другого на материале тысяч экспериментов с разными жанрами и родами литературы (а также с нелитературными текстами) на десятках языков. Наиболее известный пример здесь — тексты Джоан Роулинг, написанные под псевдонимом Роберт Гэлбрейт, но определяемые Delta как принадлежащие перу Роулинг. Но есть и множество других примеров. Сотрудники Центра цифровых гуманитарных исследований НИУ ВШЭ неоднократно тестировали метод Delta на русском материале.

Когда ошибается стилометрия
Delta может ошибаться, особенно когда на нее влияют другие текстовые «сигналы» помимо авторского. Например, если один автор в корпусе представлен одновременно детективами и научной фантастикой, а другой — только детективами, жанровый сигнал для части текстов может оказаться сильнее авторского и результат атрибуции получится неидеальным. То же самое может случиться, например, при смешении прозаических и стихотворных пьес в одном эксперименте. Различны также стили текстов, далеко отстоящих друг от друга по времени написания, поэтому стилометрический сигнал раннего и позднего Л.Н. Толстого будут отличаться значительно.
Однако до сих пор стилометристы почти не встречали случаев, когда на стилометрический сигнал влиял бы выбор литературного имени (криптонима/псевдонима/гетеронима). Для научного сообщества это представлялось хорошим знаком: ведь само допущение, что тексты одного автора под разными именами могут иметь отчетливо разные «авторские сигналы» в ситуации, когда это не может быть объяснено различиями в жанре или времени написания, — серьезный удар по репутации стилометрического метода. Это противоречит самой идее атрибуции авторства. Тем не менее мы обнаружили примеры текстов, написанных одним человеком и опубликованных под разными именами, которые устойчиво определяются Delta как тексты разных авторов при отсутствии какого-либо существенного различия в жанре или времени написания.
Фернандо Пессоа и его воображаемые друзья
Даниил Скоринкин в своем докладе рассказал о двух авторах, которым удалось до известного предела «сломать» метод Delta. Первый из них — португальский поэт-модернист Фернандо Пессоа, творивший под разными именами и разработавший для своих литературных гетеронимов полноценные биографии, которые, по-видимому, отчасти определяли и их стиль. Второй — французский писатель Ромен Гари, устроивший литературную мистификацию под именем Эмиль Ажар и сумевший дважды получить гонкуровскую премию, традиционно вручаемую не более одного раза.
Фернандо Пессоа представляет собой наиболее чистый случай литературного «расщепления» творческой личности. Три его наиболее известных гетеронима — Алберто Каэйро, Алвару де Кампуш и Рикардо Рейш. Первого Пессоа описывал как малообразованного пастуха, который плохо владеет португальским, этакого непосредственного созерцателя природы. Второй — Кампуш — по легенде был отставной морской офицер. Третий — Реиш — врач и любитель классической поэзии (о нем Пессоа замечает: «Реиш пишет по-португальски лучше меня, но с той степенью пуризма, которую я нахожу избыточной»).
Кроме этих гетеронимов есть и другие, менее известные и плодовитые, а также «ортоним» — то есть поэтическое имя «Фернандо Пессоа», не тождественное Пессоа-человеку. Стилометрический сигнал всех этих авторов (сосуществовавших внутри одного человека) оказался настольно различен, что добавление других португалоязычных поэтов в экспериментальный корпус его совсем не ослабило. Пессоа стабильно выглядел с точки зрения стилометрии как несколько авторов, а не как один.

Гари.. и Поттер
Случай с Роменом Гари несколько менее чистый. Во-первых, кроме Эмиля Ажара ни один псевдоним Гари не отделяется от текстов, подписанных «Ромен Гари» (это тоже не настоящее имя, но под ним автор творил большую часть жизни). Во-вторых, есть переходные тексты, которые стилометрически находятся между Гари и Ажаром (например, роман «Au-delà de cette limite votre ticket n’est plus valable», написанный в годы «творчества Ажара», но подписанный «Ромен Гари»). Тем не менее, стилометрический сигнал Ажара явно проявлен и ведет себя в стилометрическом эксперименте не так, как обычный псевдоним.

Кроме того, в свете этих новых экспериментов Даниил Скоринкин вернулся к хрестоматийному (казалось бы) случаю Джоан Роулинг/Роберта Гэлбрейта. Исследователь показал, что этот пример не так чист и однозначен, как представлялось ранее многим стилометристам, а его использование для демонстрации возможностей стилометрии стало возможным в первую очередь благодаря не совсем корректно подобранному корпусу текстов.
Статья Бориса Орехова и Даниила Скоринкина о «взломе стилометрии» находится на рецензии в журнале Digital Scholarship in the Humanities (входит в «список А» и Scopus Q2).
Видеозапись доклада: