Установить автора!

В Новосибирске применяют эффективный математический метод установления авторства.

 
Рисунок с обложки книги Романа Арбитмана «Илья Ильф, Евгений Петров, Михаил Булгаков. Из черновиков, которые отыскал доктор филологических наук Р. С. Кац и и опубликовал Роман Арбитман»

В Институте вычислительных технологий СО РАН в 2019 году был разработан и испытан метод, который позволяет с большой достоверностью установить авторство литературного произведения. Теоретико-информационный метод основан на сжатии данных. Его создатели использовали этот подход для определения подлинного авторства романов «Двенадцать стульев» и «Золотой теленок»: существует устойчивая версия, что книги написаны Михаилом Булгаковым. Эксперимент показал, что наиболее вероятные авторы произведений — Илья Ильф и Евгений Петров. «Сибирские огни» беседуют с доктором технических наук, главным научным сотрудником и заведующим лабораторией информационных систем и защиты информации ИВТ СО РАН Борисом Рябко.

— Борис Яковлевич, прежде математические методы использовались для установления авторства?

— Да, для этих целей применялись различные математические методы — и в России, и за рубежом. Среди известных — использование авторского инварианта и модели цепей Маркова. Эти способы базируются на векторизации текста (превращении слов в цифры) в совокупности с методами машинного обучения. Наш метод, основанный на сжатии данных несколькими архиваторами, доказал более высокую эффективность.

Суть его в следующем. Допустим, у нас есть текст писателя А. и текст писателя Б., их авторство не вызывает сомнений. И есть третий текст, порожденный одним из двух авторов, каким — неизвестно. Если к тексту А. прибавить третий, спорный текст и сжать, а потом то же самое проделать с текстом Б., то можно сделать вывод. Спорный текст будет лучше сжиматься после текста, порожденного его автором. Ведь архиватор, сжимая вторую часть, использует статистические особенности, найденные им при сжатии первой части.

— Какой величины должны быть тексты, чтобы результаты были по-настоящему достоверными?

— Оптимально — несколько сотен страниц. Для наибольшей достоверности результатов было бы идеально использовать теоретико-информационный подход в совокупности с суждениями лингвистов, литературоведов и историков литературы.

— Ваш эксперимент с романами «Двенадцать стульев» и «Золотой теленок» однозначно установил авторство Ильфа и Петрова?

— Да, по нашим выводам, авторами являются Ильф и Петров. Однако данные указывают на определенное сходство стилей этих книг и произведений Булгакова и Паустовского. Если фамилия Булгакова нередко звучала рядом с названиями всенародно любимых романов, то возможное взаимовлияние Ильфа и Паустовского (они дружили), думаю, может вызвать интерес у литературоведов. Еще мы заметили небольшое сходство стилей Набокова и Грина.

— Получается, мы можем установить авторство и в других спорных случаях? Например, ответить на вопрос, является ли Жюль Верн автором «Кораблекрушения Джонатана», которое приписывают его сыну Мишелю.

— Да, это вполне возможно.

— При испытании метода сжатия данных на литературных текстах были использованы только произведения русскоязычных авторов. Будет ли этот способ работать в отношении литературы, переведенной на русский с других языков?

— Вероятно, в этом случае метод нужно применять с осторожностью, поскольку лексика в переводной литературе сильно зависит от переводчика. Тексты лучше сравнивать на «родном» языке: английские с английскими, испанские с испанскими.

— Если говорить о текстах, написанных в соавторстве, то нередко возникают споры о весомости вклада каждого из авторов в создание произведения. Можно ли с помощью алгоритма сжатия оценить роль каждого автора, основываясь на текстах, написанных индивидуально?

— В США математические методы применяли с подобной целью. «Декларацию независимости» написали несколько авторов, и для нескольких частей авторство не было точно известно.

— Еще есть споры о датировании того или иного романа писателей прошлого. Можно ли использовать метод для определения вероятного времени написания книги?

— Да, мы можем это сделать, сличая произведение с текстами разных лет того же автора. Стиль действительно может сильно отличаться, разные периоды жизни окрашены разными переживаниями и влияниями. Например, ранний и поздний Куприн — это фактически два разных Куприна.

— А можно ли установить автора стихов, сравнивая их с прозаическими произведениями? Или с пьесами?

— У стихов, прозы и драмы разная поэтика. Для достоверного результата лучше сравнивать прозу с прозой, а стихи со стихами.

— К научным текстам теоретико-информационный подход так же применим, как и к художественным?

— Да, можно оценить вклад того или иного автора в написание научного текста. Правда, на практике часто бывает так, что один ученый высказал идею, а второй ее быстро оформил на бумаге. В этом случае подлинного автора идеи метод не сможет установить.

— Для каких еще целей может служить метод?

— Например, для отслеживания террористической или другой криминальной деятельности в интернете. Архиваторы смогут быстро и автоматически отыскать в сети тексты определенной тематики.

Но, если честно, нам бы хотелось привлечь внимание литературоведческих кругов. Наш метод может содействовать установлению фактов для исследования самых разных вопросов литературы.

 

Беседовала Елена Богданова