Новые информационные технологии систематизации и исследования художественных текстов

Новые информационные технологии
систематизации и исследования художественных текстов
(на материале русского рассказа XX века)

Г.Я. Мартыненко
Санкт-Петербургский государственный университет
Адрес: Санкт-Петербург, 199034, Университетская наб. 11
Телефон: (812) 328-9565
Факс: (812) 312-2246
Email: gymart@ts4306.spb.edu

1. Введение

Концептуальной основой информационных технологий систематизации и исследования художественных текстов, которые разрабатываются на кафедре структурной, прикладной и математической лингвистики филологического факультета Санкт-Петербургского государственного университета, являются:

1. Идеи и методы стилеметрии – прикладной филологической дисциплины, занимающейся измерением стилевых характеристик текстов с целью их упорядочивания и систематизации (типологии, диагностики, атрибуции, классификации, датировки и т.п.) [Мартыненко, 1988].

2. Современные информационные технологии в области создания машинных фондов, текстовых и словарных баз данных, электронных библиотек, мультимедийных систем, методы компьютерной систематизации и обработки данных [Казакевич, 1988; RIAO’2000].

3. Традиционные историко-литературные представления, в частности системные идеи Ю.Н.Тынянова, выдвинутые им под влиянием лингвистических концепций Ф. де Соссюра. Системный подход Тынянова включает три основные идеи: 1) идею целостности литературы, которая распространяется не только на отдельное произведение или совокупность произведений конкретного писателя, но и на всю литературу данной эпохи; 2) идею противопоставления синхронических и диахронических “разрезов” литературы; 3) идею перемещения авторских нововведений из стилистической “периферии” в направлении стилистического центра при переходе от одной литературной эпохи к другой [Тынянов, 1977].

4. Современные идеи лингвистической стилистики в области типологии художественных текстов, в частности художественно-прозаических: выделение синтетической и аналитической, описательно и повествовательной, орнаментальной и фигуративно-нейтральной и др. видов художественной прозы [Адмони, 1973; Акимова, 1982; Арутюнова, 1972; Иванчикова, 1979].

5. Опыт создания частотных и распределительных словарей, словарей-конкордансов, словарей ключевых слов, словарей писателей и т.п. [Шайкевич, 1996; Частотный словарь рассказов Чехова, 1998; Словоупотребление и стиль писателя, 1995].

Непосредственной технологической основой нашего подхода является компьютерная система ЛинДа, в которой решаются следующие задачи:

а) первичная обработка лингвистических данных (построение рядов распределения, вычисление статистик, статистических оценок, проверка статистических гипотез и др.);

б) лексикографическая обработка текстовых данных: создание частотных и алфавитно-частотных словарей, словарей-конкордансов, словоуказателей, обратных словарей, словарей ключевых слов и т.п.;

в) информационно-поисковые задачи, включая:

поиск текстовых единиц, обладающих определенным набором количественных и качественных характеристик для решения стилистических и грамматических проблем;
автоматический поиск текстов (авторский, жанровый, историко-хронологический, библиографический и др.);

г) систематико-таксономические задачи:

обработка многомерных данных с использованием стандартных алгоритмических процедур (факторного, дискриминантного, кластерного и др. методов многомерного анализа);
обработка лингвистических данных с помощью специальных лингвистических методов (дешифровочных алгоритмов, дистрибутивно-статистического метода, методов датировки, атрибуции, диагностики и типологии текстов и др.);

д) теоретико-статистические исследования: изучение статистических закономерностей в символьных последовательностях, изучение проблем устойчивости и вариативности лингвостатистических чисел, проблемы однородности текстов, условий действия закона больших чисел, оптимизация выборочных исследований и др. [Гринбаум, Мартыненко, Фитиалов, 1988].

2. Текст и корпус как статистическая совокупность

Текст в рамках нашего подхода мыслится не как некоторая умозрительная сущность, не как текст вообще, а всегда как реально наблюдаемый текст, созданный в конкретном месте, в конкретное время, конкретным автором. При этом текст осознается как некоторая сложная единичность, состоящая из множества единиц (элементов, индивидов), не обязательно однородных. Целостность такого образования формируется единством авторского замысла, единством темы, сюжета, устойчивостью стиля и многими другими факторами, с трудом поддающимися систематическому учету. В логике такие совокупности относятся к собирательным понятиям, а в теории статистики – к классу естественных совокупностей. Естественная совокупность как новая статистическая категория была введена в научный обиход А.А.Чупровым [Чупров, 1910] применительно к реально существующим, а не создаваемых мыслью исследователя сообществам, состоящим из сосуществующих и взаимодействующих единиц в рамках одной относительно замкнутой системы. Важной чертой таких совокупностей является их популятивность, демографичность, “тяготение к коллективизму”. Так, совокупность словоупотреблений, предложений или абзацев может рассматриваться как лексическое, синтаксическое или гиперсинтаксическое “население” “пространства”, именуемого текстом [Чебанов, Мартыненко, 1988].

При интерпретации текста как статистической совокупности возникает затруднение, связанное с чрезвычайно высокой вариативностью объема текста. Ведь текстом является не только многотомный роман, но и текст Козьмы Пруткова “Бди!”. Если в первом случае нет никаких сомнений в статистичности текста (большой объем текста гарантирует высокую повторяемость единиц совокупности при любом способе ее членения), то в прутковском варианте никакой повторяемости нет даже на фонетическом уровне. В промежуточных случаях степень статистичности каждой текстовой совокупности определяется эмпирически как баланс между численностью единиц членения и интенсивностью их повторяемости в тексте.

Текст – не единственный объект нашего интереса. В качестве такового может выступать и совокупность (или корпус) произведений одного автора при условии их принадлежности к одному жанру. Такой совокупностью (или корпусом) можно считать, например, множество рассказов А.П. Чехова. Такой объект исследования также мыслится как собирательное понятие, хотя уровень целостности здесь несколько иной. Целостность здесь обеспечивается единством и устойчивостью индивидуального стиля, принадлежностью автора к определенной школе, литературному течению и др. индивидуализирующим моментам. О собирательном множестве можно говорить и тогда, когда речь идет о совокупности произведений какой-либо национальной литературы (русской, английской, чешской, немецкой и др., но обязательно развитой), относящихся к определенной литературной эпохе, например, к началу XX века. “Дух эпохи” в самом широком смысле этого слова цементирует целостность, собирательность такой совокупности произведений, позволяет видеть в них единую систему, несмотря на их разнородность.

3. Лингвополиграфический подход к структуре текста

Текст как статистическая совокупность может быть охарактеризован через множество переменных (варьирующих признаков), присущих единицам данной совокупности. Важной особенностью этих переменных является то, что они не отражают глубинных, сущностных сторон текста, они ориентированы, прежде всего, на внешнюю, поверхностную сторону текста. При этом молчаливо предполагается, что эти внешние, поверхностные признаки, признаки-симптомы каким-то опосредованным, вероятностным образом связаны с глубинными признаками. Необходимо также отметить, что эти симптоматические признаки являются принципиально диагностическими, образуя в совокупности диагностический синдром, с помощью которого осуществляется с одной стороны идентификация текстов (например, при их датировке и атрибуции), а с другой – прилагаются усилия для проникновения в глубинную организацию текста, не доступную непосредственному наблюдению.

Симптоматический характер филолого-статистических переменных с особой откровенностью проявляется в компьютерной среде. Видение текста здесь становится предельно “вещным”, материально-технологическим; исследователь с помощью компьютерных программ общается с текстом, как с непосредственно “осязаемым” материальным образованием, построенным по конкретным лингвополиграфическим законам. В компьютерной среде в значительной мере утрачивается комплексность традиционной филологии, теряется бесконечное богатство ассоциаций, возникающее при “живом” общении с текстом. И в то же время обретаются практически неограниченные возможности для единообразной и быстрой обработки печатного текста. Причем ориентация на машинную обработку в филологической статистике диктует необходимость обращения к объемно-композиционному расположению речевого материала в тексте, эксплицитно выраженному в правилах и нормах графического представления и пространственного размещения единиц и частей текста. В таких условиях диагностические переменные могут быть “вычленены” лишь при исключительной ориентации на чисто внешние лингвополиграфические приметы: строкоделение, шрифт, абзацный отступ, знаки препинания и т.п. Этой информации в большом числе случаев оказывается достаточно для того, чтобы свести все словоупотребления к единой словарной форме [Аношкина, 1995], выделить предложение [Гринбаум, 1986], разнести словоупотребления текста по классам слов (частям речи) [Якубайтис, 1981], распределить словоупотребления художественно-прозаического текста по их отнесенности к различным видам речи (речь автора, речь персонажей, авторские ремарки) [Гринбаум, 1989], “привязать” реплики к конкретным персонажам [Шайкевич, 1996] и т.п. По мере возрастания количества компьютерных программ, связанных со структурированием текста, будут увеличиваться возможности статистической обработки его единиц и статистических переменных.

4. Формирование антологии и ее структура

Компьютерная Антология русского рассказа XX века, разрабатываемая в соответствии с принципами Ю.Н. Тынянова, представляет собой полнотекстовую базу данных, которая разделена на синхронические подсистемы в соответствии с традиционной периодизацией русской литературы. Под-антологии включают в себя произведения максимального числа авторов, писавших в конкретную эпоху. Выбор данного литературного жанра обусловлен тем фактом, что рассказ является наиболее распространенным видом художественных текстов, что позволяет проводить сопоставительные исследования большого числа авторов. Можно также отметить и то важное обстоятельство, что в процессе литературной эволюции рассказ выполняет “разведочную” функцию: в сравнение с другими литературными жанрами рассказ более чутко улавливает и отражает изменения в общественном сознании и культуре общества.

Важную роль в формировании концепции компьютерной антологии русского рассказа XX века сыграли идеи Андрея Белого, касающиеся необходимости массового создания словарей писателей [Андрей Белый, 1934], классификационные представления В.В.Виноградова, предлагавшего строить лингвистические аналоги литературных школ, направлений, стилей на основании критерия лингвистической близости произведений различных авторов [Виноградов, 1923], а также предложенный В.М.Жирмунским способ описания мировосприятия писателя через совокупность “словесных тем” [Жирмунский, 1977].

Отбор авторов и их произведений, подлежащих включению в Антологию, осуществляется на основании энциклопедической информации о персоналиях (например, [Краткая литературная энциклопедия, 1978]), существующих библиографических указателей (например, [Русские писатели, 1998]), антологий русского рассказа и сборников рассказов (например, [Книга рассказов, 1910]), публикаций в авторитетных периодических изданиях.

При формировании выборочного корпуса мы стремимся к тому, чтобы остаться на позиции объективности (беспристрастности). Вслед за Ю.Н.Тыняновым мы считаем, что любое художественное произведение должно выступать как литературно-языковой факт [Тынянов, 1977], встроенный в систему литературы данной эпохи. Рассматриваем ли мы это произведение как нечто уникальное, самобытное, неповторимое, или наоборот, как нечто ординарное, ученическое, обыденное, следует иметь в виду, что это произведение создается в единой культурно-исторической среде, на фоне языковых привычек, вырабатываемых стихией зримых и незримых контактов всех писателей, живущих в данную или хронологически смежных эпохах. Именно узуальная составляющая внутреннего строения произведений позволяет объединить в единое целое всех писателей данной эпохи независимо от масштабов их дарования, роли в литературных движениях и степени оригинальности индивидуальной манеры письма. Иначе говоря, индивидуальная творческая воля должна рассматриваться в необходимой связи с законом коллективного целого. В этом случае лингвистический интерес концентрируется на надындивидуальных чертах художественной литературы, что соответствует основному познавательному принципу статистики, согласно которому предметом статистического изучения является выявление типических, надындивидуальных черт в массовых явлениях [Чупров, 1910].

Быть может, тем исследователям, которые привыкли общаться исключительно с литературными шедеврами, такой “омассовляющий” подход в применении к изящной словесности покажется непочтительным. Но он перестает казаться таковым, если мы проникнемся сознанием того, что в кажущемся хаосе и путанице частных словесно-художественных систем есть элемент устойчивости, порядка и взаимозависимости. В противном случае мы не только потеряем ключ к изучению общих закономерностей, тяготеющих над массой индивидуальных стилистических явлений, но и в известной мере поставим в “невыгодное” положение яркую стилистическую индивидуальность. Последняя только выиграет, если мы будем ее рассматривать на фоне обыденной стилистической массы.

В соответствии со сказанным выше, статистико-лексикографический анализ каждой эпохи осуществляется в двух направлениях: с одной стороны, мы стремимся включить в базу данных тексты максимального числа авторов, что делает исследование более объективным, а с другой стороны, нами не игнорируется традиционный филологический интерес к произведениям знаменитых писателей, что позволяет получить обобщенную статистическую картину языка конкретных писателей.

С точки зрения статистики первое направление формирования выборочного корпуса может быть проинтерпретировано как двухступенчатый отбор, состоящий из практически сплошного отбора авторов с последующим включением в выборку всех лексических единиц одного и более произведений, отобранных в случайном порядке, т.е. пр существу мы здесь имеем дело с модификацией серийного отбора, причем в качестве генеральной совокупности выступает общее число лексических единиц, относящихся ко всем рассказам, написанным в данную эпоху; в качестве генеральных серий выступают множества рассказов, принадлежащих каждому автору, а в качестве выборки – все лексические единицы, относящиеся к совокупности отобранных рассказов.

Во втором варианте лексико-статистических исследований в качестве генеральной совокупности выступают все лексические единицы, относящиеся ко всему множеству рассказов данного автора, а к выборочной совокупности – множество лексических единиц, принадлежащих множеству текстов, отобранных в случайном порядке.

5. Статистическое описание текста и корпуса

Для каждого хронологического среза и для ряда авторов строится система частотных словарей (собственно частотных, частотно-распределительных, ассоциативно-частотных, словарей-конкордансов и т.п.), которые затем преобразуются в статистические распределения: статистические – для каждого хронологического среза и динамические – для последовательности хронологических срезов.

Частотный словарь представляет собой лексикографическое произведение, в котором каждая словарная статья содержит имя лексической единицы (словоформы или лексемы) в сопровождении различного рода статистических данных: частота этой единицы, количество единиц с данной частотой, ранга лексической единицы и т.п. На основании информации, содержащейся в частотном словаре, могут быть построены статистические распределения определенного типа в зависимости от того, какая информация используется в качестве зависимой или независимой переменной. Основными среди них являются: полиномиальное распределение, ранговое и спектровое распределения. В полиномиальном распределении в качестве независимой переменной выступает варьирующее имя лексической единицы, а в качестве зависимой переменной – ее частота; в ранговом распределении в качестве независимой переменной выступает ранг лексической единицы, а в качестве зависимой – ее частота (имя в таком распределении “исчезает”); в спектровом распределении роль независимой переменной выполняет частота лексической единицы, а роль зависимой – число единиц, обладающих данной частотой.

Для перечисленных распределений лексико-статические измерения осуществляются в определенной шкале: номинально-частотной (для полиномиально распределения), частотно-частотной (спектровое распределение), ординально-частотной (ранговое распределение). Каждому типу шкалы соответствует своя система описания и обобщения данных, в частности своя система обобщающих показателей. Назовем некоторые их них. Для номинально-частотной шкалы: мода (слово с наибольшей частотой), энтропия, максимальная при данном объеме словаря энтропия, мера упорядоченности – отношение энтропии к максимальной энтропии; для частотно-частотной шкалы: средняя частота, средняя геометрическая частота, медиана, золотое сечение; для ранговой шкалы: ранговое среднее, медиана по рангу, золотое сечение по рангу, коэффициент концентрации (отношение рангового среднего к объему словаря).

6. Заключение

На основании литературных данных и собственных изысканий нами был сформирован достаточно полный перечень параметров, с помощью которых может быть описана лексико-статистическая структура текста и корпуса. Все параметры были протестированы, и в результате был получен список статистически состоятельных параметров, которые рекомендуются к использованию для систематизации и изучения текстов. Компьютерная Антология и проводимый на ее материале текстологический анализ представляют значительный интерес как для традиционных исследований в области русской литературы, лингвистической поэтики и стилистики художественных текстов, так и для специалистов по культурному наследию и новым информационным технологиям. Оригинальная методика систематизации текстов и их изучения на лексико-статистическом уровне может быть использована для анализа текстов на любом языке, в том числе и не только художественных (деловых, публицистических, научных и др.).

7. Список литературы

Адмони В.Г. Особенности синтаксической структуры в художественной прозе XX века на Западе // Philologica – Л.: Наука, 1973. - С. 115-124.

Акимова Г.Н. Новые явления в синтаксическом строе современного русского языка. – Л.: Изд-во ЛГУб 1982. – 130 с.

Алексеев П.М. Статистическая лексикография (типология, составление и применение частотных словарей). – Л.: ЛГПИ им. А.И. Герцена, 1975.

Аношкина Ж.Г. Подготовка частотных словарей и конкордансов на компьютере. М., 1995.

Арутюнова Н.Д. О синтаксических типах художественной прозы // Общее и романское языкознание. М: Наука, 1972. – С. 188-199.

Белый Андрей. Мастерство Гоголя. М.-Л.: ОГИЗ, 1934.

Виноградов В.В. О задачах стилистики. Наблюдения над стилем жития протопопа Аввакума // Русская речь, I. – Пг, 1923. – С.195.

Гринбаум О.Н. Структуризация художественной прозы с использованием ЭВМ (I): Формально-пунктуационный метод структуризации // Квантитативная лингвистика и автоматический анализ текстов. 827. Тарту, 1986. С. 74-88.

Гринбаум О.Н. Структуризация художественной прозы с использованием ЭВМ (II): детализация структурированного текста // Квантитативная лингвистика и автоматический анализ текстов. 872. Тарту, 1989. С. 12-24.

Гринбаум О.Н., Мартыненко Г.Я., Фитиалов С.Я. Проект “ЛИНДА” - автоматизированная система обработки лингвостатистических данных // Прикладная лингвистика и автоматический анализ текста. Тарту: Изд-во ТГУб 1988. С. 31-33.

Жирмунский В.М. Валерий Брюсов и наследие Пушкина. Опыт сравнительно-исторического исследования // Жирмунский В.М. Теория литературы. Поэтика. Ситилистика. – Л.: Наука, 1977. С. 142-204.

Иванчикова Е.А. Об изобразительных возможностях синтаксических средств в художественных текстах // Русский язык. Проблемы художественной речи. Лексикология и лексикография. – М.: Наука, 1979.

Казакевич О.А. Исследование текстовых баз данных в лингвистических исследованиях: обзор зарубежных работ // Научно-техническая информация. Серия 2. 1988, №6, с.9-17.

Книга рассказов (Читатель). СПб, 1910.

Краткая литературная энциклопедия. – М.: Советская энциклопедия, 1962 – 1978.

Мартыненко Г.Я. Основы стилеметрии. – Л.: Изд-во Ленингр. ун-та, 1988. – 176 с.

Martynenko Grigorij. Statistical Consistency of Keywords Dictionary Parameters (2000) In: Proceedings of the International Conference RIAO’2000 "Content-Based Multimedia Information Access", Vol. 2, Paris, April 12-14, 2000 - Pp. 1541-1547.

Русские писатели. XX век. Библиографический словарь. М.: Просвещение, 1998.

Словоупотребление и стиль писателя. СПб: Изд-во СПбГУ. 1995. – 190 с.

Тынянов Ю.Н. Поэтика. История литературы. Кино. Л.: Наука, 1977.

Шайкевич А.Я. Дифференциальные частотные словари и исследование языка Достоевского (на материале романа “Идиот”) // Слово Достоевского. М.: Ин-т русского языка Российской академии наук. 1996. С. 195-253.

Частотный словарь рассказов А.П. Чехова. Под ред. Г.Я. Мартыненко, составитель А.О.Гребенников. СПб: Изд-во СПбГУ. 1998.

Чупров А.А. Очерки по теории статистики. СПб и М.: Т-во Вольф, 1910.

Якубайтис. Части речи и типы текстов. Рига, 1981.

Chebanov Sergej V. and Martynenko Gregory Y. Text as Real Population in Chuprov Sense. In: Proc. of the Third International Conference on Quantitative Linguistics. Helsinki..- Pp. 220-222.

RIAO’2000. Proceedings of the International Conference RIAO’2000 "Content-Based Multimedia Information Access", Vol. 1-2, Paris, April 12-14, 2000.

Мартыненко Григорий Яковлевич, д.фил.н., профессор кафедры, структурной, прикладной и математической лингвистики СПбГУ, основатель и руководитель Санкт-Петербургской школы стилеметрии