Voyant Tools — это веб-приложение, которое сочетает в себе множество базовых инструментов для текстового анализа и работы с пользовательским корпусом. В число таких инструментов входит составление списков частотности, выделение ключевых слов в документах, тематическое моделирование, нахождение коллокаций и т.д.
Его доступность и гибкость делают Voyant одним из самых популярных инструментов для исследований в области Digital Humanities, как среди профессионалов, так и среди студентов и любителей; можно найти десятки примеров (обычно в форме блогов) использования Voyant для самых разных целей, например, для исследования трендов в научно-фантастической литературе.
Voyant Tools очень хорошо задокументирован. Кроме того, на каждой панели при нажатии на вопросительный знак можно перенестись в документацию по использованию этого инструмента.
На данном семинаре мы разберем следующие инструменты из предлагаемых Voyant Tools (на самом деле их намного больше):
- Загрузка корпуса
- Reader
- Экран Summary, статистики, основанные на частотности слов, вкладки Documents и Phrases
- Cirrus Wordclouds
- Trends
- Collocations
- TermsBerry
- Correlations
Веб-версия Voyant Tools часто виснет и ломается; в руководстве создатели сами говорят об этом. Поэтому лучше скачать оффлайн-версию вот здесь.
На первой странице Voyant Tools находится страница загрузки корпуса. Через Open можно открыть подготовленные корпусы (пьесы Шекспира и романы Джейн Остин), через Upload — загрузить собственный корпус.
Сверху справа находятся следующие вкладки:
- Language interface. Интерфейс Voyant Tools переведен на многие языки, включая иврит и арабский, но русский пока не поддерживается.
- Options. Voyant Tools поддерживает множество форматов кроме простых .txt, включая многие варианты XML-разметок, файлы Excel и т.д. Соответственно, в этой вкладке находятся настройки того, как Voyant будет выгружать текст из таких документов. Например, во вкладке Text можно настроить, какую часть текстового документа нужно учитывать (т.е. с чего этот отрывок начинается и на чем заканчивается). Во вкладке Preprocessing можно настроить тип токенизации (стандартное автоматическое определение работает лучше всего).
Все основные инструменты Voyant Tools (визуализация ключевых слов, KWIC, статистика по документам...) располагаются на главном экране, разделенном на панели.
- Панель Reader позволяет просматривать корпус как один непрерывный текст. Корпус делится по документам, а каждый документ делится на отдельные участки для просмотра. Навигация между документами/участками осуществляется при помощи слайдера внизу.
- Расположение читаемого текста относительно всего корпуса представлено внизу в виде разноцветных столбиков. Каждый столбик — это отдельный документ в корпусе. Его высота и ширина зависят от объема этого документа.
- При наведении на слово можно посмотреть на его частоту в документе.
Составление списков частотности слов – одна из основных фич Voyant Tools. Для каждой лексемы (term) считается ее абсолютная и относительная встречаемость в документе и во всем корпусе. На их основе составляются облака слов (wordclouds) и графики, показывающие изменение частотности слова от документа к документу (trends).
В Voyant Tools автоматически происходит фильтрование стоп-слов (союзо, предлогов, частиц и т.п.) для некоторых языков — например, для английского. Встроенный список можно можно обновить через вкладку Options панели Cirrus, нажав на кнопку Edit List. Для некоторых языков, в т.ч. для русского, в Voyant Tools нет стандартного списка стоп-слов, поэтому его нужно создать самостоятельно все там же, в настройках. Кнопка настроек (Options) похожа на ползунок и находится между знаком вопроса и значком Windows.
Панель Cirrus является визуализацией самых частотных слов в документе — так называемым облаком слов, wordcloud, где размер слова обусловлен частотой его встречаемости в документе. Через Scale можно выбрать показ облака для всего корпуса, или для отдельных документов. Через слайдер Terms можно отрегулировать количество слов в облаке.
Панель Trends показывает частотность слов в каждом документе. На ней можно визуализировать несколько слов для сравнения, выбрав через меню Display можно выбрать удобный вид графика.
Кроме информации по отдельным словам и документам, можно посмотреть на связи слов друг с другом.
- Collocations – показывает устойчивые сочетания двух слов в корпусе и отдельных документах.
- TermsBerry – вариация wordcloud, где при наведении курсора на слово можно увидеть, как часто оно встречается рядом с другими словами.
- Correlations – насколько увеличение частотности одного слова коррелирует с частотностью другого
- Contexts — посмотреть контекст слова с настраиваемым размером окна (привычный нам формат KWIC).
На панели Correlations (снизу справа, вместе с панелью Contexts) можно посмотреть список слов, чьи частотности по документам в корпусе коррелируют между собой. Положительный коэффициент означает, что когда частотность одного слова повышается или понижается, то то же самое и в такой же степени происходит и с другим словом; отрицательный коэффициент означает, что при повышении частотности одного слова частотность другого понижается и наоборот. Во вкладке Scale можно отрегулировать, будет ли статистика показываться по всему корпусу или только по отдельным документам.
Панель WordsBerry предоставляет такую же визуализацию частотных слов, что и Cirrus, но более полезна для исследования коллокатов: при наведении на слово подсвечиваются слова, которые встречаются рядом с выделенным. Определение “рядом”, то есть того, на каком расстояние слово должно находиться от выделенного чтобы считаться соседним, можно отрегулировать при помощи слайдера Context. Во вкладке Strategy можно переключиться между просто частотными словами, и “значимыми” словами - которые могут встречаться редко, но в определенных документах намного чаще, чем в других.
Панель Summary показывает все основные статистики по корпусу и всем документам:
- Количество словоформ и лексем во всем корпусе и в отдельных документах;
- Vocabulary density – отношение общего числа слов к числу уникальных слов в документе;
- Средняя длина предложения;
- Самые частые слова в корпусе;
- Distinctive words – слова, которые встречаются в конкретном документе чаще, чем в корпусе в целом
Вкладка Documents показывает статистику по объему документов, числу уникальных слов в них и соотношению числа уникальных слов к числу слов вообще (колонка Ratio).
Во вкладке Phrases находится информация о частотности n-грамм. Можно задать длину n-грамм (слайдер Length), поддерживается поиск.
Поиск на всех панелях поддерживает один и тот же поисковый синтаксис.
- Для работы нужно скачать англоязычный корпус анекдотов за 1987-1997 гг. вот отсюда.
- Презентация с заданиями.