04_Конкордансеры_AntConc

=Конкордансы и конкордансеры= К домашнему заданию

__ [|Конкорданс] __– это список всех употреблений заданного языкового выражения (например, слова) в контексте, возможно, со ссылками на источник.

Существуют специальные программы составления конкордансов по некоторому корпусу текстов, так называемые конкордансеры. Они позволяют получать частоту той или иной языковой единицы по произвольному корпусу текстов, список контекстов, в которых данная единица встретилась, и др. Одной из них является [|AntConc]. Последняя версия – [|AntConc 3.4.4w (Windows)], [|3.4.3m (Mac OS X 10.7+)][|readme]

Ниже представлен конкорданс, составленный для предлога «на».



Над строкой поиска находятся возможные варианты реализации поиска (Search Terms). Если выбрана опция Words, то конкорданс будет составлен для вбитой в поисковой запрос словоформы. Если выбрана опция Case, то поиск осуществляется с учётом регистра. Если выбрана опция Regex, то конкорданс будет составлен для тех слов, которые содержат вбитый в поисковой запрос сегмент.

Так выглядит готовое к работе окно конкордансера.

Прежде чем приступать к работе с кириллическими текстами, необходимо выбрать основные параметры, если они не совпадают с параметрами, установленными по умолчанию: 1. Формат файла (File Settings) 2. Маркеры тегов (Tag Settings) 3.Основные параметры токенов (Token (Word) Definition) 4.Кодировка (Language Encoding) Выгрузка файлов:

Выгрузка одного файла или файлов из разных директорий производится с помощью опции «Open File(s)…».

Загрузка списка стоп-слов (stopwords). Создание частотного списка Если всё сделано правильно, то в окне появится частотный список Дальнейшая работа с составленным частотным списком может быть осуществлена также с помощью позиции Search Term и расположенной ниже строки для ввода поискового запроса.
 * //Стоп-слова //** или **//шумовые слова //** — это определенные слова, которые, в силу своих, особенностей не индексируются, то есть попросту игнорируются. При выполнении поиска система исключает стоп-слова из запроса и заменяет их специальным символом — **//маркером //****//.//**

Для получения частотного словаря для лемм, а также конкорданса с поиском по леммам для русского языка можно воспользоваться программой MyStem []
 * NB:** Для лемматизации словоформ нужен дополнительный морфологический анализ, встроенный в программу, большинство конкордансеров такой возможности не дают.

Сохранение в текстовом формате Полученные данные могут быть экспортированы в Excel.

Возможности AntConc позволяют составлять не только частотные списки словоформ, но и n-граммов, сочетаний, состоящих из n слов. В случае с n-граммами поиск может также осуществляться поиск по словоформе, содержащейся в n-грамме, для этого необходимо дополнительно выбрать опцию Words в позиции Search Term. Использование опций Case и Regex также допустимо.  =Домашнее задание= , если у вас еще нет своего файла с расшифровкой видео. Составьте частотный словарь словоформ по тексту (коллекции текстов) и загрузите в DropBox (Unit5) в виде текстовых файлов antconc1.txt и antconc2.txt.

1. Загрузите в AntConc транскрипт своего видео (первая версия без тегов) или файла, ссылка на который дана выше. С помощью FileView проверьте, что настройки для кодировки правильные и что файл читается нормально. 2. Составьте частотный словарь словоформ (с частотой вхождения >= 5). 3. Сохраните результат в текстовом формате (File - Save output -- antconc1.txt). 4. Составьте список биграммов (с частотой вхождения >= 2). 5. Сохраните результат в текстовом формате (File - Save output -- antconc2.txt). 6*. Любые комментарии о том, что интересного вы увидели в частотном словаре словоформ и биграммов, приветствуются (комментарий может идти под словарем в том же файле). Примечание: Биграмы - это n-grams, включающие 2 слова (n=2).