05_COCA

=Корпус COCA= Корпус американского английского [|corpus.byu.edu/coca/] - нажмите Enter
 * Шаг 1-1**. Зарегистрируйтесь как пользователь корпуса (REGISTER в правом верхнем углу). Ваш статус - студент бакалавриата (undergraduate student). Укажите адрес своей электронной почты и пароль для входа в корпус.
 * Шаг 1-2**. Подтвердите ваш email.
 * Шаг 1-3**. Перед началом работы залогиньтесь. Корпус COCA - бесплатный, но работает по логину-паролю.

Что мы узнаем сегодня
Как работать с корпусом. Коллокации и их релевантность. Сравнение по жанрам.

Если нет выдачи, но написано Click here - кликните (откроется страница с рекламой других корпусов), вернитесь в текущую страницу и снова нажмите SEARCH. Если нет выдачи, но написано NO MATCHES... WORD #1..., значит, вы неправильно задали поиск. Если нет выдачи... значит, вас разлогинили. Залогиньтесь снова.
 * Основные правила**. Всякий поиск совершается по кнопке SEARCH.

LIST: Частотные списки слов и коллокаций (словосочетаний). Кликнув по любому слову/коллокации, можно увидеть примеры употребления в корпусе. CHART: Распределение по жанрам (spoken, magazines, newspapers, news, academic) и времени создания. KWIC: "конкорданс" (key word in a context). Разными цветами подсвечены разные части речи. COMPARE WORDS: сравнение коллокатов для двух слов (например, small / little, start / begin) - показывает разницу в их употреблении.
 * Шаг 2. Изучаем основные возможности корпуса**
 * 2.1**. Режимы выдачи - LIST, CHART, KWIC, COMPARE

Прочитайте хелп, кликнув на знак вопроса справа от WORD(S). Обратите внимание, что корпусе COCA используется так наз. "расширенный" список частей речи (POS = part of speech), позволяющий кодировать грамматические формы глаголов и имен, а также некоторые лексические группы. список тегов. На занятии нам понадобятся теги: [v*] - все глаголы, [n*] - все существительные, [nn*] - все нарицательные (несобственные) существительные, [r*] - все предлоги, наречия, приглагольные адвербы (частицы).
 * 2.2**. Задаем слова в поле WORD(S), режим KWIC
 * link
 * link* (посмотрите также в режиме LIST)
 * link.[v*] (здесь не должно быть пробелов)
 * [link].[v*]

Узнайте, в каком жанре чаще всего встречается глагол //link.// В какой части корпуса чаще всего встречаются //follow, sleep, humph,// //err on the side of caution//?
 * 2.3. Жанры** (режим CHART).

Как вы думаете, какие существительные чаще всего встречаются справа от глагола //grab//? Запишите 5-6 наиболее вероятных, по вашему мнению, соседей. Проверьте себя (режим выдачи LIST) Цифры справа от поля COLLOCATES задают окно контекста, в котором ищутся слова. Здесь: 0 слов слева, 1 слово справа (т.е. ищутся нарицательные существительные, стоящие непосредственно справа от слова grab).
 * 2.4. Коллокации** (режим LIST).

Тот же запрос можно задать иначе: проверьте, чем отличается выдача: __WORD(S)__ [grab].[v*] [nn*] (между двумя "слотами" стоит пробел) Убрать поля COLLOCATES и POS LIST можно, щелкнув по словам COLLOCATES и POS LIST.

Как вам кажется, что чаще всего бывает wide, а что broad? Запишите в тетрадь по три пришедших на ум существительных. Режим выдачи COMPARE позволяет сравнить характерные контексты синонимов, антонимов и других пар слов. В режиме COMPARE задайте запрос:
 * 2.5. Коллокации** (режим COMPARE).

Найдите все сочетания наречий с глаголом recommend и его синонимами. Получите списки биграммов. Подсказка: синоним задается так (для like): [=like] Синоним во всех грамматических формах ищется как =like [r*] - тег для наречия Чтобы получить список биграммов, весь запрос должен быть задан в окне WORD(S), режим LIST.
 * 2.6. Проверьте себя**

Предположим, что слова в языке стоят в случайном порядке и их сочетаемость имеет случайный характер. Давайте ссыплем все слова из корпуса в большой мешок, перемешаем, распределим случайным образом по мешочкам-текстам, а далее выложим по канавкам-предложениям. Оценим вероятность того, что два слова окажутся рядом. Если гипотеза верна, то вероятность появления биграмма //on in// окажется весьма велика, да и сочетание //also suggest// будет вполне предсказуема, так как каждое из слов встречается с большой частотой. Вместе с тем, вероятность случайного появления рядом слов heartily и endorse (да еще именно в таком порядке) чрезвычайно мала - ведь каждое слово довольно редкое.
 * 2.7. Коллокации: сортировка по релевантности**

До сих пор мы получали списки, отсортированные по убыванию абсолютной частоты (Freq). Однако, теперь мы знаем, что сочетаемость слов имеет разную "цену", или значимость. Возьмите все тот же запрос "наречие + синоним //recommend//" и отсортируйте его по релевантности (см. параметр SORTING RELEVANCE в нижней части окна запроса). Можете ли вы по-прежнему найти в списке коллокацию //also suggests// и другие частотные? Сравните также коллокации слов bring и take (на расстоянии 1-2 справа от глаголов): сортировка по частоте и по релевантности

Математическая формула, которая используется для расчета "релевантности" в корпусе COCA, называется **MUT**UAL **INFO**RMATION (**MI**). Она сравнивает вероятность случайного появления рядом двух слов (ожидаемую частоту) и частоту, наблюдаемую в корпусе. Есть и другие формулы расчета, сравнивающие ожидаемую и наблюдаемую частоту, они немного по-разному сортируют списки. MI слишком "переоценивает" (поднимает наверх) коллокации редких слов, поэтому ее удобно использовать для изучения редких синонимов и нестандартных (но используемых носителями языка) коллокатов.

Задание: инфинитив VS //ing//-овая форма глагола Какие глаголы чаще употребляются в конструкции //VERB + to + ask//, а какие - в конструкции //VERB asking?// Зададим поиск в режиме COMPARE для вариантов //ask// и //asking//, поставив VERB как коллокат слева на расстоянии от 1 до 2 (мы должны учесть, что между глаголом и инфинитивом стоит //to//). Сначала отсортируем списки по частоте:
 * 2.8** - релевантность вариантов

В таблице выдачи видно, сколько раз встретилось с данным глаголом первое слово (W1 - //ask//), сколько - второе слово (W2 - //asking//). Первая таблица отсортирована по частоте варианта с //ask//, таблица справа - по частоте варианта с //asking//.

Отсортируйте тот же запрос по релевантности.


 * Дополнительные задания**
 * порядок слов: //try smth. out// VS. //try out smth.//
 * //sneaked// VS //snuck// (режим COMPARE; по жанрам; в корпусе COHA)

Материалы для самостоятельной работы: