07_Excel-2

= Работа с таблицами Excel/Calc: фильтры, сводные таблицы, (подстановочные символы) = В русском языке есть класс существительных, обозначающих названия профессий или прочие виды деятелей. Для некоторых из этих существительных характерна вариативность в постановке ударения во множественном числе (например, директора и директоры). Задача: пользуясь НКРЯ и Excel/Calc, выяснить, для каких слов характерно вариативное ударение на примере частного случая — имен деятелей с основой, заканчивающейся на //-ктор// (//директор, инспектор, кондуктор// и т. п.). ktor.xls (ktor.xlsx, ktor.ods) – файл в формате Excel/Calc, включающий следующие листы (sheets): 1) report – итоговая таблица + под ней краткий комментарий в свободной форме: для каких слов характерно вариативное ударение, есть ли закономерности и т. д.; 2) corpus_output – файл, получившийся при скачивании выдачи из НКРЯ; 3) pivot–cводная таблица, построенная в п. 2 работы; 4-...) другие промежуточные таблицы, которые вы строили в ходе работы (если есть).
 * Ожидаемый результат:**

Содержание работы: Приложения: Инструкция по работе с OpenOffice Инструкция по работе с MS Excel 2010 Комбинируемые символы
 * 1) Получаем данные из корпуса
 * 2) Подсчитываем количество употреблений каждой словоформы (сводные таблицы)
 * 3) Исключаем омонимичные словоформы
 * 4) Выделяем основы слов
 * 5) Подводим итоги
 * Сводные таблицы
 * Фильтры
 * Автозамена и подстановочные символы
 * Сводные таблицы
 * Специальная вставка
 * Фильтры
 * Автозамена и подстановочные символы

**1. Получаем данные из корпуса** Так как поставленный вопрос связан со словесным ударением, воспользуйтесь __акцентологическим__ корпусом. В нем задайте подкорпус, из которого будут исключены поэтические тексты и в котором останется только устная речь всех возможных типов:

Задайте следующие параметры для лексико-грамматического поиска: Слово: *ктор (оканчивается на //ктор//); Грамматические признаки: одушевленное существительное множественного числа; Семантические признаки: предметные → лица (все чекбоксы). Получившуюся выдачу отсортируйте в случайном порядке и выгрузите в Excel/Calc, воспользовавшись ссылкой внизу примеров: Сохраните файл на своем компьютере и откройте его в Excel или OpenOffice Calc. Подтвердите преобразование из XML-формата, разрешите редактирование файла (если требует редактор) и сохраните его в формате Книга Excel (или Calc) под именем //ktor//. NB В результатах поиска может быть шум (например, примеры употребления род.п. ед.ч.) из-за того, что в корпусе не снята грамматическая омонимия - не обращайте пока на него внимания
 * настройки -- Упорядочить: случайно

Прежде, чем начать работу, удалите в столбце Center так называемые "широкие" пробелы в каждой ячейке слева и права от искомого слова ("широкий" пробел — особый тип пробелов, который нельзя ввести с клавиатуры, поэтому скопируйте этот пробел из любой ячейки и сделайте замену по всему столбцу).

2. **Подсчитываем количество употреблений каждой словоформы (сводные таблицы)** Для того, чтобы выяснить, сколько раз в выдаче встретилась каждая из интересующих нас форм слова, воспользуйтесь сводной таблицей — средством, позволяющим просматривать статистику по большим объемам данных. В сводной таблице для любого столбца исходных данных можно построить список уникальных (не повторяющих другие) записей в ячейках, а затем получить суммарные данные (или иные распределения) в других столбцах относительно этого списка. Сводные таблицы содержат не все данные исходной таблицы, а только необходимые для анализа, и по ним проще делать выводы. При изменении исходных данных сводная таблица будет автоматически обновляться. Инструкции по созданию сводных таблиц: OpenOffice Calc MS Excel 2010

Итогом должна стать таблица, в которой напротив каждой уникальной словоформы с учетом ударения в ней, встретившейся в столбце «Center», приведено количество ее появлений в столбце:

**3. Исключаем омонимичные словоформы** У каждой словоформы именительного падежа искомых слов с ударением на окончание имеется словоформа-омограф (//директора́ — дире́ктора// и т. п.). Отсюда следует, что все словоформы, имеющие безударное окончание -а, нам не интересны. Так как ударения в выдаче представлены в виде комбинируемого символа, идущего после ударного гласного, нам следует искать а в конце слова (за ней не будет следовать знак ударения (́). (Разъяснения о том, что такое комбинируемые символы, здесь). На практике это означает следующее: на столбце «Center» необходимо установить фильтр «не заканчивается на __//а//__» и скопировать получившуюся таблицу на новый лист. Инструкции по использованию фильтров: OpenOffice Calc MS Excel 2010

**4. Выделяем основы слов** На этом этапе 4-5 нам понадобится четыре столбца: Форма (aka Сenter) -- Основа (или Лемма) -- Ударение на основе (да/нет) -- Количество (aka Кол-во по полю Center). Вставьте два столбца для Основы и Ударения. Чтобы выделить основы слов, скопируйте формы в столбец Основа и удалите в них окончания. Для автозамены вызовите окно поиска и замены с помощью сочетания клавиш ctrl+H: Найти: ктор* Заменить: ктор (эта команда заменяет в ячейке подстроку, начинающуюся на //ктор//, на //ктор//; тем самым, отрезается все, что идет после //ктор//). (Более подробные инструкции по использованию автозамены и подстановочных символов в OpenOffice Calc).

Отфильтруйте основы, содержащие дефисы: и отредактируйте каждую ячейку, оставив в ней ту часть сложного слова (основу), которая содержит *//ктор//.
 * Текстовый фильтр -- содержит: - (или равно: *-*)

**5. Классификация по типу ударения** Нам нужно в столбце «Ударение на основе» проставить «да», если ударение стоит на основе, и «нет», если ударение стоит на окончании.
 * Словоформа || Основа || Ударение на основе || Частота ||
 * а́виаконстру́кторов || а́виаконстру́ктор || да || 1 ||
 * архите́кторами || архите́ктор || да || 1 ||
 * архите́кторов || архите́ктор || да || 4 ||
 * Архите́кторы || Архите́ктор || да || 8 ||
 * ди́кторов || ди́ктор || да || 10 ||
 * ди́кторы || ди́ктор || да || 6 ||
 * директора́ || директор || нет || 6 ||
 * директора́ми || директор || нет || 1 ||
 * директоро́в || директор || нет || 4 ||
 * дире́кторы || дире́ктор || да || 2 ||

5.1. Отфильтруйте основы, содержащие ударение, и поставьте в столбце «Ударение на основе» «да». 5.2. В столбце «Основа» отфильтруйте основы, не содержащие ударения (оно стояло на окончании, которое было отрезано), и поставьте для них в столбце «Ударение на основе» «нет». Это два грубых фильтра, не учитывающие некоторые случайные данные, которые будут бесполезны для нашего исследования: Не забывайте очищать фильтр в конце каждой операции. 5.3. В некоторых словах вообще не размечено ударение. В столбце «Форма» отфильтруйте такие словоформы (не содержат ударения): и сотрите содержимое (выделите строки и нажмите Delete). 5.4. Отфильтруйте формы, содержащие два ударения: Некоторые из таких форм имеют побочное и главное ударение (например, //а́виаконстру́кторов//) - проверьте для них разметку в столбце «Ударение на основе»: «да» или «нет»; другие - формы, где омонимия ударений не была снята (например, //инспе́ктора́//, автоматический разметчик ударений предсказывает два варианта, но место ударения не было проверено вручную) - сотрите содержимое этих строк (с помощью Delete). 5.5. Отсортируйте таблицу по столбцам «Основа» и «Ударение», еще раз просмотрите список словоформ, чтобы не осталось «мусора», не важного для нашего исследования. 5.6. Удалите все знаки ударения с __основ__ с помощью автозамены, чтобы безударные и ударные основы приобрели одинаковый вид (информация о месте ударения сохранена в новом столбце). В Excel 2010 проще переписать слово в ячейке заново (без ударением), а затем копи-пейстом вставить это значение для всех одинаковых основ. 5.7. Сделайте новую сводную таблицу примерно такого вида (показан вариант OpenOffice):
 * Текстовый фильтр -- равно: *́* (скопируйте символы отсюда)
 * Текстовый фильтр -- не равно: *́*
 * Текстовый фильтр -- не равно: *́*
 * Текстовый фильтр -- равно: *́*́*

Для этого поместите в поле строки сводной таблицы «Основы», в столбцы сводной таблицы - «Ударение на основе/окончании». Таблица должна представлять частоты форм (суммы по полю «Количество») -- перетащите «Количество» в поле значений сводной таблицы и установите параметр «сумма»).

**6. Подводим итоги** Переименуйте листы в книге Excel/Calc так, как сказано в начале практикума. Проанализируйте цифры в итоговой сводной таблице и запишите под таблицей краткий комментарий в свободной форме: для каких слов характерно вариативное ударение, есть ли закономерности и т. д. Сохраните файл и загрузите его в дропбокс Unit 7.