LiveCorpus

=Корпус живой повседневной речи=

Это учебный корпус, который мы создаем на курсе "Компьютерные инструменты". Это коллекция примеров разговорной речи, состоящая из видео- и аудиоматериалов (с транскриптами) и текстов блогов. Хорошо обработанные данные будут переданы в Национальный корпус русского языка.

Этапы обработки записей видео/аудио
Этапы (2) и (3) выполняются дважды - тем, кто собрал записи, и одним из ваших однокурсников.
 * 1) Сбор материалов и расшифровка мультимедиа
 * 2) Обработка по инструкции: метаразметка, информация о говорящих, тщательная расшифровка с тегами
 * 3) Морфологическая разметка и снятие омонимии
 * 4) Разметка видео в ELAN-е

Этапы обработки текстов блогов и форумов
Этапы (2) и (3) выполняются дважды - тем, кто собрал записи, и одним из ваших однокурсников.
 * 1) Сбор материалов
 * 2) Обработка по инструкции: метаразметка, информация об авторах, тщательная расшифровка с тегами
 * 3) Морфологическая разметка и снятие омонимии

Полезная информация
Файлы должны лежать в Dropbox-е в папке LiveCorpus (если ее нет, создайте ее).