05_Video_tagging

=Метаразметка и расшифровка видео (аудио)=

Работа состоит из нескольких этапов: 1. Первичная расшифровка 2. Заполнение метатаблицы и таблицы про говорящих 3. Разбивка на реплики и повторное прослушивание/редактирование 4. Аннотация искажений типа //скока, щас//.


 * Чеклист выполненного задания**:
 * в дропбокс в папку **LiveCorpus** нужно положить текстовый файл с именем вида //anyname.1.txt// (первичная расшифровка), файл //anyname.2.txt// (вторичная расшифровка) и файл anyname_Speakers.txt (информация о говорящих).
 * проверьте, что файлы сохранены как текст (.txt), имеют кодировку Cyrillic Windows (1251, ANSI), формат конца строк - Windows (CR+LF). Если это не так - конвертируйте файл с помощью NotePad++. Имя файла не должно содержать кириллических букв. Старайтесь, чтобы вместо anyname у вас стояло что-то, мнемонически напоминающее тему разговора на видео, и у всех трех файлов оно было одинаковым.
 * заполнена метатаблица в гугл-доке

1. **Первичная расшифровка** Запишите текст так, как вы его слышите, в стандартной русской орфографии. Сохраните его как текст (в указанной выше кодировке, с имененем вида //anyname.1.txt//). Редактор VLC, в котором удобно прослушивать видео в замедленном темпе: под Windows, Mac

2. **Заполнение метатаблицы и таблицы о говорящих** Вы уже должны были заполнить ее раньше. Проверьте, что все в порядке. Записывается в текстовый файл ..._Speakers.txt, каждому говорящему соответствует одна строка. Укажите информацию о каждом из говорящих (в кадре и за кадром) в следующем порядке: Имя/псевдоним говорящего* Пол Год рождения (1990 или 1990-1992) (если не знаете, укажите примерно) Профессия/занятие Место рождения Место проживания Образование (неполное среднее, среднее, высшее) Значения полей отделяются друг от друга табуляцией. .
 * **метатаблица** - таблица с информацией о ролике, лежит в Гугл-доке: [|https://docs.google.com/spreadsheets/d/1t_TvLHfz9kLyBS4dd5lfBRjppl05LUFbYIiynVxcle8/edit#gid=0]
 * **Справочник говорящих** - файл, в котором содержится социолингвистическая информация о говорящих.

Автор реплики указывается либо с помощью фамилии (если она имеет какую-то общественную значимость и автор высказывания, с точки зрения записывающего, не будет возражать против того, чтобы ему была приписана эта реплика, – это имеет место в основном в случаях публичной, а не частной устной речи), либо анонимно (например, инициалами, цифрами или функционально: «А», «А.В.», «Говорящий1», «Лектор» и т. д.). Если неизвестно или неважно, кто говорит, то можно использовать вводы типа «Вопрос с места», «Вопрос», «Из зала» и под. Если в полилоге участвуют несколько человек с одинаковыми ролями, то их нужно каким-то образом различать между собой, например, «Студент1», «Студент2» и под.

 3. **Разбивка на реплики** Разбивая текст на реплики, вы должны отделить речь одного говорящего от речи других. В начале каждой реплики должна стоять аннотация говорящего в формате Виктор@ или В@ (отделяется от самой реплики пробелом). Если ваша запись - монолог, то одна реплика примерно соответствует абзацу письменного текста (со слишком длинными репликами трудно будет работать дальше). В тексте __не должно быть__ абзацев без авторов реплик. Все псевдонимы должны быть указаны в таблице ..._Speakers.txt Прослушивая текст повторно, вставьте все реплики, поддерживающие разговор (//ага, ну//), слова-паразиты (//гм, ммм, эээ//), недоговоренные слова (//и тут она по... вышла//), запинки (//гово... сказала//) - т. е. все, что вы можете расслышать. Естественно, необходимо записывать все междометия.
 * Повторное прослушивание и редактирование файла**

 4. **Аннотация искажений типа //скока, щас, гово...//** Искажения следует оформлять с помощью тегов следующим образом:

сколько Слушай, ты, вообще пошёл отсюда! То есть

При расшифровке желательно сохранять все стандартные стяжки типа //щас, тыща, чек// (человек), //так скать// (так сказать); растянутые произношения типа //нуу//, //воот//, а также речевые маски -- намеренные искажения, имитирующие речь другого человека, например, кавказскую типа //слющий// и //дэвушка//. Однако стандартные варианты произношения, не соответствующие орфографии, типа //што// (что), //штобы// (чтобы), //канешна// (конечно), //ниво// (него) никак не помечаются.


 * //__NB__//** Особенное внимание следует обратить на слово «вот», которое часто принимает форму «во», «от» и «о», а также «нет», которое часто выглядит как «не» или «не-а». Такие случаи обязательно оформлять следующим образом:

вот вот вот нет нет

Если этого не сделать, то формы не удастся отделить от предлогов и частиц.

Аббревиатуры записываются как слышатся и расшифровываются как аббревиатуры ЦСКА



**Пояснения**
в сторону и – желательно – важные паузы более (через 2 мин.) Если текст в том или ином месте не удается разобрать, то используется тег [нрзб] ("неразборчиво"), который записывается так: [нрзб] Остальные ремарки добавляются с помощью кнопки тега типа note ("пояснение"): В сторону

Когда говорят несколько человек одновременно и разобрать ничего не удается, нужно использовать ремарку "Говорят одновременно" `` Говорят одновременно `` (Одновременно звучащие реплики, если их удается разобрать, нужно записывать последовательно, друг за другом). . В случаях невербального общения (напр., общий гул без ясно вычлененных реплик) допустимо указать общее настроение этого гула, например, `` ``Все согласны`` `` `` ``Никто не знает`` ``.

Допустимо либо ставить стандартную пунктуацию, прежде всего, знаки вопроса и восклицания (см. файл-образец), либо ставить знаки / и //для обозначения микрочастей "предложения" и границ между "предложениями" устной речи, ср.://
 * Примечание о знаках препинания**

//там спрашивают фамилию-то / я сказала / Поликарпова// ты с какого года? / ну это / родители сказали / с восемнадцатого //нет / ты с семнадцатого// я говорю / откуда / я с восемнадцатого //

Пример разметки: