archive_5_Blog+tagging

=Разметка текстов блогов=

> 1. заполнение таблицы с информацией о тексте (метатаблица) в Гугл-доке: /ccc?key=0Ajl7LmqbY8KfdDdFeDU5dVNKX3gzY2pRUW5nblZNOXc

> 2. разбивку текста на абзацы: пост / комментарий / реплика (в форуме, чате). Каждый комментарий, даже длинный, должен соответствовать одному абзацу. Вложенные комментарии считаются по-отдельности. Сам текст поста, если он длинный, может быть разбит на абзацы.

> 3. разметку социолингвистической информации об авторах (справочник говорящих), ее привязку к репликам. Меткой автора является реальный или зашифрованный ник - например, partizan или В. Метка должна стоять в каждом посте и комментарии (т.е. в каждом абзаце файла).

> 4. аннотацию орфографических искажений в формате:

Слушай вообще проектом плюсик сволочь по-своему в общем

Чтобы разметить искажение, нужно выделить его и нажать кнопку [Дефект]. Сленг и просторечие типа "комп", "ейный" расшифровывать не нужно.

> 5. аннотацию смайликов из знаков препинания и гиперссылок в формате

`` ``)))))`` `` `` ``гиперссылка`` ``

Группу знаков препинания нужно вырезать, нажать на кнопку [Пояснение] и вставить в поле. Гиперссылку (адрес http..., имя файла и т.п.) нужно удалить из текста нажать на кнопку [Пояснение] и вставить в поле "гиперссылка" (адрес сохранять не нужно). 6. после сохранения файла в формате xml нужно открыть его в Notepad++ и добавить теги

.... ...

Тег post должен окружать текст поста (если форум - то его первую реплику). Если в посте/блоге есть заголовок, он тоже включается в этот блок. Тег comments окружает все комментарии (или остальные реплики на форуме). В отличие от аудио/видео, в блогах **не нужно** расставлять ударения!

Полезное: В исходных текстах блогов и форумов ни в коем случае нельзя менять орфографию и пунктуацию, убирать матерную и сленговую лексику - никакой редактуры!

Ссылка на архив с программой Scripter выслан на групповые почты. Просьба разработчиков - не распространять дальше нашего курса и с пониманием относиться к тому, что программа пока еще в бета-версии, к опечаткам в меню и т.п.

Инструкция по программе Scripter_HSE.doc находится в папке Scripter. NB Пропускайте те разделы инструкции, которые вам не нужны. Например, все, что в инструкции помечено желтым - выполнять не нужно, это мы делаем в гугл-доке.

К сожалению, Scripter не работает на Маках. Предлагается такое решение: - в Гугл-доке в последней колонке вы ставите примечание "Mac". - вы делаете в текстовом редакторе словарик говорящих Speakers.txt (через табуляцию указать имя или ник, год рождения, род занятий: ; другие образцы таких файлов можно посмотреть в папках Projects архива Scripter-а, например, Projects/zapis_01...). - xml-вариант размеченного текста не нужен. Говорящие/авторы блогов размечаются в .txt-файле в начале каждого абзаца в формате типа Василий@, partizan@ или В@ (после собаки должен идти пробел, дальше начинается реплика). Искажения размечаются в формате ваще{вообще*}. Пояснения даются в решетках, например, #гиперссылка#, #нрзб#, #^~^#. Аннотации блогов сдаются **без расстановки ударений**. Пример разметки без Scripter-а:
 * Маководам**:

SallyMolly@ видели #гиперссылка# Santorini@ Я ваще{вообще*} не в теме. Полотенчик рулит # )))))# . CaceODill@ а че{что*} они делали то{делали-то*}