Euskara|Español|English
manuscrito
|| TESITEK ||
BONAPARTE ONDAREKO ESKUIZKRIBUAK - FONDO BONAPARTE
Bonaparte

El etiquetado

El acceso al texto ofrece la posibilidad de optar por cada una de las dos partes que ofrece el etiquetado: la cabecera y el propio texto.

La cabecera incluye toda la información bibliográfica y documental contenida en las introducciones de la edición en papel. Además, se ha confeccionado una cabecera general del proyecto, que contiene la información bibliográfica de ediciones precedentes, una breve descripción del proyecto y la taxonomía digital de elaboración propia del corpus digital. Esta clasificación -ver el apartado Descripción del corpus-, contenida en la cabecera general de la investigación, permite establecer jerarquías y relaciones entre los distintos textos digitalizados atendiendo a los criterios de: dialecto, subdialecto, variedad y tipología textual.

El etiquetado estructural se ha realizado mediante la notación textual del lenguaje de marcación XML siguiendo las directrices que el consorcio TEI (Text Encoding Initiative) fija con el fin de establecer un lenguaje estándar. Si bien al comienzo de la investigación el proceso de etiquetado se realizó siguiendo las directrices del TEI Master (Manuscript Access through Standards for Electronic Records), posteriormente se realizó la modificación correspondiente a la guía general de TEI, versión P5 (http://www.tei-c.org ).

Se han seguido igualmente las directrices de TEI para la notación que varía en función de la tipología textual. Así, para los textos en prosa, dentro del cuerpo (<body>) de cada texto (<text>), la serie comprende: título del documento (<head>), división por capítulos (<div type="kapitulua" n="">) acompañada del número que le corresponda, y, en cada capítulo, titulo (<head>) y listado de versículos (<list type="bertsikulua">), cada uno de ellos numerado (<item n="">) y precedido, si fuese el caso, por un pequeño encabezado (<p>) que da información o recoge un resumen de su contenido. Estas etiquetas no aparecen obligatoriamente, y en ciertos casos, como en el Gure Aita, la necesidad se reduce al título (<head>) y a un único párrafo (<p>).

Los capítulos aplicados a la estructura de los documentos con sus respectivas funciones son los siguientes:
  • Capítulo 2: The TEI Header. Aborda los problemas de la descripción de un trabajo codificado para que el propio texto, su origen, su codificación y sus revisiones todos sean documentados.
  • Capítulo 3: Elements available in all TEI documents. Describe los elementos que pueden aparecer en cualquier tipo de texto y los códigos que se utilizan para marcar en todos los documentos TEI.
  • Capítulo 4: Default text structure. Se describe el valor por defecto de estructura de alto nivel para los documentos TEI.
  • Capítulo 7: Performance texts. Destinado a la codificación de textos dramaticos, dialogos o cualquier forma de actuación transcrita.
  • Capítulo 10: Manuscript description. En donde se define un objetivo que puede ser usado para proporcionar información descriptiva detallada sobre las fuentes escritas a mano.
  • Capítulo 15: Language corpora. Describe las diferentes opciones que ofrece para combinar dentro de un mismo documento TEI, el corpus, la cabeceras y su texto o posible grupo de textos.
  • Capítulo 16: Linking, segmentation and alignment. Describe todos los codificadores que ayudan a enlazar o segmentar párrafos, frases o palabras dentro de un mismo texto o con documentos externos, sin seguir necesariamente una estructura lineal o jerárquica.
Respecto a las notas a pie de página, siempre que resultan pertinentes a esta edición, se han conservado las de la edición en papel con las implementaciones precisas. Por otra parte, a fin de facilitar su consulta se han distribuido tipológicamente en cuatro grupos diferenciados cromáticamente del siguiente modo:
  1. Textuales, color marrón.
  2. Notas históricas, color amarillo.
  3. Lingüísticas, color rojo.
  4. Tipo mixto, las que agrupan una combinación de las anteriores, color azul.
Se han mantenido, salvo algún caso corregido, todos los sic de la edición en papel.

Se han resaltado en color verde para que el usuario las aprecie mejor.

La lengua estándar seguida en el etiquetado es el inglés, excepto en los valores de los atributos no definidos en las directrices, que han sido traducidos al euskara, abriendo, de este modo, un primer paso hacia la creación de una propuesta de etiquetado en dicha lengua.

Finalmente, con objeto de facilitar la comparación entre diversas variantes dialectales, la interfaz de visualización permite el cotejo de las versiones de un mismo texto, hasta un máximo de cuatro.
 
Selección de textos|Análisis morfológico|Análisis sintáctico|Glosario|Cotejo de Textos|Del Batua
Bizkaiko Foru Aldundia - Diputación Foral de Bizkaia UNIVERSIDAD DE DEUSTO · DEUSTUKO UNIBERTSITATEA