sábado, 24 de marzo de 2012

La Validación XML


La Validación XML (eXtensible Markup Language) es la comprobación de que un documento en lenguaje XML está bien formado y se ajusta a una estructura definida. Un documento bien formado sigue las reglas básicas de XML establecidas para el diseño de documentos. Un documento válido además respeta las normas dictadas por su DTD (definición de tipo de documento) o esquema utilizado.


En primer lugar, los documentos XML deben basarse en la sintaxis definida en la especificación XML para ser correctos (documentos bien formados). Esta sintaxis impone cosas como la coincidencia de mayúsculas/minúsculas en los nombres de etiqueta, comillas obligatorias para los valores de atributo, etc. Sin embargo, para tener un control más preciso sobre el contenido de los documentos es necesario un proceso de análisis más exhaustivo.
La validación es la parte más importante dentro de este análisis, ya que determina si un documento creado se ciñe a las restricciones descritas en el esquema utilizado para su construcción. Controlar el diseño de documentos a través de esquemas aumenta su grado de fiabilidad, consistencia y precisión, facilitando su intercambio entre aplicaciones y usuarios. Cuando creamos documentos XML válidos aumentamos su funcionalidad y utilidad.

NECESIDAD DE LA VALIDACIÓN
La validación se encarga de verificar:
•    La corrección de los datos: aunque validar contra un esquema no garantiza al 100% que los datos son correctos, nos permite detectar formatos nulos o valores fuera de rango y por tanto incorrectos.
•    La integridad de los datos: al validar, se comprueba que toda la información obligatoria está presente en el documento.
•    El entendimiento compartido de los datos: a través de la validación se comprueba que el emisor y receptor perciban el documento de la misma manera, que lo interpreten igual.
El éxito de la validación dependerá de factores como:
•    Dónde se originan los documentos: si son fuentes confiables o no.
•    Quién los crea: si son creados por una aplicación automáticamente o por un usuario de forma manual. (véase Herramientas)
•    Quién los manipula: también es posible introducir errores involuntariamente durante la manipulación de los datos y documentos.
•    La calidad de los datos: si los documentos se generan directamente de una base de datos de herencia, pueden no estar completos o correctos al 100%.
•    El rendimiento del procesador o aparato que realice la validación: el procesado no es inmediato, necesita su tiempo. Si el rendimiento es crítico, se pueden aplicar diversas alternativas para reducir el coste computacional como limitar la validación a algunos aspectos, o crear un código específico para la aplicación particular que lo utiliza y se ejecute de forma más eficaz. (véase Procesamiento).

TIPOS DE DOCUMENTOS
Documento Bien Formado
El lenguaje estándar XML especifica unas normas básicas a nivel de sintaxis, a cumplir por todos aquellos documentos con intención de denominarse XML. Las características básicas exigidas son:
•    Incluir una declaración XML como etiqueta obligatoria: proporciona hasta tres informaciones clave sobre el documento que la contiene:
1.    Información de la versión XML (obligatoria): la versión más utilizada es 1.0, aunque ya está disponible la versión 1.1 de XML.
2.    Codificación de caracteres utilizada (opcional): hace referencia al modo en que se representan internamente los caracteres, normalmente UTF-8 o UTF-16.
3.    Declaración independiente (opcional): indica al procesador XML si un documento es independiente (standalone=”yes”) o se basa en información de fuentes externas, es decir, si depende de declaraciones de marca externas como una DTD externa (standalone=”no”), esta es la opción por defecto.
Ejemplo:
<? xml version="1.0" encoding="UTF-8" standalone="no" ?>
•    Sólo existe un único elemento raíz para cada documento: es un solo elemento en el que todos los demás elementos y contenidos se encuentran anidados y correctamente cerrados. Se basa en una estructura jerárquica y su función es la misma que el elemento raíz de un documento HTML <HTML>Contenido</HTML>
•    Todas las entidades usadas en su interior se declaran en la DTD interna.
•    Todos los elementos, atributos y entidades que utilice deben escribirse con una sintaxis correcta. No debemos olvidar que:
1.    Todos los elementos deben estar delimitados por una etiqueta inicial y otra final con el mismo nombre. <elemento></elemento>
2.    Los valores de atributos en XML deben ir entre comillas simples o dobles.
3.    Los elementos vacíos deben terminar con '/' (autocierre) o añadiendo una etiqueta de fin y no puede haber etiquetas aisladas.
4.    XML es sensible a mayúsculas y minúsculas y los nombres de las etiquetas pueden ser alfanuméricos, pero siempre comenzando con una letra


No hay comentarios:

Publicar un comentario