Entenda o XML - Parte 2

No artigo anterior apresentei uma visão geral do padrão XML. Agora vou falar sobre as regras básicas deste padrão que, embora simples, requer muita atenção, pois o XML é um padrão intolerante a falhas.

[ Hits: 8.654 ]

Por: Hugo Cerqueira em 16/10/2015


Introdução



XML é uma linguagem de marcação. Mas o que isso significa? Pois bem, para explicar essa ideia, terei que falar primeiro sobre o que são dados. A grosso modo, dados são conteúdo de relevância para algum contexto em particular. Eles são caracterizados por um par, composto por um nome e um valor.

Linguagens de marcação são estruturas em que fica clara essa separação entre o nome e o valor. Os nomes dos dados constituem o esqueleto do documento, e este esqueleto é preenchido pelos valores dos dados. Para que você entenda melhor, veja como o dado "idioma" poderia ser representado em XML:

<idioma>Português</idioma>

Note que o valor "Português" está vinculado ao nome "idioma". Embora haja esse vínculo, fica clara a distinção entre o valor (Português) e o nome (idioma). Essa distinção é importantíssima em XML, já que aplicações que trabalham com esse padrão precisam de um meio para distinguir o que são os valores, que efetivamente interessam para o usuário final e o que são os nomes dos dados, que serão apenas usados internamente na aplicação.

A sintaxe básica

Em XML, os nomes dos dados são representados por elementos. Os elementos, por sua vez, são representados por uma tag de abertura e outra de fechamento. A tag de abertura é composta por um sinal de menor (<), seguido pelo nome do elemento e por fim um sinal de maior (>). A de fechamento é quase igual: a única diferença é que ela tem uma barra antes do nome. Por exemplo:

<titulo>Entenda o XML</titulo>

O valor do dado em si é colocado entre as tags de abertura e fechamento. É assim que se estabelece, portanto, o vínculo entre o nome e o valor. Convém lembrar que os espaços são preservados dentro do texto, portanto use-os conscientemente. É importante saber também que nomes de tags não podem começar com "xml" (em caixa alta, baixa ou qualquer combinação das duas).

Um elemento pode ser vazio (não ter valores). Neste caso, não é necessário criar uma tag de fechamento. Basta acrescentar uma barra ao fim da tag de abertura:

<linha />

Elementos também podem ser aninhados (colocados um dentro do outro), mas atenção: só pode haver um elemento raiz, isto é, um elemento que não está dentro de outro elemento. Além disso, é importante observar se estão aninhados corretamente (um elemento aberto dentro de outro deve também ser fechado dentro dele).

Elementos podem conter atributos. Atributos são declarados dentro da tag de abertura (inclusive para elementos vazios). Por exemplo:

<titulo idioma="português">Entenda o XML</titulo>
<linha espessura="3px" />

Atributos devem sempre ter um valor declarado, e este deve ser sempre colocado dentro de aspas (simples ou duplas). Um elemento pode ter vários atributos, mas o nome do atributo não pode se repetir. No exemplo acima, o título não poderia ter dois atributos "idioma".

A marcação XML permite que alguns trechos do documento sejam comentados. Comentários são ignorados pelo interpretador, portanto o conteúdo de um comentário está isento da sintaxe XML. Comentários começam com os caracteres "<!--" e terminam com os caracteres "-->". Por exemplo:

<!-- Isto é um comentário e será ignorado pelo interpretador -->

Todo documento XML deve iniciar com uma linha que identifica sua versão e a codificação dos caracteres:

<?xml version="1.0" encoding="UTF-8"?>

Por padrão, a linguagem XML utiliza a codificação UTF-8, portanto para esta o parâmetro "encoding" poderá ser omitido sem problemas. Caso contrário, deverá ser informado para evitar problemas durante a interpretação do documento.

Existem dois caracteres que merecem atenção especial em um documento XML: o sinal de menor (<) e o sinal de "e comercial" (&). O sinal de menor representa o início de uma tag. Já o sinal de "e comercial" representa o início de uma entidade (que explicarei no próximo tópico). Por este motivo, estes caracteres devem ser usados exclusivamente para estes fins. Caso contrário, a interpretação do documento apresentará erros.

    Próxima página

Páginas do artigo
   1. Introdução
   2. Entidades
Outros artigos deste autor

Acessibilidade na Web

Aprisionamento Tecnológico

Entenda o XML - Parte 1

Entenda o XML - Parte 3

psql - Conheça o básico

Leitura recomendada

Camada de Transporte TCP/IP e Aplicação

Codificação e decodificação entre ASCII, hexadecimal e unicode

Como traduzir Software Livre - Um método fácil

Acessibilidade na Web

Instalação e configuração do LMS Moodle no Linux

  
Comentários
[1] Comentário enviado por duferreira em 16/10/2015 - 16:15h

Excelente artigo Hugo!

[2] Comentário enviado por bmarquesm em 18/10/2015 - 14:57h

Muito bom artigo, parabéns Hugo.


Contribuir com comentário




Patrocínio

Site hospedado pelo provedor RedeHost.
Linux banner

Destaques

Artigos

Dicas

Tópicos

Top 10 do mês

Scripts