Padrões

Padrões consistem de strings literais e classes de caracteres, e podem conter subpadrões, que são padrões cercados por parênteses.

Escapando caracteres

Em padrões, bem como em classes de caracteres, alguns caracteres possuem um significado especial. Para combinar literalmente quaisquer um destes caracteres, eles devem ser marcados ou escapados, para deixar com que o software saiba que deve interpretar tais caracteres de maneira literal.

Isto é feito anexando no início do caractere uma barra invertida (\).

O software de expressão regular silenciosamente ignorará, escapando um caractere que não possui nenhum significado especial no contexto; assim, escapar, por exemplo, um j (\j ) é seguro. Se você tiver dúvidas se um caractere possui significado especial, você pode, portanto, escapá-lo seguramente.

A marcação inclui o próprio caractere de barra; por isso, para escapar uma barra, você deveria escrever \\.

Classes de Caracteres e abreviações

Uma classe de caractere é uma expressão que combina um dos caracteres de um conjunto definido. Em Expressões Regulares, as classes de caracteres são definidas colocando-se os caracteres legais em uma classe com colchetes ([]), ou usando uma das classes abreviadas descritas abaixo.

Classes de caracteres simples contém um ou mais caracteres literais, como por exemplo [abc] (combinando com uma das letras: a, b ou c) ou [0123456789] (combinando com qualquer dígito).

Uma vez que as letras e os números possuem uma ordem lógica, você poderá abreviá-los, definindo para isso intervalos: [a-c] é igual a [abc] e [0-9] é igual a [0123456789]. Combinar estas opções, por exemplo [a-fynot1-38] é perfeitamente possível (a última classe irá corresponder a um dos seguintes caracteres: a,b,c,d, e,f,y,n,o,t, 1,2,3 ou 8).

Como as letras maiúsculas são diferentes de minúsculas em expressões, para criar uma classe de caracteres que não diferenciasse maiúsculas de minúsculas, combinando por exemplo com a ou b, em qualquer caso, você precisaria escrever [aAbB].

Obviamente, é possível criar uma classe negativa que corresponda a tudo exceto. Para fazer isso, coloque um acento circunflexo (^) no início da classe:

[^abc] combinará com qualquer caractere menos com a, b ou c.

Além disso, para caracteres literais, algumas abreviações são definidas, tornando a vida um pouco mais fácil:

\a

Isto combina com o caractere ASCII da campainha (BEL, 0x07).

\f

Isto combina com o caractere ASCII de nova página (FF, 0x0C).

\n

Isto combina com o caractere ASCII de nova linha (LF, 0x0A, nova linha do Unix).

\r

Isto combina com o caractere ASCII de retorno de carro (CR, 0x0D).

\t

Isto combina com o caractere ASCII de tabulação horizontal (HT, 0x09).

\v

Isto combina com o caractere ASCII de tabulação vertical (VT, 0x0B).

\xhhhh

Isto combina com o caractere Unicode correspondente ao número hexadecimal hhhh (entre 0x0000 e 0xFFFF). \0ooo (isto é, \zero ooo) combina com o caractere ASCII/Latin-1 correspondente ao número octal ooo (entre 0 e 0377).

. (ponto)

Isto combina com qualquer caractere (incluindo nova linha).

\d

Isto combina com um dígito. É igual a [0-9]

\D

Isto combina com um caractere que não seja dígito. Igual a [^0-9] ou [^\d]

\s

Isto combina com um caractere em branco. Praticamente igual a [\t\n\r]

\S

Combina com o que não seja espaço em branco. Praticamente igual a [^\t\r\n], e igual a [^\s]

\w

Combina com quaisquer caractere da palavra, neste caso quaisquer letras ou dígitos. Note que o caractere de sublinhado (ou underscore - _) não combina, como é o caso com expressões regulares do Perl. Igual a [a-zA-Z0-9]

\W

Combina com qualquer caractere diferente de palavra - qualquer coisa menos letras ou números. Igual a [^a-zA-Z0-9] ou [^\w]

As classes abreviadas pode ser colocadas dentro de classes personalizadas, como por exemplo: para combinar um caractere de palavra, um em branco ou um ponto, você poderia escrever [\w\.]

Nota

A notação POSIX de classes, [:<nome da classe>:], atualmente não é suportada.

Caracteres com significado especial dentro das classes

Os seguintes caracteres possuem um significado especial dentro da construção [] de classes de caractere, e deve ser escapado para ser literalmente incluído em uma classe:

]

Finaliza a classe. Deve ser escapado, a menos que este caractere seja o primeiro da classe (pode ser seguido por um circunflexo não-escapado)

^ (circunflexo)

Denota uma classe negativa, se for o primeiro caractere. Deve ser escapado para combinar literalmente, se for o primeiro caractere da classe.

- (hífen)

Denota um intervalo lógico. Deve sempre ser escapado dentro de uma classe.

\ (barra invertida)

O caractere de escape. Deve sempre ser escapado.

Alternativas: combinando um deles

Se você deseja combinar um de um conjunto de padrões alternativos, pode separá-los com o caractere de barra vertical: |

Por exemplo: para encontrar a palavra John ou a palavra Harry, você usaria uma expressão do tipo John|Harry.

Subpadrões

Subpadrões são padrões fechados entre parênteses, e possuem vários usos no mundo das expressões regulares.

Especificando alternativas

Você pode usar subpadrões para agrupar um conjunto de alternativas dentro de um padrão maior. As alternativas são separadas pelo caractere | (barra vertical).

Por exemplo: Para procurar uma das palavras int, float ou double, você poderia usar o padrão int|float|double. Se você deseja somente encontrar delas, se for seguida por algum espaço em branco e então algumas letras, coloque as alternativas dentro de um subpadrão: (int|float|double)\s+\w+.

Capturando texto relacionado (referências anteriores)

Se você deseja usar uma referência anterior, use um subpadrão para ter a parte desejada do padrão lembrada.

Por exemplo: Se você deseja encontrar duas ocorrências da mesma palavra, separadas por vírgula, e possivelmente algum espaço em branco, poderia escrever: (\w+),\s*\1. O subpadrão \w+ procuraria pelo pedaço dos caracteres da palavra, e a expressão inteira combinaria se aquelas forem separadas por uma vírgula, 0 ou mais espaços em branco, e então, um pedaço igual de caracteres da palavra (a string \1 referencia o primeiro subpadrão entre os parênteses).

Afirmações Adiante

Uma afirmação do tipo adiante é um subpadrão, iniciando com ?= ou ?!.

Por exemplo: para combinar a string literal Bill, mas somente seguida por Gates, você poderia usar esta expressão: Bill(?! Gates) (isto procuraria por Bill Clinton, bem como por Billy the kid, mas ele silenciosamente ignoraria as outras combinações).

Os subpadrões usados para as afirmações não são capturados.

Veja também em Afirmações

Caracteres com significado especial dentro de padrões

Os seguintes caracteres possuem um significado especial dentro de um padrão, e devem ser escapados, caso você deseje procurá-los literalmente:

\ (barra invertida)

O caractere de escape.

^ (circunflexo)

Combina com o início da string.

$

Combina com o fim da string.

() (parênteses esquerdo e direito)

Denota subpadrões.

{} (abre e fecha chaves)

Denota quantificadores numéricos.

[] (abre e fecha colchetes)

Denota classes de caracteres.

| (barra vertical)

OR lógico. Alternativas separadas.

+ (sinal de mais)

Quantificador, 1 ou mais.

* (asterisco)

Quantificador, 0 ou mais.

? (ponto de interrogação)

Um caractere opcional. Pode ser interpretado como um quantificador, 0 ou 1.