I modelli

I modelli consistono in sequenze di caratteri letterali e in classi di caratteri. Possono contenere sotto-modelli, che sono modelli racchiusi fra parentesi.

I caratteri speciali

Nei modelli, così come nelle classi di caratteri, alcuni caratteri hanno un significato speciale. Per abbinare letteralmente qualcuno di questi caratteri, essi devono essere marcati, o resi di escape; questo far sapere al software di gestione delle espressioni regolari di trattare tali caratteri col loro significato letterale.

Ciò si fa inserendo come prefisso del carattere una barra inversa (\).

Il software per la gestione delle espressioni regolari ignora silenziosamente l'uso di un carattere di escape prima di un carattere senza particolari significati, quindi se viene anteposto, ad esempio, a «j» (\j) non è dannoso. Se hai dei dubbi sul fatto che un dato carattere possa avere significati speciali, puoi anteporvi il carattere di escape per sicurezza.

Per inserire un carattere di barra inversa devi ripetere il carattere stesso, scrivendo \\.

Classi di caratteri ed abbreviazioni

Una classe di caratteri è un'espressione regolare che corrisponde ad uno di un gruppo di caratteri particolare. Nelle espressioni regolari le classi di caratteri sono definite inserendo i caratteri legali per la classe fra parentesi quadre, [], o usando una delle classi predefinite descritte più avanti.

Classi di caratteri semplici contengono solo uno o più caratteri letterali, come ad esempio [abc] (che corrisponde ad una delle lettere «a», «b» o «c») o [0123456789] (che corrisponde ad una delle cifre decimali).

Poiché le lettere e i numeri hanno un ordine logico, puoi abbreviare le definizioni delle classi che li contengono specificando degli intervalli: [a-c] è equivalente a [abc], e [0-9] equivale a scrivere [0123456789]. Sono ammesse anche le combinazioni di questi costrutti, ad esempio, [a-fynot1-38] corrisponde ad un carattere fra «a», «b», «c», «d», «e», «f», «y», «n», «o», «t», «1», «2»,«3» e «8».

Poiché le lettere maiuscole vengono distinte da quelle minuscole, per creare una classe di caratteri che corrisponda ad «a» o «b», senza distinguere fra maiuscole e minuscole, devi scrivere [aAbB].

È anche possibile creare una classe di caratteri «negativa», che corrisponde ad un «qualunque carattere tranne quelli elencati». Per far ciò inserisci un carattere di accento circonflesso «^» all'inizio della classe:

[^abc] corrisponderà ad un carattere qualsiasi che non sia «a», «b» o «c».

Oltre ai caratteri letterali sono definite alcune abbreviazioni, che rendono la vita un po' più semplice:

\a

Questo corrisponde al carattere campanella ASCII (BEL, 0x07).

\f

Corrisponde al carattere di avanzamento carta ASCII (FF, 0x0C).

\n

Corrisponde al carattere ASCII di avanzamento riga (LF, 0x0A, newline in Unix).

\r

Corrisponde al carattere ASCII ritorno carrello (CR, 0x0D).

\t

Corrisponde ad un carattere ASCII di tabulazione orizzontale (HT, 0x09).

\v

Corrisponde ad un carattere ASCII di tabulazione verticale (VT, 0x0B).

\xhhhh

Questo corrisponde ad un carattere Unicode che ha la rappresentazione esadecimale hhhh (tra 0x0000 e 0xFFFF). \Oooo (cioè \zero ooo) corrisponde al carattere ASCII/Latin-1 rappresentato dal numero ottale 000 (compreso tra 0 e 0377).

. (punto)

Corrisponde ad un carattere qualsiasi (anche ad un «nuova riga»).

\d

Questo corrisponde ad una cifra decimale. Equivale a [0-9]

\D

Corrisponde ad un carattere non numerico. Equivale a [^0-9] o [^\d]

\s

Corrisponde ad un carattere di spaziatura. Equivale a [ \t\n\r]

\S

Corrisponde ad un carattere che non è di spaziatura. Equivale a [^ \t\n\r], ed è uguale a [^\s]

\w

Corrisponde ad un «carattere di parola» - in questo caso a qualsiasi lettera o numero. Nota che il carattere di sottolineatura (_) non viene considerato un carattere di parola, come succede nelle espressioni regolari di perl. Equivale a [a-zA-Z0-9]

\W

Corrisponde ad un «carattere di non-parola» - qualsiasi carattere che non sia una lettera o un numero. Equivale a [^a-zA-Z0-9] o a [^\w]

Le classi abbreviate possono essere inserite all'interno di classi personalizzate, ad esempio per richiedere la corrispondenza di n carattere di parola, di uno spazio o di un punto, puoi scrivere [\w \.]

Nota

La notazione POSIX per le classi, [:<nomeclasse>] non è al momento supportata.

Caratteri con un significato speciale all'interno delle classi di caratteri

I seguenti caratteri hanno un significato particolare all'interno del costrutto «[]» delle classi di caratteri, e devono essere preceduti dal carattere di escape per essere inclusi letteralmente in una classe:

]

Termina la classe di caratteri. Deve essere preceduto dal carattere di escape, a meno che non sia esattamente il primo della classe (può seguire un carattere «^», che indica la negazione della classe)

^ (simbolo di accento circonflesso)

Denota una classe negativa, se è il primo carattere. Deve essere preceduto dal carattere di escape per corrispondere letteralmente se è il primo carattere della classe.

- (trattino)

Denota un intervallo logico di caratteri. Deve sempre essere preceduto dal carattere di escape per essere interpretato alla lettera in una classe di caratteri.

\ (barra inversa)

Il carattere di escape. Deve sempre essere raddoppiato per essere interpretato letteralmente.

Alternative: corrispondenza del tipo «uno fra»

Se vuoi controllare se il testo corrisponde ad uno fra una serie di modelli alternativi, puoi separare ciascuna alternativa con un carattere | (barra verticale).

Ad esempio, per trovare uno fra «John» ed «Harry» devi usare l'espressione John|Harry.

I sotto-modelli

I sotto-modelli sono modelli racchiusi fra parentesi, ed hanno molti usi nel mondo delle espressioni regolari.

Specificare delle alternative

Puoi usare un sotto-modello per raggruppare un insieme di alternative all'interno di un modello più grande. Le alternative sono separate dal carattere «|» (barra verticale).

Ad esempio, per cercare una parola fra «int», «float» e «double», puoi usare il modello int|float|double. Se vuoi trovare la parole solo se è seguita da un po' di spazi e delle lettere, inserisci le alternative in un sotto-modello: (int|float|double)\s+\w+.

Cattura del testo corrispondente (riferimenti all'indietro)

Se vuoi usare un riferimento all'indietro usa un sotto-modello, per fare in modo che la sezione che ti interessa del modello sia ricordata.

Per esempio, se vuoi trovare due ripetizioni della stessa parola separate da una virgola ed eventualmente da qualche spazio bianco puoi scrivere (\w+),\s*\1. Il sotto-modello \w+ troverà una sequenza di caratteri di parola, e l'intera espressione corrisponderà se gli stessi caratteri saranno seguiti da una virgola, zero o più caratteri di spaziatura, e da un'identica sequenza di caratteri di parola (La stringa \1 si riferisce al primo sotto-modello racchiuso fra parentesi).

Nota

Per evitare ambiguità nell'uso di \1 quando è seguito da alcune cifre (ad es. \12 può essere il dodicesimo sotto-modello, o anche il primo con 2), usiamo \{12} come sintassi per un sotto-modello con più cifre.

Esempi:

  • \{12}1 vuol dire «usa il sotto-modello 12»

  • \123 vuol dire «usa l'1 catturato, quindi 23 come testo normale»

Asserzioni di lookahead

Un'asserzione di lookahead è un sotto-modello che inizia con ?= o con ?!.

Per esempio, per trovare la stringa letterale «Bill» ma solo se non è seguita da « Gates», puoi usare questa espressione: Bill(?! Gates). (Verrà trovato «Bill Clinton» ed anche «Billy the kid», ma verranno ignorate silenziosamente le altre corrispondenze.)

I sotto-modelli usati per le asserzioni non sono catturati.

Vedi anche Le asserzioni

Caratteri con un significato speciali in un modello

I seguenti caratteri hanno un significato all'interno di un modello, e devi farli precedere da un carattere di escape se vuoi controllarne la presenza letterale:

\ (barra inversa)

Il carattere di escape.

^ (simbolo di accento circonflesso)

Asserisce l'inizio della stringa.

$

Asserisce la fine della stringa.

() (parentesi aperta e chiusa)

Denotano un sotto-modello.

{} (parentesi graffe aperta e chiusa)

Denotano quantificatori numerici.

[] (parentesi quadre aperta e chiusa)

Denotano classi di caratteri.

| (barra verticale)

OR logico. Separa le alternative.

+ (segno più)

Quantificatore, uno o più.

* (asterisco)

Quantificatore, zero o più.

? (punto interrogativo)

Carattere facoltativo. Può essere interpretato come un quantificatore, zero o uno.