Muster bestehen aus Zeichenfolgen und Zeichenklassen. Muster können Untermuster enthalten, diese sind in Klammern eingeschlossene Muster.
In Mustern und in Zeichenklassen haben einige Zeichen spezielle Bedeutungen. Um diese Steuerzeichen zu finden, müssen sie als solche markiert werden.
Dies geschieht durch das Voranstellen eines Rückwärtsschrägstriches (\) vor das Zeichen.
Die Software ignoriert die Kennzeichnung als Steuerzeichen von Zeichen, die in dem betrachteten Zusammenhang keine Steuerzeichen sind. So ist z. B. die Angabe von (\j), also ein „j“ als Steuerzeichen markiert, kein Problem. Wenn Sie Zweifel haben, ob ein Zeichen eine spezielle Bedeutung hat, können Sie dies ohne Bedenken als Steuerzeichen markieren.
Selbstverständlich können Sie auch den Rückwärtsschrägstrich als Steuerzeichen markieren, dies geschieht durch \\.
Eine Zeichenklasse ist ein Ausdruck, der auf einen bestimmten Satz von Zeichen zutrifft. Zeichenklassen werden in regulären Ausdrücken durch Setzen der zugelassenen Zeichen in eckige Klammern [] oder durch Nutzen einer der im Folgenden beschriebenen abgekürzten Klassen definiert.
Einfache Zeichenklassen enthalten nur ein oder mehrere Zeichen, z. B. [abc] (zutreffend auf einen der Buchstaben „a“, „b“ oder „c“) oder [0123456789] (zutreffend auf eine Zahl).
Da Buchstaben und Zahlen eine festgelegte Reihenfolge haben, können diese durch Angabe des Bereiches :abgekürzt werden: [a-c] entspricht [abc] und [0-9] entspricht [0123456789]. Diese Angaben können auch kombiniert werden, zum Beispiel trifft [a-fynot1-38] auf die folgenden Zeichen zu: „a“,„b“,„c“,„d“, „e“,„f“,„y“,„n“,„o“,„t“, „1“,„2“,„3“ oder „8“.
Da Großbuchstaben von Kleinbuchstaben unterschieden werden, müssen Sie zur Angabe von „a“ oder „b“ ohne Unterscheidung von Groß- und Kleinschreibung [aAbB] angeben.
Die Erzeugung von „negativen“ Klassen, die auf „alles außer“ zutreffen, erfolgt durch das Hoch-Zeichen (^) am Anfang der Klassendefinition:
[^abc] trifft auf alle Zeichen außer „a“, „b“ oder „c“ zu.
Zusätzlich zu den druckbaren Zeichen sind noch einige Abkürzungen definiert, um die Verwendung ein wenig einfacher zu machen:
\aTrifft auf das ASCII-Beep-Zeichen zu (BEL, 0x07).
\fTrifft auf das ASCIISeitenvorschub-Zeichen zu (FF, 0x0C).
\nTrifft auf das ASCII-Zeilenvorschub-Zeichen zu (LF, 0x0A, Unix newline).
\rTrifft auf das ASCII-Wagenrücklauf-Zeichen zu (CR, 0x0D).
\tTrifft auf das ASCII-Zeichen Horizontaltabulator zu (HT, 0x09).
\vTrifft auf das ASCII-Zeichen Vertikaltabulator zu (VT, 0x0B).
\xhhhhDieser Ausdruck trifft auf das Unicodezeichen mit dem Code mit der Hexadezimalzahl hhhh (zwischen 0x0000 und 0xFFFF) zu. \0ooo (d. h., \zero ooo) trifft auf das ASCII-/Latin-1-Zeichen mit dem Code mit der Oktalzahl ooo (zwischen 0 und 0377) zu.
.(Punkt)Trifft auf jedes Zeichen einschließlich Zeilenvorschub zu.
\dTrifft auf eine Ziffer zu. Entspricht
[0-9].\DTrifft auf ein Zeichen, das keine Ziffer ist, zu. Entspricht
[^0-9]oder[^\d].\sTrifft auf ein Zeichen, das einen Zwischenraum angibt, zu. Praktisch entspricht dies
[ \t\n\r].\STrifft auf ein Zeichen, das keinen Zwischenraum angibt, zu. Praktisch entspricht dies
[^ \t\n\r]oder[^\s].\wTrifft auf jedes „druckbares Zeichen“ zu - in diesem Fall Buchstaben, Ziffern oder Unterstrich. Entspricht
[a-zA-Z0-9]\WTrifft auf alle nicht druckbaren Zeichen außer Buchstaben, Ziffern und Unterstrich zu. Entspricht
[^a-zA-Z0-9]oder[^\w]
Die POSIX-Notation von Klassen, [:<class name>:] wird auch unterstützt. Zum Beispiel entspricht [:digit:] \d und [:space:] \s. Die vollständige Liste der POSIX-Zeichenklassen finden Sie hier.
Die abgekürzten Klassen können in selbstdefinierte Klassen eingefügt werden, z. B. kann für die Klasse „druckbares Zeichen, Leerzeichen oder Punkt“ der Ausdruck [\w \.] verwendet werden.
Die folgenden Zeichen haben spezielle Bedeutungen innerhalb des Ausdrucks in eckigen Klammern „[]“, diese müssen als Steuerzeichen gekennzeichnet werden, damit sie als Zeichen in die Klasse einbezogen werden:
]Beendet die Definition der Zeichenklasse. Dieses Zeichen braucht nicht als Steuerzeichen gekennzeichnet werden, wenn es das erste Zeichen in einer Zeichenklassendefinition (nach dem Zeichen „[“ oder „^“) ist.
^(Hoch-Zeichen)Bezeichnet eine negative Klasse, wenn es das erste Zeichen in einer Zeichenklassendefinition ist. Wenn es als druckbares Zeichen behandelt werden soll, muss es als Steuerzeichen gekennzeichnet werden, wenn es das erste Zeichen in einer Zeichenklassendefinition ist.
-(Bindestrich)Kennzeichnet einen logischen Bereich. Wenn es als Zeichen behandelt werden soll, muss es als Steuerzeichen gekennzeichnet werden.
\(Rückwärtsschrägstrich)Das Zeichen zum Kennzeichnen eines Steuerzeichens. Dieses Zeichen muss immer als Steuerzeichen gekennzeichnet werden, wenn es als druckbares Zeichen behandelt werden soll.
Wenn ein erkanntes Muster von mehreren Mustern als zutreffend erkannt werden soll, dann müssen Sie diese Muster durch einen senkrechten Strich | getrennt angeben.
Der Ausdruck John|Harry wird z. B. als zutreffend erkannt, wenn entweder „John“ oder „Harry“ gefunden wird.
Untermuster sind in Klammern eingeschlossene Muster, die in regulären Ausdrücken viele Verwendungen haben.
Sie können Untermuster verwenden, um Gruppen von Alternativen in einem Muster anzugeben. Die Alternativen werden durch den senkrechten Strich | getrennt.
Um eines der Worte „int“, „float“ oder „double“ zu erkennen, geben Sie int|float|double an. Wenn eines der Worte nur dann erkannt werden soll, wenn nach dem Wort Zwischenraum und dann Buchstaben folgen, dann verwenden Sie den folgenden Ausdruck mit den Worten im Untermuster: (int|float|double)\s+\w+.
Wenn Sie einen Rückverweis verwenden möchten, benutzen Sie ein Untermuster (PATTERN), um den gewünschten Teil des Musters zu merken. Um zu verhindern, dass das Untermuster gemerkt wird, verwenden Sie eine nicht speichernde Gruppe (?:PATTERN).
Wenn Sie z. B. das zweifache Auftreten des selben Wortes getrennt durch ein Komma und eventuell Zwischenraum finden wollen, dann würden Sie (\w+),\s*\1 verwenden. Das Untermuster \w+ findet ein Stück aus druckbaren Zeichen. Der gesamte Ausdruck trifft zu, wenn diese von einem Komma und keinem oder mehreren Zwischenraumzeichen und dann von einem gleichen Stück von Zeichen gefolgt werden. (Der Ausdruck \1 verweist auf das erste in Klammern angegebene Untermuster.)
Anmerkung
Um Mehrdeutigkeiten bei Ausdrücken wie \1 und einigen nachfolgenden Ziffern wie z. B. \12 - 12tes Untermuster oder nur das erste Untermuster mit 2 zu vermeiden, wird die Syntax \{12} für Untermuster aus mehreren Ziffern verwendet.
Beispiele:
\{12}1bedeutet „Untermuster 12 benutzen“\123bedeutet „1 ist das Suchmuster und 23 normaler Text“
Eine vorwärtsgerichtete Behauptung ist ein Untermuster, das mit ?= oder ?! anfängt.
Der Ausdruck Bill(?! Gates) besagt, dass „Bill“ gefunden wird, aber nur wenn nicht von „ Gates“ gefolgt. Dies findet „Bill Clinton“ oder „Billy the kid“, aber ignoriert stillschweigend die andere Übereinstimmung.
Untermuster, die für Behauptungen benutzt werden, werden nicht gespeichert.
Sehen Sie auch unter Behauptungen nach.
Eine rückwärtsgerichtete Behauptung ist ein Untermuster, das entweder mit ?<= oder mit ?<! anfängt.
Eine Rückwärtsreferenz hat die gleiche Wirkung wie eine Vorwärtsreferenz, funktioniert aber rückwärts. Um zum Beispiel die Zeichenfolge „fruit“ zu finden, aber nur, wenn nicht „grape“ vorangestellt ist, könnten Sie diesen Ausdruck verwenden: (?<!grape)fruit.
Untermuster, die für Behauptungen benutzt werden, werden nicht gespeichert.
Sehen Sie auch unter Behauptungen nach.
Die folgenden Zeichen haben spezielle Bedeutungen innerhalb eines Musters, diese müssen als Steuerzeichen gekennzeichnet werden, damit sie als Zeichen behandelt werden:
\(Rückwärtsschrägstrich)Das Escape-Zeichen.
^(Hoch-Zeichen)Kennzeichnet den Anfang der Zeichenfolge.
$Kennzeichnet das Ende der Zeichenfolge.
()(linke und rechte Klammer)Kennzeichnet Untermuster.
{}(linke und rechte geschweifte Klammer)Kennzeichnet numerische Quantifizierer.
[](linke und rechte eckige Klammer)Kennzeichnet Zeichenklassen.
|(senkrechter Strich)Logisches ODER. Trennt Alternativen.
+(Pluszeichen)Quantifizierer, steht für eins oder mehrere.
*(Stern)Quantifizierer, steht für kein oder mehrere.
?(Fragezeichen)Ein optionales Zeichen. Kann als Quantifizierer; 0- oder 1-mal gedeutet werden.