Шаблоны

Шаблоны состоят из символов и символьных классов. Допускается вложенность, в этом случае вложенные шаблоны заключаются в круглые скобки.

Управляющие последовательности

И в шаблонах, и в символьных классах некоторые символы имеют специальное значение. Если требуется использовать эти символы при поиске именно как символы, необходимо записать их определённым образом, чтобы анализатор регулярных выражений интерпретировал их как обычные символы.

Делается это очень просто, необходимо всего лишь поставить перед таким символом обратную черту (\).

Анализатор регулярных выражений игнорирует обратную черту перед символами, которые не имеют специального значения в контексте; например, если вместо обычного символа «j» ввести \j, анализатор будет интерпретировать его просто как «j». Таким образом, если неизвестно, имеет ли символ специальное значение, возможно без опасений предварить его обратной чертой.

Для указания собственно обратной черты (в качестве обычного символа) необходимо продублировать её: \\.

Символьные классы и сокращения

Символьный класс — это выражение, которое позволяет проверить один символ на принадлежность определённому набору символов. Чтобы использовать его в регулярных выражениях, требуется в квадратных скобках записать все верные символы или сокращённые классы, описание которых приводится далее.

Простые символьные классы содержат один или несколько символов, например, [abc] (проверка на любой из символов «a», «b» или «c») или [0123456789] (проверка на любую цифру).

Поскольку буквы и цифры упорядочены логически, возможно сокращать классы, используя диапазоны: [a-c] аналогично [abc], [0-9] аналогично [0123456789]. Возможно комбинировать диапазоны с обычным перечислением символов: [a-fynot1-38] (проверка на любой из символов «a»,«b»,«c»,«d», «e»,«f»,«y»,«n»,«o»,«t», «1»,«2»,«3» или «8»).

Чтобы проверить символ без учёта регистра в любом случае (регулярное выражение позволяет учитывать или не учитывать регистр символов), следует написать примерно следующее: [aAbB].

Возможно создать «исключающий» класс, который проверяет символ на «невхождение» в заданный набор символов. Обычный символьный класс превращается в исключающий добавлением символа «^» перед набором символов:

[^abc] — проверка на любой символ, кроме «a», «b» и «c».

В дополнение к обычным символам возможно использовать следующие сокращения:

\a

Проверка на ASCII-символ звонка (BEL, 0x07).

\f

Проверка на ASCII-символ перевода страницы (FF, 0x0C).

\n

Проверка на ASCII-символ перевода строки (LF, 0x0A, символ перехода на новую строку в Unix).

\r

Проверка на ASCII-символ возврата каретки (CR, 0x0D).

\t

Проверка на ASCII-символ горизонтальной табуляции (HT, 0x09).

\v

Проверка на ASCII-символ вертикальной табуляции (VT, 0x0B).

\xhhhh

Проверка на символ Юникода, соответствующий шестнадцатеричному числу hhhh (в пределах 0x0000-0xFFFF). \0ooo (первый символ — ноль) — проверка на символ в кодировке ASCII/Latin-1, соответствующий восьмеричному числу ooo (в пределах 0-0377).

. (точка)

Проверка на любой символ (включая переход на новую строку).

\d

Проверка на цифровой символ. Аналогично классу [0-9].

\D

Проверка на любой символ, не являющийся цифровым. Аналогично [^0-9] или [^\d].

\s

Проверка на пробельный символ. Фактически аналогично классу [ \t\n\r].

\S

Проверка на любой символ, не являющийся пробельным. Фактически равнозначно [^ \t\r\n] и аналогично [^\s].

\w

Проверка на любой «словообразующий символ» (все буквы и цифры, а также символ подчёркивания). Аналогично классу [a-zA-Z0-9_].

\W

Проверка на любой символ, не являющийся словообразующим (все символы, кроме букв, цифр и подчёркиваний). Аналогично классу [^a-zA-Z0-9_] или [^\w].

Нотация классов POSIX, [:<имя класса>:], также поддерживается. Например, [:digit:] аналогично \d, а [:space:]\s. Полный перечень символьных классов POSIX доступен здесь.

Аббревиатурные классы возможно помещать в обычные классы; например, чтобы выполнить проверку на словообразующий символ, точку или пробел, возможно ввести следующее: [\w \.]

Символы со специальным значением в символьных классах

Далее перечислены символы, имеющие специальное значение в определениях символьных классов («[]»). Для использования в качестве обычных символов они должны быть предварены обратной чертой.

]

Закрывает символьный класс. Этот символ должен быть предварён обратной чертой, кроме тех случаев, когда он находится непосредственно в начале класса или сразу после символа ^.

^

Если находится в начале, объявляет исключающий класс. Чтобы использовать этот символ как обычный символ в начале класса, следует предварить его обратной чертой.

- (дефис)

Объявляет логический диапазон. При использовании внутри символьного класса этот символ всегда следует предварять обратной чертой.

\ (обратная черта)

Спецсимвол (escape character). Чтобы использовать его как обычный символ, продублируйте.

Альтернативы: проверка на «один из» нескольких шаблонов

Если требуется выполнить проверку на один (любой) шаблон из определённого набора, используйте альтернативы. Чтобы объявить альтернативу, следует все шаблоны набора записать через вертикальную черту (|).

Например, чтобы найти любое из имён «Вася» и «Петя», необходимо использовать такое выражение: Вася|Петя.

Вложенные шаблоны

Вложенными называются шаблоны, заключённые в круглые скобки. Они используются в разных целях:

Определение альтернатив

С помощью вложенных шаблонов возможно группировать набор альтернатив внутри сложных шаблонов. Альтернативы разделяются символом вертикальной черты («|»).

Например, чтобы найти одно из слов «int», «float» или «double», возможно использовать шаблон int|float|double. Если же требуется найти одно из этих слов, за которым следуют пробелы, а за ними — какие-то символы, то необходимо оформить альтернативу как вложенный шаблон: (int|float|double)\s+\w+.

Захват совпавшего текста (обратные ссылки)

Вложенный шаблон (ШАБЛОН) позволяет использовать обратную ссылку благодаря запоминанию нужной части шаблона. Чтобы не выполнялось запоминание вложенного шаблона, необходимо использовать группу без захвата (?:ШАБЛОН).

Например, если требуется найти два одинаковых слова, разделённых запятой и, возможно, пробелами, возможно использовать такое выражение: (\w+),\s*\1. Вложенный шаблон \w+ выполняет поиск цепочки словообразующих символов, а всё выражение выполняет поиск той же цепочки, за которой следует запятая, далее могут идти пробелы, а за ними — точно такая же цепочка (строка \1 ссылается на первый вложенный шаблон, заключённый в круглые скобки).

Примечание

Чтобы избежать неясности при использовании символов \1, за которыми следуют цифры (например, \12 может являться двенадцатым вложенным шаблоном или просто первым вложенным шаблоном с цифрой 2), вложенные шаблоны, состоящие из нескольких цифр, указываются в формате \{12}.

Примеры:

  • \{12}1 = «использовать вложенный шаблон 12»

  • \123 = «запомнить 1, а 23 — обычный текст»

Утверждения просмотра вперёд

Утверждение просмотра вперёд — это вложенный шаблон, который начинается с символов ?= или ?!.

Например, чтобы найти слово «Билл», за которым может следовать что угодно, кроме слова « Гейтс», следует составить такое выражение: Билл(?! Гейтс) (оно совпадёт с «Билл Клинтон», «Билли хороший мальчик», но не с именем известного магната).

Вложенные шаблоны, использующиеся в качестве утверждений, не запоминаются.

Смотрите также раздел Утверждения.

Утверждения просмотра назад

Утверждение просмотра назад — это вложенный шаблон, который начинается с символов ?<= или ?<!.

Утверждение просмотра назад работает так же, как и утверждение просмотра вперёд, отличие лишь в направлении просмотра. Например, чтобы найти слово «град», которому не предшествуют символы «вино», следует использовать следующее выражение: (?<!вино)град.

Вложенные шаблоны, использующиеся в качестве утверждений, не запоминаются.

Смотрите также раздел Утверждения.

Символы со специальным значением в шаблонах

Следующие символы имеют специальное значение в шаблонах, поэтому, чтобы использовать их в качестве обычных символов, необходимо впереди ставить обратную черту:

\ (обратная черта)

С этого символа должны начинаться все спецсимволы.

^

Проверка на начало строки.

$

Проверка на конец строки.

() (левая и правая круглые скобки)

Объявление вложенного шаблона.

{} (левая и правая фигурные скобки)

Объявление численного квантора.

[] (левая и правая квадратные скобки)

Объявление символьного класса.

| (вертикальная черта)

Логическое ИЛИ. Используется для разделения альтернатив.

+ (плюс)

Квантор «один или более».

* (звёздочка)

Квантор «ноль или более».

? (знак вопроса)

Необязательный символ. Можно считать его квантором «ноль или один».