Pojmy regulárních výrazů.

Regulární výrazy používané při vyhledávání a v segmentačních pravidlech jsou právě takové, jaké podporuje Java. Pokud potřebujete bližší informace, navštivte prosím tuto stránku: //java.sun.com/j2se/1.4.2/docs/api/java/util/regex/Pattern.html.

Na internetu můžete najít jednoduché nápovědy (např. http://www.regular-expressions.info/quickstart.html.)


Pojem ...

... znamená:


Označení

(?i)

Umožňuje hledání bez ohledu na velikost písmen (ve výchozím nastavení se rozlišují velká a malá písmena).


Znaky

x

Znak x, s výjimkou následujících...

\uhhhh

Znak s hexadecimální hodnotou 0xhhhh

\t

Znak tabulátoru ('\u0009')

\n

Znak nového řádku (konce řádku) ('\u000A')

\r

Znak posunu vozíku ('\u000D')

\f

Znak posunu o stránku ('\u000C')

\a

Znak zvukové signalizace ('\u0007')

\e

Znak změny ('\u001B')

\cx

Řídící znak odpovídající x

\0n

Znak s oktalovou/osmičkovou hodnotou 0n (0 <= n <= 7)

\0nn

Znak s oktalovou/osmičkovou hodnotou 0nn (0 <= n <= 7)

\0mnn

Znak s oktalovou/osmičkovou hodnotou 0mnn (0 <= m <= 3, 0 <= n <= 7)

\xhh

Znak s hexadecimální hodnotou 0xhhhh


Uvozující znaky

\

Lomítko samo o sobě neznamená nic, ale uvozuje následující znak. Je vyžadováno, pokud byste chtěli zadání metaznaků !$()*+.<>?[\]^{|} tak, aby odpovídaly samy sobě.

\\

Například toto je znak pro hledání zpětného lomítka

\Q

Nic neznamená, ale vymezuje všechny znaky až po \E

\E

Nic neznamená, ale končí vymezení započaté pomocí \Q


Třídy sad a kategorií kódování Unicode

\p{InGreek}

Znak v Řecké sadě (jednoduchá sada)

\p{Lu}

Velké písmeno (jednoduchá kategorie)

\p{Sc}

Symbol měny

\P{InGreek}

Jakýkoliv znak mimo nějakého z Řecké sady (negace)

[\p{L}&&[^\p{Lu}]]

Jakékoliv písmeno mimo velkých (odečítání)


Třídy znaků

[abc]

a, b, or c (jednoduchá třída)

[^abc]

Jakýkoliv znak mimo a, b nebo c (negace)

[a-zA-Z]

a až po z nebo A až po Z, včetně (rozsah)


Předdefinované třídy znaků

.

Jakýkoliv znak (kromě znaků ukončujících řádek)

\d

Číslice: [0-9]

\D

Ne-číslice: [^0-9]

\s

Znak mezery: [ \t\n\x0B\f\r]

\S

Znak ne-mezery: [^\s]

\w

Znak slova: [a-zA-Z_0-9]

\W

Znak ne-slova: [^\w]


Označení hranic

^

Začátek řádku

$

Konec řádku

\b

Hranice slova

\B

Hranice ne-slova


Vícenásobné kvantifikátory

Tyto budou představovat tolik, kolik jen mohou. Například: a+ bude odpovídat aaa v aaabbb

X?

X, jednou nebo vůbec

X*

X, nula- nebo vícekrát

X+

X, jednou nebo vícekrát


Líné kvantifikátory

Tyto budou představovat tak málo, jak jen mohou. Například: a+? bude odpovídat prvnímu a v aaabbb

X??

X, jednou nebo vůbec

X*?

X, nula- nebo vícekrát

X+?

X, jednou nebo vícekrát


Logické operátory

XY

X následované Y

X|Y

Buď X, a nebo Y

(XY)

XY jako samostatná skupina



Právní poznámky Obsah Tématický rejstřík