Arbeiten mit Syntaxhervorhebungen

Überblick

Syntaxhervorhebungen bewirken, dass der Editor den Text automatisch in verschiedenen Farben und Schriftstilen anzeigt, abhängig von der Funktion der Zeichenfolge in Beziehung zum Zweck des Dokuments. Zum Beispiel können in Quelltext Kontrollbefehle fett dargestellt werden, während Daten und Kommentare andere Farben als der Rest des Textes bekommen. Dies verbessert die Lesbarkeit des Textes erheblich und verhilft damit dem Autor zu mehr Effizienz und Produktivität.

Eine C++-Funktion, mit Hervorhebungen angezeigt.

Dieselbe C++-Funktion, ohne Hervorhebungen.

Welche der beiden ist einfacher zu lesen?

KatePart enthält ein flexibles, konfigurierbares und leistungsfähiges System für Syntaxhervorhebungen, und die Standarddistribution enthält bereits Definitionen für eine Anzahl von Programmiersprachen, Markup- und Skriptsprachen sowie andere Textformaten. Außerdem können Sie eigene Definitionen in einfachen XML-Dateien erstellen.

KatePart erkennt auf Basis des MIME-Typs, der Dateiendung oder des Inhalts des Dokuments bereits beim Öffnen des Dokuments automatisch die richtigen Regeln für die Syntaxhervorhebungen. Wenn die automatische Auswahl nicht die richtigen Regeln ausgewählt hat, können Sie dies manuell korrigieren (Extras → Hervorhebung).

Die Schriftstile und Farben, die von jeder Syntaxhervorhebungsdefinition benutzt werden, können auf der Seite Hervorhebungs-Schriftarten des Einrichtungsdialogs festgelegt werden, die Einrichtung der MIME-Typen und Dateierweiterung, auf die diese angewendet werden, ist auf der Seite Dateitypen möglich.

Anmerkung

Syntaxhervorhebungen sind dazu gedacht die Lesbarkeit von Text zu verbessern, aber nicht dazu geeignet die Richtigkeit des Quelltextes zu überprüfen. Die Erstellung der Regeln für die Hervorhebungen ist kompliziert, abhängig davon, welches Format Sie benutzen. In manchen Fällen sind die Autoren der Regeln stolz, wenn 98 % des Textes korrekt hervorgehoben werden, meistens jedoch sehen Sie die nicht korrekten 2 % nur bei seltenen Konstruktionen.

Das KatePart Syntaxhervorhebungssystem

Dieser Abschnitt behandelt die Mechanismen des KatePart Syntax-Hervorhebungssystems genauer. Wenn Sie selbst Definitionen erstellen oder verändern möchten, sollten Sie diesen genau lesen.

Wie es funktioniert

Immer, wenn Sie ein Dokument öffnen, ist eines der ersten Dinge, die KatePart macht, festzustellen, welche Syntaxdefinition für dieses Dokument benutzt werden soll. Während Sie den Text lesen und neuen Text eingeben, analysiert das Syntaxhervorhebungssystem den Text anhand der Regeln in der Syntaxdefinition und markiert ihn dementsprechend.

Wenn Sie Text eingeben, wird der neue Text sofort analysiert und markiert.

Die Syntaxdefinitionen, die in XML benutzt werden, sind XML-Dateien, die Folgendes enthalten

Regeln für das Erkennen von Text, organisiert in Kontextblöcken
Listen mit Schlüsselworten
Stildefinitionen

Beim Analysieren von Text werden die Erkennungsregeln in der Reihenfolge, in der sie definiert wurden, überprüft und wenn der Anfang des aktuellen Textes mit einer Definition übereinstimmt, wird der zugehörige Kontext benutzt. Der nächste Startpunkt wird nach dem Ende des erkannten Bereichs gesetzt und von dort aus wird eine neue Schleife für die Regeln mit dem Kontext der gerade gefundenen Regel gestartet.

Regeln

Die Erkennungsregeln sind das Herzstück des Syntaxhervorhebungssystems. Eine Regel besteht aus einer Zeichenfolge, einem Zeichen oder einem regulären Ausdruck. Mit diesen wird der zu analysierende Text verglichen. Sie enthalten Informationen, welche Darstellung für das erkannte Stück Text verwendet werden soll und ob entweder zu einem explizit angegebenem Kontext oder zum vorher vom Text benutzten Kontext gewechselt werden soll.

Die Regeln sind in Kontextgruppen organisiert. Eine Kontextgruppe wird für die grundlegenden Textkonzepte innerhalb des Formates benutzt, z. B. für Textteile in Anführungszeichen oder Kommentarblöcke in Programmquelltext. Dadurch wird sichergestellt, dass sich das Syntaxhervorhebungssystem nicht unnötig durch alle Regeln hindurch arbeiten muss und dass einige Zeichenfolgen im Text abhängig vom aktuellen Kontext unterschiedlich behandelt werden können.

Kontexte können dynamisch generiert werden, um das Benutzen von Daten in Regeln zu erlauben, die nur auf diese Instanz zutreffen.

Kontextstile und Schlüsselwörter

In einigen Programmiersprachen werden Ganze Zahlen durch den Compiler (das Programm, das den Quelltext in ein ausführbares Programm übersetzt) anders behandelt als Gleitkommazahlen, und es gibt Zeichen, die eine spezielle Bedeutung innerhalb einer in Anführungszeichen eingeschlossenen Zeichenfolge haben. In solchen Fällen ist es sinnvoll, diese unterschiedlich darzustellen, sodass sie beim Lesen einfach vom umgebenden Text zu unterscheiden sind. Auch wenn diese keine speziellen Kontexte repräsentieren, können sie durch das Syntaxhervorhebungssystem erkannt und anders dargestellt werden.

Eine Syntaxdefinition kann so viele verschiedene Stile beinhalten, wie für das Format notwendig sind.

In vielen Formaten gibt es Listen mit Wörtern, die einem speziellen Konzept zugehörig sind. In Programmiersprachen sind z. B. die Kontrollanweisungen ein Konzept, die Datentypen ein anderes und die eingebauten Funktionen ein drittes. Das Syntaxhervorhebungssystem von KatePart kann benutzt werden, um solche Wörter anhand der Listen zu finden und zur Hervorhebung der Konzepte im Text zu markieren.

Standardstile

Wenn Sie eine C++-Quelltextdatei, eine Java™-Quelltextdatei und eine HTML-Datei in KatePart öffnen, sehen Sie dass auch in unterschiedlichen Formaten und damit unterschiedlichen Worten, die spezielle Behandlung bekommen, die benutzten Farben dieselben sind. Der Grund dafür ist, dass KatePart vordefinierte Standardstile benutzt, die von den individuellen Syntaxdefinitionen verwendet werden.

Dadurch wird die Erkennung von ähnlichen Konzepten in verschiedenen Textformaten einfach. Kommentare z. B. gibt es in fast allen Programmiersprachen, Skripten und Markup-Sprachen; diese werden in allen Sprachen gleich dargestellt, sodass Sie sich auf die Arbeit konzentrieren können und nicht über den Zweck einzelner Einträge nachdenken müssen.

Tipp

Alle Stile in einer Syntaxdefinition nutzen einen der Standardstile. Einige wenige Syntaxdefinitionen nutzen mehr Stile als Standardstile vorhanden sind. Wenn Sie ein Format sehr oft benutzen, kann es die Arbeit wert sein, den Einrichtungsdialog zu starten und nachzusehen, ob mehrere Konzepte dieselben Stile benutzen. In der Programmiersprache Perl z. B. gibt es zwei Typen von Zeichenfolgen, sodass Sie die Hervorhebung durch eine etwas andere Darstellung des zweiten Typs verbessern können. Alle verfügbaren Standardstile, werden weiter unten erklärt.

Die Hervorhebungsdefinition für das XML Format

Überblick

KatePart verwendet die Syntaxhervorhebungs-Bibliothek von KDE Frameworks™. Die in KatePart enthaltenen Standard-XML-Hervorhebungsdateien werden in die Syntaxhervorhebungs-Bibliothek einkompiliert.

Dieser Abschnitt ist ein Überblick über die Hervorhebungsdefinition für das XML-Format.. Es beschreibt die Hauptbestandteile, deren Bedeutung und Verwendung. Im nächsten Kapitel werden die Erkennungsregeln detailliert beschrieben.

Die formale Definition XSD finden Sie im Syntax-Highlighting-Repository in der Datei language.xsd.

Eigene .xml-Dateien mit Definitionen zur Syntaxhervorhebung sind im Ordner org.kde.syntax-highlighting/syntax/ in Ihrem persönlichen Ordner. Den Pfad zu diesem Ordner finden Sie mit qtpaths--paths GenericDataLocation. Normalerweise sind dies $HOME/.local/share/ und /usr/share/.

Bei Flatpak- und Snap-Paketen funktioniert der obige Ordner nicht, da der Speicherort der Daten für jede Anwendung unterschiedlich ist. In einer Flatpak-Anwendung ist der Speicherort der benutzerdefinierten XML-Dateien normalerweise $HOME/.var/app/flatpak-package-name/data/org.kde.syntax-highlighting/syntax/ und in einer Snap-Anwendung ist dieser Ort $HOME/snap/snap-package-name/current/.local/share/org.kde.syntax-highlighting/syntax/.

Auf Windows®-Systemen finden Sie diese Dateien unter %USERPROFILE%\AppData\Local\org.kde.syntax-highlighting\syntax. Dabei ist %USERPROFILE% normalerweise C:\Users\user.

Zusammenfassend lässt sich sagen, dass bei den meisten Einrichtungen der Ordner der benutzerdefinierten XML-Dateien wie folgt aussieht

Für lokale Benutzer	`$HOME/.local/share/org.kde.syntax-highlighting/syntax/`
Für alle Benutzer	`/usr/share/org.kde.syntax-highlighting/syntax/`
Für Flatpak-Pakete	`$HOME/.var/app/flatpak-package-name/data/org.kde.syntax-highlighting/syntax/`
Für Snap-Pakete	`$HOME/snap/snap-package-name/current/.local/share/org.kde.syntax-highlighting/syntax/`
Unter Windows®	`%USERPROFILE%\AppData\Local\org.kde.syntax-highlighting\syntax`

Wenn mehrere Dateien für dieselbe Sprache existieren, wird die Datei mit der höchsten version-Attribut im language-Element geladen.

Hauptbestandteile der KatePart-Hervorhebungsdefinitionen

Eine Hervorhebungsdefinitionsdatei enthält einen Kopf mit der XML-Version:

<?xml version="1.0" encoding="UTF-8"?>

Die Wurzel der Definitionsdatei ist das Element language. Verfügbare Eigenschaften sind:

Notwendige Eigenschaften:

name setzt den Namen der Sprache. Dieser erscheint nachher in Menüs und in Dialogen.

Die Eigenschaft section definiert die Kategorie.

extensions definiert die Erweiterungen für Dateinamen wie z. B. "*.cpp;*.h".

version gibt die aktuelle Revision der Definitionsdatei als ganze Zahl an. Bei jeder Änderung einer Hervorhebungs-Datei sollte diese Zahl vergrößert werden.

kateversion definiert die letzte unterstützte Version von KatePart.

Optionale Eigenschaften:

mimetype ordnet Dateien basierend auf deren MIME-Type zu.

casesensitive definiert, ob bei den Schlüsselwörtern Groß-/Kleinschreibung unterschieden wird oder nicht.

priority ist notwendig, wenn eine andere Hervorhebungsdefinitionsdatei die gleichen Dateinamenerweiterung benutzt. Die Definitionsdatei mit der höheren Priorität wird dann benutzt.

author enthält den Namen des Autors und dessen E-Mail-Adresse.

license enthält die Lizenz der Datei, normalerweise wird hier die MIT-Lizenz für neue Dateien benutzt.

style enthält die Programmiersprache, die mit der Definition zur Verfügung gestellt wird und wird durch das Einrückungsskript für die Eigenschaft required-syntax-style benutzt.

indenter definiert die als Standard verwendetet Einrückung. Verfügbare Einrückungen sind: ada, normal, cstyle, cmake, haskell, latex, lilypond, lisp, lua, pascal, python, replicode, ruby und xml.

hidden definiert, ob der Name in Menüs von KatePart erscheinen soll.

Die nächste Zeile könnte wie folgt aussehen:

<language name="C++" version="1" kateversion="2.4" section="Sources" extensions="*.cpp;*.h" />

Als nächstes kommt das Element highlighting, das das optionale Element list und die notwendigen Elemente contexts und itemDatas enthält.

list-Elemente enthalten eine Liste von Schlüsselwörtern. In diesem Fall sind die Schlüsselwörter class und const. Sie können so viele hinzufügen, wie Sie brauchen.

Seit KDE Frameworks™ 5.53 kann eine Liste Schlüsselwörter aus anderen Listen oder Sprachen bzw. Dateien enthalten. Dazu benutzen Sie das Element include. ## wird auf die gleiche Art wie die Regel IncludeRules verwendet, um den Namen der Liste und der Sprachdefinition zu trennen. Dies ist nützlich, um doppelte Listen von Schlüsselwörtern zu vermeiden, wenn Sie Schlüsselwörter aus anderen Sprachen oder Dateien einschließen müssen. Die Liste othername zum Beispiel enthält das Schlüsselwort str und alle Schlüsselwörter der Liste types aus der Sprache ISO C++.

Das Element contexts enthält alle Kontexte. Der erste Kontext ist Standard bei Start der Hervorhebungen. Es gibt zwei Regeln im Kontext Normal Text, die auf die Liste mit Schlüsselwörtern mit dem Namen somename und eine Regel, die Anführungszeichen entdeckt und zum Kontext string umschaltet. Weitere Informationen zu Regeln finden Sie im nächsten Kapitel.

Der dritte Teil ist das Element itemDatas. Es enthält alle Farb- und Schriftartstile, die durch die Kontexte und Regeln benötigt werden. In diesem Beispiel werden itemData, Normal Text, String und Keyword benutzt.

<highlighting>
    <list name="somename">
      <item>class</item>
      <item>const</item>
    </list>
    <list name="othername">
      <item>str</item>
      <include>types##ISO C++</include>
    </list>
    <contexts>
      <context attribute="Normal Text" lineEndContext="#pop" name="Normal Text" >
        <keyword attribute="Keyword" context="#stay" String="somename" />
        <keyword attribute="Keyword" context="#stay" String="othername" />
        <DetectChar attribute="String" context="string" char="&quot;" />
      </context>
      <context attribute="String" lineEndContext="#stay" name="string" >
        <DetectChar attribute="String" context="#pop" char="&quot;" />
      </context>
    </contexts>
    <itemDatas>
      <itemData name="Normal Text" defStyleNum="dsNormal" />
      <itemData name="Keyword" defStyleNum="dsKeyword" />
      <itemData name="String" defStyleNum="dsString" />
    </itemDatas>
  </highlighting>

Der letzte Teil der Hervorhebungsdefinition ist der optionale Abschnitt general. Dieser kann Informationen über Schlüsselwörter, Quelltextausblendungen, Leerzeilen und Rechtschreibprüfung enthalten.

Der Abschnitt comment definiert, mit welcher Zeichenfolge eine einzelne Kommentarzeile beginnt. Sie können außerdem mehrzeilige Kommentare definieren, indem Sie multiLine mit der zusätzlichen Eigenschaft end benutzen. Diese werden benutzt, wenn Sie das Tastaturkürzel für Kommentar / Kommentar entfernen drücken.

Der Abschnitt keywords definiert, ob in den Schlüsselwortlisten nach Groß- und Kleinschreibung unterschieden wird oder nicht. Andere Eigenschaften werden später erläutert.

Die anderen Abschnitte Quelltextausblendung, Leerzeilen und Rechtschreibprüfung sind normalerweise nicht nötig und werden später erklärt.

<general>
    <comments>
      <comment name="singleLine" start="#"/>
      <comment name="multiLine" start="###" end="###" region="CommentFolding"/>
    </comments>
    <keywords casesensitive="1"/>
    <folding indentationsensitive="0"/>
    <emptyLines>
      <emptyLine regexpr="\s+"/>
      <emptyLine regexpr="\s*#.*"/>
    </emptyLines>
    <spellchecking>
      <encoding char="á" string="\'a"/>
      <encoding char="à" string="\`a"/>
    </spellchecking>
  </general>
</language>

Die Abschnitte im Einzelnen

Dieser Teil beschreibt alle verfügbaren Eigenschaften für Kontexte, itemDatas, Schlüsselwörter, Kommentare, Quelltextausblendungen und Einrückungen.

Das Element context gehört in die Gruppe contexts. Ein Kontext selbst definiert spezielle Regeln, wie zum Beispiel, was geschehen soll, wenn das Hervorhebungssystem ein Zeilenende erreicht. Die verfügbaren Eigenschaften sind:

Der Kontextname name. Regeln benutzen diesen Namen, um festzulegen, zu welchem Kontext umgeschaltet wird, wenn die Regel zutrifft.

Der Kontext lineEndContext definiert den Kontext, zu dem das Hervorhebungssystem umschaltet, wenn es ein Zeilenende erreicht. Das kann entweder der Name eines anderen Kontextes sein, #stay um den Kontext nicht umzuschalten, (z. B. tue nichts) oder #pop das bewirkt, dass der Kontext verlassen wird. Es ist möglich, zum Beispiel #pop#pop#pop zu verwenden, um drei Kontextebenen zu verlassen oder mit #pop#pop!OtherContext zwei Kontextebenen zu verlassen und in einen neuen Kontext zu springen. Es ist auch möglich zu einem Kontext zu wechseln, der zu einer anderen Sprachdefinition gehört, genauso wie in den IncludeRules-Regeln, z. B. SomeContext##JavaScript. Beachten Sie, dass es nicht möglich ist, diesen Kontextwechsel in Kombination mit #pop zu verwenden, zum Beispiel ist #pop!SomeContext##JavaScript nicht gültig. Kontextwechsel werden auch in „Hervorhebungs-Erkennungsregeln“ beschrieben.

lineEmptyContext definiert den Kontext, der in einer leeren Zeile verwendet wird. Die Bezeichnung der Kontextwechsel ist die gleiche wie zuvor in lineEndContext beschrieben. Standard hierfür ist: #stay.

fallthroughContext legt den nächsten Kontext fest, zu dem gewechselt wird, wenn keine Regel passt. Die Bezeichnung der Kontextwechsel ist die gleiche wie zuvor in lineEndContext beschrieben. Voreinstellung: #stay.

fallthrough definiert, ob das Hervorhebungssystem zu dem in fallthroughContext angegebenen Kontext wechselt, wenn keine Regel passt. Beachten Sie, dass seit KDE Frameworks™ 5.62 dieses Attribut zugunsten von fallthroughContext veraltet ist. Denn wenn das Attribut fallthroughContext vorhanden ist, wird stillschweigend angenommen, dass der Wert von fallthrough true ist. Voreinstellung: false.

noIndentationBasedFolding deaktiviert das auf der Einrückung basierte Ausblenden von Text im Kontext. Wenn das Ausblenden nicht aktiviert ist, ist dieses Attribut nutzlos. Es wird im Element folding der Gruppe general definiert. Voreinstellung: false.

Das Element itemData ist in der Gruppe itemDatas. Es definiert die Schriftarten und Schriftfarben. So ist es möglich, Ihre eigenen Schriftarten und -farben festzulegen. Wir empfehlen jedoch, bei den vordefinierten Einstellungen zu bleiben, sodass in unterschiedlichen Sprachen trotzdem die gleichen Farben angezeigt werden. Manchmal ist es doch nötig, die Farben und Schriftarten zu ändern. Der Name der Eigenschaft und defStyleNum müssen angeben werden, alle anderen können verwendet werden, sind aber nicht unbedingt nötig. Die verfügbaren Eigenschaften sind:

name setzt den Namen von itemData. Kontexte und Regel benutzen diesen Namen in ihrer Eigenschaft attribute, um den Bezug zum itemData herzustellen.

defStyleNum definiert, welcher Stil standardmäßig benutzt wird. Die verfügbaren Stile werden später näher erläutert.

color definiert eine Farbe. Erlaubte Formate hierfür sind: ‚#rrggbb‘ oder ‚#rgb‘.

selColor definiert die Farbe für die Hervorhebung.

italic Wenn true, dann wird der Text in Kursivschrift dargestellt.

bold Wenn true, dann wird der Text in Fettschrift dargestellt.

underline Wenn true, dann wird der Text unterstrichen dargestellt.

strikeout Wenn true, dann wird der Text durchgestrichen dargestellt.

spellChecking Wenn true, dann wird die Rechtschreibprüfung für den Text aktiviert.

Das Element keywords in der Gruppe general definiert Eigenschaften von Schlüsselwörtern. Verfügbare Eigenschaften sind:

casesensitive kann true oder false sein. Wenn es true ist, dann wird bei allen Schlüsselwörtern die Groß- und Kleinschreibung beachtet.

weakDeliminator ist eine Liste von Zeichen, die nicht als Wortbegrenzung wirken. Der Punkt '.' ist zum Beispiel eine Wortbegrenzung. Nehmen Sie an, ein Schlüsselwort in einer list enthält einen Punkt, diese Schlüsselwort kann nur dann erkannt werden, wenn Sie den Punkt als weakDeliminator festlegen.

additionalDeliminator definiert zusätzliche Wortbegrenzungen.

wordWrapDeliminator definiert Zeichen, nach denen ein Zeilenumbruch erfolgen kann.

Standard für Wortbegrenzer und Zeilenumbruchbegrenzer sind die Zeichen .():!+,-<=>%&*/;?[]^{|}~\, Leerzeichen (' ') und der Tabulator ('\t').

Das Element comment in der Gruppe comments definiert Eigenschaften für Kommentare, die für Extras → Kommentar, Extras → Kommentar entfernen und Tools → Kommentar ein-/ausschalten benutzt werden. Verfügbare Eigenschaften hierfür sind:

name ist entweder singleLine oder multiLine. Wenn Sie multiLine auswählen, müssen auch die Eigenschaften end und region benutzt werden. Bei singleLine können Sie das optionale Attribut position hinzufügen.

start definiert die Zeichenfolge, die einen Kommentar beginnt. In C++ ist dies zum Beispiel "/*" in mehrzeiligen Kommentaren. Dieses Attribut ist für multiLine und singleLine nötig.

end definiert die Zeichenfolge, die einen Kommentar beendet. In C++ ist dies zum Beispiel "*/". Diese Attribut ist nur für den Typ multiLine verfügbar und erforderlich.

region sollte der Name von ausblendbaren Mehrzeilenkommentaren sein. Nehmen Sie an, Sie haben beginRegion=„Comment“ ... endRegion=„Comment“ in Ihren Regeln, dann sollten Sie region=„Comment“ benutzen. Auf diesem Wege funktioniert das automatische Entfernen von Kommentaren auch dann, wenn Sie nicht den gesamten Text des mehrzeiligen Kommentars auswählen. Es muss nur der Cursor innerhalb des mehrzeiligen Kommentars stehen. diese Attribut ist nur für den Typ multiLine verfügbar.

position definiert, wo der einzeilige Kommentar eingefügt wird. Standardmäßig wird der einzeilige Kommentar am Anfang der der Zeile bei Spalte 0 platziert, aber wenn Sie position="afterwhitespace" verwenden, wird der Kommentar nach führenden Leerraumzeichen rechts eingefügt, vor dem ersten Nicht-Leerraumzeichen. Dies ist nützlich für das korrekte Einfügen von Kommentaren in Sprachen, in denen die Einrückung wichtig ist, wie z. B. in Python oder YAML. Dieses Attribut ist optional und der einzig mögliche Wert ist afterwhitespace. Dies ist nur verfügbar für den Typ singleLine.

Das Element folding in der Gruppe general definiert Eigenschaften für ausblendbaren Quelltext. Verfügbare Eigenschaften sind:

indentationsensitive Wenn true, werden die Markierungen für Quelltextausblendungen basiert auf Einrückungen gesetzt, wie zum Beispiel in der Skriptsprache Python. Normalerweise brauchen Sie dies nicht zu setzen, Standard ist false.

Das Element emptyLine in der Gruppe emptyLines definiert, welche Zeilen als Leerzeilen behandelt werden sollen. Damit lässt sich das Verhalten des Attributs lineEmptyContext in den Elementen Kontext ändern. Verfügbare Attribute sind:

regexpr definiert einen regulären Ausdruck, der als eine leere Zeile behandelt wird. Standardmäßig enthalten leere Zeilen keine Zeichen, daher werden hier zusätzliche Leerzeilen hinzugefügt, z. B. wenn Zeilen mit Leerzeichen als Leerzeilen betrachtet werden sollen. In den meisten Syntaxdefinitionen brauchen Sie dieses Attribut jedoch nicht zu setzen.

Das Element encoding in der Gruppe spellchecking definiert eine Zeichenkodierung für die Rechtschreibprüfung. Verfügbare Eigenschaften sind:

char ist ein kodiertes Zeichen.

string ist eine Folge von Zeichen, die in der Rechtschreibprüfung als das Zeichen char kodiert wird. In der Sprache LaTeX repräsentiert beispielsweise die Zeichenfolge \"{A} das Zeichen Ä.

Verfügbare Standardstile

Standardstile wurden als kurze Zusammenfassung bereits erklärt. Standardstile sind vordefinierte Schriftarten und -farben.

Allgemeine Standardstile:

dsNormal, wenn keine spezielle Hervorhebung benötigt wird

dsKeyword, benutzt für eingebaute Sprach-Schlüsselwörter.

dsFunction, benutzt für Funktionsaufrufe und -definitionen.

dsVariable, falls zutreffend Variablennamen z. B. $someVar in PHP/Perl.

dsControlFlow, Kontrollfluss-Schlüsselwörter wie if, else, switch, break, return, yield, ...

dsOperator, Operatoren wie + - * / :: < >

dsBuiltIn, eingebaute Funktionen, Klassen und Objekte.

dsExtension, allgemeine Erweiterungen wie zum Beispiel Qt™-Klassen und Funktionen/Makros in C++ und Python.

dsPreprocessor, Präprozessor-Anweisungen oder Makro-Definitionen.

dsAttribute, Anmerkungen wie @override und __declspec(...).

Standardstile für Zeichenfolgen:

dsChar, benutzt für einzelne Buchstaben wie „X“.

dsSpecialChar, Zeichen mit besonderer Bedeutung in Zeichenfolgen wie Escape-Sequenzen, Ersetzungen oder Operatoren für reguläre Ausdrücke.

dsString, benutzt für Zeichenfolgen wie „Hallo Welt“.

dsVerbatimString, wörtliche oder unveränderte Zeichenfolgen wie „raw \backlash“ in Perl, CoffeeScript und Shells wie auch r'\raw' in Python.

dsSpecialString, SQL, Reguläre Ausdrücke, HERE-Dokumente, L^AT_EX-Mathematikmodus, ...

dsImport, import, include, erforderliche Module.

Standardstile für Zahlen:

dsDataType, benutzt für eingebaute Datentypen wie int, void, u64.

dsDecVal, benutzt für Dezimalwerte.

dsBaseN, benutzt für Werte mit einer anderen Zahlenbasis als 10.

dsFloat, benutzt für Gleitkommawerte.

dsConstant, eingebaute und benutzerdefinierte Konsonanten wie Pi.PI.

Standardstile für Kommentare und Dokumentation:

dsComment, benutzt für Kommentare.

dsDocumentation, /** Dokumentation-Kommentare */ oder """docstrings""".

dsAnnotation, Dokumentations--Befehle wie @param, @brief.

dsCommentVar, die in den vorher genannten Befehlen verwendeten Variablennamen wie „foobar“ in @param foobar.

dsRegionMarker, benutzt für Markierungen von Bereichen wie //BEGIN, //END in Kommentaren.

Andere Standardstile:

dsInformation, Notizen und Hinweise wie @note in doxygen.

dsWarning, Warnungen wie @warning in doxygen.

dsAlert, besondere Wörter wie TODO, FIXME, XXXX.

dsError, benutzt für Hervorhebungen von Fehlern und für fehlerhafter Syntax.

dsOthers, wenn nichts anderes passt.

Hervorhebungs-Erkennungsregeln

Dieser Abschnitt beschreibt die Hervorhebungs-Erkennungsregeln

Jede Regel kann auf Null oder mehrere Zeichen am Anfang der untersuchten Zeichenfolge zutreffen. Wenn eine Übereinstimmung gefunden wird, wird den erkannten Zeichen der Stil oder die Eigenschaft, die durch die Regel festgelegt wurde, zugeordnet, Außerdem kann die Regel ein Umschalten des aktuellen Kontexts anfordern.

Eine Regel sieht wie folgt aus:

<RuleName attribute="(identifier)" context="(identifier)" [rule specific attributes] />

Die attribute (Eigenschaft) legt den Namen des Stils fest, der für die erkannten Zeichen benutzt werden soll und der context (Kontext) legt den Kontext fest, der ab hier benutzt werden soll.

Der context (Kontext) kann durch Folgendes identifiziert werden:

Einen identifier, der der Name eines anderen Kontextes ist.
Eine Anweisung, die vorgibt, im aktuellen Kontext zu bleiben (#stay), oder zu einem vorher in der Zeichenfolge benutzten Kontext zurückzuspringen (#pop).
Zum Zurückgehen über mehrere Schritte kann das Schlüsselwort #pop wiederholt werden: #pop#pop#pop
Eine Anweisung order, die von einem Ausrufezeichen (!) und einem identifier gefolgt wird, veranlasst Kate erst die Anweisung order auszuführen und dann in den anderen Kontext umzuschalten, z. B. #pop#pop!OtherContext.
Ein identifier ist ein Kontextname gefolgt von zwei Doppelkreuzen (##) und einem weiteren identifier für den Name einer Sprachdefinition. Diese Namensgebung ist ähnlich wie bei den Regeln IncludeRules und ermöglicht den Wechsel zu einem Kontext, der zu einer anderen Syntaxhervorhebungsdefinition gehört, z. B. SomeContext##JavaScript. Beachten Sie, dass es nicht möglich ist, diesen Kontextwechsel in Kombination mit #pop zu verwenden, z. B. #pop!SomeContext##JavaScript ist nicht gültig.

Regelspezifische Eigenschaften sind unterschiedlich und werden im Folgenden beschrieben.

Gemeinsame Eigenschaften

Alle Regeln haben die folgenden Eigenschaften gemeinsam und sind immer verfügbar, wenn (common attributes) erscheint. attribute und context sind notwendige Eigenschaften, alle anderen sind optional, müssen also nicht benutzt werden.

attribute: Eine Eigenschaft zeigt auf ein bestimmtes itemData-Element.
context: Legt den Kontext fest, zu dem das Hervorhebungssystem umschaltet, wenn die Regel als zutreffend erkannt wird.
beginRegion: Beginnt einen Quelltextausblendungsblock. Standard ist: unset.
endRegion: Beendet eine Quelltextausblendungsblock. Standard ist: unset.
lookAhead: Wenn true, dann wird das Hervorhebungssystem die Länge der Übereinstimmung nicht verarbeiten. Standard ist: false.
firstNonSpace: Trifft nur dann zu, wenn die Zeichenfolge als erstes nach Zwischenräumen in der Zeile erkannt wird. Standard ist: false.
column: Trifft nur dann zu, wenn die Spalte zutrifft. Standard ist: unset.

Dynamische Regeln

Einige Regeln erlauben die Benutzung der optionalen Eigenschaft dynamic, Standard ist hier false.Wenn diese Eigenschaft auf true gesetzt wird, kann eine Regel in ihren Eigenschaften string oder char Platzhalter verwenden, die den zutreffenden Text aus einer als regulärem Ausdruck formulierten Regel enthält. Diese Regel muss direkt in den gegenwärtigen Kontext umgeschaltet haben. In einem string wird der Platzhalter %N (wobei N eine Zahl sein muss) ersetzt durch das Ergebnis für N aus dem aufrufenden regulären Ausdruck, startend mit 1. In einem char muss der Platzhalter auch eine Zahl N sein und wird durch das erste Zeichen aus dem Ergebnis für N aus dem aufrufenden regulären Ausdruck ersetzt. Immer wenn eine Regel diese Eigenschaft erlaubt, dann enthält diese ein (dynamic).

dynamic: kann (true oder false) sein.

Wie es funktioniert:

In den regulären Ausdrücken der der RegExpr-Regeln wird der gesamte Text innerhalb einfacher runder Klammern (PATTERN) erfasst und behalten. Diese Erfassungen können in dem Kontext verwendet werden, in den gewechselt wird, in den Regeln mit dem Attribut dynamic true, durch %N (in String) oder N (in char).

Ein Text, der in einer RegExpr-Regel erfasst wird, nur für den gewechselten Kontext behalten wird, der in seinem Attribut Kontext angegeben ist.

Tipp

Wenn die Erfassung nicht verwendet werden sollen, sowohl durch dynamische Regeln als auch im gleichen regulären Ausdruck, sollte nicht-erfassende Gruppen verwendet werden verwendet werden: (?:PATTERN)
Die Gruppen Vorwärtsreferenz oder Rückwärtsreferenz wie (?=PATTERN), (?!PATTERN) oder (?<=PATTERN) werden nicht erfasst. Weitere Informationen fingen Sie im Abschnitt Reguläre Ausdrücke.
Die Erfassungs-Gruppen können innerhalb desselben regulären Ausdrucks verwendet werden, indem \N anstelle von %N verwendet wird. Für weitere Informationen siehe Erfassen von passendem Text (Rückwärtsreferenz) in AbschnittReguläre Ausdrücke.

Beispiel 1:

In diesem einfachen Beispiel wird der Text, der mit dem regulären Ausdruck =* übereinstimmt, erfasst und für %1 in die dynamische Regel eingefügt. Dadurch kann der Kommentar mit der gleiche Zahl von Gleichheitszeichen = wie am Anfang beendet werden. Dies passt auf Text wie: [[ Kommentar ]], [=[ Kommentar ]=] oder [=====[ Kommentar ]=====].

Außerdem sind die Erfassungen nur im gewechselten Kontext mehrzeiligen Kommentaren verfügbar.

<context name="Normal" attribute="Normal Text" lineEndContext="#stay">
  <RegExpr context="Multi-line Comment" attribute="Comment" String="\[(=*)\[" beginRegion="RegionComment"/>
</context>
<context name="Multi-line Comment" attribute="Comment" lineEndContext="#stay">
  <StringDetect context="#pop" attribute="Comment" String="]%1]" dynamic="true" endRegion="RegionComment"/>
</context>

Beispiel 2:

In der dynamischen Regel entspricht %1 der Erfassung, die auf #+ passt und %2 auf "+. Dies trifft auf Text wie #label""""inside the context""""# zu.

Diese Erfassungen sind in anderen Kontexten wie z. B. OtherContext, FindEscapes oder SomeContext nicht verfügbar.

<context name="SomeContext" attribute="Normal Text" lineEndContext="#stay">
  <RegExpr context="#pop!NamedString" attribute="String" String="(#+)(?:[\w-]|[^[:ascii:]])(&quot;+)"/>
</context>
<context name="NamedString" attribute="String" lineEndContext="#stay">
  <RegExpr context="#pop!OtherContext" attribute="String" String="%2(?:%1)?" dynamic="true"/>
  <DetectChar context="FindEscapes" attribute="Escape" char="\"/>
</context>

Beispiel 3:

Die passt auf Text wie: Class::function<T>( ... ).

<context name="Normal" attribute="Normal Text" lineEndContext="#stay">
  <RegExpr context="FunctionName" lookAhead="true"
              String="\b([a-zA-Z_][\w-]*)(::)([a-zA-Z_][\w-]*)(?:&lt;[\w\-\s]*&gt;)?(\()"/>
</context>
<context name="FunctionName" attribute="Normal Text" lineEndContext="#pop">
  <StringDetect context="#stay" attribute="Class" String="%1" dynamic="true"/>
  <StringDetect context="#stay" attribute="Operator" String="%2" dynamic="true"/>
  <StringDetect context="#stay" attribute="Function" String="%3" dynamic="true"/>
  <DetectChar context="#pop" attribute="Normal Text" char="4" dynamic="true"/>
</context>

Lokale Begrenzungszeichen

Einige Regeln erlauben die optionalen Attribute weakDeliminator und additionalDeliminator, die mit gleichnamigen Attributen des Schlüsselworts kombiniert werden. Wenn zum Beispiel '%' ein schwacher Wortbegrenzer des Schlüsselworts ist, kann es in einer Regel nur zum Wortbegrenzer werden, indem man es dem Attribut additionalDeliminator hinzufügt. Wann immer eine Regel diese Attribute zulässt, enthält sie lokale Begrenzungszeichen.

weakDeliminator: Liste der Zeichen, die nicht als Wortbegrenzungen fungieren.
additionalDeliminator definiert zusätzliche Wortbegrenzungen.

Die Regeln im Einzelnen:

DetectChar

Findet ein einzelnes bestimmtes Zeichen. Häufig zum Finden des Endes von Zeichenfolgen in Anführungszeichen benutzt.

<DetectChar char="(character)" (common attributes) (dynamic) />

Die Eigenschaft char definiert das zu erkennende Zeichen.

Detect2Chars

Findet zwei bestimmte Zeichen in einer bestimmten Reihenfolge.

<Detect2Chars char="(character)" char1="(character)" (common attributes) />

Die Eigenschaft char definiert das erste zu erkennende Zeichen, char1 das zweite.

AnyChar

Findet ein Zeichen aus einem bestimmten Satz von Zeichen.

<AnyChar String="(string)" (common attributes) />

Die Eigenschaft String definiert den Satz der Zeichen.

StringDetect

Findet eine bestimmte Zeichenfolge.

<StringDetect String="(string)" [insensitive="true|false"] (common attributes) (dynamic) />

Die Eigenschaft String definiert die zu erkennende Zeichenfolge. Die Eigenschaft insensitive ist standardmäßig auf false gesetzt und wird an die Zeichenfolgen-Vergleichsfunktion übergeben. Wenn der Wert auf true gesetzt wird, wird Groß- und Kleinschreibung ignoriert.

WordDetect

Findet eine Zeichenfolge, aber zusätzlich werden die Wortgrenzen wie ein Punkt '.' oder ein Leerzeichen am Anfang und Ende des Wortes beachtet. Dies funktioniert wie der reguläre Ausdruck \b<string>\b, ist aber schneller als die Regel RegExpr.

<WordDetect String="(string)" [insensitive="true|false"] (common attributes) (local deliminators) />

Ab Version: Kate 3.5 (KDE 4.5)

RegExpr

Prüft die Übereinstimmung mit einem regulären Ausdruck.

<RegExpr String="(string)" [insensitive="true|false"] [minimal="true|false"] (common attributes) (dynamic) />

Die Eigenschaft String definiert den regulären Ausdruck.

Die Eigenschaft insensitive ist standardmäßig auf false gesetzt und wird an die Funktion zur Auswertung des regulären Ausdrucks übergeben.

Die Eigenschaft minimal ist standardmäßig auf false gesetzt und wird an die Funktion zur Auswertung des regulären Ausdrucks übergeben.

Weil die Regeleinhaltung immer am Anfang der aktuellen Zeichenfolge geprüft wird, kann mit dem Hochzeichen (^) angegeben werden, dass die Regeleinhaltung nur am Anfang der Zeile untersucht werden soll.

Sehen Sie unter Reguläre Ausdrücke für weitere Informationen zu diesen nach.

keyword

Erkennt ein Schlüsselwort aus einer angegebenen Liste.

<keyword String="(list name)" (common attributes) (local deliminators) />

Die Eigenschaft String definiert die Schlüsselwortliste durch deren Name. Eine Liste mit diesem Namen muss vorhanden sein.

Das Hervorhebungssystem verarbeitet die Regeln mit sehr stark optimierten Methoden. Deswegen ist es absolut notwendig, dass alle Schlüsselworte, die gefunden werden sollen, durch definierte Begrenzer eingeschlossen werden. Das können entweder die Standardbegrenzer sein oder Begrenzer, die mit der Eigenschaft additionalDeliminator des Tags keywords festgelegt wurden.

Wenn ein Schlüsselwort ein Begrenzerzeichen enthalten soll, dann muss dieses Zeichen zur Eigenschaft weakDeliminator des Tags keywords hinzugefügt werden. Dieses Zeichen verliert damit seine Funktion als Begrenzer in allen keyword-Regeln. Es ist auch möglich, das weakDeliminator Attribut vom keyword zu verwenden, so dass diese Änderung nur für diese Regel gilt.

Int

Erkennt eine ganze Zahl wie im regulären Ausdruck \b[0-9]+).

<Int (common attributes) (local deliminators) />

Diese Regel hat keine speziellen Eigenschaften.

Float

Erkennt eine Dezimalzahl wie im regulären Ausdruck \b[0-9]+)\.[0-9]*|\.][-+]?[0-9]+)?).

<Float (common attributes) (local deliminators) />

Diese Regel hat keine speziellen Eigenschaften.

HlCOct

Erkennt eine Oktalzahl wie im regulären Ausdruck \b0[0-7]+.

<HlCOct (common attributes) (local deliminators) />

Diese Regel hat keine speziellen Eigenschaften.

HlCHex

Erkennt eine hexadezimale Zahl wie im regulären Ausdruck \b0[xX][0-9a-fA-F]+.

<HlCHex (common attributes) (local deliminators) />

Diese Regel hat keine speziellen Eigenschaften.

HlCStringChar

Findet ein Steuerzeichen.

<HlCStringChar (common attributes) />

Diese Regel hat keine speziellen Eigenschaften.

Solche Zeichen sind durch druckbare Zeichen dargestellte nicht druckbare Zeichen, die in Programmquelltexten häufig benutzt werden. z. B.: \n (Zeilenvorschub) oder \t (TAB)

Die folgenden Zeichen werden erkannt, wenn sie einem Linksschrägstrich \ folgen: abefnrtv"'?. Zusätzlich werden auch hexadezimale (\xff) oder oktale (\033) Zahlen nach einem \ erkannt.

HlCChar

Findet ein C Zeichen.

<HlCChar (common attributes) />

Diese Regel hat keine speziellen Eigenschaften.

Trifft zu, wenn C Zeichen in einfachen Anführungszeichen (Beispiel: 'c') vorkommen. In den Anführungszeichen kann ein einfaches Zeichen oder Sonderzeichen (Beispiel: ' ') stehen. Für Zeichenfolgen von Sonderzeichen sehen Sie unter HlCStringChar nach.

RangeDetect

Findet eine Zeichenfolge mit definierten Anfangs- und Endzeichen.

<RangeDetect char="(character)"  char1="(character)" (common attributes) />

char definiert das Zeichen am Anfang des Bereichs, char1 das Zeichen am Ende des Bereichs.

Diese Regel ist für das Finden von kleinen Zeichenfolgen in Anführungszeichen nützlich, kann aber wegen der verwendeten Funktion keine über mehrere Zeilen gehenden Zeichenfolgen finden.

LineContinue

Trifft auf ein angegebenes Zeichen an einem Zeilenende zu.

<LineContinue (common attributes) [char="\"] />

Die Eigenschaft char definiert das optionale zu erkennende Zeichen, Standard ist der Rückstrich '\'. Neu seit KDE 4.13.

Diese Regel wird zum Umschalten des Kontextes am Ende einer Zeile benutzt. Dies wird in C/C++ zum Fortsetzen von Makros oder Zeichenfolgen gebraucht.

IncludeRules

Schließt Regeln aus einem anderen Kontext, einer anderen Sprache oder einer anderen Datei ein.

<IncludeRules context="contextlink" [includeAttrib="true|false"] />

Die Eigenschaft context definiert, welcher Kontext eingeschlossen werden soll.

Wenn dies eine einfache Zeichenfolge ist, dann werden alle definierten Regeln in den gegenwärtigen Kontext eingeschlossen. Beispiel:

<IncludeRules context="anotherContext" />

Wenn die Zeichenfolge eine ##-Nutzereingabe enthät, dann wird das Hervorhebungssystem einen Kontext aus einer anderen Sprachdefinition mit dem angegebenen Namen suchen, zum Beispiel:

<IncludeRules context="String##C++" />

schliesst den Kontext String aus der Sprachdefinition für C++ ein.

Wenn die Eigenschaft includeAttrib true ist, dann wird die Zieleigenschaft zu der aus der Quelle geändert. Dies wird zum Beispiel für Kommentare gebraucht, wenn der Text, der durch den eingeschlossenen Kontext anders hervorgehoben wird, als im gegenwärtigen Kontext.

DetectSpaces

Finde Zwischenräume.

<DetectSpaces (common attributes) />

Diese Regel hat keine speziellen Eigenschaften.

Benutzen Sie diese Regel, wenn Sie wissen, dass jetzt mehrere Zwischenräume folgen, zum Beispiel am Anfang von eingerückten Zeilen. Diese Regel überspringt mehrere Zwischenräume mit einem Mal, ohne diese einzeln auf die Einhaltung von anderen Regeln zu testen und dann nach Nichtzutreffen einzeln zu überspringen.

DetectIdentifier

Finde Zeichenfolgen als Bezeichner (als regulärer Ausdruck: [a-zA-Z_][a-zA-Z0-9_]*).

<DetectIdentifier (common attributes) />

Diese Regel hat keine speziellen Eigenschaften.

Benutzen Sie diese Regel zum Überspringen von Wörtern mit einem Mal, ohne die Zeichen im Wort einzeln auf die Einhaltung von anderen Regeln zu testen und dann nach Nichtzutreffen zu überspringen.

Tipps & Tricks

Wenn Sie einmal verstanden haben, wie das Umschalten zwischen Kontexten funktioniert, dann ist es einfach Hervorhebungsdefinitionen zu schreiben. Sie sollten jedoch sorgfältig entscheiden, welche Regel in welcher Situation Sie verwenden. Reguläre Ausdrücke sind sehr leistungsfähig, aber verglichen mit einfachen Regeln langsam. Sie sollten daher die folgenden Tipps beachten.

Wenn Sie nur zwei Zeichen vergleichen, dann benutzen Sie Detect2Chars an Stelle von StringDetect. Das Gleiche gilt für DetectChar.
Reguläre Ausdrücke sind einfach zu benutzen, aber oft gibt es einen anderen viel schnelleren Weg, um das gleiche Ergebnis zu erreichen. Nehmen Sie an, Sie wollen feststellen, ob das Zeichen '#' das erste Zeichen einer Zeile ist. Ein regulärer Ausdruck dafür wäre:
```
<RegExpr attribute="Macro" context="macro" String="^\s*#" /> 
```
Sie können aber auch die wesentlich schnellere Lösung:
```
<DetectChar attribute="Macro" context="macro" char="#" firstNonSpace="true" />
```
benutzen. An Stelle des regulären Ausdrucks '^#' können Sie DetectChar mit der Eigenschaft column="0" benutzen. Die Eigenschaft column zählt Zeichenbasiert, sodass auch ein Tabulator nur ein Zeichen ist.
Verwenden Sie in RegExpr-Regeln das Attribut column="0", wenn mit dem Muster ^PATTERN Text am Anfang einer Zeile gefunden werden soll. Dies ist schneller, da nicht mehr in den restlichen Spalten der Zeile nach Übereinstimmungen gesucht wird.
Verwenden Sie in regulären Ausdrücken nicht-erfassende Gruppen (?:PATTERN) anstelle von erfassenden Gruppen (PATTERN), wenn die Erfassungen nicht in demselben regulären Ausdruck oder in dynamischen Regeln verwendet werden. Dadurch wird das unnötige Speichern von Erfassungen vermieden.
Sie können zwischen Kontexten umschalten, ohne Zeichen zu verarbeiten. Angenommen, Sie wollen den Kontext umschalten, wenn Sie die Zeichenfolge */ finden, aber Sie müssen diese Zeichenfolge im nächsten Kontext verarbeiten. Die folgende Regel trifft zu und die Eigenschaft lookAhead sorgt dafür, dass die zutreffende Zeichenfolge für den folgenden Kontext bereitgehalten wird.
```
<Detect2Chars attribute="Comment" context="#pop" char="*" char1="/" lookAhead="true" />
```
Benutzen Sie DetectSpaces, wenn Sie wissen, dass mehrere Zwischenräume vorkommen.
Benutzen Sie DetectIdentifier an Stelle des regulären Ausdrucks '[a-zA-Z_]\w*'.
Benutzen Sie Standardstile wann immer das möglich ist. Die Benutzer finden dadurch eine vertraute Umgebung vor.
Sehen Sie in anderen XML-Dateien nach, wie andere Benutzer komplizierte Regeln geschrieben haben.
Sie können die Gültigkeit jeder XML-Datei mit dem Befehl validatehl.sh language.xsd mySyntax.xml überprüfen. Die Dateien validatehl.sh und language.xsd finden Sie im Syntax-Highlighting-Repository.
Wenn Sie komplexe reguläre Ausdrücke oft wiederholen, können Sie ENTITIES benutzen. Beispiel:
```
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE language SYSTEM "language.dtd"
[
        <!ENTITY myref    "[A-Za-z_:][\w.:_-]*">
]>
```
Nun können Sie &myref; an Stelle des regulären Ausdrucks benutzen.

Zurück	Zum Anfang	Weiter
KatePart erweitern	KatePart erweitern	Arbeiten mit Farbschemata
http://docs.kde.org/