Teil 1: XML - Geschichte und Bedeutung
Von SGML zu XML - Allgemeines zu MarkUp-Sprachen
Unter "MarkUp" versteht man ganz Allgemein das Einfügen
von "Erkennungsmarken" in einen zu formatierenden Text, die
dem Parser (dem formatierenden Programm) mitteilen, auf welche Art der
markierte Text zu formatieren ist. Diese Markierungen können handschriftlich
erfolgen, wie dies z.B. Lektoren tun, oder in maschinenlesbarer Form.
Im Prinzip handelt es sich bereits bei der normalen Interpunktion um
eine Art von MarkUp, die Texte in Sätze, und diese wieder in Nebensätze
unterteilt (strukturiert). Nebenbei werden als Satzzeichen Symbole verwendet,
die nicht als Bestandteile von Wörten verwendet werden, so daß
auch hier zwischen MarkUp und Inhalt unterschieden wird.
MarkUp ist Meta-Information
MarkUp ist also nicht Bestandteil der Information (Satz, Wort), sondern
dient als "Meta-Information" über die Struktur der dargestellten
Information. Die Gesamtinformation wird in Elemente unterteilt, das MarkUp
kennzeichnet jeweils Beginn und Ende eines Elements.
Ohne Standardisierung ist ein Austausch von Daten zwischen Applikationen,
die MarkUp verwenden (jedes Textverarbeitungsprogramm tut das!) erschwert
bis unmöglich.
GML und SGML
Im Jahr 1969 wurde (bei IBM) die erste moderne MarkUp-Sprache aus der
Taufe gehoben. Ihre Erfinder Charles Goldfarb, Ed Mosher
und Ray Lorie nannten sie GML - angeblich nicht nach
den Anfangsbuchstaben ihrer Nachnamen, sondern im Sinne von "Generalized
Markup Language".
Später wurde diese Sprache standardisiert (ISO 8879), und diente
als SGML der Beschreibung von komplexen Informationsstrukturen
(Daten und deren Zusammenhang untereinander), wie z.B. Flugzeugbauplänen
und Teilelisten.
SGML gilt als eine extrem mächtige, und daher auch äußerst
komplexe Beschreibungssprache, die Dokumente beliebiger Struktur mit für
diese speziell definierten MarkUps darstellen kann.
HTML und SGML
Als für das Internet eine (spezielle) MarkUp-Sprache benötigt
wurde, wurde diese von Tim Berners-Lee von SGML abgeleitet. Er
ging davon aus, daß im Internet ein Dokumenttyp - eine Grundstruktur
- zur Darstellung aller Inhalte ausreichen würde. Das Ergebnis ist
die Auszeichnungssprache HTML.
Gegenüber SGML wurde hier auf mögliche Erweiterbarkeit der
MarkUps durch den Autor (dem Schreiber von HTML-Dokumenten) selbst verzichtet,
sondern eine überschaubare Menge von Tags vordefiniert.
Im Zuge der Entwicklung von HTML kamen zwar immer neue Tags hinzu, an
der prinzipiellen Nichterweiterbarkeit änderte sich jedoch nichts.
Nachteile der Nichterweiterbarkeit von HTML
Sinn von HTML war und ist die Darstellung von Dokumenten in Browsern.
So ist es möglich, die Ausgabe einer Datenbankabfrage als HTML-Dokument
überall im Internet darstellen zu können.
Hierbei geht allerdings die Information verloren, aus welchem z.B. Datenfeld
die Inhalte stammen, so daß ein Rückspeichern (Zergliedern)
eines HTML-Dokuments in eine Datenbank schwierig ist. Wäre es möglich,
in der HTML-Seite jeweils spezielle Container wie
<datenfeldname>Daten</datenfeldfeldname>
einzusetzen, so würde die Meta-Information über die Herkunft
der Daten erhalten bleiben. Leider ist dies aufgrund der Nichterweiterbarkeit
von HTML nicht möglich.
|