home / tutorials / xml in 45 minuten

 

"XML in fünfundvierzig Minuten"
Teil 1 | Teil 2 | Teil 3 | Teil 4 | Teil 5 | Teil 6

Teil 1: XML - Geschichte und Bedeutung

Von SGML zu XML - Allgemeines zu MarkUp-Sprachen

Unter "MarkUp" versteht man ganz Allgemein das Einfügen von "Erkennungsmarken" in einen zu formatierenden Text, die dem Parser (dem formatierenden Programm) mitteilen, auf welche Art der markierte Text zu formatieren ist. Diese Markierungen können handschriftlich erfolgen, wie dies z.B. Lektoren tun, oder in maschinenlesbarer Form.

Im Prinzip handelt es sich bereits bei der normalen Interpunktion um eine Art von MarkUp, die Texte in Sätze, und diese wieder in Nebensätze unterteilt (strukturiert). Nebenbei werden als Satzzeichen Symbole verwendet, die nicht als Bestandteile von Wörten verwendet werden, so daß auch hier zwischen MarkUp und Inhalt unterschieden wird.


MarkUp ist Meta-Information

MarkUp ist also nicht Bestandteil der Information (Satz, Wort), sondern dient als "Meta-Information" über die Struktur der dargestellten Information. Die Gesamtinformation wird in Elemente unterteilt, das MarkUp kennzeichnet jeweils Beginn und Ende eines Elements.

Ohne Standardisierung ist ein Austausch von Daten zwischen Applikationen, die MarkUp verwenden (jedes Textverarbeitungsprogramm tut das!) erschwert bis unmöglich.


GML und SGML

Im Jahr 1969 wurde (bei IBM) die erste moderne MarkUp-Sprache aus der Taufe gehoben. Ihre Erfinder Charles Goldfarb, Ed Mosher und Ray Lorie nannten sie GML - angeblich nicht nach den Anfangsbuchstaben ihrer Nachnamen, sondern im Sinne von "Generalized Markup Language".

Später wurde diese Sprache standardisiert (ISO 8879), und diente als SGML der Beschreibung von komplexen Informationsstrukturen (Daten und deren Zusammenhang untereinander), wie z.B. Flugzeugbauplänen und Teilelisten.

SGML gilt als eine extrem mächtige, und daher auch äußerst komplexe Beschreibungssprache, die Dokumente beliebiger Struktur mit für diese speziell definierten MarkUps darstellen kann.


HTML und SGML

Als für das Internet eine (spezielle) MarkUp-Sprache benötigt wurde, wurde diese von Tim Berners-Lee von SGML abgeleitet. Er ging davon aus, daß im Internet ein Dokumenttyp - eine Grundstruktur - zur Darstellung aller Inhalte ausreichen würde. Das Ergebnis ist die Auszeichnungssprache HTML.

Gegenüber SGML wurde hier auf mögliche Erweiterbarkeit der MarkUps durch den Autor (dem Schreiber von HTML-Dokumenten) selbst verzichtet, sondern eine überschaubare Menge von Tags vordefiniert.

Im Zuge der Entwicklung von HTML kamen zwar immer neue Tags hinzu, an der prinzipiellen Nichterweiterbarkeit änderte sich jedoch nichts.


Nachteile der Nichterweiterbarkeit von HTML

Sinn von HTML war und ist die Darstellung von Dokumenten in Browsern. So ist es möglich, die Ausgabe einer Datenbankabfrage als HTML-Dokument überall im Internet darstellen zu können.

Hierbei geht allerdings die Information verloren, aus welchem z.B. Datenfeld die Inhalte stammen, so daß ein Rückspeichern (Zergliedern) eines HTML-Dokuments in eine Datenbank schwierig ist. Wäre es möglich, in der HTML-Seite jeweils spezielle Container wie

<datenfeldname>Daten</datenfeldfeldname>

einzusetzen, so würde die Meta-Information über die Herkunft der Daten erhalten bleiben. Leider ist dies aufgrund der Nichterweiterbarkeit von HTML nicht möglich.

 

 

Neu erschienen:

   

 

home | themen | tutorials | bücher | referenzen | schulungen | impressum

© 2005 Webdimensions