Wie funktioniert zippen?

Zippen mag auf den ersten Blick ganz einfach scheinen, kann aber bei abgenutzten Reißverschlüssen oder dicht bei den Zähnen liegenden Stofflagen ein umständliches Unterfangen sein. Scherz beiseite: Hier soll es natürlich um die weit verbreitete Art gehen, Computerdateien zu bündeln und zu komprimieren.

Der eine Teil des Vorgangs, das Bündeln, ist für den Namen „Zippen“ verantwortlich. Das „Zusammenschnüren“ vieler einzelner Dateien zu einer Einzigen hat Ähnlichkeit mit dem Schließen des Reißverschlusses einer Reisetasche: Das geschlossene Gepäckstück ist einfacher zu handhaben als ein Haufen einzelner Teile. Da die einzelnen Teile wieder auffindbar sein müssen, ist die zusammengeschnürte Datei zudem mit einer Art Inhaltsverzeichnis ausgestattet. Dieses enthält – wie etwa das Inhaltsverzeichnis eines Aktenordners – die Informationen, an welcher Stelle welches Dokument anfängt und wie lang es ist.

Der andere Teil des Vorgangs, das Komprimieren der Daten, bietet im Alltag den entscheidenden Nutzen des Zippens: Große Datenmengen können reduziert werden, so dass beispielsweise ein Anhang die Maximalgröße eines E-Mail-Posteingangs nicht überschreitet. Doch obwohl Komprimieren ein sehr anspruchsvolles Thema ist, ist das Grundprinzip recht leicht erklärt. Stellen wir uns ein dickes Buch vor, das so schwer ist, dass es uns auf einer Reise behindern würde. Wie lässt sich derselbe Text auf weniger Seiten unterbringen, ohne Textgröße und Ränder zu verändern? Bei der Kompression eines solchen Texts nutzt man aus, dass sich viele Buchstabenkombinationen, Wörter, Sätze oder auch nur Wortteile oft wiederholen. Stellt man jede häufige Buchstabenreihe durch eine Zahl dar (und merkt sich diese Zuordnung in einer „Übersetzungstabelle“), kann man Platz sparen.

Natürlich hinkt das Bild des zu schweren Buches ein wenig. Denn niemand wird sich im Urlaub einer Lektüre widmen, die er nur mithilfe einer Übersetzungstabelle entschlüsseln kann. Erfreulicherweise kann uns der Computer die Arbeit des Übersetzens abnehmen. Wenn wir unsere Daten platzsparend aufbewahren oder versenden wollen, komprimiert er die Daten und legt für uns die Tabelle an. Sollen die Daten später wieder dekomprimiert werden, übernimmt der Computer die Rückübersetzung.

Für eine gute Datenkompression hat der Computer noch einen großen Vorteil: Das „Alphabet“, aus dem alle Dateien bestehen, besteht nur aus zwei Zeichen. Hier längere, wiederkehrende Zeichenketten zu finden, ist deshalb viel wahrscheinlicher als in einem normalen Text. Die komprimierten Dateien sind so oft deutlich kleiner als das Original. Voraussetzung ist allerdings, dass die Originaldatei nicht selbst bereits effizient kodiert ist. Das ist zum Beispiel der Grund, warum das Zippen von jpg-Bildern 'nicht funktioniert': Diese sind bereits komprimiert, so dass keine weitere Platzersparnis möglich ist.