Datenkomprimierung

Um Bandbreiten beim Übertragen oder Speicherplatz beim Aufbewahren von Daten zu sparen, wird eine möglichst kompakte Repräsentation dieser Daten angestrebt. Aus diesem Grund unterstützen DocuTainer® verschiedene Mechanismen, um Redundanzen zu vermeiden und damit insgesamt weniger Speicherplatz zu benötigen als der ursprüngliche Inhalt. Diese Reduktion ist im Mittel deutlich größer als der Zuwachs an Information infolge notwendiger Metadaten. DocuTainer® helfen  auf folgende Weise Speicher zu sparen:


1.    Deduplikation auf Dateiebene-> hierbei wird das mehrfache Speichern identischer Dateien bei Erstellung erkannt und weitere Kopien werden durch kleine symbolische Platzhalter ersetzt.

 

2.    Anwendung eines Ratio-basierenden Kompressionsalgorythmus auf einzelne Inhaltsartefakte ermöglicht die Reduzierung des Platzbedarfs für nicht optimal gepackte Dateiformate- wobei die Kompression bereits komprimierter Inhalte zur Verbesserung der Performance unterbleibt. Die Entscheidung zur Kompression wird blockweise anhand eines einstellbaren Verhältnisses zwischen Größe des komprimierten Blocks zur Größe des Originalblocks getroffen. Soweit dieses Verhältnis auf 0 gestellt wird, lässt sich die Kompression auch faktisch abschalten.

 

3.    Infolge des lückenlosen Zusammenrückens der Einzeldateien im internen Storage werden ungenutzte Blockreste auf Dateisystemebene vermieden. So würden 1000 Dateien der Länge 1 Byte auf einem typischen Datenträger 4 MB belegen, da jede einen eigenen Block von 4kB benötigt. Auf modernen Plattensystemen mit noch höheren Blockgrößen wäre diese Verschwendung noch größer. Die Daten dieser 1000 Dateien würden in einem DocuTainer® nur 1kB belegen. Zusammen mit dem Overhead von ca. 5kB hätte also der DocuTainer eine Größe von max. 8kB auf dem Datenträger. Ganz nebenbei erspart das auch 999 Verzeichniseinträge und beschleunigt damit den Zugriff über das Betriebssystem. Mit der Leseanforderung von nur 2 Blöcken kann dann auf alle 1000 Dateien Zugriff genommen werden. Gerade bei stark fragmentierten Systemen erhöht sich damit die Performance drastisch und macht den zeitlichen Mehraufwand für die Dekompression mehr als wett.