LHa (Kompressionsprogramm)

LHa

Screenshot
Hilfeanzeige von LHarc in der Kommandozeile
Basisdaten

Hauptentwickler „LHa for UNIX“: Koji Arai
Entwickler Haruyasu Yoshizaki et al.[1]
Aktuelle Version „LHa for UNIX“: 1.14i-ac20220213
Betriebssystem plattformübergreifend verfügbar
Programmier­sprache C
Kategorie Datenkompression
Lizenz Versions- und implementierungsabhängig. Die Implementierung „LHa for UNIX“ ist quelloffen.
github.com/jca02266/lha
LZH
Dateiendung: .lzh, .lha
MIME-Type: application/x-lzh-compressed
Art: Datenkompression
Container für: beliebige Dateien


LHa bezeichnet eine Kompressionsprogrammfamilie zur Dateiarchivierung. Das zugehörige Dateiformat LZH basiert auf dem LZHUFF-Verfahren, bei dem zuerst mit dem Lempel-Ziv-Storer-Szymanski-Algorithmus (LZSS) sich wiederholende Abschnitte eines Datenstroms dedupliziert und im zweiten Schritt mit einer Entropiekodierung nach Huffman noch stärker komprimiert werden. Aus den LHa-Quelltexten wurde der weit verbreitete Deflate-Algorithmus abgeleitet.

Dateiformat LZH und Algorithmus LZHUFF

Geschichte

Das Format LZH wurde 1988 vom Mediziner Haruyasu Yoshizaki (吉崎 栄泰, Yoshizaki Haruyasu) mit Unterstützung von Professor Haruhiko Okumura (奥村 晴彦) von der Universität Matsusaka (heute: Mie-Chūkyō-Universität) für sein Kompressionsprogramm LHarc entworfen.

Dateinamenerweiterungen und MIME-Type

Neben der plattformübergreifenden Dateinamenerweiterung .lzh wird auf dem Amiga von Commodore die Erweiterung .lha verwendet sowie historisch auch .pma (PMarc) und .lzs (LArc). Der MIME-Type ist application/x-lzh-compressed.

Byte-Reihenfolge

Die Byte-Reihenfolge des LZH-Formats ist little-endian.

Headerformat

In LZH-Archiven ist jeder darin befindlichen Datei ein Header vorangestellt, der Informationen zur jeweiligen Datei enthält. Das LZH-Format kann drei Arten von Headern enthalten, und zwar Header nach level-0, level-1 oder level-2. In den folgenden zwei Tabellen ist die interne Struktur des LZH-Formats schematisch dargestellt.

level-0
LZH-Header
Komprimierte Daten
LZH-Header
Komprimierte Daten
level-1, level-2
LZH-Header
Erweiterungsheader
Erweiterungsheader
Komprimierte Daten
LZH-Header
Erweiterungsheader
Erweiterungsheader
Komprimierte Daten

Kompressionsmethoden

Die LH-Verfahren nutzen ein Stringersatzverfahren basierend auf dem Lempel-Ziv-Storer-Szymanski-Algorithmus (LZSS) und eine Entropiekodierung nach Huffman.

Das Dateiformat lässt die Nutzung verschiedener Packmethoden zu, normalerweise verschiedene Versionen des LH-Algorithmus mit Unterschieden in der

  • Fensterlänge (bis zu 4k bei LArc, bis zu 64k bei LHa),
  • maximalen Wortlänge (LArc: 17, LHa: 60, 256),
  • der Höhe des Grenzwertes des LZSS-Algorithmus (2, 3) und
  • statischem oder dynamischem Huffman:
Kanonisches LZH
-lh0- -lh1- -lh2- -lh3- -lh4- -lh5- -lh6- -lh7- -lhd-
Schiebewörterbuchlänge unkomprimiert 4 KiB 8 KiB 8 KiB 4 KiB 8 KiB 32 KiB 64 KiB leere Ordner
max. Wortlänge 60 bytes 256 bytes 256 bytes 256 bytes 256 bytes 256 bytes 256 bytes
Huffman dynamisch dynamisch statisch statisch statisch statisch statisch

Historische und nicht-kanonische Methoden:

LArc-Methoden: -lzs-, -lz2-, -lz3-, -lz4-, -lz5-, -lz7-, -lz8-;
LHa Joe Jared extensions: -lh8-, -lh9-, -lha-, -lhb-, -lhc-, -lhe-; -lhx-;
PMarc-Methoden: -pm0-, -pm1-, -pm2-, -pms-

Implementierungen von LHa

Ausgangspunkt war das Packprogramm LArc eines anderen Autors. Ursprünglich hieß das Programm LHarc. Eine komplett neugeschriebene Version wurde vorläufig LHx genannt und letztendlich als LH veröffentlicht. Um nicht mit dem damals neuen gleichnamigen Befehl „load high“ von MS-DOS 5.0 in Konflikt zu geraten, wurde es in LHa umbenannt.

Verwendung und Verbreitung

Erste größere Popularität erlangte nicht LHarc selbst, sondern eine in Mailboxnetzen um 1989 verbreitete, manipulierte Version namens LHice beziehungsweise ICE mit der Versionsnummer 1.14. Sie war praktisch identisch mit LHarc, aber die Endung der erzeugten Files lautete „.ice“, und in der Fortschrittsanzeige wurde „freezing“ bzw. „melting“ statt „packing“ bzw. „unpacking“ ausgegeben. In der bald darauf folgenden Version LHarc 2.0 wurden derartige Manipulationen durch eine Verschlüsselung der programminternen Textstrings erschwert. Trotzdem tauchte auch von LHarc 2.0 eine gehackte Version auf, die sich „FOOBAR“ („Florian Orjanov’s and Olga Bachetzka’s ARchiver“) nannte und Archive mit der Dateiendung „.foo“ erzeugte.

Das Format wurde von id Software benutzt, um die Installationsdateien ihrer frühen Computerspiele zu komprimieren, beispielsweise Doom. LHa wurde in viele Betriebssystemumgebungen portiert und ist auf dem Amiga das meistbenutzte Archivformat, insbesondere im Aminet.

Der LZH-Algorithmus wurde von Firmen wie AMI für ihr BIOS verwendet um den begrenzten Platz der Speicherbausteine auf der Hauptplatine im Computer effizient auszunutzen.[2]

Das LZH-Format wird heute zwar in Europa und den USA kaum noch verwendet, ist aber nach wie vor in Japan sehr beliebt. Die Firma Microsoft hat für ihr Betriebssystem Windows XP in Japan eine Erweiterung für komprimierte Ordner im LZH-Format herausgebracht.[3]

Y2K11-Bug

Zeitstempel seit dem Jahr 2011 werden auf 1980 gesetzt. Dieser Fehler erfordert ein Update des Packprogramms.[4][5] Es wurde in Assemblersprache der Überlauftest cmpi.l #2010,d6 benutzt, offensichtlich ein Zahlendreher zu 2100.

Siehe auch

Einzelnachweise

  1. https://lha.osdn.jp/history.html
  2. Andreas Stiller: Prozessor-Patches. In: c’t. Nr. 5. Heinz Heise, 2001, S. 240–241 (shop.heise.de (Memento des Originals vom 22. November 2015 im Internet Archive) [abgerufen am 17. Juli 2016]).  Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäß Anleitung und entferne dann diesen Hinweis.@1@2Vorlage:Webachiv/IABot/shop.heise.de
  3. support.microsoft.com
  4. aminet.net für die Vergangenheit
  5. aminet.net für die Zukunft