Insertionsort
Insertionsort (auch Sortieren durch Einfügen, englisch insertion ‚das Einfügen‘ und englisch sort ‚sortieren‘) ist ein einfaches stabiles Sortierverfahren (d. h., die Reihenfolge von Elementen mit gleichem Schlüsselwert bleibt unverändert). Es ist leicht zu implementieren, effizient bei kleinen oder bereits teilweise sortierten Eingabemengen. Außerdem benötigt Insertionsort keinen zusätzlichen Speicherplatz, da der Algorithmus in-place arbeitet. Ein weiterer Vorteil besteht darin, dass Insertionsort als Online-Algorithmus eingesetzt werden kann.
Der Insertionsort entnimmt der unsortierten Eingabefolge ein beliebiges Element und fügt es an richtiger Stelle in die (anfangs leere) Ausgabefolge ein. Geht man hierbei in der Reihenfolge der ursprünglichen Folge vor, so ist das Verfahren stabil. Wird auf einem Array gearbeitet, so müssen die Elemente hinter dem neu eingefügten Element verschoben werden. Dies ist die eigentlich aufwendige Operation des Insertionsorts. Das Auffinden der richtigen Einfügeposition kann über eine binäre Suche vergleichsweise effizient erfolgen. Grundsätzlich gilt aber, dass Insertionsort weit weniger effizient arbeitet als andere anspruchsvollere Sortierverfahren.
Problembeschreibung
Das Vorgehen ist mit der Sortierung eines Spielkartenblatts vergleichbar. Am Anfang liegen die Karten des Blatts verdeckt auf dem Tisch. Die Karten werden nacheinander aufgedeckt und an der korrekten Position in das Blatt, das in der Hand gehalten wird, eingefügt. Um die Einfügestelle für eine neue Karte zu finden, wird entweder die Karte sukzessive (von links nach rechts) mit den bereits einsortierten Karten des Blattes verglichen, oder eine binäre Suche durchgeführt. Zu jedem Zeitpunkt sind die Karten in der Hand sortiert und bestehen aus den bereits vom Tisch entnommenen Karten. Zum Einfügen der neuen Karte müssen alle auf der Hand nachfolgenden eine Position weiter nach rechts wandern.
Eingabe
Eine Folge von zu sortierenden Zahlen .
Die Zahlen werden auch als Schlüssel (keys) bezeichnet; diese sind oft nur ein Bestandteil eines Datensatzes.
Implementierung
Pseudocode
Der folgende Pseudocode sortiert die Eingabefolge aufsteigend. Um eine absteigende Sortierung zu erreichen, ist der zweite Vergleich in Zeile 4 entsprechend zu ändern. Der Parameter A
ist ein Feld mit der zu Beginn unsortierten Folge. Nach Beendigung des Algorithmus enthält A
mit den Elementen A[0]
, A[1]
, …, A[n-1]
die sortierte Folge.
Hierbei ist zu beachten, dass die Indizierung des Feldes mit einer 0 beginnt.
: Anzahl der Elemente von A
: Index des letzten Elementes von A
INSERTIONSORT(A)
for i = 1 to (Länge(A)-1) do einzusortierender_wert = A[i] j = i while (j > 0) and (A[j-1] > einzusortierender_wert) do A[j] = A[j - 1] j = j - 1 end while A[j] = einzusortierender_wert end for
Anmerkungen:
- Die Positionsvariable i kann bei 1 beginnen anstatt bei 0, da ein Sortieren erst beginnt, wenn wenigstens zwei Werte gegeben sind (i=0 und i=1), erst dann kommt es zum ersten Vergleich. Davor kann A[0] als „bereits sortiert“ betrachtet werden.
- Die innere j-while-Schleife verschiebt im bereits sortierten Bereich 0..(i-1) alle „zu große“ Elemente eine Position nach hinten. Dadurch ergibt sich an richtiger Stelle dann der eine Freiraum, um den einzusortierenden Wert einzufügen.
Struktogramm
Im Folgenden ein Nassi-Shneiderman-Diagramm (Struktogramm) des Insertionsort-Algorithmus. Die Bezeichner sind an obigen Pseudocode angelehnt.
Zähle i von 1 bis n-1 | ||
einzusortierender_wert = A[ i ] | ||
j = i | ||
Solange j > 0 und A[ j-1 ] > einzusortierender_wert | ||
A[ j ] = A[ j-1 ] | ||
j = j - 1 | ||
A[ j ] = einzusortierender_wert |
Beispiel
Ausführung von Insertionsort auf Eingabefeld . Die Komponente, auf die der Index zeigt, ist rot eingefärbt. Blau eingefärbte Felder liegen im bereits sortierten Teilfeld .
0 | 1 | 2 | 3 | 4 | 5 |
---|---|---|---|---|---|
5 | 2 | 4 | 6 | 1 | 3 |
Da ein einzelnes Element keiner Ordnungsrelation unterliegt, beginnt der Index bei und das zweite Element wird mit dem ersten verglichen.
0 | 1 | 2 | 3 | 4 | 5 |
---|---|---|---|---|---|
5 | 2 | 4 | 6 | 1 | 3 |
0 | 1 | 2 | 3 | 4 | 5 |
---|---|---|---|---|---|
2 | 5 | 4 | 6 | 1 | 3 |
Die 5 rutscht in der blauen sortierten Teilliste nach hinten und die 2 wird am Anfang dieser eingefügt. Damit sind die ersten beiden Elemente der Folge sortiert und das nächste Element wird überprüft ().
0 | 1 | 2 | 3 | 4 | 5 |
---|---|---|---|---|---|
2 | 5 | 4 | 6 | 1 | 3 |
0 | 1 | 2 | 3 | 4 | 5 |
---|---|---|---|---|---|
2 | 4 | 5 | 6 | 1 | 3 |
Bei ist nichts weiter zu tun, da 6 bereits die richtige Position am Ende der sortierten Teilliste hat.
0 | 1 | 2 | 3 | 4 | 5 |
---|---|---|---|---|---|
2 | 4 | 5 | 6 | 1 | 3 |
Im vorletzten Schritt wird die 1 ausgewählt und in die sortierte Liste eingefügt. Dabei rutschen alle bisherigen sortierten Elemente in der sortierten Liste um eins nach hinten ().
0 | 1 | 2 | 3 | 4 | 5 |
---|---|---|---|---|---|
2 | 4 | 5 | 6 | 1 | 3 |
0 | 1 | 2 | 3 | 4 | 5 |
---|---|---|---|---|---|
1 | 2 | 4 | 5 | 6 | 3 |
Im letzten Schritt wird die 3 an passender Position in die sortierte Teilliste gebracht ().
0 | 1 | 2 | 3 | 4 | 5 |
---|---|---|---|---|---|
1 | 2 | 4 | 5 | 6 | 3 |
0 | 1 | 2 | 3 | 4 | 5 |
---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 |
Nach dem Algorithmus sind alle Felder der Folge sortiert.
0 | 1 | 2 | 3 | 4 | 5 |
---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 |
Komplexität
Die Anzahl der Vergleiche und Verschiebungen des Algorithmus ist von der Anordnung der Elemente in der unsortierten Eingangsfolge abhängig. Für den Average Case ist eine genaue Abschätzung der Laufzeit daher schwierig, man kann aber zeigen, dass der Average Case in liegt. Im Best Case, wenn das Eingabearray bereits sortiert ist, ist die Komplexität linear , d. h. sogar besser als bei den komplizierteren Verfahren (Quicksort, Mergesort, Heapsort etc.). Im Worst Case ist sie quadratisch .
Wenn zur Bestimmung der richtigen Position eines Elementes die binäre Suche benutzt wird, kann man die Anzahl der Vergleiche im Worst Case durch
abschätzen; dabei geht aber ggf. die Stabilität des Sortierverfahrens verloren.
Die Anzahl der Schiebeoperationen im Average Case beträgt
- .
Der Worst Case ist ein absteigend sortiertes Array , da jedes Element von seiner Ursprungsposition bis auf die erste Arrayposition verschoben wird und dabei Verschiebeoperationen nötig sind. Deren Gesamtanzahl beträgt somit
- .
Weiterentwicklung
Donald L. Shell schlug eine substanzielle Verbesserung dieses Algorithmus vor, die heute unter dem Namen Shellsort bekannt ist. Statt benachbarter Elemente werden Elemente, die durch eine bestimmte Distanz voneinander getrennt sind, verglichen. Diese Distanz wird bei jedem Durchgang verringert. Aufgrund der Sortierung über Distanz verliert die Sortiermethode ihre Eigenschaft „stabil“.
Robert Sedgewick veröffentlichte eine optimierte Implementierung von Insertionsort, welche einen Sentinel verwendet und nur die Hälfte an Vertauschungen benötigt. Nachfolgend wird diese Optimierung durch eine „papyrus script function“ veranschaulicht. Float[] a ist beispielhaft ein Array mit Fließkommazahlen. Die beiden integer-Parameter stellen den flexiblen Sortierbereich für das Array dar (Startwert „L“, Endwert „R“). Angenommen das Array hat 100 Elemente und beginnt bei 1, dann muss L=1 und R=100 gesetzt werden, um es vollständig zu sortieren.
FUNCTION SortByInsert(Float[] a, Int L, Int R) 1 bool bOK 2 float X ; Comparable v 3 float f 4 5 int k = -1 ; original: k = 0 // counter of exchanges 6 int i = R ; original: R - 1 7 X = a[i] ; Sentinel 8 WHILE (i > L) ; TopDown loop 9 f = a[i - 1] 10 IF (X < f) 11 a[i - 1] = X ; exchange 12 a[i] = f 13 k = i ; original: k = k + 1 14 ELSE 15 X = f ; no exchange/swap, update Sentinel only 16 ENDIF 17 i = i - 1 18 ENDWHILE 19 20 IF (k < 0) 21 RETURN ; - STOP - short circuit, no exchanges made 22 ENDIF 23 ; -------------------------- "insertion sort with half-exchanges" 24 i = L + 2 25 WHILE (i <= R) ; original: (i < R) 26 X = a[i] ; Sentinel 27 k = i ; original: j = i // counter for insertions 28 bOK = TRUE 29 WHILE (bOK) 30 f = a[k - 1] 31 IF (X < f) 32 a[k] = f 33 k = k - 1 34 ELSE 35 bOK = False 36 ENDIF 37 ENDWHILE 38 IF (k < i) 39 a[k] = X ; original: a[j] = v 40 ENDIF 41 i = i + 1 42 ENDWHILE ENDFUNCTION