Bei allen Arten von Substitutions-Chiffren wird ein Buchstabe durch einen oder mehrere Andere ersetzt. Die Häufigkeitsanalysen bietet uns die effektivste Möglichkeit diese Chiffren zu brechen. Wie das genau funktioniert erfahrt Ihr hier.
Der Einfachheit halber lassen wir Satzzeichen außen vor und beschränken uns auf das groß geschriebene Alphabet, insgesamt 26 Zeichen. Kein Zeichen wird doppelt belegt. Mathematisch handelt es sich um eine Permutation des Alphabets, eine Abbildung des Alphabets A nach A.
Bsp:
H -> BA -> V
L -> C
O -> Y
Es wird deutlich dass die Permutation eine zufällige Verschiebung darstellt. Der Klartext HALLO wird zum chiffrierten Text BVCCY.
Bei einem Alphabet der 26 Großbuchstaben haben wir 26! (Fakultät) mögliche Permutationen. Dies bedeutet dass bei reinem durchprobieren 403291461126605700000000000 Möglichkeiten abzuarbeiten gibt. Was wiederum einem Schlüsselraum von etwa 88 Bit (288) entspricht. Verglichen mit der weit verbreiteten DES Verschlüsselung die auf 56 Bit basiert ist das auf den ersten Blick natürlich ganz schön viel. Ein DES Schüssel wird mit einem normalen PC in durchschnittlich 500 Jahren gefunden, das Durchprobieren können wir uns also schenken.
Auch wenn die Verschlüsselung relativ des Schlüsselraumes als ausreichend sicher erscheint kann die diese Art der Verschlüsselung innerhalb weniger Minuten gebrochen werden.
Die Methode diese Verschlüsselung zu brechen ist wohl die Häufigkeitsanalyse. Wir gehen davon aus dass wir die Sprache des Klartext kennen. Deshalb zählen wir zunächst alle Buchstaben des chiffrierten Textes und erstellen einen Verglich mit der Häufigkeit der Buchstaben im allgemeinen Sprachgebrauch.
Beim oberen Beispiel führt dies allein nicht zum Erfolg da die verschlüsselte Botschaft zu kurz ist um mit statistischen Methoden effektiv arbeiten zu können. Dennoch können wir im obigen Beispiel einen doppelten Konsonanten vermuten. ll, mm, nn kommen in der deutschen Sprache recht häufig vor. Ob das Chiffrat nun HALLO, TONNE oder KOMME bedeutet bleibt allerdings ein Geheimnis.
Mit diesen Informationen im Hinterkopf versuchen wir nun ein einem etwas besseren Beispiel:
QOT WIJO CIG NZNI, GQO CIG I GQZCXPTN
CPUQ VONNZC SOIUQOTG PW QOT QIPT IWE I ETOGG LHU EZCW UZ UQOTO
GQO CZHNE JOTOWXHO IWE EZ UQO LQI-LQI
IWE CQPNO GQO UTPOE UZ AO I GUIT, UZWV INCIVG UOWEOE AIT
ILTZGG I LTZCEOE SNZZT, UQOV CZTBOE STZJ OPXQU UPNN SZHT
UQOV COTO VZHWX IWE UQOV QIE OILQ ZUQOT
CQZ LZHNE IGB SZT JZTO?
QPG WIJO CIG TPLZ, QO CZTO I EPIJZWE
QO CIG OGLZTUOE UZ QPG LQIPT, QO GIC NZNI EIWLPW' UQOTO
IWE CQOW GQO SPWPGQOE, QO LINNOE QOT ZYOT
AHU TPLZ COWU I APU UZZ SIT, UZWV GIPNOE ILTZGG UQO AIT
IWE UQOW UQO DHWLQOG SNOC IWE LQIPTG COTO GJIGQOE PW UCZ
UQOTO CIG ANZZE IWE I GPWXNO XHW GQZU
AHU FHGU CQZ GQZU CQZ?
Zusätzlich haben folgende Informationen:
- Der Klartext wurde in englischer Sprache verfasst.
- Satzzeichen sind vorgegeben.
- Es werden nur Großbuchstaben verwendet.
Ein Blick in die Suchmaschine unserer Wahl liefert für die Häufigkeitsverteilung der Buchstaben der englischen Sprache folgende Tabelle:
| Einzelbuchstaben | |
|
1. E 12.70%
2. T 9.06% 3. A 8.17% 4. O 7.51%
5. I 6.97% 6. N 6.75% 7. S 6.33%
8. H 6.09% 9. R 5.99%
10. L 4.03% 11. D 4.25% 12. C 2.78%
13. U 2.76% |
14. M 2.41%
15. W 2.36%
16. F 2.23%
17. G 2.02%
18. Y 1.97%
19. P 1.93% 20. B 1.50% 21. V 0.98% 22. K 0.77% 23. Q 0.10% 24. J 0,15% 25. X 0,15% 26. Z 0,07% |
Mit diesen Informationen wissen wir bereits alles um den Text zu entschlüsseln. Natürlich haben wir keine Lust die Buchstaben zu zählen Häufigkeiten aufzulisten und dann einzeln zu ersetzten. Dafür schreiben wir uns ein einfaches Programm. Ich verwende dafür PHP. Ja, eignet sich nicht wirklich, ist mir aber gerade geläufig und reicht zum umreißen der Funktion bestens aus.
Unser Programm könnte so aussehen:
//mein Code war fehlerhaft ich schreib bei Gelegenheit einen Neuen.
Die Ausgabe des Programms bringt uns folgendes Ergebnis:
01 Es gibt 61 Vorkommen vom Buchstaben O Relative Häufigkeit: 12.47 %
02 Es gibt 47 Vorkommen vom Buchstaben I Relative Häufigkeit: 9.61 %
03 Es gibt 45 Vorkommen vom Buchstaben Q Relative Häufigkeit: 9.2 %
04 Es gibt 41 Vorkommen vom Buchstaben Z Relative Häufigkeit: 8.38 %
05 Es gibt 35 Vorkommen vom Buchstaben T Relative Häufigkeit: 7.16 %
06 Es gibt 34 Vorkommen vom Buchstaben G Relative Häufigkeit: 6.95 %
07 Es gibt 34 Vorkommen vom Buchstaben U Relative Häufigkeit: 6.95 %
08 Es gibt 29 Vorkommen vom Buchstaben E Relative Häufigkeit: 5.93 %
09 Es gibt 28 Vorkommen vom Buchstaben W Relative Häufigkeit: 5.73 %
10 Es gibt 25 Vorkommen vom Buchstaben C Relative Häufigkeit: 5.11 %
11 Es gibt 22 Vorkommen vom Buchstaben P Relative Häufigkeit: 4.5 %
12 Es gibt 20 Vorkommen vom Buchstaben N Relative Häufigkeit: 4.09 %
13 Es gibt 16 Vorkommen vom Buchstaben L Relative Häufigkeit: 3.27 %
14 Es gibt 11 Vorkommen vom Buchstaben H Relative Häufigkeit: 2.25 %
15 Es gibt 8 Vorkommen vom Buchstaben V Relative Häufigkeit: 1.64 %
16 Es gibt 8 Vorkommen vom Buchstaben S Relative Häufigkeit: 1.64 %
17 Es gibt 7 Vorkommen vom Buchstaben J Relative Häufigkeit: 1.43 %
18 Es gibt 7 Vorkommen vom Buchstaben A Relative Häufigkeit: 1.43 %
19 Es gibt 6 Vorkommen vom Buchstaben X Relative Häufigkeit: 1.23 %
20 Es gibt 2 Vorkommen vom Buchstaben B Relative Häufigkeit: 0.41 %
21 Es gibt 1 Vorkommen vom Buchstaben Y Relative Häufigkeit: 0.2 %
22 Es gibt 1 Vorkommen vom Buchstaben F Relative Häufigkeit: 0.2 %
23 Es gibt 1 Vorkommen vom Buchstaben D Relative Häufigkeit: 0.2 %
Mit dieser Aussage können wir nun im Texteditor jeden Buchstaben des Chiffrats mit dem Entsprechenden der Häufigkeitstabelle ersetzten:
Es liegt nahe zuerst O durch ein E zu ersetzen. Der chiffrierte Text ist leider zu kurz um die Verteilung direkt zu übernehmen. Wir werden etwas herumprobieren müssen. Eine Vermutung bringt mich darauf Q durch H und T durch R zu ersetzen. Sehen wir uns nun die erste Zeile des bearbeiteten Chiffrats an. Die chiffrierten Buchstaben habe ich klein dargestellt, entschlüsselte groß.
HER wijE cig nzni, gHE cig i gHzcxpRn
Im englischen fallen mir nur ein paar oft vorkommende Wörter ein die auf HE enden: the oder she. das zum Teil entschlüsselte Wort gHE verrät uns dass wir als nächstes G durch S ersetzen sollten. Warum nicht G durch T? Es gibt weniger Nomen die mit TH anfangen als mit SH siehe gHzcxpRn . Der Blick auf die Häufigkeitsverteilung bringt uns dazu W durch N und U durch T zu ersetzen. Warum??? U und T passen doch gar nicht - Richtig aber da mehrfache Auftreten von uHERE im Chiffrat lässt es vermuten. Wir fahren mit einer Mischung aus Verteilung und Vermutung fort...
Her name was Lola, she was a showgirl
With yellow feathers in her hair and a dress cut down to there
She would merengue and do the cha-cha
And while she tried to be a star, Tony always tended bar
Across a crowded floor, they worked from 8 till 4
They were young and they had each other
Who could ask for more?
His name was Rico, he wore a diamond
He was escorted to his chair, he saw Lola dancin' there
And when she finished, he called her over
But Rico went a bit too far, Tony sailed across the bar
And then the punches flew and chairs were smashed in two
There was blood and a single gun shot
But just who shot who?
Damit haben wir den Text entschlüsselt. Es Handelt sich um die ersten zeiw Strophen des Liedes Copacabana von Barry Manilow.
Eine Tabelle liefert uns zum Schluss die gesamte Dechiffrierung im Überblick.
| Chiffrat | Entschlüsselt |
| A | B |
| B | K |
| C | W |
| D | P |
| E | D |
| F | J |
| G | S |
| H | U |
| I | A |
| J | M |
| K | (kein Vorkommen) |
| L | C |
| M | (kein Vorkommen) |
| N | L |
| O | E |
| P | I |
| Q | H |
| R | (kein Vorkommen) |
| S | F |
| T | O |
| U | T |
| V | Y |
| W | N |
| X | G |
| Y | V |
| Z | O |
Aktualisiert (Mittwoch, den 24. November 2010 um 18:50 Uhr)


