SSDF

Der schwedische Schachcomputerverband - auf Schwedisch "Svenska schackdatorföreningen (SSDF)" - ist eine unabhängige Organisation für Personen, die an Schachcomputern und schachbezogener Computersoftware interessiert sind.

Die SSDF wurde im August 1984 gegründet. Ziel des Vereins ist, die Spielstärke von Schachcomputern bzw. Schachprogrammen vergleichend zu ermitteln. Dazu werden von vielen Freiwilligen Schachpartien zwischen verschiedenen Schachprogrammen auf Computern durchgeführt und auf Basis der Resultate Elo-Zahlen ermittelt. Als Bedenkzeit gelten generell die im Turnierschach üblichen 120 Minuten für die ersten 40 Züge.

Aktuelle SSDF-Liste

Wie gut sind Schachcomputer?

Von Göran Grottling (aus Computer Schach & Spiele / Heft 3 / Juni 1987)

Welcher Schachcomputer ist eigentlich am besten? Diese Frage haben sich Verbraucher gestellt, seit die ersten kommerziellen Schachcomputer auf dem Markt erschienen. Die Hersteller und Verkäufer der Geräte übertreffen sich gegenseitig mit übertriebenen Ratingzahlen. Dabei ist der Unterschied in der Spielstärke verschiedener Modelle oft sehr klein, und es erfordert viele Partien, um ihn herauszufinden.

Seit einigen Jahren hat der schwedische Schachcomputerverein (SSDF), mit ungefähr 450 Mitgliedern, eine Ratingliste für die meisten kommerziellen Schachcomputer zusammengestellt. Diese wird immer auf den neuesten Stand gebracht und in der Mitgliedszeitung PLY, wie auch in der englisch-sprachigen, wissenschaftlichen Zeitschrift "The ICCA Journal" publiziert. Die Liste gründet sich auf Partien zwischen verschiedenen Computern, während das Niveau der Liste auf Grund von Partien zwischen Computern und Menschen in Schweden festgestellt wird.

Vielen unserer Mitglieder gefällt es, ihre Computer gegeneinander spielen zu lassen. Zurzeit produzieren sie ungefähr 200 bis 300 Partien im Monat. Die nebenstehende Liste, die am 20. April speziell für die Leser von Computerschach & Spiele gemacht wurde, gründet sich auf 5058 Partien. Alle Teilresultate werden in ein eigens entwickeltes Ratingprogramm eingegeben, das Berechnungen nach dem ELO-System ausführt, welches die Grundlage für das Ratingsystem in den meisten Ländern ist. Nach einigen Minuten hat der Computer (ein Commodore 64) die Ratingzahlen errechnet. Die Spalte rechts neben der Ratingzahl gibt den größtmöglichen Fehler bei einem Sicherheitsfaktor von 95 % an. Das bedeutet, dass es ein 5-prozentiges Risiko dafür gibt, dass der Fehler noch größer ist. In den meisten Fällen ist der Fehler viel kleiner. Die nächste Spalte zeigt die Anzahl der gespielten Partien für den jeweiligen Computer, danach folgt die Gewinnquote und zuletzt die durchschnittliche Spielstärke der Gegner.

Orientierung am Menschen

Wie schon erwähnt, gründet sich das Niveau der Liste darauf, wie es den Computern in verschiedenen schwedischen Meisterschaften erging. (Wir rechnen nur Partien in richtigen schwedischen Meisterschaften, nicht Freundschaftspartien.) Diese Normierung wird ständig korrigiert, wenn neue "Menschenpartien" hinzukommen. Sehr große Veränderungen des Niveaus sind allerdings nicht mehr zu erwarten, da die Computer bereits mehr als 250 Partien gegen Menschen gespielt haben. Meine persönliche Auffassung ist, dass das Niveau der Liste etwas zu hoch liegt, ungefähr 30 Punkte. Aber das Niveau gründet sich nicht auf irgendeine "Ansicht", sondern ist das Resultat einer mathematischen Berechnung.

Interessanter aber für die deutschen Leser ist natürlich, welches Niveau unsere Liste in Deutschland hätte. Von den Resultaten her zu urteilen, die sich bei Spielen zwischen deutschen Schachspielern und Computern ergeben haben, die in Computerschach & Spiele 1/86 und 1/87 publiziert wurden, sollte der deutsche Leser ungefähr 30 bis 40 Punkte von der schwedischen Liste abziehen!

Test-Regeln

Hier sind einige der Prinzipien für unsere Testarbeit:

Alle Partien werden auf der Turnierstufe der Computer gespielt, d.h. 40 Züge/2 Stunden.
Wir akzeptieren nur Resultate unserer eigenen Mitglieder. Der Grund dafür ist vor allen Dingen, dass wir eine so korrekte Auswahl wie möglich haben wollen. Es ist wichtig, dass wir alle Partien, die gespielt werden, mit einbeziehen und nicht irgendeine Auswahl, die willkürlich getroffen wurde.
Wir akzeptieren keine Resultate von Mitgliedern, die kommerziell engagiert sind, da wir nicht falscher Resultate verdächtigt werden wollen. Tatsächlich wurden ca. 90% der Partien von ungefähr 15 Personen ausgetragen, die ich recht gut kenne. Ich weiß, dass ich den Resultaten trauen kann, auch wenn sie zuweilen merkwürdig aussehen.
Beim Testspiel sollen die Computer die Eröffnung immer selbst wählen. Wir richten uns stark gegen die Idee, die Computer mit im Vorhinein bestimmten Eröffnungen spielen zu lassen. Wer sollte bestimmen, welche Eröffnungen das sein sollen? Ich bin überzeugt davon, dass niemand vorschlagen würde, es sei gerechter, wenn Kasparov und Karpov um den Weltmeisterschaftstitel mit vorher festgelegten Eröffnungen spielten!
Wir versuchen, die Testspiele so zu steuern, dass jeder Computer gegen so viele andere Computer wie möglich jeweils 20 Partien spielt.
Ein Computer soll mindestens 40 Partien gespielt haben, um mit auf die Liste zu kommen.

Aus Erfahrung wissen wir, dass ein neuer Computer dann erstaunlicherweise richtig auf der Liste landet. Manchmal kann er auch um 50 Punkte falsch liegen, nur ganz selten kann der Fehler noch größer sein. Zurzeit testen wir Mephisto Dallas 68020, aber bis jetzt haben uns die Ergebnisse enttäuscht. Der "Super-Dallas" gewinnt zwar gegen alle anderen Computer, aber nicht in dem Ausmaß, wie man es hätte erwarten können. Das Resultat für Dallas 68020 ist ungefähr das gleiche wie für Dallas 68000, und ich kann nicht erklären, warum. Der SciSys Leonardo Maestro 6 MHz ist bis zur Stunde noch nicht nach Schweden gekommen, und wir haben deshalb noch nicht damit beginnen können, ihn zu testen. Meine Vermutung ist, dass er irgendwo zwischen Par Excellence und Constellation Forte landen wird.

Schlussbemerkungen

Ich bin überzeugt davon, dass unsere Ratingliste das Kräfteverhältnis zwischen Computern korrekt wiedergibt. Die meisten Personen, die Erfahrung mit verschiedenen Computern haben, stimmen unserer Ratingliste zu " zumindest was die Spielstärkeunterschiede betrifft. Wichtiger vielleicht ist die Erkenntnis, dass eine Verdoppelung der Geschwindigkeit die Spielstärke um 70 bis 80 Ratingpunkte vergrößert. Anhand der Liste kann man sehen, wie genau dies für Computer mit demselben Programm, aber verschiedenen Geschwindigkeiten, zutrifft. Z.B. für den Conchess Glasgow 2 und 4 MHz und Constellation 2 und 3,6 MHz. Oder Superstar 36 K, der ein Turbostar mit der halben Geschwindigkeit ist. Oder vergleichen Sie Excellence 3 MHz und 4 MHz. Zum Schluss schauen Sie die Ratingzahlen für das Plymate-Programm von Mephisto MMII (3.7 MHz), Plymate 4 MHz und Plymate 5,5 MHz an! Das stimmt recht gut, oder? Testspiele zwischen Computern sind natürlich nur ein Ersatz dafür, gegen Menschen zu spielen, aber wir machen das, weil wir immer noch keinen Grund haben, zu glauben, dass sich Computer gegeneinander anders verhalten als gegen Menschen. Man soll nicht glauben, dass man immer ein korrektes Ergebnis bekommt, wenn man zwei Schachcomputer 10 oder 20 Partien gegeneinander spielen lässt. Meistens stimmt es, aber wenn man unsere 221 Teilresultate kontrolliert, entdeckt man auch Eigenartigkeiten.

Davon sind nur 20 das, was ich als "umgekehrt" bezeichne, d.h. der schlechtere Computer hat den besseren besiegt. In fast allen dieser 20 Fälle handelt es sich entweder um eine sehr kleine Anzahl von Partien oder zwei einander sehr ähnliche Computer. Aber es gibt natürlich auch Resultate, wo der bessere Computer zwar gewonnen hat, aber überraschend knapp oder hoch. Nach unserer Erfahrung gleichen sich solche guten oder schlechten Resultate für einen Computer auf die Dauer aus, und die Ratingzahl wird zu einer Art Synthese aus einer Vielzahl von Einzelergebnissen. Die Eröffnungsbibliothek scheint eine nicht so große Bedeutung zu haben. Um das zu beweisen, wäre man gezwungen, mit demselben Computer Hunderte von Partien zu spielen, aber mit verschiedenen Eröffnungsbibliotheken. Wir haben jedenfalls keinen Unterschied bei den Ergebnissen gemerkt, wenn man z.B. Turbostar mit oder ohne Kasparov-Bibliothek spielen lässt oder wenn man die Fidelity-Computer mit oder ohne die Module CB16 und CB9 testet. Dem steht in keinster Weise entgegen, dass es natürlich viel spannender ist, gegen einen Computer mit einer großen und vor allem variationsreichen Eröffnungsbibliothek zu spielen. Ich bin mir bewusst, dass beim Lesen dieses Artikels, der auf eine konzentrierte Weise vom schwedischen Streben, die Spielstärke der Schachcomputer zu gradieren, erzählen will, Fragen und kritische Anmerkungen aufkommen können. Ich hoffe, dass ich in diesem Fall die Möglichkeit habe, in einer späteren Nummer von Computerschach & Spiele auf diese Fragen und Gesichtspunkte eingehen zu können.