One Hour Test

aus Schachcomputer.info Wiki, der freien Schachcomputer-Wissensdatenbank
Version vom 12. Februar 2023, 15:47 Uhr von Chessguru (Diskussion | Beiträge) (→‎Teststellungen)
(Unterschied) ← Nächstältere Version | Aktuelle Version (Unterschied) | Nächstjüngere Version → (Unterschied)

One Hour Test - "Ein-Stunden-Test"

Im Computer Chess Report 2/1994 veröffentlichte der Schachcomputerexperte Larry Kaufman den "One Hour Test" zur Ermittlung der Spielstärke von Schachcomputern/Programmen. Der Test sollte es ermöglichen, mit möglichst geringem Zeitaufwand eine ungefähre Spielstärkeeinschätzung zu erhalten, wer konzentriert vorgeht und flott im Aufbau von Stellungen ist, kann das auch in etwa einer Stunde bewältigen. Der Test besteht aus 25 Stellungen, die allesamt der Eröffnungstheorie entstammen. Dies hat den Vorteil, dass es sich um analysierte und eindeutige Teststellungen handelt, in denen es nur einen "besten" Zug gibt. Der Nachteil war natürlich, wie L. Kaufman schon bei der Testbeschreibung anmerkte, dass die Bewertung des Endspielverhaltens von Schachcomputern hier völlig außen vor bleibt. Um dieses Manko zu kompensieren, wurde später eine Verbindung zum "Maresch Endspieltest" aus der Computerschachzeitschrift Modul/PC-Schach hergestellt und die Resultate aus beiden Tests verschmolzen.

Testdurchführung:

Bei den 25 Stellungen gibt es jeweils einen richtigen Zug oder einen Zug, der nicht gespielt werden darf. Die Stellungen werden auf der Analysestufe untersucht und der angezeigte Zug wird in den Zeitabständen - 15 Sekunden - 30 Sekunden - 1 Minute und - 2 Minuten kontrolliert. Zeigt ein Computer bei allen vier Intervallen den geforderten Zug an, so erhält er 4 Punkte. Zeigt er beispielsweise bei der Zeitkontrolle 15 Sekunden einen falschen Zug, aber bei den 3 nachfolgenden Zeitkontrollen den korrekten Zug an, so erhält er 3 Punkte. Das Beispiel von Kaufman lautet: Wenn ein richtiger Zug nach 15 Sekunden, nicht aber nach 30 Sekunden und einer Minute, dann aber wieder nach zwei Minuten angezeigt wird, erhält der Computer dafür 2 Punkte. Insgesamt sind somit für die 25 Aufgaben 100 Punkte möglich.

Ungeklärt bleibt die Frage, ob ein Gerät 3 Punkte bekommt, wenn bei den ersten 3 Zeitkontrollen der korrekte Zug angezeigt wird, bei der letzten Kontrolle (2 Minuten) aber nicht mehr. Meiner persönlichen Meinung nach sollten hier keine Punkte vergeben werden.

Auswertung:

Hier hat L. Kaufman bei der Erstveröffentlichung des Tests folgende Formel angegeben: Die erzielte Punktezahl eines Computers wird mit 8 multipliziert und dann zu einem Basiswert von 1800 Elo (um eine Annäherung an die SSDF Elo-Liste zu erreichen) hinzu addiert. Gleichzeitig behielt er sich eine Korrektur des Basiswerts nach Auswertung von umfangreicheren Ergebnissen vor, eine genaue Festlegung war in dieser Phase schwierig, da insbesondere im Bereich der PC-Schachprogramme aufgrund der sich hardwaremäßig starken Veränderungen immer wieder neue Rahmenbedingungen ergaben. Später wurde der Basiswert auf 1700 Elo abgesenkt. Aus den beiden genannten Basiswerten ergibt sich die logische Schlussfolgerung, dass der Test für schwächere Geräte (unter 1900 Elo) nicht anwendbar ist bzw. zu ungenau wird.



Teststellungen

Stellung 1 Weiss zieht
Lösungszug Db3



Stellung 2 Schwarz zieht
Antwort auf den Zug Db3 aus Stellung 1 ... Lc8

Weiss behält einen deutlichen Entwicklungsvorsprung


Stellung 3 Schwarz zieht
Lösungszug ... Sh6

... Sgxe5? Sxe5 Sxe5 Te1 f6 f4


Stellung 4 Weiss zieht
Lösungszug b4

startet einen Minderheitsangriff


Stellung 5 Schwarz zieht
Lösungszug ... e5


Stellung 6 Schwarz zieht
Lösungszug ... Lxc3+


Stellung 7 Schwarz zieht
Lösungszug ... Tfb8


Stellung 8 Weiss zieht
Lösungszug d5


Stellung 9 Schwarz zieht
Lösungszug ... Sd4


Stellung 10 Weiss zieht
Lösungszug a4


Stellung 11 Schwarz zieht
Lösungszug ... d5


Stellung 12 Weiss zieht
Lösungszug Lxf7


Stellung 13 Schwarz zieht
Lösungszug vermeidet ... Sxe4


Stellung 14 Schwarz zieht
Lösungszug vermeidet ... Sxc4


Stellung 15 Weiss zieht
Lösungszug exf6


Stellung 16 Schwarz zieht
Lösungszug ... d5


Stellung 17 Weiss zieht
Lösungszug vermeidet hxg4


Stellung 18 Weiss zieht
Lösungszug Lxf6


Stellung 19 Weiss zieht
Lösungszug Lxe6


Stellung 20 Weiss zieht
Lösungszug Sdb5


Stellung 21 Schwarz zieht
Lösungszug vermeidet Kxe6


Stellung 22 Weiss zieht
Lösungszug a4


Stellung 23 Weiss zieht
Lösungszug Lxh7


Stellung 24 Weiss zieht
Lösungszug Sxe5


Stellung 25 Schwarz zieht
Lösungszug vermeidet ... Dxb3





Ergebnisse und Anmerkungen


Computer Punkte Elo (USCF)
Tasc R30 2.2 63,5 2515
Mephisto Genius 68030 66,5 2535
Mephisto Berlin Pro 61,5 2495
Mephisto Vancouver 68020 60 2480
Mephisto Montreux 57 2450
Saitek Risc 2500 52 2400
Mephisto Portorose 68020 51 2390
Mephisto Lyon 68000 45,5 2335
Mephisto Risc 1MB 50 2380
Mephisto Vancouver 68000 47 2350
Mephisto Berlin 44 2320
Mephisto Almeria 68020 41 2290
Novag Sapphire 38 2260
Mephisto Portorose 68000 42 2300
Novag Diablo 41 2290
Fidelity Elite Avant Garde Version 9 34 2220
Mephisto Almeria 68000 30 2180
Fidelity Designer 2325 29 2170
Novag Zircon II 32 2200
Saitek GK 2100 30 2180
Mephisto Nigel Short 30 2180
Fidelity Mach III 19 2070
Novag Ruby 28 2160
Mephisto Roma 68000 27 2150
Mephisto Dallas 68000 25 2130
Mephisto Amsterdam 24 2120
Mephisto Academy 20 2080
Mephisto Polgar 19 2070
Mephisto Super Mondial II 19 2070
Mephisto MM V 22 2100


Die genannten Resultate basieren auf der vom Autor angegebenen Berechnungsformel Punkte x 10 + 1800 für das USCF Rating, welches ca. 200 Punkte über dem SSDF Rating angesiedelt ist. Insgesamt gesehen werden mit dem Test relativ gute Annäherungswerte an die schwedische Eloliste erzielt, insbesondere wenn man berücksichtigt, dass der Test nicht sehr zeitaufwendig ist. Wie schon in der Einleitung erwähnt, liegt ein Schwachpunkt des Tests in der Vernachlässigung der Endspielfähigkeiten der getesteten Geräte, was sich zum Beispiel deutlich in den Ergebnissen der Fidelity Geräte widerspiegelt. Die Verknüpfung mit einem Endspieltest führte hier zu einer positiven Annäherung an die schwedischen Elowerte. In einer Phase des Booms der PC-Programme mit immer schneller werdender Hardware verlor der Test an Bedeutung, meiner Meinung nach ist er nur für reine Schachcomputer und PC-Programme auf einer Hardware geeignet, die leistungsmäßig mit einer in Schachcomputern verwendeten Hardware vergleichbar ist.