Heute Morgen überholte Anthropic offiziell OpenAI, gab seine neue Bewertung bekannt und veröffentlichte Claude Opus 4.8, die neueste Version seiner Flaggschiff-Produktlinie, über die bereits seit zwei Tagen gemunkelt wurde.
Heute Morgen überholte Anthropic offiziell OpenAI, gab seine neue Bewertung bekannt und veröffentlichte Claude Opus 4.8, die neueste Version seiner Flaggschiff-Produktlinie, über die bereits seit zwei Tagen gemunkelt wurde. Wir konnten sie sofort testen und sammelten erstes Feedback aus der Nutzergemeinschaft. Das Fazit: Sie ist leistungsfähiger, aber ihre „Persönlichkeit“ ist schwieriger zu handhaben. APPSO-Test: Das Gehirn wurde verbessert, aber der Mund fehlt. Wir verwendeten nicht die von Anthropic bereitgestellten Benchmark-Szenarien, sondern testeten sie anhand unserer eigenen realen Anforderungen: dem Extrahieren und Archivieren der kompletten Gesprächsverläufe einer Online-Kollaborationsplattform. Die Datenmenge betrug über 30 MB und war über die gesamte Benutzeroberfläche verteilt, ohne dass eine Exportfunktion direkt verfügbar war. Diese Aufgabe testet nicht, ob das Modell programmieren kann, sondern ob es mit einem Laien zusammenarbeiten kann, um die Aufgabe von Grund auf zu lösen. Der Anfang war eine zufällige Entdeckung. Unsere Testkollegen stellten fest, dass die Benutzeroberfläche der Plattform zeitweise ältere Datensätze anzeigte, als ob Daten kurzzeitig auf den Client geladen und dann wieder gelöscht würden. Er gab diese Beobachtung ohne technische Beschreibung an das Team 4.8 weiter und erklärte lediglich: „Ich sah einige alte Nachrichten kurz aufblitzen und dann wieder verschwinden.“
4.8 Ich habe seine Aussage verstanden und richtig geurteilt: Die Daten werden über eine Schnittstellenanfrage geladen und können auf der Netzwerkschicht des Browsers abgefangen werden. Daraufhin habe ich einen Handlungsplan erstellt und die einzelnen Schritte erläutert: Entwicklertools, Netzwerk-Panel, Keyword-Filterung und Lokalisierung der Zielanfrage. Das Urteil war korrekt und die Argumentation klar. Doch hier liegt der Widerspruch in 4.8: Die Denkfähigkeit ist stark, aber die Ausdrucksweise... umständlich. Jede technische Lösung ist korrekt, aber die Erklärung für jeden Schritt benötigt zwei oder drei Sätze. Fragt man nach einer Methode, erhält man zunächst ein „Natürlich! Gehen wir es Schritt für Schritt durch“, dann folgt eine Stichpunktliste und schließlich eine „zusätzliche Erklärung“ am Ende, die erläutert, warum es so gemacht werden sollte. Was in drei Sätzen erklärt werden könnte, füllt drei Bildschirmseiten. Ich kann einfach nicht programmieren, es ist nicht so, als ob mein Gehirn außer Kontrolle geraten wäre.
Dies ist kein neues Problem in Version 4.8; es handelt sich um ein altbekanntes Problem der Opus-Serie seit Version 4.7. Trotz wiederholter Kritik hat sich die Situation in dieser Version nicht verbessert, sondern ist möglicherweise sogar verschlechtert. Am zeitaufwendigsten ist die Fehlerkorrektur: Nach dem ersten Lösungsversuch stieß ein Benutzer auf einen Fehler. Version 4.8 identifizierte das Problem präzise, bot eine neue Lösung an und wiederholte die fehlgeschlagenen Schritte nicht. Das ist deutlich besser als in Version 4.6, wo Fehler gelegentlich die bereits versuchten Schritte während mehrerer Korrekturrunden vergaßen. Fehler einzugestehen ist gut, aber man muss nicht zu streng sein. Die Analyse der Ursachen und eine Stichpunktliste lassen die Nachricht wie eine Kundendienst-E-Mail wirken, obwohl es sich um eine technische Problembeschreibung handeln soll.
Letztendlich wurden die Daten vollständig im HAR-Format exportiert, und die Bereinigung und das Layering mithilfe benutzerdefinierter Skripte wurden erfolgreich abgeschlossen. Einige Nutzer haben das Claude Code-Update noch nicht erhalten, aber Claude für Chrome ist bereits in Version 4.8 verfügbar und wurde auch für gängige Office-Anwendungen wie Notion eingeführt. Wir haben Claude für grundlegende Aufgaben wie die Suche und das Ausfüllen von Formularen in Chrome getestet.