KI-Chatbots wie Perplexity, Copilot und Co. nehmen immer mehr Platz im Alltag der Menschen ein – als Ratgeber, Suchmaschine und digitale Hilfe. Doch wie verlässlich sind ihre Antworten wirklich? Im Test hat eine britischen Verbraucherorganisation die besten Chatbots in einem Vergleich unter die Lupe genommen.
Seit der Einführung von ChatGPT im Jahr 2022 haben sich KI-Chatbots rasant im Alltag vieler Menschen etabliert. Allein im September 2025 zählte der Chatbot aus dem Hause OpenAI 5,9 Milliarden Visits, im Jahr zuvor waren es noch 3,1 Milliarden.
Ob für Recherche, Kaufberatung, Gesundheitsfragen oder berufliche Aufgaben – die Nutzungszahlen von KI-Chatbots wie ChatGPT steigen rasant an. Vor allem die niedrigen Zugangshürden, Antworten in natürlicher Sprache sowie die schnelle und verständliche Beantwortung von komplexe Fragen tragen zum Erfolg dieser großen Sprachmodelle bei.
Dabei sind sie außerdem rund um die Uhr erreichbar und scheinen in ihrem Antworten kompetent. Doch wie verlässlich sind ChatGPT, Gemini und Co. wirklich? Die britische Verbraucherorganisation Which? hat den Test gemacht und sechs KI-Tools unter die Lupe genommen.
KI: Die besten Chatbots im Vergleich
Für die Untersuchung hat die Verbraucherorganisation Which? die sechs gängigsten Chatbots getestet. Dazu zählten ChatGPT, Google Gemini – hier sowohl Gemini als auch Gemini AI Overviews aus der Standard-Google-Suche – Microsoft Copilot, Meta AI und Perplexity.
Alle Chatbots mussten 40 häufig gestellte Fragen beantworten. Diese umfassten die Themengebiete Geld, Recht, Gesundheit und Ernährung sowie Verbraucherrechte und Reisen. Dabei enthielten einige Fragen absichtlich Fehlinformationen, um die Chatbots zu prüfen. Im Anschluss haben Experten von Which? die gegebenen Antworten unter anderem hinsichtlich Genauigkeit, Nützlichkeit und ethischer Verantwortung bewertet.
Dabei konnten sie feststellen, dass die KI-Chatbots oft Fehler machen, Informationen falsch interpretieren und sogar riskante Ratschläge geben. Viele Ungenauigkeiten und irreführende Aussagen hätten sich durch die Antworten gezogen.
Platz 5: Meta AI
Den letzten Platz im Ranking der besten Chatbots belegt Meta AI mit insgesamt nur 55 Prozent. Der Chatbot korrigierte zwar den ISA-Freibetrag, konnte die Experten von Wich? aber sonst nicht überzeugen. Allein bei der Genauigkeit der Antworten kommt der Chatbot aus dem Hause Meta nur auf einen Wert von 54 Prozent. Bei der Nützlichkeit sind es sogar nur 51 Prozent.
Platz 4: ChatGPT
ChatGPT konnte die Frage zu den Anlagetipps zwar beantworten, korrigierte den fälschlich erwähnten Freibetrag jedoch nicht. Insgesamt landet der bei Nutzern beliebte Chatbot aus dem Hause OpenAI jedoch nur auf Platz fünf mit einem Gesamtergebnis von 64 Prozent.
Auch bei einer Frage zur Beantragung einer Steuerrückerstattung vom Finanzamt lag ChatGPT mit seiner Antwort reichlich daneben. Denn der Chatbot verlinkte – ebenso wie auch Perplexity – auf kostenpflichtige Steuerrückerstattungsanbieter, die dafür bekannt sind, hohe Gebühren zu verlangen und unberechtigte Zusatzkosten zu erheben.
Platz 3: Microsoft Copilot
Der KI-Chatbot Kopilot aus dem Hause Microsoft liegt mit 68 Prozent insgesamt nur knapp auf Rang vier. Das Sprachmodell kann mit 71 Prozent in Sachen Relevanz glänzen, könnte allerdings bei der ethischen Verantwortung mit nur 62 Prozent nachbessern.
Bei einer Frage zum ISA-Freibetrag, einer steuerlich bevorzugten Anlageform in Großbritannien, bauten die Experten von Wich? absichtlich einen Fehler ein. Sie fragten nach Anlagetipps für den Freibetrag in Höhe von 25.000 Pfund. Copilot gab hierfür nun die verlangten Anlagetipps aus, erkannte jedoch nicht, dass der Freibetrag bei 20.000 Pfund liegt. Für Nutzer könnte das einen eklatanten Verstoß gegen die Regelungen der Britischen Steuer- und Zollbehörde bedeuten.
Platz 2: Google Gemini
Google kann sich mit seinem Chatbot Gemini und den Gemini AI Overviews (Gemini AIO) aus der Standard-Google-Suche die restlichen Plätze auf dem Treppchen sichern. Im direkten Vergleich der Antworten beider Versionen seien die Unterschiede in Genauigkeit und Qualität der Informationen teilweise frappierend gewesen.
Gemini AIO hat dabei jedoch nur bei 28 der 40 Fragen Antworten angezeigt, da dieses Feature nicht immer verfügbar ist. Die Punktzahl wurde proportional angepasst, damit sie vergleichbar ist.
Insgesamt konnte Gemini AIO mit 70 Prozent etwas besser abschneiden als Gemini selbst mit 69 Prozent. Vor allem bei Fragen zu den Themen Recht sowie Gesundheit und Ernährung konnte der Chatbot punkten. Gemini selbst hingegen beantwortete Fragen zu Finanzen sowie Verbraucherrechten und Reisen besser.
Platz 1: Perplexity
Die Antworten der Chatbots wurden hinsichtlich der Kategorien Genauigkeit, Relevanz, Klarheit/Kontext, Nützlichkeit sowie ethische Verantwortung bewertet. Dabei konnte sich Perplexity mit einem Gesamtergebnis von 71 Prozent an der Spitze durchsetzen.
Insbesondere in den Bereichen Relevanz sowie Klarheit/Kontext konnte der Chatbot mit 73 Prozent überzeugen. Bei der ethischen Verantwortung besteht mit 66 Prozent hingegen noch Verbesserungsbedarf.
Auch interessant:




