Microsoft hat ein umfangreiches Upgrade für den Researcher-Agenten in Microsoft 365 Copilot vorgestellt und bringt damit einen Multi-Model-Ansatz direkt in reale Arbeitsszenarien. Statt auf ein einzelnes Modell zu setzen, arbeiten nun mehrere Modelle zusammen und übernehmen jeweils klar definierte Rollen im Workflow.
Das Wichtigsten im Überblick:
- Critique: Eine neue Ebene auf Basis von Anthropics Claude überprüft Antworten, die von OpenAIs GPT erstellt wurden, um die Qualität der Ergebnisse zu verbessern, bevor sie ausgegeben werden.
- Model Council: Ermöglicht den direkten Vergleich von Antworten verschiedener Modelle nebeneinander
Microsoft stellt Copilot Cowork im Frontier-Programm zur Verfügung. Damit lassen sich langlaufende, mehrstufige Arbeitsprozesse innerhalb von Microsoft 365 Copilot umsetzen.
Diese Entwicklungen sind ein frühes, aber wichtiges Beispiel für den Wandel hin zu Multi-Modell-Systemen in der unternehmensweiten KI. Die Ergebnisse sind messbar: Researcher mit Critique führt alle bewerteten Deep-Research-Systeme im branchenüblichen DRACO-Benchmark an und übertrifft Single-Model-Ansätze deutlich.

DRACO-Benchmark (Deep Research Accuracy, Completeness and Objectivity): Auswertung von 100 komplexen Rechercheaufgaben in 10 Domänen. Alle Ergebnisse basieren auf der Originalstudie [Zhong et al., arXiv:2602.11685 (Februar 2026)] – mit Ausnahme von Researcher mit Critique. Dieser verbessert den aggregierten Gesamtscore um +7,0 Punkte (SEM ±1,90) und übertrifft damit Perplexity Deep Research (Claude Opus 4.6), das bestplatzierte System der Studie, um +13,88 %.
Lesen Sie den vollständigen englischen Originalartikel hier: Introducing multi-model intelligence in Researcher