← Alle Artikel
Methodik

HITL im Antragsprozess: Was die Dell'Acqua-Studie bei BCG gemessen hat

758 Consultants, präregistriertes Feldexperiment, +25,1 % Tempo und +40 % Qualität — und wo der Hebel seine Grenzen findet.

upsmart Redaktion13 min Lesezeit

Im Herbst 2023 haben Fabrizio Dell’Acqua und neun Co-Autorinnen und Co-Autoren aus Harvard, MIT, Wharton, Warwick und Boston Consulting Group eine der bis dahin methodisch sauberst gebauten Feldstudien zur Produktivitätswirkung generativer Sprachmodelle veröffentlicht. 758 BCG-Beraterinnen und -Berater, präregistriertes Zwischen-Subjekt-Design, drei Gruppen, realistische Beratungsaufgaben — und am Ende zwei Kennzahlen, die seither in nahezu jedem Vortrag zu KI im Wissensarbeits-Kontext zitiert werden: ein Tempo-Plus von 25,1 Prozent und ein Qualitäts-Plus von über 40 Prozent für Aufgaben innerhalb der sogenannten „jagged frontier"[1][2]. Für das Fördermanagement ist die Studie aus drei Gründen relevant: sie misst auf einem Aufgabenportfolio, das dem eines Antrags strukturell nahesteht; sie benennt die Grenzen des Hebels; und sie liefert ein Konzept — die jagged frontier —, das erklärt, warum derselbe Human-in-the-Loop-Ansatz bei einem Förderantrag brillante und katastrophale Ergebnisse nebeneinander produzieren kann. Dieser Beitrag ordnet Design, Ergebnisse und Grenzen der Studie ein und überträgt sie auf die Antragsarbeit.

+25,1 %
Tempo-Gewinn der AI-Gruppe gegenüber der Kontrollgruppe auf 18 realistischen Beratungsaufgaben innerhalb der jagged frontier — gemessen in einem präregistrierten Feldexperiment mit 758 BCG-Consultants.↳ Dell'Acqua et al., HBS WP 24-013 [dellacqua-hbs-2023]

Studien-Design und Setup

Das Arbeitspapier 24-013 der Harvard Business School trägt den Titel „Navigating the Jagged Technological Frontier: Field Experimental Evidence of the Effects of Artificial Intelligence on Knowledge Worker Productivity and Quality" und wurde im September 2023 veröffentlicht[1]. Die SSRN-Preprint-Fassung mit der Paper-ID 4573321 ist seit demselben Zeitraum abrufbar[2]. 2025 erschien die peer-reviewed Endfassung in Organization Science[3] — die Kernbefunde der Preprint-Fassung blieben darin bestätigt.

Das Experiment wurde präregistriert, Stichprobe und Hypothesen also vor der Datenerhebung publik festgelegt. Teilnehmerinnen und Teilnehmer waren 758 Beraterinnen und Berater der Boston Consulting Group, rekrutiert aus verschiedenen Seniorstufen und Büros. Alle absolvierten zunächst eine Baseline-Aufgabe vergleichbarer Schwierigkeit, damit individuelle Leistungsunterschiede herausgerechnet werden konnten. Anschließend wurden sie randomisiert auf drei Gruppen verteilt: erstens eine Kontrollgruppe ohne Zugriff auf generative KI; zweitens eine GPT-4-Gruppe mit Zugang zum Modell; drittens eine GPT-4-Gruppe, die zuvor eine kurze Einführung in Prompt-Engineering erhielt[1][2].

Die eigentliche Messung erfolgte an 18 realistischen Beratungsaufgaben, die das Autorenteam zusammen mit BCG entwickelt hat. Das Aufgabenportfolio deckt die Alltagsarbeit eines Consultants breit ab — Kreativität, analytisches Denken, Schreiben, Überzeugen, Kundenkommunikation. Neben den 18 Aufgaben innerhalb der vermuteten KI-Frontier nahm das Team eine 19. Aufgabe auf, die gezielt außerhalb der Frontier konstruiert war: eine quantitative Analyse, bei der GPT-4 auf plausible, aber falsche Schlussfolgerungen zusteuerte[1]. Dieser Zweischnitt — 18 Inside, 1 Outside — ist methodisch entscheidend und wird im Abschnitt zur jagged frontier noch einmal aufgegriffen.

Die Qualitätsbewertung der abgegebenen Lösungen wurde durch unabhängige Bewerter vorgenommen, blind gegenüber der Treatment-Zuordnung. Tempo wurde über die Bearbeitungsdauer pro Aufgabe erfasst, Quantität über die Zahl der pro Zeitfenster abgeschlossenen Aufgaben. Das Design erlaubt damit drei voneinander unabhängige Wirkungsschätzungen: auf Geschwindigkeit, auf Qualität und auf Durchsatz[2].

Die zwei Hebel: Tempo und Qualität

Die in Medien am häufigsten zitierten Zahlen der Studie stammen aus der Messung innerhalb der Frontier. Consultants mit Zugang zu GPT-4 bearbeiteten Aufgaben im Durchschnitt 25,1 Prozent schneller, lieferten Ergebnisse mit mehr als 40 Prozent höherer menschlicher Qualitätsbewertung und schlossen pro Zeitfenster 12,2 Prozent mehr Aufgaben ab[1][2]. Die Effektstärken waren für alle drei Hebel statistisch signifikant und in beiden KI-Gruppen messbar — mit und ohne Prompt-Engineering-Überblick.

Besonders bemerkenswert ist der Befund zur Leistungsverteilung. Die Studie zeigt, dass die Produktivitätsgewinne nicht gleichmäßig verteilt waren: Beraterinnen und Berater aus dem unteren Drittel der Baseline-Leistung profitierten relativ stärker als die aus dem oberen Drittel. Die KI wirkt damit als nivellierender Hebel, nicht als Verstärker individueller Exzellenz. Dieses Muster deckt sich mit den Befunden zweier weiterer großer Feldstudien aus derselben Epoche: Noy und Zhang haben 2023 in Science an einer Stichprobe von 444 College-gebildeten Wissensarbeitern für Schreibaufgaben eine Zeitersparnis von 0,8 Standardabweichungen und einen Qualitätsanstieg von 0,4 Standardabweichungen gemessen, wobei schwächere Schreiber überproportional profitierten[4]. Brynjolfsson, Li und Raymond berichten für 5 179 Call-Center-Agenten einen durchschnittlichen Produktivitätsgewinn von 14 Prozent, der sich aus 34 Prozent bei Neulingen und praktisch keinem Effekt bei erfahrenen Kräften zusammensetzt[5].

Die Parallele zu Peng et al. mit GitHub Copilot — wo ein kontrolliertes Experiment mit professionellen Entwicklerinnen und Entwicklern eine Tempo-Verbesserung um 55,8 Prozent für eine definierte Programmieraufgabe ergab — rundet das Bild ab[6]. Die Größenordnungen variieren nach Aufgabentyp, Branche und Modellgeneration; die Richtung ist über die Studien hinweg robust. Entscheidend für die folgende Überlegung ist jedoch nicht, ob ein Hebel existiert — sondern wie weit er trägt und wo er endet.

Das Jagged-Frontier-Konzept

Die zentrale begriffliche Leistung des Papiers ist weder die Zahl 25,1 noch die Zahl 40. Es ist das Konzept der jagged frontier — der gezackten, unregelmäßig verlaufenden Grenze zwischen Aufgaben, bei denen ein großes Sprachmodell zuverlässig und mit hoher Qualität hilft, und Aufgaben, bei denen es plausibel klingende, aber falsche Ergebnisse produziert[1]. Die Grenze verläuft nicht parallel zu einer intuitiven Schwierigkeitsachse. Zwei Aufgaben können für einen menschlichen Bearbeiter gleich schwer wirken — und doch liegt die eine innerhalb der KI-Fähigkeit, die andere außerhalb. Dell’Acqua et al. zeigen das empirisch.

Für die 18 Aufgaben innerhalb der Frontier ergab die KI-Gruppe im Mittel die oben zitierten Gewinne. Für die eine Aufgabe außerhalb — eine quantitative Analyse mit irreführenden Zahlen in der Aufgabenstellung — war die KI-Gruppe hingegen 19 Prozentpunkte seltener in der Lage, die richtige Antwort zu geben, als die Kontrollgruppe. Die KI hat hier ihre Bearbeiter nicht nur nicht geholfen, sondern systematisch in die falsche Richtung gezogen[1][2]. Das Muster widerlegt die Annahme, dass menschliche Aufsicht im Zweifel schon korrigieren werde: die Bearbeiter haben die KI-Ausgabe überwiegend übernommen, weil sie auf den ersten Blick schlüssig wirkte.

Die Praxisfolgerung ist ernüchternd. Wer Human-in-the-Loop-Verfahren entwirft, kann sich nicht auf eine pauschale Produktivitätsformel verlassen. Er muss für das konkrete Aufgabenfeld prüfen, welche Teilaufgaben innerhalb, welche außerhalb der Frontier liegen, und die Rollenverteilung zwischen Mensch und Modell danach differenzieren. Der OECD-Papierband zu den Effekten generativer KI auf Produktivität von Juni 2025 fasst diesen Punkt knapp zusammen: die Wirkung hängt von Aufgabentyp und Erfahrung ab, und die Qualität der Mensch-KI-Kollaboration ist der entscheidende Parameter[8].

Grenzen der Studie

Auch die sauberste Feldstudie hat Grenzen, und Dell’Acqua et al. benennen mehrere davon selbst. Erstens ist die Stichprobe homogen: 758 Beraterinnen und Berater desselben Unternehmens, mit vergleichbarer Ausbildung und einer einheitlichen Arbeitskultur. Ergebnisse lassen sich nicht automatisch auf Wissensarbeit in Förderantragsabteilungen, Forschungskoordination oder Verwaltung übertragen.

Zweitens wurde eine einzige Modellgeneration getestet — GPT-4 in der Version des Sommers 2023. Sowohl die Leistungsfähigkeit der Modelle als auch die Art der Fehler hat sich seither weiterentwickelt; die genaue Form der Frontier ist modellabhängig und verschiebt sich mit jeder Generation.

Drittens sind die Aufgaben kurz, in sich abgeschlossen und ohne längeren Kontext. Ein Förderantrag ist das Gegenteil: mehrmonatiges Artefakt, mehrere Dutzend miteinander verwobene Teilbausteine, mehrere Primärquellenebenen, formale Fristen. Studien zu solchen langen, institutionell eingebetteten Aufgaben fehlen bislang — die OECD verweist ausdrücklich darauf, dass der Großteil der experimentellen Evidenz aus kurzen, isolierten Aufgaben stammt[8].

Viertens misst die Studie Effekte auf individueller Ebene. Acemoglu argumentiert in seiner makroökonomischen Einordnung, dass aus mikroökonomischen Produktivitätsgewinnen in der Größenordnung von 25 oder 40 Prozent pro Aufgabe keineswegs ein gleich großer gesamtwirtschaftlicher Effekt folgt. Sein task-basierter Rahmen schätzt den Beitrag generativer KI zur Total Factor Productivity über zehn Jahre auf maximal 0,66 Prozent — weil nur ein Teil der Tätigkeiten exposed ist und die Einsparungen pro Tätigkeit in der Aggregation stark verdünnt werden[7]. Die Aussage der Dell’Acqua-Studie ist damit nicht widerlegt, aber in ihrer Reichweite präzisiert: 25 und 40 Prozent auf einer Einzelaufgabe sind real, sie übersetzen sich aber nicht eins zu eins in Organisationsproduktivität.

Fünftens, und für den Förderantrag am relevantesten: die Studie misst keine Reuse-Effekte. Jede Aufgabe wurde einmalig bearbeitet; Bausteine wurden nicht über Anträge hinweg wiederverwendet; Institutionen bildeten keinen Erfahrungsspeicher aus. Damit lässt die Studie einen zweiten Hebel — den des mehrfach verwendeten Bausteins — strukturell unbemessen.

Übertragbarkeit auf den Förderantrag

Die Aufgabenliste eines Consultants und die eines Antragstellers überlappen sich an mehreren Stellen. Beide schreiben strukturierte Dokumente mit formalen Anforderungen an Gliederung, Ton und Argumentationsstärke. Beide stützen sich auf heterogene Primärquellen — Marktdaten, Studien, Gesetzestexte, technische Spezifikationen — und müssen daraus eine konsistente Erzählung bauen. Beide arbeiten unter Zeitdruck gegen einen externen Adressaten mit eigenen Prüfkriterien. Die auf der 18-Aufgaben-Batterie von Dell’Acqua et al. gemessenen Gewinne dürften an vielen Stellen des Antrags prinzipiell reproduzierbar sein[1].

Gleichzeitig ist ein Förderantrag in mindestens drei Dimensionen anders als eine BCG-Aufgabe. Erstens die Prüfungslogik: Programme wie das Zentrale Innovationsprogramm Mittelstand oder die Forschungszulage operieren mit Kriterien, die an das Frascati-Handbuch der OECD anschließen — Neuheit, Unsicherheit, systematisches Vorgehen, Übertragbarkeit, Kreativität[9]. Diese Kriterien sind nicht literarisch, sondern sachverhaltsgebunden. Ein Sprachmodell, das im Antragstext „hinreichende Unsicherheit" formuliert, sagt noch nichts darüber aus, ob die Unsicherheit im Vorhaben tatsächlich besteht. Genau hier liegt eine typische Outside-Frontier-Zone: der Text klingt schlüssig, der Sachverhalt ist es nicht.

Zweitens die rechtliche Schutzlage der verarbeiteten Daten. Antragsrelevante Unterlagen enthalten regelmäßig Mandantengeheimnisse, Personaldaten, technische Interna. § 203 StGB sanktioniert die Offenbarung solcher Geheimnisse durch Angehörige bestimmter Berufsgruppen und sorgt im Umfeld berufsrechtlicher Schweigepflichten für harte Grenzen an der Schnittstelle zwischen Bearbeitung und Modell[10]. Welche Daten ein Sprachmodell sehen darf, ist damit keine reine Produktivitätsfrage, sondern eine Compliance-Frage. Im Förderkontext ist der zugehörige Detailpfad — welche Dokumente mit welchem Modell auf welcher Infrastruktur verarbeitet werden dürfen — in einem eigenen Beitrag abgehandelt und dort mit den Primärquellen verknüpft (siehe „ChatGPT und § 203 StGB im Förderantrag").

Drittens die Lebensdauer des Artefakts. Ein Antrag wird nicht einmal eingereicht, sondern durchläuft Vorgespräche, Zwischenstände, Nachforderungen, Bewilligungsbescheid, Zwischenverwendungsnachweise, Schlussverwendungsnachweis. In jedem dieser Schritte werden Textbausteine aus dem Antrag erneut gebraucht — leicht variiert, in anderem Kontext, für andere Adressaten. Das ist der Reuse-Hebel, den die Dell’Acqua-Studie nicht misst und der, plattformseitig sauber implementiert, in der Praxis größere Effekte erzeugt als der Einmal-Tempo-Gewinn auf einer isolierten Aufgabe.

Die zweite Größenordnung, in der sich Förderanträge von BCG-Aufgaben unterscheiden, ist die 20/80-Asymmetrie zwischen generischen und kundenspezifischen Inhalten. In einem typischen Antrag ist ein erheblicher Anteil des Textes — Programmbeschreibung, rechtliche Rahmenbedingungen, Formfelder, Gliederungsvorgaben — über Antragstellende hinweg identisch oder nahezu identisch. Der spezifische Anteil — das Vorhaben, die Mitarbeiterinnen und Mitarbeiter, die Zahlen — ist klein, aber prüfungsrelevant. Der Human-in-the-Loop-Hebel wirkt vor allem auf den generischen Anteil; der spezifische Anteil bleibt menschengeprüft. Wir behandeln diese Asymmetrie in einem eigenen Beitrag als Gestaltungsprinzip für Antragsarchitekturen.

Was der HITL-Hebel nicht ersetzt

Die Dell’Acqua-Studie zeigt, was ein gut instrumentierter Human-in-the-Loop-Ansatz leisten kann, und ebenso präzise, was er nicht leistet. Er ersetzt weder die fachliche Prüfung der Sachverhalte noch die Einordnung in das rechtlich-institutionelle Gefüge des jeweiligen Förderprogramms. In jedem Punkt, an dem die Aufgabe die jagged frontier überschreitet, kippt der Hebel — aus Beschleuniger wird Risikoverstärker[1].

Für das Fördermanagement folgt daraus ein Satz praktischer Konsequenzen. Erstens: die Mensch-Modell-Rollen müssen entlang der Frontier differenziert werden. Standardbausteine, Textstrukturierung, Glättung, Ableitung aus bestehenden Primärquellen — innerhalb der Frontier, hier wirkt der Hebel. Sachverhaltsfeststellung, Einordnung unbelegter Primärquellen, Risikoprüfung, Abstimmung mit Fördergeber und Finanzamt — außerhalb der Frontier, hier bleibt die menschliche Instanz verantwortlich. Zweitens: die zentrale Datengrundlage muss aus geprüften Primärquellen bestehen, nicht aus frei generiertem Text. Die OECD weist ausdrücklich darauf hin, dass Qualitätszuwachs bei generativer KI vor allem dort entsteht, wo die menschliche Seite gute Vorlagen und gute Aufsicht einbringt[8]. Drittens: jede Bearbeitungsspur muss auditierbar bleiben — Welche Version, welcher Baustein, welche Quelle, welcher Bearbeiter.

upsmart ist keine Beratung, die Anträge für Kundinnen und Kunden schreibt. upsmart ist die Plattform, auf der das Fördermanagement eines Unternehmens stattfindet: versionierte Bausteine, verknüpfte Primärquellen, geprüfte Zuordnung zwischen Vorhaben, Anträgen, Verwendungsnachweisen. Die Hebel aus der Dell’Acqua-Studie sind in der Plattform an den Stellen wirksam, an denen die Frontier dies zulässt — und die Plattform macht zugleich sichtbar, wo die Frontier überschritten wird und menschliche Prüfung notwendig bleibt. Die 25,1 Prozent Tempo und 40 Prozent Qualität sind kein Freifahrtschein; sie sind eine empirisch belegte Obergrenze für das Inside-Frontier-Feld, die nur dann realisiert wird, wenn die Grenze präzise gezogen ist.

Die eigentliche Aufgabe besteht damit nicht darin, mehr KI in die Antragsarbeit einzuleiten, sondern darin, die Grenze zwischen Inside und Outside für jede einzelne Teilaufgabe zu kennen und die Bearbeitungsrolle entsprechend zuzuschneiden. Die Dell’Acqua-Studie liefert das Vokabular dafür. Die Förderpraxis liefert die Detailtopologie. Zwischen beiden entsteht der Raum, in dem eine Plattform wie upsmart den Unterschied macht.

Primärquellen
  1. [1]
    Dell'Acqua, F., McFowland III, E., Mollick, E. R., Lifshitz-Assaf, H., Kellogg, K., Rajendran, S., Krayer, L., Candelon, F., Lakhani, K. R. — Navigating the Jagged Technological Frontier: Field Experimental Evidence of the Effects of Artificial Intelligence on Knowledge Worker Productivity and Quality. Harvard Business School Working Paper 24-013, September 2023.
    Harvard Business School, Faculty & Research · 2023
    Quelle öffnen
  2. [2]
    Dell'Acqua et al. — Navigating the Jagged Technological Frontier (HBS Working Paper 24-013, direkte PDF-Fassung).
    Harvard Business School, Publication Files · 2023
    Quelle öffnen
  3. [3]
    Dell'Acqua et al. — Navigating the Jagged Technological Frontier. Preprint-Fassung, SSRN Paper ID 4573321.
    Social Science Research Network (SSRN) · 2023
    Quelle öffnen
  4. [4]
    Dell'Acqua et al. — Navigating the Jagged Technological Frontier. Organization Science, peer-reviewed veröffentlichte Fassung.
    INFORMS — Organization Science · 2025
    Quelle öffnen
  5. [5]
    Noy, S. & Zhang, W. — Experimental evidence on the productivity effects of generative artificial intelligence. Science, Vol. 381, S. 187–192, 14. Juli 2023. DOI 10.1126/science.adh2586.
    American Association for the Advancement of Science (AAAS), Science · 2023
    Quelle öffnen
  6. [6]
    Brynjolfsson, E., Li, D., Raymond, L. — Generative AI at Work. NBER Working Paper 31161, April 2023 (erweitert 2024/2025 in The Quarterly Journal of Economics).
    National Bureau of Economic Research (NBER) · 2023
    Quelle öffnen
  7. [7]
    Peng, S., Kalliamvakou, E., Cihon, P., Demirer, M. — The Impact of AI on Developer Productivity: Evidence from GitHub Copilot. arXiv:2302.06590, Februar 2023.
    arXiv / Microsoft Research · 2023
    Quelle öffnen
  8. [8]
    Acemoglu, D. — The Simple Macroeconomics of AI. NBER Working Paper 32487, Mai 2024 (publiziert 2025 in Economic Policy, Vol. 40).
    National Bureau of Economic Research (NBER) · 2024
    Quelle öffnen
  9. [9]
    OECD — The effects of generative AI on productivity, innovation and entrepreneurship. OECD Science, Technology and Industry Policy Paper, Juni 2025. DOI 10.1787/b21df222-en.
    Organisation for Economic Co-operation and Development (OECD) · 2025
    Quelle öffnen
  10. [10]
    OECD — Frascati Manual 2015: Guidelines for Collecting and Reporting Data on Research and Experimental Development. Chapter 2: Concepts and definitions for identifying R&D.
    OECD Publishing, Paris · 2015
    Quelle öffnen
  11. [11]
    § 203 Strafgesetzbuch (StGB) — Verletzung von Privatgeheimnissen.
    Bundesministerium der Justiz, gesetze-im-internet.de · 2025
    Quelle öffnen

Von der Analyse in den Antrag.

Wir zeigen die Plattform am konkreten Fall.

Kostenloses Erstgespräch buchen
“The final layer of corporate funding.”
Frankfurt · DSGVO · keine US-Clouds.