Operationele notities
Human-in-the-loop workflows: het deel dat iedereen overslaat
De pitch voor AI-ondersteunde workflows is meestal een versie van "haal de mens uit de loop." De versie die daadwerkelijk in productie standhoudt zet bijna altijd een mens er weer in - op precies één stap, met een specifieke taak, met een specifieke UI.
Wanneer de menselijke stap mist, krijg je de failure modes uit het vorige artikel. Wanneer hij er is maar slecht ontworpen, krijg je een ander probleem: een workflow die technisch gezien draait, technisch AI gebruikt, technisch tijd bespaart - maar bottlenecked op iemand die zevenenveertig cases per dag reviewt in een UI die nooit voor review-werk ontworpen was.
Dus: waar hoort de menselijke stap, en hoe bouw je hem zodat hij een checkpoint blijft in plaats van een bottleneck?
Waar de menselijke stap hoort
Drie heuristieken die standhielden over elke operationele workflow die ik geshipt heb:
1. Voeg de mens in waar beslissingen onomkeerbaar zijn
Alles wat geld, klantgerichte communicatie, contracten, identiteit of iets dat moeilijk ongedaan te maken is, raakt. Een retour. Een factuur. Een mail naar een klant. Een wijziging in een CRM-record die routing beïnvloedt.
De kosten van een mens die er tien seconden naar kijkt zijn veel lager dan de kosten van een onomkeerbare AI-fout op schaal. Zelfs bij hoog volume hanteert een confidence-gated menselijke review de long tail zonder in het midden van elke transactie te zitten.
2. Voeg de mens in waar confidence laag is
Het model retourneert een confidence score. (Als het dat niet inherent doet, kun je er één afleiden - output-stabiliteit onder temperatuur, log-waarschijnlijkheid van de gekozen klasse, consistentie over twee passes.) Onder een drempel, route naar een mens. Erboven, ship.
Dit is het verschil tussen een workflow waar de mens alles reviewt (langzaam) en een waar de mens de 5–15% reviewt waar het model niet zeker over is (beheersbaar). Het geeft de mens ook iets daadwerkelijk nuttigs te doen - ze stempelen geen makkelijke cases af, ze werken op de edge cases waar hun oordeel daadwerkelijk telt.
3. Voeg de mens in waar de data nieuw is
Wanneer de workflow input tegenkomt die op niets eerder gezien lijkt - out-of-distribution detectie - pauzeer en vraag. Nieuw klantsegment, nieuwe portaal-bron, nieuwe productlijn. Alles waar de trainingsdata geen analoog voor heeft.
Deze is moeilijker automatisch te detecteren maar de moeite van instrumenteren waard. Zelfs een simpele embedding-distance check tegen je trainingsset vangt de duidelijke nieuwheid-cases.
Hoe de review-UI te ontwerpen
Hier vallen de meeste workflows omver. Het model doet goed werk. De menselijke review-stap is technisch aanwezig. Maar de UI is gewoon een database-admin-paneel met een "approve" en "reject" knop, en één case reviewen kost drie minuten.
Een nuttige review-UI doet vier dingen:
Hij laat de redenering van het model zien, niet alleen de output. Als het model een lead classificeerde als "hot", laat zien op welke signalen specifiek werd opgepikt - de woorden in de inquiry, de bron-attributie, de historische pattern-match. De mens is sneller in eens of oneens zijn met redenering dan in het opnieuw afleiden van de classificatie vanaf nul.
Hij laat de mens gedeeltelijk overrulen, niet alleen accepteren of afwijzen. Misschien klopt de classificatie maar klopt de prioriteitstier niet. Misschien klopt het geëxtraheerde telefoonnummer maar klopt het landnummer niet. Granulaire overrides laten de mens hun oordeel bijdragen zonder de hele taak opnieuw te doen.
Hij leert van overrides. Elke override moet gelogd worden met genoeg structuur om een trainings-signaal te zijn - zelfs als je het model niet hertraint, kalibreer je de confidence-drempel, verfijn je de prompt of voer je het in een eval-set.
Hij batcht vergelijkbare cases. Twaalf "is deze lead hot?" cases achter elkaar reviewen is sneller dan afwisselen tussen ongerelateerde workflows. Groepeer op classificatie-type, op bron, op ambiguiteits-patroon. De mentale context-switch kost van de mens is reëel.
De bottleneck-vraag
Het bezwaar is altijd: "Maar mensen schalen niet." Klopt. Dat hoeft ook niet.
De rekensom: als het model 90% met hoge confidence afhandelt en de mens 10% in een fatsoenlijk ontworpen UI, heb je wat ooit 100 handmatige cases per dag was teruggebracht naar 10. Een 90% reductie is genoeg. Verder duwen - richting volledig onbeheerde automatisering - is meestal waar de workflow uit elkaar valt en je de kosten eet van elke stille failure.
De workflow die in productie standhoudt is niet de volledig geautomatiseerde. Het is die waar het model en de mens elk de taak doen waar ze het beste in zijn: het model handelt pattern-matching op volume af, de mens handelt edge cases op diepte af.
Wanneer de menselijke stap jij moet zijn, niet een junior
Voor sommige beslissingen is de juiste reviewer geen generieke ops-persoon. Het is de oprichter, of de senior operator, of ik. Prijs-uitzonderingen. Strategische communicatie. Alles waar de kosten van een fout antwoord aanzienlijk hoger zijn dan de tijdskosten van iemand senior erbij halen.
De fout is proberen deze beslissingen goedkoop te maken. Dat zouden ze niet moeten zijn. Ze zouden zeldzaam, gebatcht en gerouteerd naar de juiste persoon moeten zijn. Workflow goed gedaan maakt ze zeldzaam. Workflow slecht gedaan maakt ze frequent.
Hoe dit er in de praktijk uitziet
De meeste workflow-projecten die ik aanneem omvatten minstens één ronde van het invoegen of repareren van de menselijke stap. Veelvoorkomende patronen:
- Een "human review queue" UI toevoegen bovenop een bestaande classifier, met batching en granulaire overrides.
- Confidence-scoring toevoegen aan een bestaande model-output en een routing-regel daar bovenop.
- Een "volledig geautomatiseerde" workflow vervangen die maanden stilletjes verkeerd classificeerde door een 90% / 10% split.
- De data-pijplijn bouwen die menselijke overrides omzet in nuttige telemetrie.
Niets ervan is opwindend. Niets ervan verschijnt in een AI-aankondiging. Alles ervan is het verschil tussen een workflow die een jaar draait en een die elk kwartaal vervangen moet worden.
De zin "human-in-the-loop" doet veel ongespecificeerd werk in de meeste pitches. De interessante vraag is altijd welke loop, welke mens, welke stap, en hoe ziet hun UI eruit. Daar gebeurt het operationele ontwerp.
Meer notities uit de praktijk
Neem contact op
Heb je een workflow die langer moet meegaan dan een kwartaal?
Stuur me een korte notitie over wat je probeert te bouwen en waar het blijft breken. Ik antwoord binnen een werkdag.
Het meeste begint met een korte mail - info@pawon.nl.