Opdagelse af GPT-4 Fejl med CriticGPT

OpenAI har udviklet en innovativ model kaldet CriticGPT, som hjælper med at opdage fejl i GPT-4’s kodeoutput. Artiklen udforsker, hvordan CriticGPT forbedrer præcisionen ved at assistere trænere i deres arbejde med Reinforcement Learning from Human Feedback (RLHF).

Forbedret Kodegennemgang

CriticGPT blev trænet til at opdage fejl i ChatGPT’s kodeoutput. Resultater viser, at brugere assisteret af CriticGPT klarer sig 60% bedre end dem uden hjælp. CriticGPT hjælper med at identificere subtile fejl, som ellers kan være svære at opdage.

Apple iPhone

Apple iPads

Apple Macbook

Apple AirPods

Apple Watch

Integrering i RLHF-Labeling

OpenAI arbejder på at integrere CriticGPT-lignende modeller i deres RLHF-labeling pipeline. Dette vil give trænere eksplicit AI-assistance, hvilket er et skridt mod at evaluere avancerede AI-systemer.

Detaljeret Analyse

GPT-4 modellerne, som driver ChatGPT, er designet til at være hjælpsomme gennem RLHF. En central del af RLHF er at samle sammenligninger, hvor AI-trænere vurderer forskellige ChatGPT-svar mod hinanden. Med fremskridt i modeladfærd bliver ChatGPT mere præcis, og fejlene mere subtile. Dette gør det vanskeligere for trænere at opdage unøjagtigheder, hvilket komplicerer RLHF-processen.

Træning af CriticGPT

CriticGPT blev trænet ved hjælp af RLHF, hvor AI-trænere manuelt indsatte fejl i kode skrevet af ChatGPT og derefter skrev feedback, som om de havde opdaget fejlen. CriticGPT skulle derefter identificere disse fejl og andre naturligt forekommende fejl. CriticGPT’s kritikker foretrækkes af trænere i 63% af tilfældene, da den producerer færre småklager og hallucinerede problemer.

Metoder og Resultater

CriticGPT blev også trænet til at generere længere og mere omfattende kritikker ved hjælp af en søgeprocedure, der balancerer aggressiviteten i fejlfindingen. Dette har vist sig at være effektivt i at producere hjælpsomme kritikker til RLHF.

Begrænsninger

CriticGPT er trænet på kortere svar og har begrænsninger i håndteringen af komplekse opgaver. Modeller hallucinerer stadig, og trænere kan lave fejl baseret på disse hallucinationer. Fremtidige fejl kan være spredt over mange dele af et svar, hvilket kræver mere sofistikerede metoder.

Fremtidige Udsigter

For at tilpasse AI-systemer, der bliver stadig mere komplekse, har vi brug for bedre værktøjer. Forskningen viser, at anvendelsen af RLHF på GPT-4 har potentiale til at hjælpe mennesker med at producere bedre RLHF-data for GPT-4. Planen er at udvide dette arbejde yderligere og implementere det i praksis.

Konklusion

Integrationen af CriticGPT i RLHF-pipelines repræsenterer et vigtigt skridt fremad i udviklingen af avancerede AI-systemer. Ved at kombinere menneskelig indsigt med CriticGPT’s evner, kan mere nøjagtige og effektive AI-evalueringer opnås.