Ollama skifter gear på Mac: MLX-backend i preview til Apple Silicon
Ollama har åbnet en preview, hvor deres lokale LLM-runtime kan køre med Apples MLX-framework på Apple Silicon. Det er i praksis et nyt “motorvalg” under motorhjelmen, der kan gøre lokal AI på Mac mere effektiv—og potentielt hurtigere—ved at udnytte den samme type optimeringer, som Apple har bygget til deres egne maskinlærings-workflows.
Nyheden er ikke, at MLX findes (Apple lancerede MLX som open source for Apple Silicon-udviklere i 2023), men at Ollama nu tilbyder en officiel vej til at bruge det som backend. Og det er interessant, fordi Ollama for mange er den letteste måde at køre modeller lokalt på macOS—uden at bygge hele toolchainen selv.
Hvad er MLX – og hvorfor er det relevant?
MLX er Apples open source-ramme til maskinlæring, designet specifikt til Apple Silicon. Ideen er enkel: lav et framework, der spiller bedre sammen med den måde CPU og GPU er skruet sammen på i M-serien—inklusive unified memory, hvor CPU og GPU deler samme hukommelse.
For lokal LLM-kørsel er hukommelsesadfærd ofte lige så vigtig som rå TOPS og frekvens. Unified memory kan være en fordel, når store modelvægtninger skal flyttes rundt, og når man vil undgå dyre kopier mellem “CPU-RAM” og “GPU-VRAM”, som man typisk ser på diskrete grafikkort.
Ollamas MLX-preview handler derfor mindre om et nyt produkt og mere om at få en Apple-native vej til at udnytte Mac’ens hardware bedre—uden at udviklere og brugere skal jonglere med flere forskellige builds.
Hvad betyder “preview” i praksis?
At det er “preview” skal tages bogstaveligt. Ollama præsenterer det som en tidlig implementering, hvor funktionalitet og ydeevne stadig kan ændre sig, og hvor kompatibilitet med bestemte modeller/kvantiseringer kan have skarpe kanter.
Med lokale LLM-værktøjer er der typisk tre steder, hvor tingene kan gå skævt i en preview: modelkompatibilitet (hvad kan loades), performance-regressioner (det er ikke altid hurtigere i alle scenarier), og stabilitet (lange generationer eller bestemte prompts kan udløse mærkelige fejl).
Hvorfor det kan være en stor fordel for Mac-brugere
Mac er blevet en overraskende stærk platform til lokal AI, især på grund af kombinationen af effekt per watt og store unified memory-konfigurationer på Pro/Max/Ultra-modeller. Men softwarelaget har været fragmenteret: nogle opsætninger performer bedst med Metal-accelererede backends, andre med CPU, og nogle med mere specialiserede biblioteker.
Hvis MLX-backenden i Ollama modner, kan det gøre to ting: (1) give mere forudsigelig performance på tværs af M1/M2/M3/M4-generationer, og (2) gøre det nemmere at udnytte GPU’en effektivt uden at brugeren skal tænke over detaljer som drivere, CUDA-alternativer eller build-flags.
Det, du skal holde øje med: speed, hukommelse og varme
De tre praktiske mål for lokal AI på en bærbar er ret jordnære: tokens per sekund, hvor meget RAM der reelt kan udnyttes, og om maskinen bliver til en mini-varmeblæser. MLX har en chance for at forbedre alle tre—men det afhænger af implementeringen og af, hvilke modeller du kører.
Det er også værd at understrege, at “hurtigere” ikke altid betyder “bedre”. Nogle brugere vil hellere have stabil, jævn generation og lavt strømforbrug end maks tokens/sek. På den front har Apple Silicon historisk været stærk, og MLX virker som et logisk næste skridt for at få endnu mere ud af platformen.
Pro TipHvis du tester lokal AI på MacBook: kør samme prompt to gange og hold øje med “Energi”-fanen i Aktivitetsovervågning—fald i “GPU-historik” og temperatur kan være lige så vigtigt som flere tokens/sek.
Min vurdering
Det mest interessante her er ikke, at Ollama får endnu en backend—men at Apple Silicon-økosystemet langsomt får et mere sammenhængende softwarefundament til lokal AI. MLX er Apples bud på “den rigtige” vej på deres hardware, og når et mainstream-værktøj som Ollama tager det ind (selv i preview), gør det teknologien mere tilgængelig for folk, der bare vil bygge, teste og køre modeller lokalt.
Det ændrer ikke verden i morgen, og det er for tidligt at konkludere, at MLX automatisk slår andre backends i alle tilfælde. Men hvis previewen hurtigt bliver stabil—og hvis den leverer bedre udnyttelse af unified memory—kan det blive en af de mere konkrete forbedringer for Mac som AI-arbejdsstation. Ikke som “AI-PC” marketing, men som faktisk nytte i terminalen.
Hvad sker der nu?
De næste uger bliver afgørende: hvilke modeller virker bedst, hvordan skalerer det fra base-MacBooks til Pro/Max-maskiner, og om performance er konsistent på tværs af macOS-versioner. Hvis MLX i Ollama bliver standardvalg, kan det også presse resten af økosystemet til at optimere hårdere til Apple Silicon—og det er i sidste ende den type konkurrence, der gør en Mac bedre, uden at Apple behøver at holde et event.