Mi történt
Az IBM bemutatta a Granite 4.0 3B Vision modellt, amelyet kifejezetten vállalati dokumentumok vizuális megértésére hangoltak. A fókusz három tipikus, de makacsul nehéz feladaton van:- Table Extraction (táblázatkivonás): összetett táblaszerkezetek (többsoros/többoszlopos fejlécek, összevont cellák) pontos „kifejtése” dokumentumképekből.
- Chart Understanding (grafikonértelmezés): ábrák és grafikonok strukturált, gépileg olvasható formátumba alakítása (pl. összefoglaló, táblázatos adat, akár futtatható kód).
- Semantic Key-Value Pair (KVP) Extraction: jelentésalapú kulcs–érték párok azonosítása különböző elrendezésű dokumentumokban (gondolj rá úgy, mint amikor a rendszer nem csak „szöveget olvas”, hanem megtalálja, hogy mi a „Számlaszám” és mi tartozik hozzá értékként, akkor is, ha nem szépen egymás mellett vannak).
A blog szerint a modell használható önmagában, vagy Doclinggel együtt is, hogy dokumentumfeldolgozó pipeline-okban „mélyebb” vizuális megértést adjon.
A teljesítmény mögött három célzott fejlesztést emelnek ki:
- ChartNet: egy kifejezetten grafikonértelmezésre épített, nagy léptékű multimodális adathalmaz.
- DeepStack Injection: egy architekturális megoldás, ami másképp „adagolja” a vizuális információt a nyelvi modell rétegeibe.
- Moduláris dizájn (LoRA adapter): praktikusabb vállalati bevezetés, és szöveg-only fallback ugyanabban a telepítésben.
A grafikonoknál a forrás külön kiemeli, miért nehezek a VLM-eknek (vision-language models, azaz kép–szöveg modellek): itt egyszerre kell vizuális mintázatot, számadatot és nyelvi kontextust együtt értelmezni, ráadásul sokszor térbeli pontossággal (például egy vonaldiagramról „pontosan” leolvasni értékeket).
Ennek kezelésére fejlesztették a ChartNet adathalmazt, amely a leírás szerint 1,7 millió szintetikus grafikonmintát generál 24 diagramtípuson és 6 plot könyvtárral. A kulcsötlet a „code-guided” szintézis: minden minta öt összehangolt komponensből áll:
- a rajzoló kód,
- a renderelt kép,
- a mögöttes adattábla,
- egy természetes nyelvű összefoglaló,
- és kérdés–válasz párok.
Az architektúrában a DeepStack Injection lényege a forrás szerint, hogy a vizuális információ nem egyetlen ponton „folyik be” a nyelvi modellbe. Ehelyett:
- az absztraktabb vizuális jellemzők korábbi rétegekbe mennek (inkább „miről szól”),
- a nagy felbontású, térbeli részletek későbbi rétegekbe (inkább „hol van pontosan”).
A blog konkrét benchmark-eredményeket is közöl:
- Grafikonok: a human-verified ChartNet benchmarkon, LLM-as-a-judge értékeléssel a modell Chart2Summary 86,4% pontszámot ér el (a leírás szerint a legjobb az összehasonlított modellek között, nagyobbak között is), és Chart2CSV 62,1% (második hely, a Qwen3.5-9B 63,4% mögött).
- Táblázatok: több benchmarkon (TableVQA-extract, OmniDocBench-tables, PubTables-v2) HTML formátumú kinyerést mérnek TEDS metrikával (ami a szerkezeti és tartalmi pontosságot együtt értékeli). A blog szerint a Granite 4.0 3B Vision több mérésen is vezet, például PubTables-v2-n cropped (92,1) és full-page (79,3) beállításban is.
Miért fontos
A vállalati AI-projektekben a „nagy nyelvi modell” sokszor nem a legszűkebb keresztmetszet, hanem az, hogy a bemenet nem tiszta szöveg: szkennelt PDF-ek, képként beágyazott táblák, prezentációk grafikonjai, vegyes elrendezésű űrlapok. Itt a modellnek nem csak „olvasnia” kell, hanem strukturálnia is — különben az automatizálás a legdrágább résznél, az adatkivonásnál vérzik el.A LoRA-adapteres csomagolás pedig praktikus üzenet: a forrás állítása szerint ugyanaz a telepítés kiszolgálhat multimodális és szöveg-only feladatokat, és „vissza tud esni” a base modellre, ha nincs szükség képfeldolgozásra. Ez a valós üzemeltetésben (költség, integráció, pipeline-ok) sokszor többet számít, mint egy-egy látványos demó.
Mire figyelj
- Értékelési módszertan: a grafikonos eredményeknél a blog „LLM-as-a-judge” értékelést említ. Érdemes figyelni, hogy a későbbi publikációkban (különösen a jelzett CVPR 2026 paperben) mennyire részletezik a bírálat stabilitását és reprodukálhatóságát.
- ChartNet hozzáférhetőség és használhatóság: a dataset leírása ígéretes (kód–kép–adat–szöveg–QA alignment), de a gyakorlati hatás attól is függ, mennyire lesz széles körben elérhető, és hogyan lehet rá biztonságosan építeni vállalati környezetben.
- Pipeline-integráció valós dokumentumokkal: a táblázat/grafikon/KVP triász tipikusan együtt jelenik meg. Figyeld, hogy Doclinggel kombinálva mennyire „end-to-end” a megoldás (hibakezelés, bizonytalanság jelzése, visszaellenőrizhetőség), nem csak benchmarkon.
