IBM Granite 4.0 3B Vision: dokumentumok táblái és grafikonjai „olvashatóvá” válnak

Az IBM új Granite 4.0 3B Vision modellje kifejezetten vállalati dokumentumokra céloz: táblák kinyerése, grafikonok értelmezése és kulcs-érték párok felismerése a fő feladata. A megközelítés érdekessége, hogy a multimodális képesség LoRA adapterként érkezik a Granite 4.0 Micro alapmodellre, így ugyanaz a rendszer tud képes és szöveg-only módban is működni.

Ha valaha próbáltál már PDF-ből táblázatot „normálisan” kinyerni, vagy egy riport grafikonját géppel feldolgozható adattá alakítani, akkor tudod: a látvány és a jelentés közti híd a nehéz rész. Az IBM Granite 4.0 3B Vision erre a dokumentumos „valóságra” lő, és nem csak képleírást ígér, hanem strukturált kinyerést.

Mi történt

Az IBM bemutatta a Granite 4.0 3B Vision modellt, amelyet kifejezetten vállalati dokumentumok vizuális megértésére hangoltak. A fókusz három tipikus, de makacsul nehéz feladaton van:

Table Extraction (táblázatkivonás): összetett táblaszerkezetek (többsoros/többoszlopos fejlécek, összevont cellák) pontos „kifejtése” dokumentumképekből.
Chart Understanding (grafikonértelmezés): ábrák és grafikonok strukturált, gépileg olvasható formátumba alakítása (pl. összefoglaló, táblázatos adat, akár futtatható kód).
Semantic Key-Value Pair (KVP) Extraction: jelentésalapú kulcs–érték párok azonosítása különböző elrendezésű dokumentumokban (gondolj rá úgy, mint amikor a rendszer nem csak „szöveget olvas”, hanem megtalálja, hogy mi a „Számlaszám” és mi tartozik hozzá értékként, akkor is, ha nem szépen egymás mellett vannak).

A modell csomagolása is beszédes: nem önálló multimodális modellként érkezik, hanem LoRA adapterként a Granite 4.0 Micro (sűrű, azaz „dense” nyelvi) alapmodell tetején. A LoRA (Low-Rank Adaptation) lényegében egy „ráépülő finomhangoló rétegkészlet”: olyan, mintha a meglévő nyelvi modellre felcsatolnál egy specializált modult, ami a vizuális feladatokat megtanulta, miközben az alapmodell változatlanul szolgálhat szöveg-only munkákra is.

A blog szerint a modell használható önmagában, vagy Doclinggel együtt is, hogy dokumentumfeldolgozó pipeline-okban „mélyebb” vizuális megértést adjon.

A teljesítmény mögött három célzott fejlesztést emelnek ki:

ChartNet: egy kifejezetten grafikonértelmezésre épített, nagy léptékű multimodális adathalmaz.
DeepStack Injection: egy architekturális megoldás, ami másképp „adagolja” a vizuális információt a nyelvi modell rétegeibe.
Moduláris dizájn (LoRA adapter): praktikusabb vállalati bevezetés, és szöveg-only fallback ugyanabban a telepítésben.

A grafikonoknál a forrás külön kiemeli, miért nehezek a VLM-eknek (vision-language models, azaz kép–szöveg modellek): itt egyszerre kell vizuális mintázatot, számadatot és nyelvi kontextust együtt értelmezni, ráadásul sokszor térbeli pontossággal (például egy vonaldiagramról „pontosan” leolvasni értékeket).

Ennek kezelésére fejlesztették a ChartNet adathalmazt, amely a leírás szerint 1,7 millió szintetikus grafikonmintát generál 24 diagramtípuson és 6 plot könyvtárral. A kulcsötlet a „code-guided” szintézis: minden minta öt összehangolt komponensből áll:

a rajzoló kód,
a renderelt kép,
a mögöttes adattábla,
egy természetes nyelvű összefoglaló,
és kérdés–válasz párok.

Ez olyan, mintha a modell nem csak képeket látna, hanem egyszerre kapná meg a „receptet” (kód), a „kész ételt” (kép), és a „tápérték-táblázatot” (adat) is — így nagyobb eséllyel tanulja meg, mit jelent a grafikon, nem csak azt, hogyan néz ki.

Az architektúrában a DeepStack Injection lényege a forrás szerint, hogy a vizuális információ nem egyetlen ponton „folyik be” a nyelvi modellbe. Ehelyett:

az absztraktabb vizuális jellemzők korábbi rétegekbe mennek (inkább „miről szól”),
a nagy felbontású, térbeli részletek későbbi rétegekbe (inkább „hol van pontosan”).

Dokumentumoknál ez kritikus: táblázatnál és űrlapnál gyakran nem az a kérdés, hogy „milyen szavak vannak a lapon”, hanem hogy melyik szöveg melyik cellához/mezőhöz tartozik.

A blog konkrét benchmark-eredményeket is közöl:

Grafikonok: a human-verified ChartNet benchmarkon, LLM-as-a-judge értékeléssel a modell Chart2Summary 86,4% pontszámot ér el (a leírás szerint a legjobb az összehasonlított modellek között, nagyobbak között is), és Chart2CSV 62,1% (második hely, a Qwen3.5-9B 63,4% mögött).
Táblázatok: több benchmarkon (TableVQA-extract, OmniDocBench-tables, PubTables-v2) HTML formátumú kinyerést mérnek TEDS metrikával (ami a szerkezeti és tartalmi pontosságot együtt értékeli). A blog szerint a Granite 4.0 3B Vision több mérésen is vezet, például PubTables-v2-n cropped (92,1) és full-page (79,3) beállításban is.

Miért fontos

A vállalati AI-projektekben a „nagy nyelvi modell” sokszor nem a legszűkebb keresztmetszet, hanem az, hogy a bemenet nem tiszta szöveg: szkennelt PDF-ek, képként beágyazott táblák, prezentációk grafikonjai, vegyes elrendezésű űrlapok. Itt a modellnek nem csak „olvasnia” kell, hanem strukturálnia is — különben az automatizálás a legdrágább résznél, az adatkivonásnál vérzik el.

A LoRA-adapteres csomagolás pedig praktikus üzenet: a forrás állítása szerint ugyanaz a telepítés kiszolgálhat multimodális és szöveg-only feladatokat, és „vissza tud esni” a base modellre, ha nincs szükség képfeldolgozásra. Ez a valós üzemeltetésben (költség, integráció, pipeline-ok) sokszor többet számít, mint egy-egy látványos demó.

Mire figyelj

Értékelési módszertan: a grafikonos eredményeknél a blog „LLM-as-a-judge” értékelést említ. Érdemes figyelni, hogy a későbbi publikációkban (különösen a jelzett CVPR 2026 paperben) mennyire részletezik a bírálat stabilitását és reprodukálhatóságát.
ChartNet hozzáférhetőség és használhatóság: a dataset leírása ígéretes (kód–kép–adat–szöveg–QA alignment), de a gyakorlati hatás attól is függ, mennyire lesz széles körben elérhető, és hogyan lehet rá biztonságosan építeni vállalati környezetben.
Pipeline-integráció valós dokumentumokkal: a táblázat/grafikon/KVP triász tipikusan együtt jelenik meg. Figyeld, hogy Doclinggel kombinálva mennyire „end-to-end” a megoldás (hibakezelés, bizonytalanság jelzése, visszaellenőrizhetőség), nem csak benchmarkon.