Ha eddig azt gondoltad, hogy az AI-modellek főleg a „nyilvános internetből” tanulnak, a Meta most egy sokkal közelebbi adatforrást nézett ki: a saját dolgozóit. Ez nem csak technológiai, hanem munkahelyi adatkezelési kérdés is.

Mi történt

A TechCrunch a Reuters első értesüléseire hivatkozva arról írt, hogy a Meta új tréningadat-forrást használna: a vállalat belső munkatársainak számítógépes interakcióit. A terv szerint a cég egérmozgásból és billentyűleütésekből származó adatokat gyűjtene, hogy ezekkel képezze AI-modelljeit.

A Meta a TechCrunchnak adott nyilatkozatában azzal indokolta a lépést, hogy ha „agenteket” (vagyis olyan AI-rendszereket) építenek, amelyek segítenek a hétköznapi számítógépes feladatok elvégzésében, akkor a modelleknek „valódi példákra” van szükségük arról, hogyan használják az emberek ténylegesen a számítógépet. Ide sorolták az olyan műveleteket, mint az egérmozgás, a gombokra kattintás, vagy a legördülő menükben való navigálás.

A cég szerint egy belső eszközt indítanak, amely „bizonyos alkalmazásokban” rögzíti ezeket a bemeneteket. A Meta állítása alapján „védelmi intézkedések” is vannak a szenzitív tartalmak védelmére, és az adatot „más célra nem használják”.

Miért fontos

Az AI-tréningadat a modern modellek „üzemanyaga”: minél több valós, változatos példa áll rendelkezésre, annál jobban tudnak a rendszerek feladatokat megoldani. Az agenteknél ez különösen kézzelfogható: gondolj rá úgy, mint egy digitális gyakornokra, aki nem csak szöveget ír, hanem kattint, űrlapot tölt, menükben keres, és több lépésből álló folyamatokat visz végig. Ehhez a puszta szöveges adatok sokszor nem elég jók — a „hogyan kattintunk” és „hogyan navigálunk” típusú minták is számítanak.

Ugyanakkor a hír egy kényes határvonalat érint: mi számít munkavégzéshez szükséges telemetriának (rendszerhasználati mérésnek), és mi számít megfigyelésnek. A billentyűleütések és egérmozgások rögzítése még akkor is érzékeny, ha a cél nem teljesítménymérés, hanem modelltréning. Ezek a jelek ugyanis könnyen „mellékesen” is hordozhatnak bizalmas információt (például beírt szövegrészleteket, kereséseket, belső eszközökben végzett műveleteket), ezért a „safeguards” (védelmi korlátok) konkrét tartalma kulcskérdés.

A TechCrunch cikke egy tágabb trendbe is illeszti a történetet: a tréningadat iránti éhség miatt a cégek új forrásokat keresnek. A lap felidézi, hogy a múlt héten olyan esetekről is szó volt, amikor régebbi startupokat „kifosztva” vállalati kommunikációs archívumokat (például Slack-üzeneteket vagy Jira-jegyeket) alakítottak át AI-tréningadattá.

Mire figyelj

  1. Pontosan mit rögzít az eszköz? Nem mindegy, hogy csak „interakciós eseményeket” (kattintás, menüválasztás) vagy ténylegesen leütött karaktereket is, és milyen részletességgel.
  2. Mely alkalmazásokban fut, és kikre vonatkozik? A Meta „bizonyos alkalmazásokat” említ — a kör (és az esetleges kivételek) határozzák meg a kockázatot.
  3. Mit jelentenek a „védelmi intézkedések” a gyakorlatban? Ilyenkor a lényeg a konkrétum: hogyan szűrik a szenzitív tartalmat, mi kerül tárolásra, mennyi ideig, és ki fér hozzá.
  4. Mi a garancia arra, hogy „más célra nem használják”? A belső adatkezelésnél a célhoz kötöttség ígéret, de a vállalati gyakorlatot a hozzáférési szabályok, auditok és belső kontrollok teszik ellenőrizhetővé.