Kanada: az OpenAI megsérthette az adatvédelmi szabályokat a tanításnál

Kanadai adatvédelmi biztosok szerint az OpenAI több ponton nem felelt meg a szövetségi és tartományi adatvédelmi törvényeknek az AI-modellek tanítása során. A kifogások közé tartozik a beleegyezés hiánya, a személyes adatok túl laza védelme, és az, hogy a felhasználók nem tudják elérni, javítani vagy törölni a róluk szóló adatokat. Az OpenAI több változtatást vállalt, amelyek egy része hónapokon belül érkezhet.

Ha azt hitted, hogy a „ChatGPT-ben ne ossz meg személyes adatot” csak udvarias figyelmeztetés, Kanada most megmutatja, mi történik, amikor a szabályozó ezt szó szerint veszi — és számon kéri a modellek tanításához használt adatokat is.

Mi történt

Kanada szövetségi adatvédelmi biztosa és Alberta, Québec, valamint Brit Columbia tartományi adatvédelmi vezetői vizsgálat után arra jutottak, hogy az OpenAI nem volt összhangban több kanadai adatvédelmi előírással az AI-modellek betanítása során. A megállapítások többek között a PIPEDA-hoz (a vállalatok „üzletszerű” személyesadat-kezelését szabályozó kanadai törvényhez) kapcsolódnak.

A hatóságok több konkrét problémát azonosítottak. Az egyik, hogy az OpenAI „hatalmas mennyiségű” személyes információt gyűjtött úgy, hogy nem voltak elég erős védőkorlátok annak megakadályozására, hogy ezek a személyes adatok a tanítóanyagba kerüljenek. A másik, hogy a személyes adatok begyűjtéséhez és felhasználásához nem volt megfelelő beleegyezés (consent). A ChatGPT ugyan figyelmeztet, hogy a beszélgetések felhasználhatók tanításra, de a harmadik féltől vásárolt vagy internetről „leszedett” (scraped) adatokban olyan személyes részletek is lehetnek, amelyekről az érintettek nem is tudják, hogy egyáltalán léteznek ilyen formában.

További gond: a felhasználóknak nincs érdemi eszközük arra, hogy hozzáférjenek, kijavítsák vagy töröljék a róluk szóló adatokat. Emellett a vizsgálat összefoglalója szerint a hatóságok kritikusan nézték azt is, ahogyan a cég kezeli a ChatGPT pontatlan állításait — vagyis amikor a modell magabiztosan állít valamit, ami nem igaz.

Miért fontos

A generatív AI tanítása sokszor úgy működik, mint egy óriási „szövegturmix”: rengeteg forrásból kerül bele alapanyag, és utólag nehéz megmondani, melyik mondat honnan jött. Csakhogy az adatvédelmi logika pont fordítva gondolkodik: ha személyes adat is belekerülhet, akkor már a gyűjtésnél és a felhasználásnál kell tiszta jogalap (például beleegyezés) és kontroll (hozzáférés, helyesbítés, törlés). A kanadai ügy azért kényes, mert nem a felhasználói chatnaplók „óvatlan megosztásáról” szól, hanem arról, hogy a nyilvános web és licencelt adatbázisok is tartalmazhatnak olyan személyes információkat, amelyekből modellek tanulnak — az érintettek tudta nélkül.

Mire figyelj

Mit jelent a „szűrés és maszkolás” a gyakorlatban? Az OpenAI vállalta, hogy szűrőeszközzel felismeri és elfedi a személyes adatokat (például neveket vagy telefonszámokat) a tanításhoz használt nyilvános és licencelt adatokban. A kulcskérdés az lesz, mennyire hatékony ez: a személyes adat nem mindig „név+telefonszám” formában jelenik meg.
Új figyelmeztetés kijelentkezett (signed-out) módban is. A cég három hónapon belül külön tájékoztatót ígért a be nem jelentkezett felületre arról, hogy a chat felhasználható tanításra, és hogy érzékeny adatot nem érdemes megosztani.
Átláthatóbb adatexport és vitatás. Hat hónapon belül érthetőbbé és használhatóbbá kell tenni az adatexport-eszközöket, és jobban elmagyarázni, hogyan lehet vitatni a ChatGPT által adott információk pontosságát.
„Nyugdíjazott” adathalmazok lezárása. A biztosok megerősítést várnak arra, hogy a később kivont (retired) adatkészletek erős védelemmel tényleg kikerülnek az aktív fejlesztésből.
Külön védelem kiskorú hozzátartozóknak. Tesztelni kell olyan védelmeket, amelyek a közszereplők nem közszereplő, kiskorú rokonainál megakadályozzák például a név vagy születési dátum kikérését.

A történetnek van egy párhuzamos, biztonsági szála is: a kanadai szabályozói nyomás erősödött az OpenAI körül egy 2026 februári tömeges lövöldözés után, ahol felmerült, hogy a cég korábban észlelt erőszakra utaló jeleket, de nem eszkalálta azokat a hatóságok felé. Az Engadget AI értelmezése alapján a mostani adatvédelmi megfelelés mellett az is látszik, hogy Kanada nemcsak „papíron” kér számon, hanem az együttműködési és kockázatkezelési gyakorlatot is egyre konkrétabban formálná.