Egyre gyakrabban tiltják ki a legfontosabb internetes tartalomszolgáltatók a mesterségesintelligencia-fejlesztők keresőrobotjait a weboldalaikról. Tavaly még csak 3 százalékuk jelezte, hogy a szöveges tartalmak után kutakodó algoritmusokat nemkívánatos látogatóknak tekinti, az idén viszont már 30 százalékra nőtt azon portálok aránya – köztük olyan ismert híroldalak, mint a The New York Times, a HuffPost vagy a The Guardian –, amelyek nem szeretnék, hogy a mesterséges intelligencia (MI) nagy nyelvi modelljeit az ő cikkeiken, írásaikon tréningezzék – írja a hvg.hu.
Erre hívta fel a figyelmet egy független MI-kutatókból álló nemzetközi kutatócsoport, a Data Provenance Initiative, amely 14 ezer webhelyet vizsgált meg ebből a szempontból. A legnagyobb arányban a híroldalak védik ilyen formában a tartalmaikat, de a tiltás terén a honlapok tulajdonosai kevéssé következetesek. Míg ugyanis a különféle cégek világszerte tucatnyi nagy MI-modellt fejlesztenek,
a tartalomszolgáltatók elsősorban a legismertebb, a ChatGPT-t is jegyző OpenAI keresőrobotjait próbálják távol tartani, a többiekre – például a Facebook-tulajdonos Metára vagy a Google-ra – sokkal kevésbé ügyelnek.
A kutatók szerint ez a tiltás évről évre egyre több helyről fogja majd kiszorítani az alapanyagra vadászó algoritmusokat,
ennek pedig nemcsak a kereskedelmi célú MI fejlődésére lesz kedvezőtlen hatása, hanem a tudományos kutatásokra is.
A nagy nyelvi modellek azért lettek az utóbbi években ilyen jól használhatók (elsősorban angol nyelven), mert hatalmas szövegadatbázisokon tanítják be őket. Azaz minél nagyobb, minél változatosabb és minél jobb minőségű az a szöveg, amelyen tanulnak, annál értelmesebb, hasznosabb, „emberibb” válaszokat adnak majd csevegés közben.
Az, hogy mekkora méretűek és miből állnak össze az adatbázisok, csak részben ismert, a fejlesztőcégek keveset árulnak el erről. A ChatGPT-ről például annyit tudni, hogy az alapmodelljét tréningező adatbázis is több százmilliárd szót tartalmazott. Ennek mindössze 3 százaléka volt a teljes angol nyelvű Wikipedia (amely jelenleg 4,6 milliárd szóból áll). A betanító adatbázis döntő része, csaknem kétharmada egy webarchiváló projekt, a Common Crawltól származott. Ez a kaliforniai nonprofit szervezet évente több alkalommal mintavételezi a teljes internetet, és ezekből állít össze szabadon felhasználható adatbázist.
A MI győzelme az emberek felettNem vagyunk messze a pillanattól, amikor a számítógép végképp okosabb lesz az embernél, és ez nem feltétlenül hozza el a világ végét