
A nagy nyelvi modellek (LLM-ek) megjelenése forradalmasította az információfeldolgozást, különösen az összetett adathalmazok gyors összefoglalásában rejlő képességeik révén. Azonban egy friss, a Royal Society platformján publikált tanulmány komoly aggályokat vet fel ezen technológiák megbízhatóságával kapcsolatban, kiváltképp amikor tudományos anyagok lényegének sűrítéséről van szó. A kutatás rávilágít, hogy bár az MI-alapú chatbotok elképesztő sebességgel képesek átfésülni terjedelmes dokumentumokat, gyakran hajlamosak indokolatlan általánosítások megfogalmazására.
Ez a probléma abból fakad, hogy az LLM-ek nem mindig képesek megfelelően súlyozni az információkat, és kihagyhatnak olyan kritikus részleteket, amelyek nélkülözhetetlenek a helyes következtetések levonásához. Míg az emberi elme intuitívan ismeri fel a kontextus finomságait és képes megkülönböztetni a lényeges adatokat a kevésbé relevánsaktól, a mesterséges intelligencia számára ez komoly kihívást jelent. Ennek következtében az általuk generált összefoglalók pontatlanná válhatnak, ami különösen veszélyes lehet olyan területeken, mint a klinikai alkalmazások, ahol egy elhagyott vagy félreértelmezett adat akár katasztrofális következményekkel is járhat. Aggodalomra ad okot, hogy ezen modelleket egyre szélesebb körben, az oktatástól a műszaki tudományokig számos területen igyekeznek bevetni, anélkül, hogy ezen korlátokat teljes mértékben figyelembe vennék.
A Futurism portál kapcsolódó elemzése tovább árnyalja a képet, kiemelve, hogy a mesterséges intelligencia által produkált, látszólag megbízható válaszok akár jelentős része is tartalmazhat pontatlanságokat – egyes esetekben ez az arány elérheti a 73 százalékot is. Az említett Royal Society tanulmány keretében a kutatók tíz fejlett technológiát képviselő chatbot közel ötezer tudományos összefoglalóját vetették elemzés alá. Az eredmények megdöbbentőek: a gépi rendszerek átlagosan ötször több kulcsfontosságú részletet hagytak figyelmen kívül, mint az emberek által készített összefoglalók.
Különösen figyelemre méltó, hogy a modellek teljesítménye még akkor sem javult számottevően, amikor kifejezetten a pontosságra vonatkozó utasításokat kaptak. Sőt, a vizsgálat egy igen meglepő tendenciára is rávilágított: minél újabb kiadású volt egy LLM, annál magasabb hibaszázalékkal dolgozott. Ez szöges ellentétben áll az iparági szereplők által gyakran hangoztatott ígéretekkel, amelyek a technológia folyamatos fejlődését és okosodását sugallják. A tanulmány szerzői szerint az LLM-ek alul- vagy túláltalánosítási hajlama, párosulva egyre növekvő elterjedtségükkel, komoly kockázatot jelent a kutatási eredmények helyes értelmezésére és a tudományos diskurzus integritására nézve.
A kutatók arra is felhívják a figyelmet, hogy maguk a felhasználói utasítások, azaz a promptok is jelentős mértékben befolyásolhatják a generált kimenet minőségét és pontosságát. Annak pontos feltárása azonban, hogy a természettudományos szövegösszefoglalókban megjelenő általánosítások precizitását miként befolyásolják ezek az instrukciók, további, célzott vizsgálatokat igényel. Egyértelművé vált, hogy bár az MI-chatbotok sebessége lenyűgöző, a tudományos tartalmak összefoglalása terén mutatott felületességük és pontatlanságuk komoly óvatosságra és további fejlesztésekre int.