A mesterséges intelligencia korlátai a kódjavításban: Mit mutatott egy friss teszt?

Egy friss Microsoft kutatás világított rá arra a tényre, hogy a mesterséges intelligencia jelenleg messze elmarad az emberi programozók képességeitől, amikor szoftverhibák felderítéséről és javításáról van szó. Bár a technológia egyre elterjedtebb a kódírás segítésében – a Google és a Meta is jelentős mértékben alkalmazza –, a meglévő kódrészletekben rejlő problémák megtalálása más szintű kihívást jelent.

Annak ellenére, hogy nagyvállalatok, mint a Google vagy a Meta, egyre nagyobb mértékben támaszkodnak az MI-re új kódok generálásában (a Google esetében állítólag az új kódok negyedét már MI írja), a programkódokban rejlő hibák azonosítása komoly kihívást jelent még a legfejlettebb modellek számára is. Ez ellentmondani látszik annak a narratívának, hogy az MI hamarosan kiválthatja a fejlesztőket.

A Microsoft szakemberei kilenc különböző MI modellt vizsgáltak meg, köztük az Anthropic és az OpenAI ismert megoldásait, egy standardizált tesztkörnyezetben, a SWE-bench Lite 300 hibajavítási feladatán keresztül. A modellek hozzáférést kaptak különféle hibakereső eszközökhöz is.

Az eredmények kijózanítóak voltak. Még a legjobban teljesítő modell, az Anthropic Claude 3.7 Sonnet is csupán 48,4 százalékos sikerességi arányt ért el átlagosan a hibajavítási feladatokban. Az OpenAI modelljei, az o1 és az o3-mini, ennél is szerényebb, 30,2, illetve 22,1 százalékos eredményt mutattak.

A kutatók szerint ennek oka részben az MI modellek elégtelen betanítása lehetett erre a specifikus feladatra, másrészt pedig nehézségekbe ütköztek a szükséges hibakereső eszközök hatékony használatában. Úgy vélik, a jövőben célzottabb képzéssel és a modellek finomhangolásával javítható lehet ez a teljesítmény, de jelenleg az emberi szakértelem pótolhatatlannak tűnik a komplex hibakeresési feladatokban.

Vélemény, hozzászólás?

Az e-mail címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük