Bár a mesterséges intelligencia alapú eszközök egyre nagyobb teret nyernek a szoftverfejlesztésben, segítve a programozókat az ismétlődő feladatok automatizálásában – ahogy azt a Google (új kódok negyede) és a Stack Overflow felmérése (fejlesztők több mint háromnegyede használja vagy tervezi használni) is mutatja –, egy friss kutatás rávilágít a jelenlegi technológia komoly korlátaira. A Microsoft Research részletes vizsgálatot folytatott arról, hogy a legmodernebb AI-modellek mennyire birkóznak meg a kódokban rejlő hibák felderítésével és javításával, azaz a debuggolással.
A tanulmány kilenc különböző modellt tesztelt, köztük az Anthropic és az OpenAI fejlesztéseit, egy speciális AI-ügynök segítségével, amely hozzáférést kapott hibakereső eszközökhöz, például a Python debuggerhez. A modelleknek az SWE-bench Lite nevű benchmark tesztkészletből kellett 300 különböző hibajavítási feladatot megoldaniuk. Az eredmények kijózanítóak: még a legjobban teljesítő modell, a Claude 3.7 Sonnet is csupán 48,4%-os sikerességi arányt ért el. Az OpenAI o1 modellje 30,2%-ot, míg az o3-mini 22,1%-ot teljesített. Összességében az ügynök még a leghatékonyabb modellekkel sem tudta a feladatok felét sem sikeresen megoldani. Gyakori probléma volt, hogy a modellek nehezen értelmezték vagy használták a rendelkezésükre álló hibakereső eszközöket.
A kutatók szerint a gyenge teljesítmény egyik fő oka a hiányos képzési adatokban keresendő. A jelenlegi adathalmazok nem tükrözik kellőképpen azt a szekvenciális, logikai döntéshozatali folyamatot, amelyet az emberek a hibakeresés során alkalmaznak. Ugyanakkor a jövőben célzottabb képzéssel és finomhangolással ezek a modellek várhatóan hatékonyabbá válhatnak a debuggolás terén is.
Mindezek ellenére a kutatás egyértelművé teszi, hogy a mesterséges intelligencia egyelőre nem képes kiváltani az emberi fejlesztőket, különösen az olyan összetett, logikai gondolkodást igénylő feladatokban, mint a hibakeresés. Bár az AI jelentős segítséget nyújthat a kódírásban, a szoftverek megbízhatóságának garantálásához továbbra is elengedhetetlen a tapasztalt szakemberek felügyelete és beavatkozása.