
Az Apple kutatói mélyreható vizsgálatnak vetették alá a mesterséges intelligencia (AI) modellek érvelési képességeit, és arra az eredményre jutottak, hogy bár ígéretes előrelépések történtek, az emberi szintű gondolkodástól még mindig távol állnak ezek a rendszerek. A kutatás során úgynevezett nagy érvelési modelleket (LRM) és hagyományos nagy nyelvi modelleket (LLM) teszteltek, hogy megismerjék, mennyire képesek a komplex problémák kezelésére. Az eredmények rávilágítottak a jelenlegi AI technológiák korlátaira, különösen, amikor a feladatok bonyolultabbá válnak.
A tesztek során a kutatócsoport olyan klasszikus problémákat alkalmazott, mint a Hanoi tornya vagy a folyón való átkelés, amelyek lehetővé tették a nehézségi szint pontos szabályozását. Nem csupán a végső megoldásra összpontosítottak, hanem a teljes gondolkodási folyamatot is részletesen elemezték. Ez az alapos megközelítés segített összehasonlítani az LRM-eket és az LLM-eket azonos számítási feltételek mellett, feltárva az AI érvelés valódi korlátait. Kiderült, hogy az egyszerűbb feladatoknál a hagyományos LLM-ek – amelyek nem alkalmaznak explicit érvelési mechanizmusokat – meglepően pontosabbnak és hatékonyabbnak bizonyultak, kevesebb erőforrást igénylő működésükkel.
Azonban, amint a feladatok közepesen bonyolulttá váltak, a strukturált gondolkodást alkalmazó modellek, mint például a Chain-of-Thought módszer, előnybe kerültek és jobb teljesítményt mutattak. Érdekesség, hogy a komplexitás további növelésével a teljesítmény mindkét modellcsoport esetében drámaian zuhant, és a pontosság közel a nullához közelített, függetlenül attól, mennyi számítási kapacitás állt rendelkezésre. Ez rávilágít arra, hogy a jelenlegi AI rendszerek még a hatalmas számítási erőforrások ellenére sem képesek megbízhatóan kezelni a rendkívül összetett logikai problémákat.
Az elemzések során egy másik érdekes megfigyelés is napvilágot látott: az érvelő modellek viselkedése nem mindig volt következetes. Bár a nehézségi szint emelkedésével kezdetben hosszabb gondolatmenetekkel próbálkoztak, a kudarc határán váratlanul lerövidítették az érvelést, mintha feladták volna a próbálkozást. Ez a viselkedés arra utalhat, hogy a modellek nem rendelkeznek valódi „kitartással” vagy az emberi problémamegoldásra jellemző alkalmazkodóképességgel, amikor nehézségekbe ütköznek. Ráadásul akkor is, amikor helyes algoritmusokat kaptak, a modellek nem tudták megbízhatóan végrehajtani az egyes lépéseket, ami további korlátozásokra mutat rá az AI logikai számítási képességeiben.
A kutatás kiemelte, hogy a modellek teljesítménye nagymértékben függött attól, hogy a rejtvény mennyire volt ismerős a tanulási adatok között. Ez arra utal, hogy a siker gyakran nem az általánosítható érvelésen alapult, hanem sokkal inkább a korábban tanult minták felismerésén. Ez a megállapítás különösen fontos, mivel azt sugallja, hogy a jelenlegi AI rendszerek még mindig inkább a memorizálásra és a mintafelismerésre építenek, mintsem a valódi, absztrakt gondolkodásra és az új helyzetekben való alkalmazkodásra.
Az Apple kutatói tehát rávilágítottak, hogy bár az AI érvelési képességei folyamatosan fejlődnek, még messze vagyunk attól, hogy ezek a rendszerek valóban emberi gondolkodáshoz hasonló, általános és komplex problémamegoldást nyújtsanak. Ez egyben figyelmeztetés is arra, hogy a jelenlegi modellek, még a legfejlettebbek is, nem képesek áthidalni a valódi gondolkodás mélyebb dimenzióit, és nem rendelkeznek azzal a rugalmassággal és kreativitással, amely az emberi intelligenciát jellemzi.