Az Apple kutatói feltárták az AI érvelés korlátait

Az Apple kutatói mélyreható vizsgálatnak vetették alá a mesterséges intelligencia (AI) modellek érvelési képességeit, és arra az eredményre jutottak, hogy bár ígéretes előrelépések történtek, az emberi szintű gondolkodástól még mindig távol állnak ezek a rendszerek. A kutatás során úgynevezett nagy érvelési modelleket (LRM) és hagyományos nagy nyelvi modelleket (LLM) teszteltek, hogy megismerjék, mennyire képesek a komplex problémák kezelésére. Az eredmények rávilágítottak a jelenlegi AI technológiák korlátaira, különösen, amikor a feladatok bonyolultabbá válnak.

A tesztek során a kutatócsoport olyan klasszikus problémákat alkalmazott, mint a Hanoi tornya vagy a folyón való átkelés, amelyek lehetővé tették a nehézségi szint pontos szabályozását. Nem csupán a végső megoldásra összpontosítottak, hanem a teljes gondolkodási folyamatot is részletesen elemezték. Ez az alapos megközelítés segített összehasonlítani az LRM-eket és az LLM-eket azonos számítási feltételek mellett, feltárva az AI érvelés valódi korlátait. Kiderült, hogy az egyszerűbb feladatoknál a hagyományos LLM-ek – amelyek nem alkalmaznak explicit érvelési mechanizmusokat – meglepően pontosabbnak és hatékonyabbnak bizonyultak, kevesebb erőforrást igénylő működésükkel.

Azonban, amint a feladatok közepesen bonyolulttá váltak, a strukturált gondolkodást alkalmazó modellek, mint például a Chain-of-Thought módszer, előnybe kerültek és jobb teljesítményt mutattak. Érdekesség, hogy a komplexitás további növelésével a teljesítmény mindkét modellcsoport esetében drámaian zuhant, és a pontosság közel a nullához közelített, függetlenül attól, mennyi számítási kapacitás állt rendelkezésre. Ez rávilágít arra, hogy a jelenlegi AI rendszerek még a hatalmas számítási erőforrások ellenére sem képesek megbízhatóan kezelni a rendkívül összetett logikai problémákat.

Az elemzések során egy másik érdekes megfigyelés is napvilágot látott: az érvelő modellek viselkedése nem mindig volt következetes. Bár a nehézségi szint emelkedésével kezdetben hosszabb gondolatmenetekkel próbálkoztak, a kudarc határán váratlanul lerövidítették az érvelést, mintha feladták volna a próbálkozást. Ez a viselkedés arra utalhat, hogy a modellek nem rendelkeznek valódi „kitartással” vagy az emberi problémamegoldásra jellemző alkalmazkodóképességgel, amikor nehézségekbe ütköznek. Ráadásul akkor is, amikor helyes algoritmusokat kaptak, a modellek nem tudták megbízhatóan végrehajtani az egyes lépéseket, ami további korlátozásokra mutat rá az AI logikai számítási képességeiben.

Harc a keresőpiac vezető szerepéért: a Google fellebbez a monopólium-ítélet ellen

A kutatás kiemelte, hogy a modellek teljesítménye nagymértékben függött attól, hogy a rejtvény mennyire volt ismerős a tanulási adatok között. Ez arra utal, hogy a siker gyakran nem az általánosítható érvelésen alapult, hanem sokkal inkább a korábban tanult minták felismerésén. Ez a megállapítás különösen fontos, mivel azt sugallja, hogy a jelenlegi AI rendszerek még mindig inkább a memorizálásra és a mintafelismerésre építenek, mintsem a valódi, absztrakt gondolkodásra és az új helyzetekben való alkalmazkodásra.

Az Apple kutatói tehát rávilágítottak, hogy bár az AI érvelési képességei folyamatosan fejlődnek, még messze vagyunk attól, hogy ezek a rendszerek valóban emberi gondolkodáshoz hasonló, általános és komplex problémamegoldást nyújtsanak. Ez egyben figyelmeztetés is arra, hogy a jelenlegi modellek, még a legfejlettebbek is, nem képesek áthidalni a valódi gondolkodás mélyebb dimenzióit, és nem rendelkeznek azzal a rugalmassággal és kreativitással, amely az emberi intelligenciát jellemzi.

AI Apple érvelés gondolkodás korlátok kutatás LLM LRM mesterséges intelligencia problémamegoldás

Tech

Mi az a rettegett adathiba (CRC), és hogyan mentsd meg a fájljaidat tőle?

A lehetetlen küldetés: XP VGA driver keresése Amilo Pa 3553-ra

Harc a vason: FuSi AMilo Li 1705 vs. Ubuntu 9.04 – Melyik a nyerő?

A tökéletes laptop telepítés A-tól Z-ig: Útmutató kezdőknek és haladóknak

A nagy küzdelem: Így telepíts XP-t SATA vinyóval szerelt laptopra!

Túl forró a vas? A processzor lassítás szoftveresen, amikor a hűtés már nem elég

Express Posts List

Vélemény, hozzászólás? Válasz megszakítása

Kapcsolódnak

Robotszakács a konyhában? Köszi, de a lecsót még én keverem!

Ez történik ha 166 kérdést pakolsz a Gemininek

Meglepő állítás borzolja a kedélyeket a vörös húsokról: most akkor ehetjük vagy sem?

Milliók várják a választ: mikorra várható a mindent megváltoztató koronavírus védőoltás?

Sokkoló becslés: Lehet, hogy tízszer annyian haltak meg Indiában a járvány miatt, mint hittük

Megdöbbentő összeg: Ennyire árazták be egy kutya életét a kutatók

Olvastad már?

Ne maradj le

Ön nyert! Vagy mégsem? Minden, amit a DR.PHILIS COOKER (AUSTRALIA LOTTO AGENT) átverésről tudni kell

El tudod képzelni? 12 perc töltés és 800 km hatótáv! Lehet, hogy vége az e-autós mizériának?

Robotszakács a konyhában? Köszi, de a lecsót még én keverem!

A vécépapír mellé telefont is viszel? Akkor készülj, mert jön az aranyér!