Berliner Boersenzeitung - ChatGPT y las IA conversacionales siguen siendo incapaces de razonar, según un estudio

EUR -
AED 3.881827
AFN 71.801117
ALL 98.350924
AMD 418.144054
ANG 1.902966
AOA 962.784628
ARS 1066.899849
AUD 1.622256
AWG 1.902356
AZN 1.79709
BAM 1.95742
BBD 2.131854
BDT 126.174415
BGN 1.955937
BHD 0.398443
BIF 3119.45527
BMD 1.056865
BND 1.419208
BOB 7.296003
BRL 6.35917
BSD 1.055869
BTN 89.15836
BWP 14.423868
BYN 3.454843
BYR 20714.546156
BZD 2.128251
CAD 1.479056
CDF 3033.20126
CHF 0.93169
CLF 0.037457
CLP 1033.550293
CNY 7.645148
CNH 7.64976
COP 4669.449743
CRC 539.253909
CUC 1.056865
CUP 28.006912
CVE 110.355802
CZK 25.271735
DJF 188.024709
DKK 7.457955
DOP 63.753664
DZD 141.084036
EGP 52.397872
ERN 15.852969
ETB 130.807906
FJD 2.393323
FKP 0.834201
GBP 0.831791
GEL 2.890467
GGP 0.834201
GHS 16.313423
GIP 0.834201
GMD 75.036877
GNF 9099.745675
GTQ 8.146703
GYD 220.831703
HKD 8.22711
HNL 26.714487
HRK 7.538889
HTG 138.427829
HUF 413.064435
IDR 16753.840382
ILS 3.866576
IMP 0.834201
INR 89.309602
IQD 1383.138061
IRR 44467.578216
ISK 144.885498
JEP 0.834201
JMD 166.358456
JOD 0.749635
JPY 158.680819
KES 137.077245
KGS 91.735637
KHR 4255.622372
KMF 493.019391
KPW 951.177739
KRW 1473.258741
KWD 0.324879
KYD 0.879924
KZT 540.724914
LAK 23173.067054
LBP 94551.89834
LKR 306.932547
LRD 189.528636
LSL 19.186887
LTL 3.120646
LVL 0.639287
LYD 5.151238
MAD 10.566294
MDL 19.332907
MGA 4930.056505
MKD 61.531672
MMK 3432.654994
MNT 3591.225853
MOP 8.463764
MRU 42.120052
MUR 48.964329
MVR 16.328487
MWK 1830.90649
MXN 21.60563
MYR 4.691946
MZN 67.520062
NAD 19.186887
NGN 1781.281867
NIO 38.853624
NOK 11.648212
NPR 142.656079
NZD 1.788305
OMR 0.406924
PAB 1.055874
PEN 3.961954
PGK 4.257624
PHP 61.917995
PKR 293.528018
PLN 4.306429
PYG 8234.775664
QAR 3.848667
RON 4.976757
RSD 116.950503
RUB 114.140877
RWF 1469.744088
SAR 3.970484
SBD 8.867718
SCR 14.320894
SDG 635.718537
SEK 11.521906
SGD 1.416299
SHP 0.834201
SLE 23.996107
SLL 22161.927231
SOS 603.396481
SRD 37.418287
STD 21874.963415
SVC 9.238602
SYP 2655.403863
SZL 19.194794
THB 36.196617
TJS 11.509033
TMT 3.709595
TND 3.335444
TOP 2.47528
TRY 36.670348
TTD 7.174904
TWD 34.379593
TZS 2790.122698
UAH 43.911331
UGX 3896.205841
USD 1.056865
UYU 45.227213
UZS 13582.468963
VES 49.941615
VND 26787.818579
VUV 125.473089
WST 2.950334
XAF 656.497173
XAG 0.034362
XAU 0.000397
XCD 2.85623
XDR 0.807665
XOF 656.497173
XPF 119.331742
YER 264.136912
ZAR 19.106313
ZMK 9513.034262
ZMW 28.481435
ZWL 340.30997
ChatGPT y las IA conversacionales siguen siendo incapaces de razonar, según un estudio
ChatGPT y las IA conversacionales siguen siendo incapaces de razonar, según un estudio / Foto: Kirill Kudryavtsev - AFP/Archivos

ChatGPT y las IA conversacionales siguen siendo incapaces de razonar, según un estudio

Los modelos de lenguaje de gran tamaño (LLM), como ChatGPT, uno de los sistemas de inteligencia artificial más populares del mundo, siguen teniendo dificultades para razonar usando la lógica y se equivocan con frecuencia, según un estudio.

Tamaño del texto:

Estos robots conversacionales reflejan los sesgos de género, éticos y morales de los humanos presentes en los textos de los que se alimenta, recuerda el estudio aparecido el miércoles en la revista Open Science de la Royal Society británica.

¿Pero reflejan también los sesgos cognitivos de los humanos en las pruebas de razonamiento?, se preguntó Olivia Macmillan-Scott, estudiante de doctorado del departamento de ciencias de computación de la University College de Londres (UCL).

El resultado de la investigación es que los LLM muestran "un razonamiento a menudo irracional, pero de una manera diferente a la de los humanos", explica la investigadora a AFP.

Bajo la dirección de Mirco Musolesi, profesor y director del Machine Intelligence Lab de UCL, Macmillan-Scott sometió siete modelos de lenguaje -dos versiones de ChatGPT (3.5 y 4) de OpenAI, Bard de Google, Claude 2 de Anthropic y tres versiones de Llama de Meta- a una serie de pruebas psicológicas pensadas para humanos.

¿Cómo afrontan, por ejemplo, el sesgo que lleva a favorecer soluciones con el mayor número de elementos, en detrimento de las que tiene una proporción adecuada?

Un ejemplo. Si tenemos una urna con nueve canicas blancas y una roja y otra urna con 92 blancas y 8 rojas, ¿cual hay que elegir para tener más posibilidades de sacar una canica roja?

La respuesta correcta es la primera urna, porque hay un 10% de posibilidades frente a solo un 8% para la segunda opción.

Las respuestas de los modelos de lenguaje fueron muy inconstantes. Algunos respondieron correctamente seis de cada diez veces la misma prueba. Otros solo dos de diez aunque la prueba no cambió.

"Obtenemos una respuesta diferente cada vez", apuntala la investigadora.

Los LLM "pueden ser muy buenos para resolver una ecuación matemática complicada pero luego te dicen que 7 más 3 son 12", afirma.

En un caso el modelo denominado Llama 2 70b se negó de manera sorprendente a responder a una pregunta alegando que el enunciado contenía "estereotipos de género dañinos".

- "No estoy muy seguro" -

Estos modelos "no fallan en estas tareas de la misma manera que falla un humano", señala el estudio.

Es lo que el profesor Musolesi llama "errores de máquina".

"Hay una forma de razonamiento lógico que es potencialmente correcta si la tomamos por etapas, pero que está mal tomada en su conjunto", apunta.

La máquina funciona con "una especie de pensamiento lineal", dice el investigador, y cita al modelo Bard (ahora llamado Gemini), capaz de realizar correctamente las distintas fases de una tarea pero que obtiene un resultado final erróneo porque no tiene visión de conjunto.

Sobre esta cuestión el profesor de informática Maxime Amblard, de la Universidad francesa de Lorena, recuerda que "los LLM, como todas las inteligencias artificiales generativas, no funcionan como los humanos".

Los humanos son "máquinas capaces de crear sentido", lo que las máquinas no saben hacer, explica a AFP.

Hay diferencias entre los distintos modelos de lenguaje y en general GPT-4, sin ser infalible, obtuvo mejores resultados que los demás.

Macmillan-Scott afirma sospechar que los modelos llamados "cerrados", es decir cuyo código operativo permanece en secreto, "incorporan otros mecanismos en segundo plano" para responder a preguntas matemáticas.

En todo caso, por el momento, es impensable confiar una decisión importante a un LLM.

Según el profesor Mosulesi, habría que entrenarlos para que respondan "No estoy muy seguro" cuando sea necesario.

(K.Lüdke--BBZ)