Berliner Boersenzeitung - El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema

EUR -
AED 3.824403
AFN 72.783669
ALL 98.225528
AMD 409.464261
ANG 1.86853
AOA 955.849322
ARS 1064.387711
AUD 1.664145
AWG 1.874215
AZN 1.769528
BAM 1.951341
BBD 2.093416
BDT 123.896861
BGN 1.952286
BHD 0.392649
BIF 3065.294954
BMD 1.041231
BND 1.408082
BOB 7.164627
BRL 6.332664
BSD 1.036831
BTN 88.144565
BWP 14.330251
BYN 3.393046
BYR 20408.117808
BZD 2.084137
CAD 1.497322
CDF 2988.331476
CHF 0.932314
CLF 0.037326
CLP 1029.933253
CNY 7.600257
CNH 7.607949
COP 4571.001897
CRC 523.104561
CUC 1.041231
CUP 27.592608
CVE 110.014643
CZK 25.124215
DJF 184.628074
DKK 7.457658
DOP 63.135717
DZD 140.371386
EGP 53.084848
ERN 15.618458
ETB 129.24454
FJD 2.41152
FKP 0.824636
GBP 0.82807
GEL 2.926165
GGP 0.824636
GHS 15.24117
GIP 0.824636
GMD 74.968838
GNF 8957.529568
GTQ 7.988744
GYD 216.914291
HKD 8.091022
HNL 26.318854
HRK 7.468649
HTG 135.640025
HUF 414.44462
IDR 16858.094479
ILS 3.784951
IMP 0.824636
INR 88.601952
IQD 1358.196146
IRR 43822.821093
ISK 145.095638
JEP 0.824636
JMD 162.219284
JOD 0.738439
JPY 163.034814
KES 134.683497
KGS 90.587188
KHR 4166.478445
KMF 485.34358
KPW 937.106868
KRW 1512.007243
KWD 0.320761
KYD 0.864025
KZT 544.505654
LAK 22693.139901
LBP 92844.823907
LKR 304.404352
LRD 188.179957
LSL 19.088078
LTL 3.074483
LVL 0.62983
LYD 5.094358
MAD 10.434853
MDL 19.097357
MGA 4891.820837
MKD 61.496935
MMK 3381.876049
MNT 3538.101105
MOP 8.300232
MRU 41.233769
MUR 48.781555
MVR 16.046221
MWK 1797.378204
MXN 20.905883
MYR 4.674608
MZN 66.538512
NAD 19.088078
NGN 1610.210968
NIO 38.15281
NOK 11.77626
NPR 141.031704
NZD 1.841224
OMR 0.400872
PAB 1.036831
PEN 3.860777
PGK 4.204392
PHP 60.972335
PKR 288.591389
PLN 4.256512
PYG 8084.524626
QAR 3.779662
RON 4.975999
RSD 116.979118
RUB 105.531204
RWF 1445.297097
SAR 3.912738
SBD 8.729213
SCR 14.520152
SDG 626.296741
SEK 11.493389
SGD 1.411039
SHP 0.824636
SLE 23.794301
SLL 21834.086132
SOS 592.545869
SRD 36.579493
STD 21551.369123
SVC 9.072267
SYP 2616.123123
SZL 19.083389
THB 35.54656
TJS 11.342479
TMT 3.654719
TND 3.30375
TOP 2.438663
TRY 36.671935
TTD 7.036919
TWD 34.038856
TZS 2498.953516
UAH 43.482929
UGX 3803.308389
USD 1.041231
UYU 46.244319
UZS 13367.451677
VES 53.598498
VND 26496.713159
VUV 123.61697
WST 2.876699
XAF 654.461375
XAG 0.035009
XAU 0.000396
XCD 2.813977
XDR 0.790893
XOF 654.461375
XPF 119.331742
YER 260.698065
ZAR 19.131335
ZMK 9372.319369
ZMW 28.693428
ZWL 335.275796
El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema
El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema / Foto: Fabrice COFFRINI - AFP

El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema

Los modelos de inteligencia artificial (IA) se abastecen sin parar de datos generados por la propia IA, lo que desemboca en la creación de contenidos cada vez más incoherentes, un problema que ya han señalado varios estudios científicos.

Tamaño del texto:

Los modelos en los que se basan las herramientas de IA generativa, como ChatGPT, que permiten crear todo tipo de contenidos con simples preguntas, necesitan ser ejercitados con un nombre colosal de datos.

Estos datos a menudo vienen de internet, que cada vez contiene más imágenes y textos creados por la propia IA.

Esta autoalimentación de la IA lleva a un deterioro de los modelos, que producen respuestas que van siendo cada vez menos originales y pertinentes y acaban por no tener ningún sentido, según un artículo publicado a finales de julio por la revista científica Nature.

Con el uso de este tipo de datos, llamados "datos sintéticos" porque están generados artificialmente, la muestra en la que se basan los modelos de IA para dar respuestas va perdiendo calidad.

- Como las vacas locas -

Investigadores de las Universidades de Rice y de Stanford, en Estados Unidos, llegaron a la misma conclusión analizando los modelos de IA generadores de imágenes Midjourney, Dall-E y Stable Diffusion.

Los estudios mostraron que las imágenes generadas eran cada vez menos originales e iban incorporando elementos incoherentes a medida que se añadían datos "artificiales" en el modelo, y compararon este fenómeno con la enfermedad de las vacas locas.

Esta epidemia, surgida en el Reino Unido, empezó con el uso para alimentar a los bovinos de harinas animales, obtenidas a partir de partes no consumidas de restos vacunos o de cadáveres de animales contaminados.

Las empresas del sector de la IA utilizan a menudo "datos sintéticos" para alimentar a sus programas debido a su fácil acceso, su abundancia y el bajo coste, comparado con datos creados por humanos.

Estas "fuentes de datos humanos sin explotar, de alta calidad" son cada vez más minoritarias, explica a AFP Jathan Sadowski, investigador especializado en las nuevas tecnologías de la Universidad de Monash, en Australia.

"Sin ningún control durante varias generaciones", la peor hipótesis sería que la degradación de los modelos "envenene la calidad y la diversidad de los datos en todo internet", advierte Richard Baraniuk, uno de los autores del artículo de la Universidad de Rice, en un comunicado.

Así como la crisis de las vacas locas hundió la industria cárnica en los años 1990, un internet repleto de contenidos hechos con IA y de modelos descontrolados podría amenazar el futuro del sector, en pleno auge, según los científicos.

"La verdadera pregunta para los investigadores y las empresas que construyen los sistemas de IA es: ¿cuándo el uso de los datos sintéticos es demasiado?", dice Sadowski.

- "Basura" -

Para otros especialistas, no obstante, el problema es exagerado.

Anthropic y Hugging Face, dos líderes del sector que afirman tener en cuenta el lado ético de la tecnología, confirman a AFP utilizar datos generados por la IA.

El artículo de la revista Nature presenta una perspectiva teórica interesante, pero poco realista, según Anton Lozhkov, ingeniero en aprendizaje automático en Hugging Face.

"El entrenamiento [de los modelos] en varias series de datos sintéticos es algo que simplemente no se hace en realidad", asegura.

Lozhkov admite sin embargo que los expertos de la IA se sienten frustrados ante la situación en que se encuentra internet.

"Una gran parte de internet es una basura", dice, y agrega que su empresa ha hecho grandes esfuerzos para limpiar este tipo de datos, suprimiendo a veces hasta un 90% de contenido.

(H.Schneide--BBZ)