El 1936, Alan Turing va publicar un article que va marcar un abans i un després en la percepció del que les màquines podrien assolir. Turing va abordar la qüestió de la computabilitat, definint com a computables aquells problemes matemàtics solucionables a través d’un procés pas a pas, un algoritme. Turing ens donava una notícia dolenta i una de bona. La dolenta és que certs problemes matemàtics manquen de solució algorítmica. La bona és que per a la resta de problemes sí que existeix un algoritme que el soluciona i aquest algoritme és reproduïble per un dispositiu mecànic amb un conjunt d’operacions molt bàsiques anomenat “màquina de Turing“.
La creació de les primeres computadores, equivalents pràctics de la màquina de Turing, va inspirar a alguns científics a plantejar si el pensament humà podria replicar-se de manera algorítmica. Així, a l’estiu de 1956, un grup de deu científics es va congregar al Dartmouth College per explorar la possibilitat de simular cada aspecte de la intel·ligència mitjançant màquines. A aquest programa de recerca li van donar el nom d’”Intel·ligència Artificial” (IA)
El camp de la IA va néixer de diverses “escoles de pensament” que han anat evolucionant i ramificant-se en aquest mig segle. Curiosament, l’escola que actualment domina el camp, la conexionista, hereta molt d’una branca, la cibernètica, que no va ser convidada a la trobada de Dartmouth a causa de rivalitats entre el seu representant, Norbert Wiener, i els organitzadors de la trobada. La cibernètica és l’estudi de sistemes automàtics que utilitzen mecanismes de retroalimentació per millorar-se a si mateixos.
L’escola conexionista deu el seu èxit a la idea d’utilitzar “xarxes neuronals artificials” com el mecanisme per aprendre a través d’aquesta retroalimentació. Les xarxes neuronals s’inspiren de les connexions neuronals del cervell humà. Una neurona s’activa si un nombre suficient de neurones connectades a ella també s’activen. Més exactament, cada neurona va ajustant la importància que li dona a l’activació de cada veïna. Aquests ajustos es van actualitzant al llarg i ample de la xarxa fins que les neurones que estan a la capa de sortida generen la sortida correcta per als exemples donats a l’entrada. A aquest protocol se l’anomena “entrenament”. La idea de les xarxes neuronals ja existia als anys 70. El seu èxit rotund en l’última dècada es deu a dos elements clau. D’una banda, la disponibilitat de potències de càlcul que permeten xarxes neuronals gegants que gairebé no caben en la memòria d’un sol ordinador. D’altra banda, la disponibilitat, gràcies a internet, de quantitats estratosfèriques d’exemples amb els quals “entrenar” aquestes xarxes neuronals gegants. Des de 2010, les xarxes neuronals gegants (tècnicament anomenades profundes) assoleixen rendiments a nivells humans en tasques com el reconeixement d’imatges i fins i tot la traducció automàtica.
El 2017 comença a gestar-se la següent revolució en el camp de la IA. Un grup d’investigadors de Google proposa un tipus de xarxa neuronal anomenada “transformadors“, la principal novetat era que podia entrenar-se en milers de processadors en paral·lel, permetent així multiplicar la quantitat de dades d’entrenament. És aquí quan es va produir un descobriment que ningú esperava. Un altre grup d’investigadors d’OpenAI va entrenar una xarxa neural per comportar-se com el que es coneix com un “model de llenguatge”, que consisteix en la simple tasca de predir la següent paraula en un corpus textual. És a dir, si a l’entrada del sistema li presentem la frase “el gos de San Roque no té”, li donarem retroalimentació positiva si la sortida és “cua” i retroalimentació negativa si és qualsevol altra cosa. Van observar que, quan el corpus era prou gran i divers, la xarxa acabava d’alguna manera codificant a l’interior una representació del món, el que permetia utilitzar-la per a moltes altres tasques per a les quals no havia estat explícitament entrenada: resum de textos, explicar acudits, raonaments lògics. A aquests models els van donar el nom de Transformadors Generatius Preentrenats (GPT).
El 2022, els investigadors d’OpenAI afegeixen dues noves etapes d’entrenament al seu últim model GPT-3, una consistent a presentar-se exemples de preguntes i respostes, i una última on avaluadors humans (treballadors nigerians) valoraven numèricament aquestes respostes. Donat que gràcies a això el model adquiria capacitats de dialogar fluidament amb els usuaris, el van anomenar ChatGPT. La qualitat de les respostes donades per
ChatGPT ha sorprès, fins i tot, als seus propis creadors, que han advertit de la necessitat d’un marc regulador per limitar els mals usos d’aquestes tecnologies.
Pocs mesos després de la sortida de ChatGPT, Microsoft es va convertir en l’inversor més gran d’OpenAI amb un 49% de la propietat de l’empresa. La resta de gegants tecnològics com Meta i Google també han tret les seves pròpies versions (Llama i Gemini), i es van multiplicar les iniciatives de programari lliure que intenten entrenar models similars per posar-los a disposició de tothom.
El que fa entreveure ChatGPT no és simplement un sistema de IA més acotat a certes aplicacions. La potencialitat d’aquest tipus de models ens ha posat a les portes d’una revolució tecnològica amb conseqüències socials i econòmiques difícils de predir, i potser de l’ordre de la màquina de vapor o d’internet. Entre les possibilitats que ofereixen aquests sistemes s’inclouen una nova onada d’automatització de processos, o assistents digitals per a tota mena de tasques, des de l’àmbit professional (la majoria de programadors informàtics ja utilitzen codi generat per aquests sistemes en el seu dia a dia), fins al domèstic.
Els veritables reptes de la IA
La nostra tendència antropomòrfica així com les nostres filies i fòbies alimentades per la ciència-ficció han generat debats sobre si aquestes màquines seran capaces de sentir com nosaltres, o fins i tot rebel·lar-se contra nosaltres. Fins i tot lingüistes com Chomsky s’esforcen a deixar clar que ChatGPT no pensa de veritat [1]. Però sense minimitzar la importància de les noves perspectives que aquests avenços poden aportar a camps com la filosofia, la lingüística, o la psicologia, en cert sentit preguntar-se si la màquina pensa com un humà és com preguntar-se si el submarí “neda” com un peix. Que la màquina no pensi com un humà no disminueix els efectes que la seva irrupció tindrà en les nostres societats.
Des de l’última revolució d’internet el somni d’una utopia de compartir coneixement conviu (pitjor que millor) amb el malson monopolístic i de la concentració de poder que ja vèiem en el món analògic. De la mateixa manera, la revolució de la IA ve carregada d’utopia i de distopia. Més enllà de disquisicions metafísiques sobre què és la intel·ligència o si la humana és l’única intel·ligència possible, els veritables reptes que planteja aquesta nova tecnologia són molt més tangibles.
El control dels mitjans de producció (GPU)
Els mitjans de producció en l’era dels grans models de llenguatge (GML) són uns processadors especials anomenats GPU fabricats gairebé exclusivament per NVIDIA. Per entrenar ChatGPT, OpenAI va utilitzar 1000 processadors GPU durant un mes, el que entre hardware i electricitat li va suposar uns 4 milions de dòlars. Es preveu que les següents versions costin uns 2500 milions d’euros [2]. Són molt poques les institucions públiques o privades que poden permetre’s aquest tipus de despesa. La compra més gran de GPU fins ara l’ha anunciat Princeton, que ha aconseguit 9 milions de dòlars per comprar 300 GPU, molt per sota de les capacitats de la indústria privada. Tot i això, Princeton ha tingut sort, donat que NVIDIA està rebutjant les comandes de la majoria de clients per centrar-se en les necessitats dels grans.
La concentració d’aquests mitjans de producció en unes poques mans planteja problemes com l’opacitat dels seus models. Com que no es té accés a les dades utilitzades per aquestes empreses per entrenar els seus models, no podem analitzar bé els biaixos que interioritzen a partir d’aquestes dades. Així, els models poden acabar afirmant coses com “l’home és a un metge el que una dona a una infermera”, o que una persona negra que apareix en una foto vestida de civil a la porta de la presó és un presidiari i una persona blanca en el mateix context és un funcionari de presons. El control d’aquest tipus de biaixos és imprescindible a mesura que aquests models s’incorporin en processos de presa de decisions en camps com els recursos humans, la medicina, o la justícia.
La creació de models de programari lliure, oberts i transparents és l’única manera de garantir un control i un accés democràtic a aquests.
El robatori de la matèria primera (dades)
Si les GPU són el mitjà de producció, les dades són la matèria primera que aquests mitjans acaben transformant en mercaderia-coneixement. Els models d’IA s’entrenen utilitzant grans volums de dades, que sovint inclouen textos, imatges, i altres tipus de continguts produïts per humans sense ànim de lucre. Des de respostes en fòrums fins a vídeos de YouTube, passant per codi informàtic compartit amb la comunitat per al seu ús lliure.
Aquest aprofitament de la informació pública i creada per usuaris planteja un dilema ètic i legal. Alguns il·lustradors i artistes gràfics ja han expressat preocupacions sobre com les grans empreses de tecnologia utilitzen les seves obres per entrenar models de generació d’imatges sense el seu permís explícit ni compensació. Aquestes preocupacions s’han intensificat amb la creació de models capaços de generar art en estils que imiten a artistes específics.
Aquesta apropiació no consentida del comú recorda als processos d’acumulació primitiva del capital mitjançant l’apropiació de terres comunals, en el sentit que tal apropiació és forçada i que, un cop aconseguida, serà difícil desfer-la.
Els impactes mediambientals
Si, com explica el periodista Guillaume Pitron al seu llibre “L’infern digital”, internet ja consumeix un 10% de l’electricitat mundial i suposa un 4% de les emissions de CO₂, és d’esperar que els grans models de llenguatge facin augmentar ràpidament aquesta factura. Entrenar un model com ChatGPT consumeix el mateix que 1000 llars nord-americanes en un any (10 GWh). Un cop entrenat cada consulta d’un usuari consumeix deu vegades més que una consulta a Google (un total d’1 GWh al dia). Sense comptar amb la generació de so, imatges, i sobretot vídeo, capacitats que ja han començat a incorporar-se a aquests sistemes.
Actualment, hi ha una carrera cap a models més energèticament eficients. Això podria fins i tot disminuir les emissions globals de CO₂ si la IA s’utilitzés per optimitzar les cadenes de producció actuals. No obstant això, en el marc de la societat de consum és d’esperar que es compleixi de nou la paradoxa de Jevons, on la millora en l’eficiència en l’ús d’un recurs augmenta el consum total d’aquest recurs.
Plusvàlua
La incorporació dels models de llenguatge és les cadenes de valor ja està incrementant la productivitat. Com tota tecnologia precedent, no podem esperar, que aquest augment de productivitat reverteixi en una disminució de la jornada laboral o en un increment salarial. Al contrari, els accionistes veuen en aquesta tecnologia una nova oportunitat de reducció de costos. El gremi de les traductores, per exemple, on abunden els treballadors autònoms, ja està veient com les agències no només esperen traduccions més ràpides, sinó que estan pressionant les tarifes a la baixa.
La batalla que es planteja és, de nou, per evitar una nova font de plusvàlua per als accionistes, com a mínim per la via dels impostos. D’una altra manera, el robatori seria doble, ja que la immensa majoria dels avenços que han desembocat en els models actuals d’IA han estat finançats per fons públics.
Notes
[1] https://sinpermiso.info/textos/la-falsa-promesa-de-chatgpt
[2] https://mpost.io/gpt-5-training-will-cost-2-5-billion-and-start-next-year/