11-aprendizaje-incestuoso - DavidHurtado.ai

# 11 - Aprendizaje Incestuoso Newsletter 11, Aprendizaje Incestuoso // nuevo número sobre el Aprendizaje Incestuoso y la era del contenido generado por IA en Internet. Ayer domingo por la tarde tenía que trabajar un rato, pero ciertamente el artículo que compartió Oscar Campillo es mucho más interesante, así que me lo leí, le pedí opinión a Máquina y estuvimos reflexionando y aprendiendo juntos sobre conceptos como la forma esa de apreder pecaminosa. Y de ahí a un nuevo número de la Newsletter hay un pequeño pasito. Así que allá va. --- Bonus: premio para el caballero o dama que se dedica a antropomorfizar a la IA con términos horribles como Aprendizaje Incestuoso, Alucinación, Olvido Catastrófico y demás nombres-diseñados-para-que-no-cambies-de-canal. Olvido catastrófico. En serio, hay algo llamado así oficialmente, que ni es _olvido_ y ni es _catastrófico_. Pero consigues likes. De hecho, yo lo he usado un pelím como click-bait al inicio :-) [https://www.linkedin.com/posts/oscarcampillo_the-era-of-the-ai-generated-internet-is-already-activity-7159088052118732800-FIQS?utm_source=share&utm_medium=member_desktop](https://www.linkedin.com/posts/oscarcampillo_the-era-of-the-ai-generated-internet-is-already-activity-7159088052118732800-FIQS?utm_source=share&utm_medium=member_desktop) ![Exported image](Newsletter/2024/attachments/Newsletter%2011%20-%20Aprendizaje%20Incestuoso.md/Exported%20image%2020240705224455-0.png) Newsletter 11 - La Paradoja de la Información y el Aprendizaje Incestuoso Hoy venimos de un artículo de Mashable que encontré en una publicación de Oscar Campillo, y que da para mucho que estudiar y reflexionar. El artículo habla de la situación, que ya estamos viviendo, de que Internet se está llenando de contenido generado por IA. Contenido homogéneo, repetitivo, donde la calidad y la orginalidad están en declive. Y encima, a esto se une el concepto (mal) llamado Aprendizaje Incestuoso. Esto me resulta especialmente interesante, así que vamos a ver qué narices es, y más abajo os dejo el resumen del artículo y un diagrama -sorprendente- del mismo. Disclaimer innecesario: todo esto es una excusa para hablaros de la Paradoja de la Información, término que me acabo de inventar. Apendizaje Incestuoso y la paradoja de la información # Aprendizaje Incestuoso ![Exported image](Newsletter/2024/attachments/Newsletter%2011%20-%20Aprendizaje%20Incestuoso.md/Exported%20image%2020240705224455-1.png) Esto es, tenemos LLMs que aprenden a partir de contenido de Internet. Pero si Internet se está llenando de contenido generado por LLMs, eso significa que los LLMs están aprendiendo de contenido propio. La consecuencia es un contenido cada vez más genérico, con menos calidad y con una diversidad y originalidad que se va diluyendo. Me parece relevante porque la consecuencia se resume en una frase lapidaria que alguien me dijo hace poco o que leí por ahí: - ¿Cada vez que entras en Internet tienes la sensación de que casi todo el contenido que se te muestra es parecido y sospechosamente es justo lo que te gusta? Pues la IA Generativa va a multiplicar eso por 100 ![Exported image](Newsletter/2024/attachments/Newsletter%2011%20-%20Aprendizaje%20Incestuoso.md/Exported%20image%2020240705224455-2.png) # La Paradoja de la Información Efectivamente, me informa Máquina de que el término ya existe y se usa en diversos contextos, pero mi apreciación es ligeramente distinta a lo que he visto por ahí, así que allá voy: Me da la sensación de que, cuanta más información tenemos, más tontos nos volvemos. Dos ejemplos: la TV y las redes sociales. Pasó con la TV y la telebasura: conforme aparecían más y más canales de TV, la calidad general bajó muchísimo. Hasta el punto de aparecer el término "telebasura" y ser, de lejos, el género más popular que arrinconó a prácticamente todo lo demás. La conclusión después de 25 años de telebasura, en mi impopular opinión personal, es una población general más tonta que antes, en gran medida a causa del tipo de contenido que se consume. Pasó con la "socialización" de Internet. Facebook, y algunas locales como Tuenti, aparecieron como solución a una Internet unidireccional donde no sólo habría "contenido generado por el usuario". Además, podríamos socializar más con personas afines o interesantes a lo largo y ancho del mundo. La conclusión generalizada es que las redes sociales son una pérdida de tiempo, en parte porque el contenido que triunfa suele ser de muy baja calidad. Las redes sociales de microcontenidos de scroll infinito se consideran veneno para el cerebro según los psicólogos. Hay muchos estudios que cuentan cómo los jóvenes de ahora tienen problemas de socialización en el mundo real. # ¿Y el contenido generado por IA? Volviendo al contenido generado por IA. ¿Qué puede pasar? Pues yo creo que 2 cosas: ## Contenido actual Por un lado, el contenido actual. Internet se va a llenar -ya está ocurriendo- de contenido generado por IA. En el peor de los casos, este contenido es malo, erróneo y no verificado. No se trata sólo de que incluya datos incorrectos, que es algo más o menos fácil de identificar, sino que incluya razonamientos erróneos o falaces. Esto es peligroso. Ad Hominen, Pendiente Resbaladiza, Hombre de Paja, Falsa Dicotomía, Apelación a la Ignorancia, Carga de la Prueba, Generalización Apresurada, etc. El diccionario de falacias es maravilloso. En el mejor de los casos, el contenido es uniforme y carente de estilo propio, de personalidad. Esto que ya pasa en Netflix y similares y los críticos lo llaman "cine algoritmo". Películas que son una copia de una copia de una copia... Nota: el otro día mi hijo mayor me dijo que le había gustado mucho la peli de El Creador porque "tiene personalidad". ## Contenido futuro El otro problema, el del Aprendizaje Incestuoso, es lo que nos viene a decir que esto va a peor (facepalm) O sea, que los propios LLMs irán degradándose. Esto me parece interesante desde el punto de vista técnico y de evolución de la IA, pero no creo que ocurra. Simplemente, los creadores de los LLMs lo corregirán. Nadie sacará una versión superior de un LLM peor que la anterior... ...salvo que la degradación ocurra muy lentamente y no nos demos cuenta :-O # La solución positiva La solución a todo esto es clara y sencilla: Reniega del contenido genérico. Rechaza el contenido generado enteramente por IA si buscas materia gris. Agradece a los humanos que crean contenido propio de calidad. Agradece a los humanos que se ayudan de la IA para crear más y mejor contenido. Sé crítico. Cuestiona todo. --- Artículo "The Era of the AI-generated Internet is Already Here", by Mashable Enlace --> [https://mashable.com/article/ai-generated-internet-era-already-here](https://mashable.com/article/ai-generated-internet-era-already-here) # Resumen, ayudado por Máquina. El artículo de Mashable discute las implicaciones de la creciente presencia de contenido generado por IA en internet, destacando el problema de la degradación de la calidad del contenido web. La facilidad para producir grandes cantidades de contenido plantea inquietudes sobre la precisión y la desinformación. El problema a largo plazo es la degradación completa del contenido web, que se convierte en inservible. El problema radica en el "aprendizaje incestuoso" de los modelos de lenguaje de gran escala (LLMs), que se alimentan del contenido generado por otros LLMs, reduciendo la calidad y diversidad del contenido. Cada generación sucesiva de LLMs se entrena más en contenido generado por IA, llevando a un futuro web homogéneo y poco confiable. El artículo menciona también preocupaciones sobre la infracción de derechos de autor y leyes de propiedad intelectual. Sin embargo, la caída en la calidad general del contenido online es un fenómeno más insidioso, con estudios que demuestran el deterioro en la diversidad y calidad del contenido generado por IA con cada generación sucesiva de modelos. # El Diagrama creativo e irreverente Le he pedido a Máquina que me haga un diagrama habitual sobre las ideas del artículo, pero que sea creativo e incluso irreverente. Me encanta la cantidad de expresiones añadidas de cosecha propia. Cosas como "El Duelo de los Doppelgängers", "El Vals de los Clones", "Ecos de Eco", "Mar de Monotonía" y muchas más. ![enem T ransțorma Necesita on en' Impacto en la Creatîvîc.lod Q onduce Caus Amenazo. Retos bemo.nclo. Inseîra o e Expresî6n Humana; Sînțonľo. IAS Sîngularîdades Regu osQîôneS Resulta en Provoc Foment reserva om ent Rețuerza Mace de Ineluct esosrroll Contenîdo Reeełîłîvo; Ecos de Eco cle Monotonľo. Dîsmînueî6n de Autentîeîdad; El Vals de los Clones PĆrdîclos Proeundîclod; El AGîSmo Sueerâeîal Orî$înalîdad; El To.rdľn cle Sngulo.res Innovaeî6n;- Făgrîea cle -IO Ineseeracko berechos cle Autor PI; El Escudo de Prometeo Lîmîłaeîones Legales; El Romeeeagezas Regulatorîo Colagoraeîones Al—Humano; Co. Dosnza Io Divergente Modelos cle Megoeîo Innovodores; El de Io Ingenîoso VerîŠQQQî6n Watermarkîng•.î Los Detectîves de htos Antî—Seraeîng Tech; LOS MînăAS cle la ](Newsletter/2024/attachments/Newsletter%2011%20-%20Aprendizaje%20Incestuoso.md/Exported%20image%2020240705224455-3.png)