Este robot escribe textos de forma parecida a la de humanos. Ya engañó a miles de personas

Programas de computadora avanzados que permiten generar textos con base en la imitación de modelos de escritura humanos generan preocupación por la posibilidad de que se usen para crear información falsa o propaganda de forma rápida y barata.
GPT-3 genera textos simulando el lenguaje humano, y para eso se basa en un conjunto masivo de datos publicados en Internet.
GPT-3 genera textos simulando el lenguaje humano, y para eso se basa en un conjunto masivo de datos publicados en Internet. Getty Images

Por Melanie Ehrenkranz - NBC News

En agosto, una entrada de un blog que trataba sobre la productividad personal apareció publicada en Hacker News, un sitio web y foro de mensajes muy conocido en los círculos de Silicon Valley, y que se centra en el mundo de la informática y el espíritu empresarial.

No había nada muy singular en esta publicación. El texto ofrecía consejos sencillos y relativamente comunes. Algunos lectores comentaron sus méritos y ofrecieron sus propias opiniones sobre cómo ser más productivos.

Algunos, sin embargo, encontraron la publicación un poco sospechosa.

"Esto es algo escrito por GPT-3, o el equivalente humano", comentó una persona. "Cero contenido sustancial, pura regurgitación".

Otra persona hizo la misma observación: "Creo que esto fue escrito por GPT-3".

Resulta que tenían razón.

El texto fue escrito casi en su totalidad por un software llamado Generative Pre-training Transformer 3, o GPT-3. Liam Porr, un estudiante de informática de la Universidad de California, Berkeley, utilizó este nuevo modelo de aprendizaje automático para generar la publicación con la intención de engañar al público haciéndole creer que era el producto de una mente humana.

El estudiante quería comprobar qué tan bueno es GPT-3.

"Con algo como un modelo de lenguaje, no hay una buena forma cuantitativa de ver qué tan bueno es, porque el lenguaje y la escritura son cualitativos", dijo Porr. "Con este tipo de experimento, puedo decir concretamente que 20,000 personas visitaron mi sitio web y solo tres tuvieron el sentido común de decir que fue escrito por un robot".

GPT-3 no es el primer programa de lenguaje natural de su tipo, pero ya ha recibido una atención generalizada por lo bueno que es imitando la escritura humana simple.

Pero su lanzamiento al mundo, aunque no es del todo público, ha provocado cierta preocupación de que podría utilizarse para generar información errónea o propaganda de forma rápida y barata. Si bien fue un experimento inofensivo, la publicación de Porr ofreció un ejemplo concreto del riesgo.

GPT-3, como otros software avanzados que se ha difundido a través de Internet, causa alarma. La llamada tecnología deepfake, que puede construir videos manipulados de personas, se ha vuelto lo suficientemente común como para generar debate en las audiencias del Congreso de Estados Unidos.

Pero esta tecnología también ha sido bien recibida por algunos tecnólogos que ya la están utilizando para automatizar partes de sus operaciones de trabajo.

OpenAI, un laboratorio de investigación de inteligencia artificial, anunció GPT-3 en julio. Para simular el lenguaje humano, este modelo que autocompleta textos fue entrenado basándose en un conjunto de datos masivo: 60 millones de dominios en Internet y los sitios a los que navegan, así como otros sitios y textos con los que los investigadores lo alimentaron.

El programa no puede pensar por sí mismo. En cambio, puede tomar el simple pensamiento de una persona y adivinar lo que vendrá después.

Las personas interesadas en experimentar con este generador de lenguaje pueden solicitar acceso al laboratorio de investigación. Porr dijo que era bastante fácil para él obtener acceso gracias a sus conexiones con su comunidad universitaria de aprendizaje automático. OpenAI también ha puesto a disposición comercial la interfaz de programación de aplicaciones de GPT-3.

Según los numerosos casos de personas que han usado GTP-3 en línea (desde aficionados hasta expertos en aprendizaje automático, etcétera) no han encontrado demasiados obstáculos para acceder a esta simple, pero poderosa tecnología.

Francis Jervis, fundador de Augrented, una organización automatizada de derechos para inquilinos de lujo, es uno de los que obtuvieron acceso anticipado a GPT-3.

Jervis usa la herramienta para ayudar a los inquilinos a automatizar las respuestas a las órdenes de desalojo de los propietarios. Los inquilinos pueden ingresar de cuatro a cinco bullet points dando razones para no ser desalojados, y GPT-3 genera un párrafo que funge como plantilla de carta de negociación. Jervis dijo que los usuarios deben verificar el texto que genera el programa.

"Ocasionalmente agregará detalles creativos, que podrían no ser 100% apropiados para usar en este tipo de contexto", dijo. "Es por eso que no lo usaría para documentación legal".

Qasim Munye, quien estudia medicina en el King's College de Londres, solicitó el acceso a GPT-3 tan pronto como se lanzó, y obtuvo aprobación unas semanas después. Incorporó la herramienta a su ya existente aplicación para iOS, Shortly, que ayuda a los usuarios a escribir cuentos cortos.

"Yo no usaría esta tecnología para cosas verdaderamente importantes", dijo. "Muchas veces trabajará de manera incorrecta. Por eso la uso donde la verdad no es importante, y la ficción es un ejemplo de eso".

El potencial de GPT-3 para ser profundamente inexacto no ha inhibido a quienes tienen acceso a usarlo como fuente de conocimiento e iluminación. Learn From Anyone, un software que crea conversaciones individuales con personajes famosos o históricos, funciona con GPT-3.

"¿Alguna vez quisiste aprender acerca de los cohetes de Elon Musk? ¿Cómo escribir mejor que Shakespeare? ¿La filosofía de Aristóteles? GPT-3 lo hizo posible", tuiteó en julio su fundador, McKay Wrigley.

Y las cuestiones de validez no son lo único que hay que considerar. GPT-3 es un modelo entrenado en conocimiento colgado en Internet, que incluye casi 500 mil millones de palabras de Wikipedia, fan fiction y la plataforma Reddit. Como se ha demostrado repetidamente, Internet está plagado de prejuicios y discriminación, algo que puede integrarse en sistemas automatizados.

Animashree Anandkumar, profesora de informática en el Instituto de Tecnología de California, dijo que, como investigadora que trabaja en el área de la inteligencia artificial, quiere usar este tipo de modelos en beneficio de la humanidad. Y que eso significa reconstruir los cimientos de la propia industria.

Dijo que el uso de contenido colgado en Internet por parte de GPT-3 para entrenar sus sistemas, como Reddit, puede introducir sesgos.

"Ciertamente no fue una persona minoritaria la que decidió usar enlaces de Reddit", dijo, y agregó que ha recibido amenazas de usuarios en este sitio de agregación de noticias. Dijo que una decisión como esa resalta la falta de diversidad en los equipos que construyen las tecnologías.

"Ya hay muchos ejemplos de aplicaciones que discriminan a mujeres y minorías", dijo Anandkumar. "Si esto se usa como una forma de generar texto, solo generaría ciertos tipos de lenguaje de género y no propiciaría un enfoque imparcial de género, raza, religión y muchos otros aspectos".

OpenAI se negó a comentar al respecto, pero abordó los posibles daños y sesgos de su modelo de inteligencia artificial en una publicación.

Anandkumar dijo que GPT-3 no puede reemplazar a un periodista humano porque no conoce los sucesos del mundo y no puede diferenciar los hechos de la ficción. Dijo que será una gran fuente de noticias falsas y que, si bien puede ser una forma divertida de ver lo que genera la herramienta en la ficción, también allí tiene problemas todavía.

Enfatizó el peligro de que el público esté expuesto a “las historias que genera GPT-3”, si estas “tienen un mal enfoque de género y sexismo y racismo”.

"Me preocupa que si estamos constantemente expuestos a modelos de inteligencia artificial como GPT-3 que están sesgados, que amplifican aún más el sesgo y continúan propagándolo, ¿cuál es su impacto en la psicología humana?".