Hoy os queremos presentar una nueva herramienta dentro del mundo de la inteligencia artificial (IA). Gracias a estas IA ya se puede generar texto que no distingamos por nosotros mismos. Por eso en determinadas facetas, se nos hace necesaria una herramienta como la que nos presenta OpenAI, el clasificador de textos de IA.
Lo que nos soluciona este AI Text Classifier es conocer si se trata de texto sintético o de texto humano.
Es importante, que se establezcan mecanismos reales que nos ayuden a conocer si un texto, una imagen o una animación ha sido generada por IA.
Se trata de evitar la desconfianza del usuario, la manipulación de noticias generadas para crear desinformación o inducir a errores sobre información falsa, incompleta o errónea.
Ante este escenario, es hora de que nos planteemos algunas preguntas.
¿En qué se diferencia un contenido escrito por humanos de un contenido creado por IA?
Nos situamos en un momento crítico. Ahora no somos capaz de diferenciar si lo que estamos leyendo lo hemos generado nosotros o ha sido un texto «sintético». Para resolver este problema, OpenAI desarrolla este clasificador de mensajes de texto de IA capaz de diferenciar entre el escrito humano y el creado por la IA.
La respuesta nos la presenta OpenAI, con herramienta «AI Text Classifier» (clasificación de texto IA).
OpenAI ha lanzado este instrumento que ayudará a conocer el tratamiento del lenguaje natural (LN). Los modelos de IA generativa, como GPT-3, tienen la capacidad de generar texto similar al de un ser humano. Aquí es donde reside el problema.
El proceso implica Machine Learning (aprendizaje automático), que es una rama de la IA, en el que se entrena a un modelo con una gran cantidad de datos. Este modelo identifica patrones de contenido escrito por humanos de patrones de contenido generado por IA. Una vez entrenado, el modelo podrá analizar nuevos textos y predecir si fueron escrito por humanos o por máquinas.
¿Cuáles son las características diferenciadoras que busca un clasificador de texto de IA?
Aunque las características específicas pueden variar y, a menudo, son complejas, pueden incluir una serie de requisitos:
- Repeticiones de contenido.
- Patrones de uso de palabras.
- Estructuras de las oraciones.
- Tokens generados.
CATEGORÍAS DEL RESULTADO establecido por OpenAI;
- Very unlikely to be AI-generated – «Es muy poco probable que sea generado por IA» corresponde a un umbral de clasificador de <0,1. Alrededor del 5 % del texto fue escrito por humanos y el 2 % del texto fue generado por IA.
- Unlikely to be AI-generated – «Improbable que sea generado por IA» corresponde a un umbral de clasificador entre 0,1 y 0,45. Aproximadamente el 15 % del texto fue escrito por humanos y el 10 % del texto fue generado por IA.
- Unclear if it is AI written – «No está claro si está escrito en IA» corresponde a un umbral clasificador entre 0,45 y 0,9. Alrededor del 50 % del texto fue escrito por humanos y el 34 % del texto fue generado por IA.
- Possibly AI-generated – «Posiblemente generado por IA» corresponde a un umbral de clasificador entre 0,9 y 0,98. Alrededor del 21 % del texto fue escrito por humanos y el 28 % del texto generado por IA.
- Likely AI-generated – «Probablemente generado por IA» corresponde a un umbral de clasificador > 0,98. Alrededor del 9 % del texto fue escrito por humanos y el 26 % del texto fue generado por IA.
LIMITACIONES
No vamos a obtener una clasificación de texto generado 100% por personas, si añadimos una serie de limitaciones.
El idioma inglés nos limitará enormemente en su detección. Si añadimos texto original o concepto que son inalterables, que no se pueden expresar de otra manera como por ejemplo artículos de una ley, números primos o estructura de una frase, entenderá que eso tampoco está realizado por un humano completamente.
- IDIOMA: El modelo se entrena principalmente con los datos de texto en inglés (tanto para el conjunto de datos escrito por el ser humano como para el conjunto de datos escrito por el modelo).
- EJEMPLOS: La evaluación de los modelos se realizan principalmente con ejemplos en inglés. Por eso encontramos un peor rendimiento en textos que no son en inglés. Por ejemplo, la interpretación de sentencias en español.
- CARACTERES: Aquellos textos que contienen menos de 1.000 caracteres también son más difíciles de evaluar.
- TEXTO ORIGINAL: Tampoco puede clasificar de forma fiable el texto que es predecible. Por ejemplo, es imposible predecir si una lista de los primeros 1000 números primos fue generada por IA o escrita por un ser humano, porque la respuesta correcta es siempre la misma.
- TEXTO ORIGINAL escrito por MENORES: también le cuesta reconocer el contenido realizado por menores de edad, debido a su peculiar forma de comunicarse.
Las aplicaciones de esta tecnología son muy amplias.
Las aplicaciones de esta tecnología son amplias. Se puede utilizar para;
- Detectar «DeepFake» generado por IA en las redes sociales o artículos de noticias.
- Garantizar la confiabilidad de la información, para evitar la propagación de artículos falsos.
- Revisión en contextos académicos o profesionales para garantizar la autenticidad del trabajo.
- Sin embargo, es importante señalar que esta tecnología no es infalible. -
Es una herramienta que puede ayudar a diferenciar entre texto generado por humanos y generado por IA, pero no es fiable 100%.
La calidad del texto generado por la IA mejora cada día, lo que hace que sea cada vez más difícil la tarea de diferenciarlo. Además, OpenAI está mejorando constantemente sus modelos de generación de contenido con la tecnología de IA.
Aunque AI Text Classifier es una herramienta muy potente, también plantea consideraciones éticas. El uso de esta tecnología debe respetar siempre la privacidad y confidencialidad del usuario. OpenAI tiene sus propias políticas para garantizar que el uso ético de su tecnología.
AI Text Classifier de OpenAI se presenta como una solución inicial para el creciente desafío de diferenciar el contenido escrito por humanos y el generado por IA. A medida que la IA continúa evolucionando y se vuelve más sofisticada, herramientas como esta desempeñarán un papel importante para mantener la transparencia, la autenticidad y la confianza en el mundo digital.
RETOS
En el futuro será esencial contar con más herramientas que nos ayuden a clasificar el tipo de contenido generado. Por lo tanto, la clasificación de texto por IA no es solo una innovación tecnológica, sino también una herramienta para luchar contra la desinformación y un instrumento de verificación del contenido que encontramos a diario.
Pero no debemos olvidar que pese a clasificar texto, puede cometer errores. Un texto 100% original escrito por humanos, puede que lo identifique como falso positivo. Por lo tanto, no podemos darle el poder pleno a estas herramientas para decidir sobre todo y sobre todos.
Un falso positivo sucede cuando un texto escrito completamente por un humano es identificado como un texto generado con IA.
Existen más herramientas de identificación de textos generados por IA, como por ejemplo; AI DETECTOR, ZEROGPT
Para seguir la actualidad de las noticias más interesantes sobre robótica colaborativa e inteligencia artificial, no dudes en visitar nuestras Últimas noticias.