Saltar al contenido
Benchmark, 2.400 muestras

Datos de precisión

Metodología completa y resultados del benchmark independiente.

Resultados generales

#1
Originality.aioriginality.ai
91%
#2
GPTZerogptzero.me
87%
#3
Copyleakscopyleaks.com
79%
#4
Sapling AIsapling.ai
76%
#5
Writer.comwriter.com
84%
#6
Hive Moderationthehive.ai
88%
Benchmark de precisión, 2.400 muestras
#HerramientaPrecisiónFalso pos.Falso neg.LatenciaPrecioPunt.
#1 Originality.aioriginality.ai
91%
7% 11% 420ms De pago 4.6/5
#2 GPTZerogptzero.me
87%
10% 15% 380ms Freemium 4.1/5
#3 Copyleakscopyleaks.com
79%
12% 22% 510ms Freemium 3.7/5
#4 Sapling AIsapling.ai
76%
17% 24% 610ms Freemium 3.2/5
#5 Writer.comwriter.com
84%
8% 18% 290ms De pago 3.9/5
#6 Hive Moderationthehive.ai
88%
9% 12% 340ms De pago 4.2/5

Metodología

Corpus

Textos humanos (1.200): 240 muestras por categoría: ensayos académicos, periodismo, marketing, documentación técnica, escritura creativa. Verificados como anteriores a 2022.

Textos de IA (1.200): 300 por modelo: Claude 3.5 Sonnet, GPT-4o, Gemini 1.5 Pro, Llama 3.1 70B. Sin instrucciones para evadir detección.

Métricas

Precisión general = (VP + VN) / 2.400. FPR = FP / 1.200 muestras humanas. FNR = FN / 1.200 muestras de IA. Latencia = mediana de 100 llamadas.

Por categoria

Académica: GPTZero mejor rendimiento; mayor FPR en STEM. Periodismo: más fácil, media 86%. Marketing: más difícil, media 79%. Técnica: mayor FPR; Sapling marcó 31% de documentación humana como IA.

Tasas de evasión

14 humanizadoras contra 6 detectores: 23%-91% de evasión. Originality.ai más resistente: cayó de 91% a 67% con texto humanizado.

Independencia

Sin afiliados ni patrocinios. Acceso a APIs pagado a tarifas estándar. Proveedores no notificados.

Preguntas frecuentes

¿Qué porcentaje de error es aceptable en un detector de IA?

No existe un umbral universal, pero en contextos académicos una tasa de falsos positivos superior al 10% se considera problemática. Esto significa que más de 1 de cada 10 textos humanos sería señalado incorrectamente, lo cual puede tener consecuencias graves para los estudiantes afectados.

¿Cómo se mide la precisión en textos bilingües español-inglés?

Los textos que mezclan idiomas presentan desafíos particulares para los detectores. En nuestro benchmark, las muestras con code-switching español-inglés redujeron la precisión promedio en 8 puntos porcentuales. Los detectores tienden a clasificar las secciones en inglés con mayor fiabilidad que las escritas en español.

¿Los textos editados después de ser generados por IA son detectables?

Depende del grado de edición. Correcciones menores de ortografía o puntuación no alteran la detección. Ediciones sustanciales que modifiquen entre el 30% y el 50% del texto pueden reducir la probabilidad reportada, aunque rara vez la eliminan por completo si la estructura base permanece intacta.

¿Existe algún estándar internacional para medir la precisión?

Actualmente no hay un estándar ISO o IEEE específico para benchmarks de detección de IA. Organizaciones como NIST y la Unión Europea están trabajando en marcos de evaluación, pero por ahora cada estudio define su propia metodología. Por eso publicamos nuestros criterios de forma transparente.

¿La longitud del texto influye en la confiabilidad del resultado?

Sí, significativamente. Textos menores a 50 palabras producen resultados poco confiables porque no ofrecen suficiente información estadística. La precisión mejora de forma consistente hasta las 250 palabras. A partir de ese punto, el beneficio adicional es marginal en la mayoría de los detectores.