Datos de precisión
Metodología completa y resultados del benchmark independiente.
Resultados generales
| # | Herramienta | Precisión | Falso pos. | Falso neg. | Latencia | Precio | Punt. |
|---|---|---|---|---|---|---|---|
| #1 | Originality.aioriginality.ai | 7% | 11% | 420ms | De pago | 4.6/5 | |
| #2 | GPTZerogptzero.me | 10% | 15% | 380ms | Freemium | 4.1/5 | |
| #3 | Copyleakscopyleaks.com | 12% | 22% | 510ms | Freemium | 3.7/5 | |
| #4 | Sapling AIsapling.ai | 17% | 24% | 610ms | Freemium | 3.2/5 | |
| #5 | Writer.comwriter.com | 8% | 18% | 290ms | De pago | 3.9/5 | |
| #6 | Hive Moderationthehive.ai | 9% | 12% | 340ms | De pago | 4.2/5 |
Metodología
Corpus
Textos humanos (1.200): 240 muestras por categoría: ensayos académicos, periodismo, marketing, documentación técnica, escritura creativa. Verificados como anteriores a 2022.
Textos de IA (1.200): 300 por modelo: Claude 3.5 Sonnet, GPT-4o, Gemini 1.5 Pro, Llama 3.1 70B. Sin instrucciones para evadir detección.
Métricas
Precisión general = (VP + VN) / 2.400. FPR = FP / 1.200 muestras humanas. FNR = FN / 1.200 muestras de IA. Latencia = mediana de 100 llamadas.
Por categoria
Académica: GPTZero mejor rendimiento; mayor FPR en STEM. Periodismo: más fácil, media 86%. Marketing: más difícil, media 79%. Técnica: mayor FPR; Sapling marcó 31% de documentación humana como IA.
Tasas de evasión
14 humanizadoras contra 6 detectores: 23%-91% de evasión. Originality.ai más resistente: cayó de 91% a 67% con texto humanizado.
Independencia
Sin afiliados ni patrocinios. Acceso a APIs pagado a tarifas estándar. Proveedores no notificados.
Preguntas frecuentes
¿Qué porcentaje de error es aceptable en un detector de IA?
No existe un umbral universal, pero en contextos académicos una tasa de falsos positivos superior al 10% se considera problemática. Esto significa que más de 1 de cada 10 textos humanos sería señalado incorrectamente, lo cual puede tener consecuencias graves para los estudiantes afectados.
¿Cómo se mide la precisión en textos bilingües español-inglés?
Los textos que mezclan idiomas presentan desafíos particulares para los detectores. En nuestro benchmark, las muestras con code-switching español-inglés redujeron la precisión promedio en 8 puntos porcentuales. Los detectores tienden a clasificar las secciones en inglés con mayor fiabilidad que las escritas en español.
¿Los textos editados después de ser generados por IA son detectables?
Depende del grado de edición. Correcciones menores de ortografía o puntuación no alteran la detección. Ediciones sustanciales que modifiquen entre el 30% y el 50% del texto pueden reducir la probabilidad reportada, aunque rara vez la eliminan por completo si la estructura base permanece intacta.
¿Existe algún estándar internacional para medir la precisión?
Actualmente no hay un estándar ISO o IEEE específico para benchmarks de detección de IA. Organizaciones como NIST y la Unión Europea están trabajando en marcos de evaluación, pero por ahora cada estudio define su propia metodología. Por eso publicamos nuestros criterios de forma transparente.
¿La longitud del texto influye en la confiabilidad del resultado?
Sí, significativamente. Textos menores a 50 palabras producen resultados poco confiables porque no ofrecen suficiente información estadística. La precisión mejora de forma consistente hasta las 250 palabras. A partir de ese punto, el beneficio adicional es marginal en la mayoría de los detectores.