Módulo 8: Guía de Estudio Completa
Backtesting Riguroso
📚 Tabla de Contenidos
- Introducción
- Sección 8.1: Anatomía de un Buen Backtest
- Sección 8.2: Validación Estadística
- Sección 8.3: Los Sesgos del Backtester
- Casos de Estudio
- Ejercicios Resueltos
- Preguntas Frecuentes
- Glosario de Términos
- Recursos Adicionales
- Autoevaluación
- Conclusión del Módulo
📖 Introducción
Este es, posiblemente, el módulo más importante de todo el curso. En el Módulo 7 aprendiste a construir estrategias. Pero una estrategia sin un backtest riguroso es solo una hipótesis no probada — o peor, una ilusión peligrosa.
La triste realidad: la mayoría de los backtests espectaculares son mentiras. No mentiras intencionadas, sino el resultado de errores sutiles y sesgos que hacen que una estrategia parezca brillante en el pasado y fracase en el futuro. Aprender a detectar y evitar estos errores es lo que separa al quant profesional del aficionado que se arruina.
Este módulo es la “conciencia científica” del curso. Conecta directamente con el escepticismo del Módulo 1 (correlación vs. causalidad, multiple testing) y con todo lo que construiste en el Módulo 7.
“El backtesting es la actividad más peligrosa de las finanzas cuantitativas, porque es donde más fácilmente te engañas a ti mismo.”
Objetivos de Aprendizaje
Al completar este módulo, serás capaz de:
✓ Construir backtests limpios con datos correctamente ajustados ✓ Detectar y evitar los sesgos: look-ahead, survivorship, data snooping ✓ Aplicar validación in-sample vs. out-of-sample y walk-forward ✓ Reconocer el overfitting y combatirlo ✓ Entender el problema del multiple testing y el Deflated Sharpe Ratio ✓ Juzgar críticamente si un backtest es creíble
Tiempo Estimado de Estudio
- Lectura completa: 5-6 horas
- Ejercicios prácticos (Python + demostrador): 5-6 horas
- Casos de estudio: 2 horas
- Total del módulo: 12-14 horas
Prerrequisitos
Módulos 1-7. Imprescindible: el escepticismo del Módulo 1 (multiple testing) y las estrategias del Módulo 7.
🔬 Sección 8.1: Anatomía de un Buen Backtest
8.1.1 Qué es un Backtest
Un backtest es una simulación de cómo se habría comportado una estrategia en el pasado. La idea es simple: si funcionó antes, quizá funcione después. Pero esa lógica esconde trampas peligrosas.
Un buen backtest debe responder honestamente: “Si hubiera operado esta estrategia en el pasado, con la información que tenía disponible en cada momento y pagando costos realistas, ¿qué habría obtenido?”
Cada palabra importa: información disponible en cada momento (no la futura) y costos realistas (no cero).
8.1.2 Datos Limpios: La Base de Todo
Un backtest es tan bueno como sus datos. Problemas comunes:
Ajustes por splits y dividendos:
- Si una acción hace un split 2:1, su precio se divide por dos de la noche a la mañana. Sin ajustar, parecería una caída del 50%
- Los dividendos deben incorporarse al retorno total
- Usa siempre precios “ajustados” (adjusted close)
Datos erróneos:
- Precios atípicos (errores de captura), huecos, valores cero
- Un solo dato erróneo puede inflar artificialmente un retorno
Calidad de la fuente:
- Los datos gratuitos (Yahoo Finance) tienen errores ocasionales
- Los datos profesionales (Bloomberg, CRSP) son más fiables pero caros
8.1.3 Point-in-Time Data
Este concepto es crucial y sutil. Point-in-time data significa usar los datos tal como estaban disponibles en cada momento histórico, no como se ven ahora.
Ejemplo: los beneficios de una empresa para el Q1 no se publican hasta semanas después del cierre del trimestre. Si tu backtest usa esos beneficios el primer día del trimestre, estás usando información que aún no existía → look-ahead bias.
Las bases de datos serias mantienen “point-in-time”: registran qué se sabía y cuándo.
8.1.4 El Universo de Inversión
Definir bien el universo de activos es clave para evitar sesgos:
- ¿Qué activos incluyes y por qué?
- ¿Cómo manejas los que dejaron de cotizar (quiebras, fusiones)?
- ¿El universo cambia con el tiempo de forma realista?
Un universo mal definido es la fuente del survivorship bias (Sección 8.3).
📈 Sección 8.2: Validación Estadística
8.2.1 In-Sample vs. Out-of-Sample
Esta es la distinción más importante en validación.
In-sample (dentro de muestra): los datos que usaste para diseñar y ajustar la estrategia. Una estrategia siempre se ve bien aquí — la diseñaste para eso.
Out-of-sample (fuera de muestra): datos que la estrategia nunca ha visto. Es el test honesto. Si funciona aquí, hay esperanza de que sea real.
La regla de oro:
- Divide tus datos: por ejemplo, 70% para diseñar (in-sample), 30% para validar (out-of-sample)
- Diseña y optimiza SOLO con el in-sample
- Prueba UNA vez en el out-of-sample
- Si lo pruebas muchas veces en el out-of-sample y reajustas, ¡lo conviertes en in-sample y pierdes su valor!
8.2.2 Cross-Validation en Series Temporales
El cross-validation clásico (mezclar y dividir datos aleatoriamente) NO funciona en finanzas porque las series temporales tienen orden: usar datos futuros para predecir el pasado es look-ahead.
Solución: validación que respeta el tiempo.
- Entrenar siempre con datos anteriores, validar con datos posteriores
- Nunca mezclar el orden temporal
8.2.3 Walk-Forward Analysis
El walk-forward es la técnica de validación estándar en trading. Imita cómo operarías en la realidad:
Ventana 1: entrenar [2015-2017] → validar [2018]
Ventana 2: entrenar [2016-2018] → validar [2019]
Ventana 3: entrenar [2017-2019] → validar [2020]
...y así sucesivamente
En cada paso:
- Optimizas la estrategia con datos pasados
- La aplicas (sin reajustar) al periodo siguiente
- Avanzas la ventana y repites
Los resultados de las ventanas de validación, concatenados, dan una estimación honesta del rendimiento futuro.
Por qué es bueno: simula exactamente cómo operarías en la realidad — reoptimizando periódicamente con datos disponibles y operando “a ciegas” en el futuro inmediato.
8.2.4 Reality Check y Tests de Significancia
¿Cómo sabes si el resultado de tu estrategia es real o suerte? Tests estadísticos formales:
- Test de White (Reality Check): evalúa si la mejor estrategia entre muchas probadas es realmente significativa, corrigiendo por el número de pruebas
- Test de hipótesis sobre el Sharpe: ¿es el Sharpe estadísticamente distinto de cero?
Estos tests aplican el rigor estadístico del Módulo 3 al backtesting.
⚠️ Sección 8.3: Los Sesgos del Backtester
Aquí están los enemigos. Cada uno ha arruinado a innumerables traders.
8.3.1 Look-Ahead Bias (El Más Común)
Qué es: usar información que NO estaba disponible en el momento de la decisión.
Ejemplos:
- Usar el precio de cierre de hoy para decidir una operación de hoy (no lo conoces hasta el cierre)
- Usar datos que se publican con retraso (beneficios, revisiones)
- Calcular una media con datos que incluyen el futuro
Cómo evitarlo:
- El truco del
.shift(1)que vimos en el Módulo 7: la decisión de hoy se basa en información de ayer - Modela los retrasos de publicación reales
- Pregúntate siempre: “¿tenía yo este dato en ese momento?”
El look-ahead bias es tan sutil que se cuela incluso en el código de profesionales experimentados. Vigílalo obsesivamente.
8.3.2 Survivorship Bias
Qué es: analizar solo los activos que “sobrevivieron” hasta hoy, ignorando los que quebraron o desaparecieron.
Ejemplo: si haces backtest sobre las empresas que HOY están en el S&P 500, ignoras todas las que quebraron o salieron del índice. Como solo miras supervivientes, tus resultados son artificialmente buenos (las que fracasaron no aparecen).
Magnitud: el survivorship bias puede inflar los retornos en varios puntos porcentuales al año. Es enorme.
Cómo evitarlo:
- Usar bases de datos que incluyen empresas “muertas” (delisted)
- Definir el universo point-in-time (qué empresas existían en cada momento)
8.3.3 Data Snooping / Multiple Testing
Qué es: probar tantas estrategias o parámetros que, por puro azar, alguna parece buena. Ya lo vimos en el Módulo 1.
El problema estadístico: si pruebas 100 estrategias con un nivel de significancia del 5%, esperas que ~5 parezcan “significativas” solo por azar, sin tener edge real.
Formas en que ocurre:
- Probar muchos parámetros y quedarte con el mejor
- Probar muchas estrategias y publicar solo la ganadora
- Reutilizar el mismo conjunto de datos una y otra vez
Cómo combatirlo:
- Reservar datos out-of-sample intactos
- Corregir por el número de pruebas (Bonferroni, Deflated Sharpe)
- Partir de una hipótesis económica, no de la búsqueda ciega (Módulo 1)
8.3.4 Overfitting (Sobreajuste): El Enemigo Silencioso
Qué es: crear un modelo tan ajustado a los datos pasados que memoriza el ruido en lugar de aprender la señal. Funciona perfecto en el pasado y fracasa en el futuro.
Señales de overfitting:
- Demasiados parámetros para la cantidad de datos
- Resultados que se desploman fuera de muestra
- Sharpes irrealmente altos (>3-4) en backtest
- La estrategia tiene “reglas mágicas” muy específicas (“comprar los martes si la luna está en cuarto creciente”)
La paradoja del optimizador: cuanto más optimizas los parámetros, mejor se ve el backtest y peor suele ser el rendimiento futuro. El óptimo in-sample rara vez es el óptimo out-of-sample.
Cómo combatirlo:
- Menos parámetros (modelos simples, navaja de Occam)
- Validación out-of-sample y walk-forward
- Reservar datos que nunca tocas hasta el final
- Desconfiar de los resultados demasiado buenos
8.3.5 Deflated Sharpe Ratio y Probabilistic Sharpe Ratio
Marcos López de Prado propuso ajustes para corregir el Sharpe por el número de pruebas realizadas:
Deflated Sharpe Ratio (DSR): “desinfla” el Sharpe observado teniendo en cuenta cuántas estrategias se probaron. Si probaste 1000 estrategias, el Sharpe de la ganadora debe ajustarse a la baja drásticamente.
Probabilistic Sharpe Ratio (PSR): estima la probabilidad de que el verdadero Sharpe sea positivo, dado el ruido de la estimación.
Idea central: un Sharpe de 2 obtenido tras probar una sola estrategia es muy distinto de un Sharpe de 2 obtenido tras probar 10.000. El segundo casi seguro es suerte.
8.3.6 La Regla de Oro del Backtesting
Si un backtest parece demasiado bueno para ser verdad, lo es.
Antes de creer cualquier backtest, pregúntate:
- ¿Hay look-ahead bias? (¿uso solo info disponible en cada momento?)
- ¿Hay survivorship bias? (¿incluyo los activos que fracasaron?)
- ¿Están descontados los costos realistas?
- ¿Cuántas estrategias/parámetros probé? (multiple testing)
- ¿Funciona out-of-sample, no solo in-sample?
- ¿Es el Sharpe sospechosamente alto?
Si no puedes responder estas con confianza, no confíes en el backtest.
🔍 Casos de Estudio
Caso 1: La Estrategia de los Días de la Semana
Contexto
Un trader descubre, analizando datos, que comprar los martes y vender los jueves habría dado un Sharpe de 1.8 en los últimos 5 años.
El Problema
- No hay ninguna razón económica por la que los martes sean especiales
- Probó las 21 combinaciones posibles de día-compra/día-venta y eligió la mejor (data snooping)
- Con 21 pruebas, encontrar una con Sharpe alto por azar es casi garantizado
- No validó out-of-sample
Lecciones
- Sin hipótesis económica, el patrón es sospechoso (Módulo 1)
- Multiple testing garantiza falsos positivos: probar muchas combinaciones encuentra “ganadores” por azar
- El Deflated Sharpe lo habría desenmascarado: ajustado por 21 pruebas, el Sharpe real sería cercano a cero
- Validar out-of-sample es obligatorio
Caso 2: El Fondo del Survivorship Bias
Contexto
Una firma publicita una estrategia que “habría batido al mercado” invirtiendo en las acciones del S&P 500 con ciertas características, mostrando un backtest impresionante.
Qué Estaba Mal
- El backtest usaba las empresas que HOY están en el S&P 500
- Ignoraba todas las que quebraron, fueron absorbidas o salieron del índice en el periodo
- Las empresas “perdedoras” simplemente no aparecían en el análisis
- El resultado estaba inflado por survivorship bias
Lecciones
- El universo debe ser point-in-time: incluir lo que existía en cada momento, no solo los supervivientes
- El survivorship bias infla retornos significativamente: varios puntos porcentuales al año
- Los backtests de marketing suelen tener este sesgo: desconfía de los resultados publicitarios
- Pregunta siempre por el universo: “¿incluye las empresas que fracasaron?”
🧮 Ejercicios Resueltos
Ejercicio 1: Detectar Look-Ahead Bias
Enunciado: Un backtest usa esta regla: “Compro al precio de apertura del día si el retorno de ese mismo día va a ser positivo.” ¿Cuál es el problema?
Solución:
- Look-ahead bias flagrante: para saber si el retorno del día “va a ser positivo”, necesitas conocer el precio de cierre, que aún no existe en la apertura
- Estás usando información del futuro (el cierre) para decidir en el presente (la apertura)
- Corrección: la decisión debe basarse solo en información disponible en la apertura (datos de días anteriores)
Ejercicio 2: Calcular el Impacto del Multiple Testing
Enunciado: Pruebas 50 estrategias con un nivel de significancia del 5%. ¿Cuántas esperarías que parezcan significativas solo por azar, sin tener edge real?
Solución:
Falsos positivos esperados = 50 × 0.05 = 2.5 estrategias
Interpretación: incluso si NINGUNA tiene edge real, esperas que ~2-3 parezcan significativas por puro azar. Por eso, encontrar “una estrategia que funciona” tras probar muchas no significa nada sin corrección.
Ejercicio 3: In-Sample vs. Out-of-Sample
Enunciado: Tienes datos de 2010 a 2023. Diseñas tu estrategia, optimizas sus parámetros y obtienes Sharpe 2.5. Luego la pruebas en los mismos datos y sigue dando 2.5. ¿Es esto una validación válida?
Solución:
- No, no es válida. Probaste en los mismos datos con los que diseñaste y optimizaste (in-sample)
- Una estrategia siempre se ve bien in-sample — la ajustaste para eso
- Validación correcta: reservar una parte de los datos (ej. 2021-2023) sin tocarla, diseñar con 2010-2020, y probar UNA vez en 2021-2023
- Si el Sharpe out-of-sample fuera mucho menor (ej. 0.5), revelaría overfitting
Ejercicio 4: Evaluar un Backtest Sospechoso
Enunciado: Un colega te muestra: estrategia con Sharpe 5.2, 200% anual, opera 30 veces al día, backtest sobre acciones actuales del Nasdaq-100. Lista al menos 4 banderas rojas.
Solución:
- Sharpe 5.2 irrealmente alto: señal clásica de overfitting (los mejores fondos sostenibles tienen 1-2)
- Alta frecuencia (30/día): ¿incluye costos, spread, slippage? Probablemente los devorarían
- Survivorship bias: usa acciones ACTUALES del Nasdaq-100, ignorando las que salieron/quebraron
- Posible look-ahead y data snooping: ¿cómo se eligieron los parámetros? ¿se validó out-of-sample?
- (Bonus) Capacidad: ¿escala o solo funciona con poco capital?
Conclusión: extrema desconfianza. Casi seguro se desinfla al corregir estos problemas.
❓ Preguntas Frecuentes
¿Por qué casi todos los backtests publicados son demasiado optimistas? Por una combinación de sesgos (look-ahead, survivorship), data snooping (solo se publica la estrategia ganadora entre muchas) y el incentivo a mostrar buenos resultados. Es la norma, no la excepción. Desconfía por defecto.
¿Cuánto debe caer el Sharpe out-of-sample respecto al in-sample? Algo de caída es normal y esperable. Pero si el Sharpe pasa de 3.0 in-sample a 0.3 out-of-sample, es overfitting severo. Una estrategia robusta mantiene un rendimiento razonable (aunque menor) fuera de muestra.
¿Puedo usar el out-of-sample varias veces para mejorar la estrategia? No. Si lo usas repetidamente para reajustar, se convierte de facto en in-sample y pierde su valor como validación honesta. Debe usarse idealmente una vez, al final.
¿El walk-forward elimina todos los sesgos? Reduce mucho el overfitting y el look-ahead si se implementa bien, pero no elimina el survivorship bias (que depende de los datos) ni el data snooping si pruebas muchas configuraciones de walk-forward. Es una herramienta poderosa, no mágica.
¿Qué Sharpe debería esperar de una estrategia real y honesta? Tras costos y bien validada, un Sharpe sostenido de 0.5-1.5 ya es bueno para una estrategia individual. Los mejores fondos diversificados alcanzan 1-2. Cualquier cosa por encima de 3 en backtest merece escepticismo extremo.
📖 Glosario de Términos
| Término | Definición |
|---|---|
| Backtest | Simulación de una estrategia sobre datos históricos |
| Datos ajustados | Precios corregidos por splits y dividendos |
| Point-in-time | Datos tal como estaban disponibles en cada momento |
| Universo de inversión | Conjunto de activos considerados en la estrategia |
| In-sample | Datos usados para diseñar/optimizar la estrategia |
| Out-of-sample | Datos no vistos, usados para validar honestamente |
| Cross-validation | Técnica de validación (adaptada al orden temporal en finanzas) |
| Walk-forward | Validación que entrena con pasado y valida con futuro, avanzando |
| Reality Check | Test que corrige por el número de estrategias probadas |
| Look-ahead bias | Usar información no disponible en el momento de decidir |
| Survivorship bias | Analizar solo los activos que sobrevivieron |
| Data snooping | Probar tanto que algo parece bueno por azar |
| Multiple testing | Problema estadístico de probar muchas hipótesis |
| Overfitting | Memorizar el ruido del pasado en lugar de la señal |
| Deflated Sharpe Ratio | Sharpe ajustado por el número de pruebas |
| Probabilistic Sharpe Ratio | Probabilidad de que el Sharpe verdadero sea positivo |
| Turnover | Cantidad de operaciones (afecta a los costos) |
📚 Recursos Adicionales
Libros
- “Advances in Financial Machine Learning” — Marcos López de Prado
- El capítulo sobre backtesting y validación es esencial
- “Evidence-Based Technical Analysis” — David Aronson
- Sobre data snooping y rigor estadístico
- “Algorithmic Trading” — Ernest Chan
- Backtesting práctico con código
Papers Clave
- Bailey & López de Prado (2014). The Deflated Sharpe Ratio
- White, H. (2000). A Reality Check for Data Snooping
- Bailey et al. (2014). Pseudo-Mathematics and Financial Charlatanism — sobre overfitting de backtests
- Harvey, Liu & Zhu (2016). …and the Cross-Section of Expected Returns — el factor zoo y multiple testing
Herramientas Python
backtrader/vectorbt: frameworks de backtesting con prevención de look-aheadscikit-learn:TimeSeriesSplitpara validación temporalmlfinlab: implementa técnicas de López de Prado (purged CV, DSR)quantstats: informes de performance honestos
Recursos Online
- Hudson & Thames — sobre validación rigurosa y ML financiero
- QuantConnect — backtesting con datos point-in-time
- Documentación de López de Prado — purged cross-validation
✍️ Autoevaluación
Test de Comprensión
Instrucciones: Responde para evaluar tu comprensión del módulo.
Sección A: Conceptos Básicos (20 puntos)
- ¿Qué es el look-ahead bias y cómo se evita? (5 pts)
- Explica el survivorship bias con un ejemplo. (5 pts)
- ¿Cuál es la diferencia entre in-sample y out-of-sample? (5 pts)
- ¿Qué es el overfitting y cuáles son sus señales? (5 pts)
Sección B: Cálculo (40 puntos)
- Pruebas 80 estrategias con significancia del 5%. ¿Cuántos falsos positivos esperas por azar? (10 pts)
- Una estrategia da Sharpe 4.0 in-sample y 0.4 out-of-sample. ¿Qué indica esta diferencia? (15 pts)
- Explica por qué la regla “compro hoy si el retorno de hoy será positivo” tiene look-ahead bias. (15 pts)
Sección C: Análisis (40 puntos)
- Un colega presenta un backtest con Sharpe 5.2, 200% anual, alta frecuencia, sobre acciones actuales del Nasdaq-100. Lista todas las banderas rojas que detectas. (20 pts)
- Describe cómo diseñarías una validación walk-forward correcta para una estrategia, y por qué imita mejor la realidad que un simple backtest. (20 pts)
Respuestas Modelo
Sección A
-
Look-ahead bias: Usar información que no estaba disponible en el momento de la decisión (por ejemplo, el precio de cierre de hoy para decidir hoy). Se evita basando cada decisión solo en datos pasados (el truco del
.shift(1)) y modelando los retrasos de publicación reales. -
Survivorship bias: Analizar solo los activos que sobrevivieron, ignorando los que fracasaron. Ejemplo: hacer backtest sobre las empresas que HOY están en el S&P 500 ignora todas las que quebraron o salieron del índice, inflando artificialmente los resultados porque las perdedoras no aparecen.
-
In-sample vs. out-of-sample: In-sample son los datos usados para diseñar y optimizar la estrategia (siempre se ve bien ahí). Out-of-sample son datos no vistos, usados para validar honestamente. Solo el rendimiento out-of-sample es creíble.
-
Overfitting: Crear un modelo tan ajustado al pasado que memoriza el ruido en lugar de la señal; funciona perfecto in-sample y fracasa out-of-sample. Señales: demasiados parámetros, Sharpe irrealmente alto, reglas muy específicas, desplome fuera de muestra.
Sección B
-
Falsos positivos:
80 × 0.05 = 4 estrategias parecerán significativas por azar -
Sharpe 4.0 → 0.4: Es una señal clara de overfitting severo. El Sharpe in-sample (4.0) es irrealmente alto porque la estrategia se ajustó al ruido de esos datos. Al probarla en datos no vistos (out-of-sample), el rendimiento se desploma a 0.4, revelando que el “edge” era ilusorio. Una estrategia robusta mantendría un rendimiento razonable fuera de muestra.
-
Look-ahead en la regla: Para saber si “el retorno de hoy será positivo” necesitas conocer el precio de cierre de hoy, que no existe hasta que el día termina. Estás usando información del futuro (el cierre) para tomar una decisión en el presente. La decisión debe basarse solo en datos disponibles en ese momento (de días anteriores).
Sección C
-
Banderas rojas:
- Sharpe 5.2 irrealmente alto: señal clásica de overfitting (los mejores fondos sostenibles tienen 1-2)
- 200% anual: insostenible, refuerza la sospecha de overfitting
- Alta frecuencia: ¿incluye spread, slippage, comisiones, impacto? Probablemente los devorarían
- Survivorship bias: usa acciones ACTUALES del Nasdaq-100, ignorando las que salieron/quebraron
- Posible data snooping: ¿cuántos parámetros/estrategias se probaron?
- ¿Validación out-of-sample? ¿Look-ahead bias? ¿Capacidad/escalabilidad?
- Conclusión: desconfianza extrema; casi seguro se desinfla al corregir.
-
Walk-forward correcto: Dividir los datos en ventanas temporales sucesivas. En cada paso: (1) entrenar/optimizar la estrategia con un bloque de datos pasados, (2) aplicarla SIN reajustar al periodo siguiente (validación), (3) avanzar la ventana y repetir. Concatenar los resultados de validación da una estimación honesta. Imita mejor la realidad porque replica exactamente cómo operarías: reoptimizando periódicamente con la información disponible y operando “a ciegas” en el futuro inmediato, sin usar nunca datos del futuro para decisiones del presente. Reduce el overfitting y el look-ahead.
Criterios de Evaluación
- 90-100%: Dominio excelente, listo para el Módulo 9 (Machine Learning para Quants)
- 80-89%: Buena comprensión, revisar áreas débiles
- 70-79%: Comprensión básica, reforzar con práctica
- < 70%: Revisar el material antes de continuar
🎯 Conclusión del Módulo
Puntos Clave para Recordar
-
La mayoría de los backtests espectaculares son mentiras
- No intencionadas, sino producto de sesgos sutiles
- Desconfía por defecto, especialmente de los resultados publicitarios
-
Look-ahead y survivorship bias son los grandes asesinos
- Usar info del futuro / analizar solo supervivientes
- Ambos inflan los resultados de forma masiva
-
Out-of-sample es la única validación honesta
- In-sample siempre se ve bien (lo diseñaste para eso)
- Walk-forward imita la operativa real
-
El multiple testing garantiza falsos positivos
- Probar muchas estrategias encuentra “ganadores” por azar
- El Deflated Sharpe corrige por el número de pruebas
-
Si parece demasiado bueno, lo es
- Sharpes >3-4 merecen escepticismo extremo
- Costos realistas, datos limpios y validación honesta son innegociables
Preparación para el Módulo 9
El siguiente módulo aplica machine learning a finanzas, donde el riesgo de overfitting es aún mayor. Todo lo aprendido aquí será tu defensa. Asegúrate de:
✓ Saber implementar una validación train/test e identificar look-ahead en código ✓ Entender por qué el ML es especialmente peligroso para el overfitting ✓ Comprender el multiple testing y el Deflated Sharpe ✓ Tener interiorizada la regla de oro: si parece demasiado bueno, lo es
Reflexión Final
“El backtesting es un espejo que casi siempre te devuelve la imagen que quieres ver. El trabajo del quant no es construir backtests bonitos, sino destruir despiadadamente los suyos propios: buscar cada sesgo, cada atajo, cada autoengaño, hasta que lo que quede sea lo bastante robusto para sobrevivir a la única prueba que importa — el futuro, con dinero real. El escéptico más duro de tu estrategia debes ser tú mismo.”
Has aprendido a no engañarte a ti mismo, que es la habilidad más valiosa y más rara en finanzas cuantitativas. Con esta defensa, estás listo para el terreno más resbaladizo de todos: el machine learning.
¡Éxito en tu viaje de aprendizaje!
Fin de la Guía de Estudio del Módulo 8