La Función Unidad Rectificada Uniforme (RELU): Una Herramienta Esencial para el Aprendizaje Profundo
Actualizado: 2026-05-03
ReLU revolucionó el entrenamiento de redes neuronales profundas con una fórmula engañosamente sencilla: devolver el valor de entrada si es positivo, y cero si es negativo. Esta simplicidad, combinada con su eficiencia computacional y resistencia al desvanecimiento del gradiente, la convirtió en la función de activación dominante del aprendizaje profundo moderno.
Puntos clave
- ReLU se define como f(x) = max(0, x): la operación más barata posible como función de activación no lineal.
- Popularizada por AlexNet (2012), marcó el inicio del aprendizaje profundo moderno.
- Evita el desvanecimiento del gradiente que afecta a sigmoide y tanh en redes profundas.
- Su principal debilidad es el “dying ReLU”: neuronas que se desactivan permanentemente, problema que Leaky ReLU mitiga.
- Sigue siendo la función por defecto en la mayoría de arquitecturas de visión y NLP.
Cómo funciona ReLU
La función ReLU se define matemáticamente como:
f(x) = max(0, x)
Su comportamiento:
- Para x > 0: la salida es x (función identidad).
- Para x ≤ 0: la salida es 0 (la neurona no transmite señal).
La elegancia de ReLU es que no hay exponenciaciones, ni divisiones, ni saturaciones: en una GPU procesando millones de activaciones por segundo, la diferencia de coste frente a sigmoide es enorme.
Por qué superó a sigmoide y tanh
Antes de ReLU, la función sigmoide y la tangente hiperbólica dominaban. Ambas tienen el mismo problema en redes profundas: saturación y desvanecimiento del gradiente.
Cuando una sigmoide recibe entradas muy grandes o muy pequeñas, su derivada se aproxima a cero. Al multiplicar gradientes capa a capa (regla de la cadena), el gradiente llega prácticamente extinguido a las primeras capas. ReLU no satura en la región positiva, por lo que el gradiente fluye sin atenuarse.
Tres razones concretas de su adopción masiva:
- Velocidad de entrenamiento: convergencia 6 veces más rápida que tanh en experimentos de AlexNet.
- Activaciones dispersas: en cualquier instante, muchas neuronas devuelven 0, generando representaciones más compactas.
- Facilidad de implementación: un simple
max(0, x)es trivial en cualquier framework.
Aplicaciones en aprendizaje profundo
ReLU es la función de activación estándar en la práctica:
- Clasificación de imágenes: AlexNet (2012), VGG, ResNet usan ReLU en todas sus capas convolucionales.
- Procesamiento de lenguaje natural: los transformers modernos usan GELU y SiLU, variantes suaves de la idea de ReLU.
- Reconocimiento de voz: arquitecturas deep speech usan ReLU en capas densas intermedias.
- Redes generativas (GAN): el generador típicamente usa ReLU o Leaky ReLU en sus capas ocultas.
En el contexto de análisis de imágenes con visión computarizada, ReLU aparece en prácticamente todas las arquitecturas convolucionales. Los modelos pre-entrenados que se usan como base en transfer learning llevan ReLU o sus variantes en las capas de extracción de características.
Para el aprendizaje por refuerzo, las redes de política y valor también usan ReLU por defecto en la mayoría de implementaciones de referencia.
El problema dying ReLU
Su única debilidad estructural: si una neurona recibe entradas muy negativas de forma consistente, su salida es siempre 0 y su gradiente también. Esa neurona deja de aprender permanentemente.
Soluciones establecidas:
- Leaky ReLU: sustituye el 0 por αx con α pequeño (ver artículo completo sobre Leaky ReLU).
- ELU (Exponential Linear Unit): curva suave para x < 0.
- GELU: usado en BERT y GPT, aproxima ReLU con una curva gaussiana.
- Inicialización cuidadosa de pesos: He initialization reduce la probabilidad de dying ReLU desde el inicio.
Conclusión
ReLU es la función de activación que democratizó el aprendizaje profundo. Su coste computacional mínimo, su resistencia al desvanecimiento del gradiente y su compatibilidad con arquitecturas de cientos de capas la convirtieron en el estándar de la industria. Entender sus fortalezas y el problema dying ReLU es imprescindible para cualquier profesional que diseñe o ajuste redes neuronales profundas.