Helix

PM autónomo multi-agente para SaaS. Detecta oportunidades, diseña y codea experimentos multivariados detrás de un feature flag, mide con muestreo bayesiano de Thompson, despliega la ganadora y borra del codebase las variantes perdedoras y el flag retirado — cero deuda técnica.

El problema

Los equipos de producto en SaaS pierden semanas entre detectar una oportunidad, diseñar un test, implementarlo, esperar resultados y limpiar el código. La mayoría de los experimentos nunca se limpian: el feature flag queda vivo, las variantes perdedoras siguen en el repo, y la deuda técnica crece con cada iteración.

Qué hace Helix

Helix corre el ciclo de experimentación end-to-end con agentes especializados:

Indexer mantiene un mapa vivo del codebase y del estado de cada feature.
Pulse detecta oportunidades automáticas a partir de eventos de PostHog cada 24 h.
Brief acepta un prompt humano ("mejorar conversión del carrito") y lo convierte en un problema accionable.
Lab diseña hasta 4 variantes y pre-registra el experimento (métrica primaria, MDE, criterios de stop) — el diseño queda congelado.
Architect (compose) abre un PR en GitHub con las variantes implementadas detrás de un flag multivariado de PostHog.
Witness lee los eventos de PostHog y corre Thompson sampling multi-arm bayesiano para estimar la probabilidad de que cada variante sea la mejor.
Director ejecuta la decisión: rampa la ganadora al 100% según política.
Architect (consolidate) abre un PR de cleanup que borra las variantes perdedoras, inlinea la ganadora, elimina el flag y mueve el código fuera de lib/experiments/.

La narrativa de 5 cards

Cada experimento se ve en el dashboard como 5 cards:

What we work on — el problema (Pulse o Brief).
What we test — las variantes (Lab).
How we test — el diseño pre-registrado (Lab, congelado).
What worked — la tabla bayesiana multi-arm (Witness).
Final decision + cleanup — ramp de la ganadora + PR de cleanup (Director + Architect).

Stack

Frontend: Next.js 15 (App Router) + TypeScript + Tailwind v4 + shadcn/ui.
Backend: Python 3.12 + FastAPI + uv + Anthropic SDK.
Datos / Auth / Realtime: Supabase.
Feature flags + analytics: PostHog Cloud.
GitHub: GitHub App + PyGithub.
LLM: Claude Sonnet 4.6 para todos los agentes.
Hosting: Vercel (frontend) + Railway (backend).

Por qué importa

El loop completo — detectar, testear, decidir, limpiar — corre sin intervención humana salvo la aprobación de PRs. La parte más diferenciada es el cleanup: en la mayoría de las plataformas de experimentación el código sucio se acumula. Helix lo elimina como parte del ciclo, no como tarea aparte.

Demo (PH26 ARG)

Abrís /team20/experiments/new y escribís "Mejorar conversión del carrito".
Brief → Lab → Architect compose corren en vivo, las primeras 3 cards se llenan, aparece el PR en GitHub.
Fast-forward 7d dispara Witness con datos sembrados de PostHog → card 4 muestra la tabla bayesiana.
Director ejecuta la decisión, Architect consolidate abre el PR de cleanup → card 5 muestra los archivos borrados y el flag eliminado.

Repositorio: platanus-hack-26-ar-team-20. Equipo 20.

platanus hack [26]|voting

Helix

Helix

Helix

El problema

Qué hace Helix

La narrativa de 5 cards

Stack

Por qué importa

Demo (PH26 ARG)