Où les modèles sont-ils hébergés ?

Entièrement en France et dans l’UE, sur des LPUs dédiés opérés par Citadea, jamais sur une infrastructure américaine.

Êtes-vous aligné sur l’EU AI Act ?

Oui, l’inférence est conçue pour s’aligner sur l’EU AI Act, avec résidence des données dans l’UE et un parcours SecNumCloud en cours.

Quels modèles puis-je exécuter ?

Des modèles open-source comme Llama 3 et Mistral, servis via une API compatible OpenAI.

Hébergement IA souverain

Hébergement IA souverain en France

Exécutez des modèles open-source sur des LPUs dédiés hébergés en France, facturés à un forfait prévisible. La performance nécessaire pour l’inférence en production, avec une souveraineté UE et une facture que votre direction financière peut anticiper.

Démarrer Contacter l’équipe

< 20 ms

latence edge (P99)

-70%

énergie vs GPU

100%

hébergé dans l’UE

Pourquoi héberger l’IA en France ?

Une entreprise française sans maison-mère américaine échappe à la portée du CLOUD Act, vos prompts, embeddings et fine-tunes ne sont pas exposés à une juridiction étrangère. Citadea héberge l’inférence entièrement dans l’UE, en alignement avec l’EU AI Act, avec un parcours SecNumCloud documenté (en cours).

Inférence forfaitaire, sans token shock

La tarification au token pénalise les charges à forte utilisation, une seule boucle de raisonnement d’agent peut produire une facture effrayante. Citadea Neural loue un slice LPU dédié à prix mensuel fixe. Au-delà d’environ 30 % d’utilisation soutenue, c’est simplement moins cher, et sans surprise.

Conçu pour la production, mesuré pour les ingénieurs

Des LPUs dédiés et non partagés servent Llama, Mistral et d’autres modèles open-source avec streaming temps réel et latence edge sous 20 ms, en consommant jusqu’à 70 % d’énergie en moins qu’une inférence GPU comparable. Memory ajoute une recherche vectorielle souveraine sub-ms pour le RAG.

Produits