Clignez des yeux — et c’est fini. 1/25e de seconde, voilà la durée de vie d’une micro-expression, ces soubresauts faciaux furtifs qui trahiraient nos mensonges les plus enfouis. EmoPulse, nouvelle venue dans l’analyse faciale, affirme avoir résolu l’équation avec un pipeline à 200 FPS qui enterre la vision par ordinateur classique.
On connaît tous ces démos lisses où l’IA lit les émotions comme un pro du poker. Mais reculons : la plupart des modèles se traînent à 30 FPS, étalant ces instants fugaces dans un magma indistinct. EmoPulse ? Ils poussent la capture en bordure à 200 images par seconde, en nourrissant des clips micro-vidéo — 16 frames, fenêtres de ~80 ms — dans un backbone Tiny-I3D. Pas de chichis : décomposition du flux optique qui cible les activations musculaires, genre AU25 (lèvres qui s’écartent) ou AU04 (sourcil qui descend).
Voici l’extrait de code qu’ils exhibent, un pseudo-Python qui laisse entrevoir l’intelligence en jeu :
def forward(self, flow_stack): # shape: (B, C, T=16, H, W) features = self.i3d_backbone(flow_stack) attention_weights = self.temporal_attention(features) # learned peak sensitivity attended = features * attention_weights au_logits = self.au_head(attended.mean(dim=[3,4])) return au_logits
Le cynique en moi lève les yeux au ciel au premier abord — encore une startup de la Valley qui vend du « temps réel » miracle. Mais creusons : ce n’est pas du vent total. Ils balancent 99 % de dropout sur les features spatiales, obligeant le modèle à se focaliser sur le mouvement, pas sur votre minois. Datasets ? CASME II et SAMM sont minuscules, alors ils boostent avec des GAN pour simuler des tressaillements sur des visages neutres. Résultat : les scores F1 grimpent de 0,68 à 0,81. Tout en local via TensorRT, sans latence cloud. Ratez ces 40 ms de vérité, et vous êtes aveugle.
Pourquoi les CNN classiques patinent-ils sur les micro-expressions ?
Les CNN règnent en maîtres sur les images statiques — chats, chiens, panneaux stop. Ajoutez de la vitesse ? Ils moyennent les frames comme un pochard qui fait danser les feux de circulation. EmoPulse traite le temps en divinité, pas en variable d’ajustement. Leur masque d’attention temporelle ? Il isole les pics, ignorant l’état stable. Malin, si ça dépasse les jouets de labo.
Mais voilà mon uppercut perso, introuvable dans leur pitch : ça rappelle le fiasco des polygraphes des années 1970. Paul Ekman a vendu les micro-expressions comme des détecteurs de mensonges — le FBI a gobé, formant des agents. La réalité ? Les études de terrain ont coulé ; le contexte prime sur les tressaillements. EmoPulse pourrait cartonner techiquement, mais le déployer en entretiens ou pubs ? Même brasier éthique, et qui finance ? Les boîtes de sécu qui bavent sur « détection AU en 5 ms ».
Para court pour l’impact : Sceptique ? Moi aussi.
Ils fanfaronnent : pas de classification d’émotions — que des unités d’action brutes. Plus propre, moins de biais entre joie et tromperie. Pourtant, données synthétiques ? Les GAN hallucinent à la perfection, mais des visages réels sous éclairage sauvage ? Les F1 chutent. J’ai couvert assez de crashs en vision par ordinateur — rappelez-vous ces boîtes « emotion AI » de 2018 qui promettaient le bonheur au boulot, avant les procès pour surveillance flippante ?
Les 200 FPS d’EmoPulse peuvent-ils vraiment tout changer ?
Donc, 200 FPS en local. Seuil pour du temps réel ? Ils vous défient : toujours à 30 FPS ? Coup bas justifié. Mais qui paie ? Les pubards qui ajustent les panneaux sur votre grimace refoulée ? Les thérapeutes qui débusquent le deuil étouffé ? Ou les flics qui valident les interrogatoires ? Le site emo.city d’EmoPulse tease des signaux comportementaux haute vitesse, mais esquive l’éthique.
« Les micro-expressions ne sont pas rares — elles passent inaperçues. »
Leur punchlin