Cornell: Des filigranes lumineux traquent les vidéos truquées

Arstechnica

La facilité croissante avec laquelle les séquences vidéo peuvent être manipulées pour tromper les spectateurs a créé un défi majeur pour les vérificateurs de faits qui peinent à discerner l’authenticité. En réponse à cette course à l’armement numérique grandissante, des scientifiques de l’Université Cornell ont dévoilé une nouvelle défense : un logiciel capable d’intégrer un “filigrane” unique dans les fluctuations de lumière, révélant ainsi quand le contenu vidéo a été altéré. Cette avancée innovante a été présentée à SIGGRAPH 2025 à Vancouver, Colombie-Britannique, suite à sa publication en juin dans la prestigieuse revue ACM Transactions on Graphics.

« La vidéo était autrefois traitée comme une source de vérité, mais ce n’est plus une hypothèse que nous pouvons faire », a fait remarquer Abe Davis, co-auteur de l’Université Cornell, qui a initialement conçu l’idée. Il a souligné le profond changement, notant : « Maintenant, vous pouvez pratiquement créer la vidéo de tout ce que vous voulez. Cela peut être amusant, mais aussi problématique, car il est de plus en plus difficile de dire ce qui est réel. »

Selon les chercheurs, ceux qui ont l’intention de créer de fausses vidéos trompeuses possèdent un avantage fondamental : un accès illimité à du matériel vidéo authentique combiné à la disponibilité généralisée d’outils d’édition sophistiqués et peu coûteux. Ces outils, souvent alimentés par l’intelligence artificielle, peuvent apprendre rapidement à partir de vastes ensembles de données, rendant leurs fabrications presque indiscernables des séquences authentiques. Les progrès dans la génération de faux convaincants ont, jusqu’à présent, dépassé le développement de techniques médico-légales conçues pour les combattre. Un élément critique pour toute contre-mesure efficace est l’asymétrie de l’information – la technique doit exploiter des informations inaccessibles aux manipulateurs et qui ne peuvent pas être glanées à partir de données d’entraînement accessibles au public.

Bien qu’il existe des techniques de filigrane numérique qui utilisent l’asymétrie de l’information, l’équipe de Cornell a observé que la plupart d’entre elles échouent sur d’autres attributs cruciaux. De nombreuses méthodes actuelles, par exemple, nécessitent un contrôle sur la caméra d’enregistrement ou un accès direct à la vidéo originale non manipulée. De plus, un outil comme une somme de contrôle (checksum), bien que capable de détecter si un fichier vidéo a été altéré, ne peut pas différencier la compression vidéo standard des interventions malveillantes, telles que l’insertion d’objets virtuels.

La dernière méthode de l’équipe de Cornell, baptisée “éclairage codé par bruit” (NCI), corrige directement ces lacunes en dissimulant ingénieusement les filigranes dans le “bruit” apparent des sources lumineuses. Contrairement à leurs travaux précédents, qui reposaient sur l’utilisation d’une caméra ou d’un modèle d’IA spécifique par le créateur de la vidéo, le NCI offre une applicabilité plus large. Cela peut être réalisé grâce à un petit logiciel pour les écrans d’ordinateur et certains types d’éclairage ambiant, ou en attachant une petite puce informatique à des lampes du commerce.

« Chaque filigrane contient une version basse fidélité et horodatée de la vidéo non manipulée sous un éclairage légèrement différent. Nous appelons cela des ‘vidéos de code’ », a expliqué Davis. Il a précisé que lorsqu’une personne manipule une vidéo, les segments altérés commencent à contredire ce qui est présent dans ces vidéos de code, identifiant ainsi efficacement les endroits où des modifications ont été apportées. Dans les cas où quelqu’un tente de générer une vidéo entièrement fausse avec l’IA, les vidéos de code résultantes apparaissent comme de simples variations aléatoires. Crucialement, parce que le filigrane est conçu pour imiter le bruit, il reste extrêmement difficile à détecter sans connaître le code secret.

L’équipe de Cornell a rigoureusement testé sa méthode NCI contre une gamme complète de types de manipulation, y compris les coupures de déformation, les changements de vitesse et d’accélération, le compositing et les deepfakes. Leur technique a démontré une robustesse remarquable, se montrant résiliente à des facteurs tels que les niveaux de signal inférieurs à la perception humaine, le mouvement du sujet et de la caméra, le flash de la caméra, les variations des tons de peau humaine, les différents niveaux de compression vidéo, et les environnements intérieurs et extérieurs.

Davis a reconnu que même si un adversaire était au courant de la technique et parvenait d’une manière ou d’une autre à déchiffrer les codes, sa tâche serait toujours considérablement plus complexe. « Au lieu de falsifier la lumière pour une seule vidéo, ils doivent falsifier chaque vidéo de code séparément, et toutes ces falsifications doivent être cohérentes entre elles », a-t-il noté. Malgré cette avancée, Davis a averti que la lutte contre la manipulation vidéo est un « problème important et continu » qui « ne fera que s’aggraver ».