La dernière IA de Facebook a été présentée et semble capable de non seulement de détecter les fausses vidéos. Cette technologie semble aussi capable de découvrir le modèle génératif qui les a produites ; par rétro-ingénierie de l’image elle-même.
En plus de vous dire si une image est un deepfake, de nombreux systèmes de détection actuels peuvent dire si l’image a été générée par un modèle. Un modèle que le système a vu pendant sa formation ; c’est ce que l’on appelle une classification « close-set ». Le problème est que si l’image a été créée par un modèle génératif sur lequel le système de détection n’a pas été formé, le système n’aura pas l’expérience nécessaire pour repérer le faux.
L’IA de Facebook et la rétroingénierie de FB-MSU
La technique de rétroingénierie de FB-MSU « repose sur la découverte des modèles uniques derrière le modèle d’IA utilisé pour générer une seule fausse image profonde ».
« Ainsi, nous commençons par l’attribution de l’image. Ensuite, nous nous efforçons de découvrir les propriétés du modèle qui a été utilisé pour générer l’image. En généralisant l’attribution d’images à la reconnaissance de jeux ouverts, nous pouvons déduire plus d’informations sur le modèle génératif utilisé pour créer un deepfake. Cela va au-delà de la reconnaissance du fait qu’il n’a pas été vu auparavant. »
Qui plus est, ce système peut comparer et retracer les similitudes à travers une série de deep fakes. Cela permet aux chercheurs de remonter des groupes d’images falsifiées à une source générative unique. Ainsi, cela devrait aider les modérateurs de médias sociaux à mieux suivre les campagnes de désinformation coordonnées.
Un travaille d’apprentissage massif
Pour réaliser cette technique de détection, les chercheurs du FB-MSU ont d’abord fait passer un ensemble de fausses images profondes par un réseau d’estimation d’empreintes digitales.
Les réseaux d’estimation d’empreintes digitales sont capables de discerner les motifs subtils imprimés sur les images par l’appareil qui les a produites. Pour les photographies numériques, chacun de ces motifs est unique en raison des variations dans la fabrication de l’appareil.
Il en va de même pour les deep fakes. Chaque modèle génératif a ses propres particularités qui sont imprimées sur ses créations. Ils peuvent être utilisées pour découvrir l’identité du modèle sur la base de l’image elle-même.
Il existe effectivement un nombre illimité de modèles génératifs dans les contrées sauvages de l’internet. Ainsi, les chercheurs ont dû généraliser leur recherche de ces empreintes d’images. « Nous avons estimé les empreintes digitales en utilisant différentes contraintes basées sur les propriétés d’une empreinte digitale en général ; notamment la magnitude de l’empreinte, la nature répétitive, la gamme de fréquences. Mais aussi la réponse symétrique en fréquence. » Ensuite, ces contraintes ont été réinjectées dans le FEN. L’objectif était d’obliger les empreintes digitales générées à avoir ces propriétés souhaitées ».
L’IA de Facebook s’appuie sur des hyperparamètres
Ensuite, une fois que le système a pu séparer de manière cohérente les empreintes digitales authentiques des fausses, il a pris toutes ces fausses empreintes digitales et les a introduites dans un modèle d’analyse syntaxique. L’objectif étant de déterminer leurs différents hyperparamètres.
Les hyperparamètres d’un modèle génératif sont les variables qu’il utilise pour guider son processus d’auto-apprentissage. Ainsi, si vous parvenez à déterminer les différents hyperparamètres, vous pourrez déterminer quel modèle les a utilisés pour créer cette image. L’équipe de Facebook compare cela à la capacité d’identifier les différents composants du moteur d’une voiture en l’écoutant tourner au ralenti.
Il n’existe pas de base de référence spécifique à laquelle comparer les résultats de leurs tests. L’équipe a donc créé la sienne et a constaté « une corrélation beaucoup plus forte et généralisée entre les images générées et l’espace d’intégration des hyperparamètres d’architecture et des types de fonction de perte significatifs ; par rapport à un vecteur aléatoire de même longueur et de même distribution ».
Ainsi, en gros, ils ne peuvent pas dire objectivement à quel point leur système est bon ; puisqu’il n’y a littéralement aucune autre recherche à laquelle le comparer. Mais ils savent qu’il est plus efficace que la chance aveugle.