Que sont les deepfakes et comment les créer ?

0 Partages

Votre explicateur unique sur Deepfakes et pour les créer facilement avec Faceswap.

L’intelligence artificielle n’est plus si « artificielle ». Ces temps l’ont mis dangereusement près de nous, les humains.

Il peut suggérer, écrire, créer de l’art, et maintenant ressemble et parle comme les vivants.

C’est l’un des développements les plus récents dans ce domaine dont nous devrions tirer parti. Cependant, c’est aussi celui dont nous devons nous méfier.

Table des matières

Que sont les deepfakes ?

Le mot Deepfake est inventé en combinant l’apprentissage en profondeur et le faux. En termes simples, vous pouvez également supposer qu’il s’agit de médias habilement manipulés ou profondément truqués.

Selon Wikipedia, cela est également connu sous le nom de média synthétique dans lequel une image, un son ou une vidéo existant est modifié pour représenter entièrement quelqu’un d’autre.

En règle générale, les deepfakes font apparaître des personnalités renommées pour dire quelque chose qu’elles ne feraient pas autrement.

Sur la base des compétences de son créateur, il peut être extrêmement difficile de dire s’il s’agit d’un vrai ou d’un faux.

Comment fonctionnent les deepfakes ?

En termes simples, une partie de la vidéo originale (disons un visage) est remplacée par un faux similaire. Dans un tel cas, cela peut aussi être appelé un échange de visages, comme dans cette vidéo « Obama ».

Cependant, cela ne se limite pas à la seule vidéo, et nous avons également des images et de l’audio deepfakes (et qui sait, des avatars deepfake VR dans un avenir proche).

Source : Disney

La méthodologie de travail derrière de telles supercheries dépend principalement de l’application et de l’algorithme sous-jacent.

Selon ce document de recherche de Disney, il existe différentes techniques, notamment les encodeurs-décodeurs, les réseaux antagonistes génératifs (GAN), les deepfakes basés sur la géométrie, etc.

Cependant, les sections suivantes sont principalement affectées par la façon dont cela fonctionne avec Facewap. Il s’agit d’un logiciel Deepfake gratuit et open-source qui permet à plusieurs algorithmes d’obtenir le résultat attendu.

Il existe trois processus principaux pour générer des deepfakes : l’extraction, la formation et la conversion.

#1. Extraction

Il s’agit de détecter et d’extraire le domaine d’intérêt des échantillons de médias, l’original et celui de l’échange.

Sur la base des capacités matérielles, il peut y avoir de nombreux algorithmes pour opter pour une détection efficace.

Par exemple, Faceswap a quelques options différentes pour l’extraction, l’alignement et le masquage en fonction de l’efficacité du CPU ou du GPU.

L’extraction identifie simplement le visage dans la vidéo globale. L’alignement repère les caractéristiques cruciales de n’importe quel visage (yeux, nez, menton, etc.). Et enfin, le masquage bloque les autres éléments de l’image à l’exception de la zone d’intérêt.

Le temps global pris pour la sortie est important dans la sélection de toute option, car le choix d’algorithmes gourmands en ressources sur un matériel médiocre peut entraîner un échec ou un temps considérablement long pour rendre des résultats acceptables.

Outre le matériel, le choix dépend également de paramètres tels que le fait que la vidéo d’entrée souffre d’obstructions faciales telles que des mouvements de la main ou des lunettes.

Un élément nécessaire, en fin de compte, est le nettoyage (expliqué plus loin) de la sortie, car les extractions auront quelques faux positifs.

En fin de compte, l’extraction est répétée pour la vidéo originale et la fausse (utilisée pour l’échange).

#2. Entraînement

C’est le cœur de la création de deepfakes.

La formation porte sur le réseau neuronal, qui se compose de l’encodeur et du décodeur. Ici, les algorithmes reçoivent les données extraites pour créer un modèle pour la conversion ultérieure.

L’encodeur convertit l’entrée en une représentation vectorielle pour entraîner l’algorithme à recréer les faces à partir de vecteurs, comme le fait le décodeur.

Ensuite, le réseau de neurones évalue ses itérations et les compare à l’original en attribuant un score de perte. Cette valeur de perte diminue avec le temps au fur et à mesure que l’algorithme continue d’itérer et vous vous arrêtez lorsque les aperçus sont acceptables.

La formation est un processus qui prend du temps et les résultats s’améliorent généralement en fonction des itérations qu’il effectue et de la qualité des données d’entrée.

Par exemple, Faceawap suggère un minimum de 500 images chacune, originales et à échanger. De plus, les images doivent différer considérablement entre elles, couvrant tous les angles possibles dans un éclairage unique pour la meilleure récréation.

Compte tenu de la durée de l’entraînement, certaines applications (comme Faceswap) permettent d’arrêter l’entraînement à mi-chemin ou de continuer plus tard.

Notamment, le photo-réalisme de la sortie dépend également de l’efficacité de l’algorithme et de l’entrée. Et on est à nouveau limité par les capacités matérielles.

#3. Conversion

Ceci est le dernier chapitre de la création de deepfake. Les algorithmes de conversion ont besoin de la vidéo source, du modèle entraîné et du fichier d’alignement source.

Par la suite, on peut modifier quelques options relatives à la correction des couleurs, au type de masque, au format de sortie souhaité, etc.

Après avoir configuré ces quelques options, il ne vous reste plus qu’à attendre le rendu final.

Comme mentionné, Faceswap fonctionne avec de nombreux algorithmes, et on peut jouer entre eux pour obtenir un facewap tolérable.

Est-ce tout?

Non!

C’était juste un échange de visage, un sous-ensemble de la technologie deepfake. L’échange de visage, comme le sens littéral, ne remplace qu’une partie du visage pour donner une faible idée de ce que les deepfakes pourraient faire.

Pour un échange crédible, vous devrez peut-être également imiter l’audio (mieux connu sous le nom de clonage de voix) et l’ensemble du corps, y compris tout ce qui rentre dans le cadre, comme ceci :

Alors, qu’est-ce qui se joue ici?

Ce qui aurait pu se passer, c’est que l’auteur du deepfake a tourné la vidéo lui-même (comme indiqué dans les dernières secondes), a synchronisé le dialogue avec la voix synthétique de Morgan Freeman et a remplacé sa tête.

En conclusion, il ne s’agit pas seulement d’échanger des visages, mais de l’ensemble du cadre, y compris l’audio.

Vous pouvez trouver des tonnes de deepfakes sur YouTube au point qu’il devient effrayant de savoir à quoi faire confiance. Et tout ce qu’il faut, c’est un ordinateur puissant avec une carte graphique efficace pour commencer.

Cependant, la perfection est difficile à atteindre, et c’est particulièrement vrai avec les deepfakes.

Pour un deepfake convaincant qui peut induire en erreur ou impressionner le public, il faut des compétences et quelques jours à quelques semaines de traitement pour une minute ou deux d’une vidéo.

Fait intéressant, c’est à quel point ces algorithmes sont capables à partir de maintenant. Mais ce que l’avenir nous réserve, y compris l’efficacité de ces applications sur du matériel bas de gamme, est quelque chose qui a rendu nerveux des gouvernements entiers.

Cependant, nous ne nous plongerons pas dans ses répercussions futures. Au lieu de cela, vérifions comment le faire vous-même pour un peu de plaisir.

Créer des vidéos deepfake (de base)

Vous pouvez vérifier de nombreuses applications dans cette liste d’applications deepfake pour créer des mèmes.

L’un d’eux est Faceswap, que nous allons utiliser.

Nous nous assurerons de certaines choses avant de continuer. Tout d’abord, nous devrions avoir une vidéo de bonne qualité de la cible illustrant diverses émotions. Ensuite, nous aurons besoin d’une vidéo source pour permuter sur la cible.

De plus, fermez toutes les applications gourmandes en cartes graphiques comme les navigateurs ou les jeux avant de procéder à Faceswap. Cela est particulièrement vrai si vous avez moins de 2 Go de VRAM (RAM vidéo).

Étape 1 : Extraction des visages

La première étape de ce processus consiste à extraire les visages de la vidéo. Pour cela, nous devons sélectionner la vidéo cible dans le Input Dir et lister un Output Dir pour les extractions.

De plus, il existe quelques options, notamment un détecteur, un aligneur, un masqueur, etc. les explications pour chacun sont dans la FAQ de Faceawap, et ce serait du gâchis de ressasser les informations ici.

Source : FAQ Faceswap

Il est généralement bon de revoir la documentation pour une meilleure compréhension et une sortie décente. Cependant, il existe des textes utiles dans Faceswap que vous pouvez trouver en survolant l’option spécifique.

En termes simples, il n’y a pas de méthode universelle, et il faut commencer par les meilleurs algorithmes et progresser avec succès pour créer un deepfake convaincant.

Pour le contexte, j’ai utilisé Mtcnn (détecteur), Fan (aligneur) et Bisenet-Fp (masqueur) tout en gardant toutes les autres options telles quelles.

A l’origine, je l’ai essayé avec S3Fd (meilleur détecteur) et quelques autres masques combinés. Cependant, ma Nvidia GeForce GTX 750Ti 2 Go n’a pas pu supporter le poids et le processus a échoué à plusieurs reprises.

Enfin, j’ai atténué mes attentes et les paramètres pour y parvenir.

Outre la sélection du détecteur, des masqueurs, etc. appropriés, il existe quelques options supplémentaires dans Paramètres> Configurer les paramètres qui permettent de peaufiner davantage les paramètres individuels pour aider le matériel.

En termes simples, sélectionnez la taille de lot, la taille d’entrée et la taille de sortie les plus basses possibles, et cochez LowMem, etc. Ces options ne sont pas disponibles universellement et sont basées sur une section spécifique. De plus, les textes d’aide aident à sélectionner les meilleures options.

Bien que cet outil fasse un excellent travail d’extraction de visages, les images de sortie peuvent avoir beaucoup plus que nécessaire pour former (voir plus loin) le modèle. Par exemple, il aura tous les visages (si la vidéo en a plus d’un) et certaines détections incorrectes n’ayant pas du tout le visage cible.

Cela conduit à nettoyer les jeux de données. Soit on peut vérifier le dossier de sortie et se supprimer soi-même, soit utiliser le tri Faceswap pour obtenir de l’aide.

L’utilisation de l’outil susmentionné organisera différents visages dans l’ordre à partir duquel vous pourrez regrouper les visages nécessaires dans un seul dossier et supprimer le reste.

Pour rappel, vous voudrez également répéter l’extraction pour la vidéo source.

Étape 2 : Entraîner le modèle

C’est le processus le plus long pour créer un deepfake. Ici, l’entrée A fait référence au visage cible et l’entrée B concerne le visage source. En outre, le Model Dir est l’endroit où les fichiers de formation seront enregistrés.

Ici, l’option la plus importante est Trainer. Il existe de nombreuses options de mise à l’échelle individuelles; cependant, ce qui a fonctionné pour mon matériel, ce sont les formateurs Dfl-H128 et Lightweight avec les paramètres de configuration les plus bas.

Vient ensuite la taille du lot. Une taille de lot plus élevée réduit le temps de formation global mais consomme plus de VRAM. Les itérations n’ont pas d’effet fixe sur la sortie, et vous devez définir une valeur suffisamment élevée et arrêter la formation une fois que les aperçus sont acceptables.

Il existe quelques paramètres supplémentaires, notamment la création d’un timelapse avec des intervalles prédéfinis; cependant, j’ai formé le modèle avec le strict minimum.

Étape 3 : Échanger sur l’original

C’est le dernier exploit de la création deepfake.

Cela ne prend généralement pas autant de temps et vous pouvez jouer avec de nombreuses options pour obtenir rapidement la sortie souhaitée.

Comme indiqué dans l’image ci-dessus, ce sont quelques options qu’il faut choisir pour démarrer la conversion.

La plupart des options sont déjà discutées, comme le répertoire d’entrée et de sortie, le répertoire de modèle, etc. Une chose cruciale est les alignements qui font référence au fichier d’alignement (.fsa) de la vidéo cible. Il est créé dans le répertoire d’entrée lors de l’extraction.

Le champ Alignements peut être laissé vide si ce fichier spécifique n’a pas été déplacé. Sinon, on peut sélectionner le fichier et passer à d’autres options. Cependant, n’oubliez pas de nettoyer le fichier d’alignement si vous avez nettoyé les extractions plus tôt.

Pour cela, ce mini outil se trouve dans Outils > Alignements.

Commencez par sélectionner Remove-Faces dans la section Job, sélectionnez le fichier d’alignement d’origine et le dossier des faces cibles nettoyées, puis cliquez sur Alignements en bas à droite.

Cela créera un fichier d’alignement modifié, correspondant au dossier des faces optimisées. N’oubliez pas que nous en avons besoin pour la vidéo cible, dans laquelle nous voulons échanger.

Quelques configurations supplémentaires incluent le réglage des couleurs et le type de masque. Le réglage des couleurs dicte le mélange du masque, et vous pouvez en essayer quelques-uns, vérifier l’aperçu et sélectionner l’option optimale.

Le type de masque est plus important. Ceci, encore une fois, dépend de vos attentes et du matériel disponible. En règle générale, vous devez également tenir compte des caractéristiques vidéo d’entrée. Par exemple, Vgg-Clear fonctionne bien avec les visages frontaux sans obstructions, tandis que Vgg-Obstructed peut également faire avec des obstructions, telles que les gestes de la main, les lunettes, etc.

Ensuite, le Writer présente quelques choix en fonction de la sortie souhaitée. Pour Par exemple, sélectionnez Ffmpeg pour un rendu vidéo.

Dans l’ensemble, la clé d’un deepfake réussi consiste à prévisualiser quelques sorties et à les optimiser en fonction du temps disponible et de la puissance du matériel.

Applications de Deepfake

Il existe de bonnes, de mauvaises et de dangereuses applications des deepfakes.

Les bons consistent à recréer des leçons d’histoire par ceux qui étaient réellement là pour un plus grand engagement.

De plus, ils sont utilisés par les plateformes d’apprentissage en ligne pour générer des vidéos à partir de textes.

Mais l’un des plus grands bénéficiaires sera l’industrie cinématographique. Ici, il sera facile d’imaginer le véritable chef de file effectuant des cascades, même si ce sera le cascadeur qui risque sa vie. De plus, faire des films multilingues sera plus facile que jamais.

En ce qui concerne les mauvais, malheureusement, il y en a beaucoup. La plus grande application deepfake à ce jour, en fait, 96% (selon ce rapport Deeptrace), est dans l’industrie du porno pour échanger des visages de célébrités contre des acteurs porno.

De plus, les deepfakes sont également utilisés comme armes contre les femmes « standard » non célèbres. Habituellement, ces victimes ont des photographies ou des vidéos de haute qualité sur leurs profils de médias sociaux qui sont utilisées pour la création de deepfakes.

Une autre application effrayante est le vishing, ou hameçonnage vocal. Dans un tel cas, le PDG d’une entreprise basée au Royaume-Uni a transféré 243 000 $ sur les ordres du « PDG » de sa société mère allemande, pour découvrir plus tard qu’il s’agissait en fait d’un faux appel téléphonique.

Mais ce qui est encore plus dangereux, c’est que le deepfake provoque des guerres ou demande la reddition. Une tentative la plus récente a vu le président ukrainien, Volodymyr Zelenskyy, dire à ses forces et à son peuple de se rendre dans la guerre en cours. Cependant, la vérité cette fois a été révélée par la vidéo de qualité inférieure.

En conclusion, il existe de nombreuses applications deepfake, et cela ne fait que commencer.

Cela nous amène à la question à un million de dollars…

Deepfakes est-il légal ?

Cela dépend principalement de l’administration locale. Bien que des lois bien définies, y compris ce qui est autorisé et ce qui ne l’est pas, restent à voir.

Pourtant, ce qui est évident, c’est que cela dépend de la raison pour laquelle vous utilisez les deepfakes – l’intention. Il n’y a pratiquement aucun mal si vous avez l’intention de divertir ou d’éduquer quelqu’un sans déranger la cible d’échange.

D’autre part, les applications malveillantes devraient être punies par la loi, quelle que soit la juridiction. Une autre zone grise est la violation du droit d’auteur qui doit être dûment prise en compte.

Mais pour réitérer, vous devriez vérifier auprès de vos organismes gouvernementaux locaux les applications légales de deepfake.

Garde un œil ouvert!

Deepfkaes utilise l’intelligence artificielle pour faire dire des choses à n’importe qui.

Ne faites pas confiance à tout ce que vous voyez sur Internet est le premier conseil que nous devrions suivre. Il y a des tonnes de désinformation et leur efficacité ne fait qu’augmenter.

Et comme il ne sera que plus facile de les créer, il est temps d’apprendre à repérer les deepfakes.