Table des matières
« Le véritable perfectionnement des machines […] correspond non pas à un accroissement de l’automatisme,
Gilbert Simondon, Du mode d’existence des objets techniques, 1969.
mais au contraire au fait que le fonctionnement d’une machine recèle une certaine marge d’indétermination. »
« S’il est permis à la photographie de suppléer l’art dans quelques-unes de ses fonctions, elle l’aura bientôt supplanté ou corrompu tout à fait, grâce à l’alliance naturelle qu’elle trouvera dans la sottise de la multitude », écrit Charles Baudelaire en 1859, dans « Le public moderne et la photographie ». Et de poursuivre : « Il faut donc qu’elle rentre dans son véritable devoir, qui est d’être la servante des sciences et des arts, mais la très humble servante » (BAUDELAIRE : 1976, p. 618). Presque cent soixante-dix ans plus tard, l’intelligence artificielle générative semble rejouer les débats du XIXe siècle autour du statut ambigu de la photographie. Dès son émergence, tiraillée entre industrie, science et art, celle-ci a été paradoxalement, pour la même raison – son automatisme –, l’objet d’une fascination émerveillée et d’un rejet radical. Qu’une machine puisse produire une image quasiment sans intervention humaine et que cette production puisse être considérée comme de l’art était proprement inouï. Si ce « nouveau regard » porté par la photographie a assurément ouvert le champ du visible et bousculé le « régime esthétique1 », il a néanmoins fallu attendre de nombreuses décennies pour que le médium acquière une incontestable légitimité culturelle et artistique.
Apparition d’une nouvelle technique de représentation-figuration, médiatisation d’un outil controversé, démocratisation du dispositif, appropriation par des artistes, accélération de la production des images, réflexion théorique sur des usages et des pratiques différenciés… les modèles génératifs d’images fondés sur le deep learning semblent suivre le chemin emprunté par la photographie. Cependant, ce qui importe aujourd’hui, ce n’est pas tant d’apprécier leur potentielle légitimité à « faire art » – nous sommes encore dans un « a priori » et, de toute façon, l’hétérogénéité de leur usage empêche d’essentialiser la production générative –, mais de saisir ce que leurs images font à l’art et à l’auctorialité ou, du moins, aux concepts qui leur sont traditionnellement associés. En effet, les systèmes génératifs d’IA text-to-image, comme DALL-E, Midjourney ou Stable Diffusion, opèrent selon la logique CLIP (Contrastive-Language-Image-Pretraining), c’est-à-dire un réseau neuronal qui apprend les concepts visuels à partir d’une supervision en langage naturel sur de vastes bases de données d’images étiquetées, catégorisées, indexées, et qui utilise une analyse statistique pour prédire des résultats. Ils produisent donc, à partir d’une requête textuelle (un prompt), une image computationnelle probabiliste, contingente. Est-ce qu’une telle image peut devenir intentionnelle et subjective ? Peut-elle, pour reprendre les termes de Baudelaire, « empiéter sur le domaine de l’impalpable et de l’imaginaire, sur tout ce qui ne vaut que parce que l’homme y ajoute de son âme » (ibid., p. 619) ? Et si elle y parvient, que peut-on dire des conditions de possibilité de la créativité artistique ?
À partir de ma propre pratique de l’IA générative — qui est un prolongement d’une « pratique photographique low-fi2 » —, je propose, dans cet article, d’explorer comment l’intentionnalité, la subjectivité, la singularité, peuvent émerger du dispositif machinique.
Avec la machine, contre la machine… tout contre
En 1930, le photographe allemand Erwin Quedenfeldt considère que l’opérateur doit « se transformer en machine à voir en [s’identifiant] complètement à elle, en s’y [dépouillant] intégralement de lui-même » (QUEDENFELDT : 1997, p. 166), afin qu’émergent de nouvelles visibilités déliées de toute représentation mimétique3.
La machine à voir photographique, explique-t-il, travaille dans une indépendance totale de toute influence humaine, en particulier des intentions esthétiques et artistiques. Elle créera à partir de soi-même de nouveaux produits, les images d’une machine à voir conformes à son caractère spécifique (ibid., p. 165).
Aujourd’hui, dans de nombreux discours sur ladite « intelligence artificielle générative4 », on constate que les systèmes qu’elle propose sont appréhendés comme des « machines de vision » – algorithmiques, cette fois – dont le fonctionnement interne tout à la fois fascine et inquiète. Et la majorité des réflexions afférentes s’attachent à examiner la nature technique des images de cette nouvelle « machine à voir », en d’autres termes, leur caractère spécifique. Celui-ci se manifeste, semble-t-il, moins dans le résultat – les images elles-mêmes, pour autant que l’on puisse encore parler d’images (sinon, d’artefacts ou de simulacres ?), et leurs potentielles qualités expressives, plastiques, sémantiques – que dans leur processus de production. Or, la difficulté à appréhender ces « objets » réside dans la complexité de ce processus, dont tout un pan demeure plus ou moins occulté5, celui relatif à une série d’exploitations primordiales : exploitation minière pour le fonctionnement des modèles, exploitation des travailleurs et travailleuses pour l’entraînement des IA et la constitution de leurs bases de données – le « travail fantôme » du prétraitement sémantique, dénoncé notamment par Mary L. Gray et Siddharth Suri (2019) –, exploitation de l’énergie électrique pour les phases d’entraînement et pour la génération des images, exploitation des producteurs et productrices d’images sur le Web et des artistes visuels pour alimenter les datasets… Dans ce contexte, il pourrait paraître secondaire de s’intéresser au potentiel créatif des modèles génératifs d’images et à la spécificité de leur production.Cependant, parce que notre rapport au monde est aussi façonné par nos images, parce que les images sont des « agents » sociaux et affectifs révélateurs de « l’ossature ontologique du réel » (DESCOLA : 2021, p. 52), la réflexion ne peut être tout à fait vaine. C’est donc en restant consciente de la logique « extractive » destructrice de l’IA (CRAWFORD : 2021) que j’aborderai sa capacité (re)productrice.
La primauté du texte dans la fabrique de l’image algorithmique
« Que signifie produire une image quand toutes les images concevables semblent déjà exister en tant que possibilité statistique dans un espace latent nourri par les images du passé ? » s’interroge Roland Meyer (MEYER : 2023, p. 102 [ma trad.]). Depuis leur récente apparition (2021-2022), les modèles génératifs text-to-image6 ont donné lieu à un grand nombre de publications explicitant, selon diverses optiques — scientifique, historique, esthétique, philosophique —, la fabrique de l’image algorithmique. Mais de quoi et comment est faite l’image ? La réponse n’est pas simple… L’image est une actualisation d’images virtuelles7 opérant par induction statistique à partir de millions d’images étiquetées, catégorisées, ayant servi à la reconnaissance de personnes, d’objets, de motifs, de styles, de techniques, etc. ; elle est le résultat d’un « jeu antagoniste » entre un discriminateur et un générateur aux prises avec une multitude de paires image-texte8. Elle peut aussi être envisagée comme la réalisation d’une rencontre entre l’imagination machinique – son « inconscient technique » pour reprendre Vilém Flusser (2004), c’est-à-dire les processus invisibles et les mécanismes conduisant à la figuration – et l’imaginaire culturel collectif qui la sous-tend (les données d’entraînement du système, mais aussi les énoncés linguistiques auxquels on le confronte). Elle est encore la « visualisation de l’un des “points” (un vecteur) de l’espace latent généré par le modèle au cours de son apprentissage » (SOMAINI : 2023, p. 106 [ma trad.]) ; ou la réaction d’un réseau neuronal à un texte, opérant moins comme une description que comme une commande, ce que souligne de façon éclairante Roland Meyer :
Les prompts ne doivent pas être considérés comme des instructions à exécuter, mais plutôt comme des commandes de recherche générative qui dirigent les modèles d’IA vers des zones spécifiques au sein de l’espace stochastique des possibles de l’image (MEYER : 2023, p. 100 [ma trad.]).
En effet, l’un des aspects les plus remarquables du processus génératif est sans aucun doute la reconfiguration radicale des relations texte-image qu’il induit, dans le sens d’une primauté inédite accordée aux textes – j’insiste sur le pluriel, car il importe de distinguer le texte-amont et le texte-aval, c’est-à-dire, d’une part, le texte-légende, les termes descriptifs et catégoriels contenus dans les paires texte-image qui ont servi à entraîner le système et, d’autre part, le texte-déclencheur (pour revenir à la rhétorique propre au photographique) du prompt. Sans texte donc, pas d’image. Ce constat résonne étonnamment avec la question posée en 1931 par Walter Benjamin en conclusion de sa Petite histoire de la photographie : « La légende ne deviendra-t-elle pas l’élément essentiel de la prise de vue ? » (BENJAMIN : 2019, p. 65). En 2023, un certain nombre de chercheurs, tels Jay David Bolter, Hannes Bajohr, Lev Manovich et Emanuele Arielli, ont réactivé le terme de la rhétorique antique ekphrasis pour insister sur les interactions productives entre les mots et les images et sur la fonction performative – imageante en l’occurrence – du langage9. Le processus fait de code et de texte s’assimile ainsi à une « ekphrasis opérative », où le langage cesse d’être dans un rapport mimétique à l’image pour entrer dans un rapport causal (BAJOHR : 2023). « Nous assistons peut-être à l’absorption du mot par l’image », écrit Jay David Bolter (2023, p. 205 [ma trad.]). Et Hannes Bajohr de préciser :
Il s’agit de comprendre l’ekphrasis non pas comme une représentation, mais comme une performance ; non pas comme l’imitation d’une image par un texte, mais comme un texte qui produit effectivement une image. En tant que telle, il s’agit véritablement de « mots qui peignent une image », mais elle doit être entendue comme une opération de manipulation d’informations symboliques, pas comme une représentation figurative (BAJOHR : 2023 [ma trad.]).
De nouvelles agentivités expressives pour une auctorialité hybride et mouvante
Alors par qui est faite l’image ? Loin d’être le fruit d’un travail machinique autonome, l’image générée par l’IA est le produit d’interactions complexes entre différentes instances : les utilisateurs et utilisatrices qui rédigent les prompts, la plate-forme qui permet d’actualiser ces requêtes textuelles et qui doit être appréhendée à la fois comme un appareil et comme un programme – au sens de Vilém Flusser (2004) – et l’infrastructure implicite de celle-ci, à savoir les personnes qui ont fait les images ayant servi à l’alimenter, les travailleurs et travailleuses qui ont entraîné les modèles, les informaticiens et informaticiennes qui ont conçu les algorithmes, bref un ensemble d’agentivités directes et indirectes. Ainsi se dessinent les figures d’une auctorialité hybride et mouvante, difficile à qualifier : auctorialité déléguée, assistée, partagée, collective, « auctorialité remixée » (ARIELLI : 2024), auctorialité « fondamentalement distribuée et répartie sur plusieurs couches d’actions et d’opérations » (SOMAINI : 2023, p 99. [ma trad.]), etc. Dans une telle configuration, les attributs distinctifs attachés au concept traditionnel d’auteur – l’originalité, l’individualité, la subjectivité – sont à l’évidence caducs. Reprenant la pensée de Roland Barthes formulée dans « La mort de l’auteur », on pourrait considérer que toute image générée par les IA est « un espace à dimensions multiples, où se marient et se contestent des écritures variées, dont aucune n’est originelle » (BARTHES : 2002, p. 43). L’image générative est consubstantiellement « un tissu de citations [et d’images] issues des mille foyers de la culture » (ibid.). On mesure là la difficulté à légiférer en matière de droit d’auteur face à ces images qui demeurent jusque-là orphelines. Sans origine, elles sont, par leur nature même, sans authenticité, puisque, comme le rappelle Laurence Allard, dès le XVIIIe siècle, l’authenticité de l’œuvre s’est vue rattachée au nom propre (ALLARD : 2021, p. 149). L’IA générative serait-elle finalement le dernier avatar de cette tendance de l’art contemporain mise au jour par Nicolas Bourriaud au début des années 2000, un art de la « postproduction » où « les notions d’originalité (être à l’origine de…), et même de création (faire à partir de rien) s’estompent » et où émergent, dans un nouveau paysage culturel, « les figures jumelles du DJ et du programmateur, qui ont tous deux pour tâche de sélectionner des objets culturels et de les insérer dans des contextes définis » (BOURRIAUD : 2003, p. 6) ?
De ces artistes qui insèrent leur propre travail dans celui des autres, explique l’auteur, on peut dire qu’ils contribuent à abolir la distinction traditionnelle entre production et consommation, création et copie, ready-made et œuvre originale. La matière qu’ils manipulent n’est plus première. Il ne s’agit plus pour eux d’élaborer une forme à partir d’un matériau brut, mais de travailler avec des objets d’ores et déjà en circulation sur le marché culturel, c’est-à-dire déjà informés par d’autres (ibid., p. 5, l’auteur souligne).
Les modèles génératifs text-to-image impliquent en effet une dissolution manifeste des frontières : entre médiums, d’abord – Bolter a montré que leur processus est en soi une remédiation (BOLTER : 2023) ; entre modèle, image et simulacre, ensuite ; entre création et reproduction combinatoire, enfin (une ère de la post-postproduction ?). Mais ils offrent également à partir du langage (langage naturel et code) de nouvelles configurations expressives, de nouveaux « agencements d’énonciation » pour reprendre l’expression de Félix Guattari, et peut-être nous font-ils entrer dans un nouveau « paradigme esthétique » (GUATTARI : 1992).
D’une image asubjective et désaffectée à une image anamnestique « inquiète d’elle-même10 »
Pourquoi faire des images avec les modèles génératifs, si, comme le souligne l’artiste Philippe Boisnard, « l’IAmage de type photographique ne donne rien à voir qu’elle-même » ? Sans antériorité temporelle, sans extériorité spatiale, « l’image ne raconte rien », poursuit-il (BOISNARD : 2022, p. 95). C’est précisément parce qu’elle ne donne à voir qu’elle-même et ne raconte rien qu’elle m’intéresse ; parce qu’elle est par nature asubjective et désaffectée ; parce qu’elle n’a pas de modèle – au sens photographique –, pas de référent, pas de sujet, même si elle émane de l’analyse et du traitement de millions d’images préexistantes référencées. Je crois que si je fais des images avec ces outils, c’est surtout parce que « le sujet de [ces images] n’est rien d’autre que la manière dont [elles] se [font] » (SEMIN : 1986, p. 23). Cette dernière phrase ne renvoie pourtant aucunement à l’IA générative, elle évoque la photographie. Or, elle fait particulièrement sens, parce que j’envisage la pratique de l’IA comme un prolongement direct de ma pratique photographique, expérimentale et autour de « l’errance », telle que l’a théorisée Clément Chéroux. Dans un ouvrage consacré à l’erreur photographique, le photographe entend cerner « les lapsus du médium » et montrer que l’erreur peut s’avérer un « outil cognitif » (CHÉROUX : 2003, p. 17). Il explique :
Bien davantage que de photographie pauvre, il conviendrait ici de parler d’errance. Errer, c’est selon l’acception courante aller çà et là, déambuler au hasard de ses pas. Errer, c’est aussi, l’étymologie le rappelle, se mettre en situation de faire des erreurs. L’errance est la forme vagabonde de la sérendipité. Errer, en photographie, c’est en somme se disposer à accueillir les accidents comme autant de petits miracles profanes, comme de véritables épiphanies photographiques (ibid., p. 125, je souligne).
Dans mon travail photographique, cette question de l’errance est importante, dans la mesure où je souhaite produire, dès la prise de vue, du flou, de l’erreur (ou du bruit), de l’indéfini, de la non-fixité, mais aussi de la matière, de l’épaisseur, de l’indistinct par le biais du mouvement, de la vitesse, par l’intrusion de phénomènes ou de matériaux qui font obstacle (pluie, brouillard, nuit, fumée, lumière, vitre, verre, etc.). En expérimentant les limites du médium, je cherche à créer des « contre-espaces » que « l’esprit s’efforce de combler », pour reprendre les mots du photographe Raoul Ubac, qu’il emprunte lui-même au poète Joë Bousquet (UBAC : 1942, p. 38). J’essaie de matérialiser « la lente déformation imaginaire que l’imagination procure aux perceptions » (BACHELARD : 1990, p. 10).
Ma démarche vise à matérialiser cette faculté de l’imagination, non pas à former mais à déformer des images, par le biais de photographies évasives, défaillantes (fig. 5), car il me semble que c’est dans cette défaillance que l’image acquiert toute sa puissance, c’est-à-dire sa capacité à faire surgir d’autres images, celles enfouies dans les rêves, la mémoire ou l’espace latent de l’imagination (CHATELET : 2023, p. 92 sqq).
Sans doute était-il logique que je sois attirée par les systèmes génératifs d’images, dans la mesure où l’une de leurs caractéristiques essentielles est leur espace latent, cet espace de tous les probables (entendu au sens courant et au sens mathématique) de l’image. Finalement, ce que j’expérimente avec ces outils11, c’est une inversion de leur logique. Je tente de prendre à rebours leur processus : faire advenir à partir d’une image incertaine d’autres images – quand bien même il ne s’agit que d’images mentales ou d’« images-souvenirs », pour reprendre Bergson (2012), ou, mieux, d’images « anamnestiques12 » –, alors que ces systèmes font advenir une image, sinon incertaine du moins imprévisible, à partir d’autres images. Et c’est l’image générée qui se révèle ici anamnestique, car elle potentialise des « caractères » du réservoir d’images dont l’IA est constituée. Pour le dire autrement, elle réactive sa mémoire machinique en générant des images. Elle se remémore…
Plus généralement, j’appréhende l’IA comme un autre moyen de faire mes propres images, et c’est sans doute là le paradoxe : vouloir faire des images subjectives, donc singulières, avec des images asubjectives et désaffectées. C’est en tout cas la question qui a présidé à mes premières expérimentations : est-ce je pouvais comprendre la logique de l’IA pour parvenir à lui faire faire le « même genre » d’images que mes photographies ? Évidemment, le terme « genre » ne convient pas, ni même celui de « style13 »… alors quoi ? Des images ayant la même ambiance ? Le mot anglais « mood » semble en réalité mieux convenir, dans la mesure où il contient l’idée d’« état d’esprit ». Je ne veux pas faire des images qui ressemblent à mes photographies, mais des images qui me ressemblent. Il n’est pas question de représentation mimétique ou de copie, mais plutôt de figuration d’images mentales. Faire entrer, donc, l’IA dans ma tête. Confronter l’imagination artificielle à mon imaginaire pour produire une potentielle rencontre.
Dans la rencontre, il y a du hasard et de l’inattendu : c’est bien l’inattendu du processus qui me fascine dans les modèles génératifs text-to-image. J’aime pouvoir « déjouer » leur programme et, dans le même temps, jouer avec le hasard contre moi-même, c’est-à-dire contre mes attentes. Laisser faire cette incertitude qui se fonde sur un écart entre mes mots (ceux que j’écris via le prompt) et leur interprétation statistique par la machine, éminemment variable. Tout se passe comme si celle-ci générait des images, mais également des vides, des interstices qui m’apparaissent comme une résistance au langage, et c’est cette résistance que je cherche à éprouver. Le prompt n’est finalement pas si performatif : certes, dire, c’est faire14, mais simultanément défaire. Mal dit, mal vu15… Pour le moment (mais jusqu’à quand ?), il y a une béance de la langue que les réseaux neuronaux ne savent pas combler. Or, il n’y a selon moi de créativité, et donc de liberté, que dans cette béance. Alors, face à la machine, soyons stratégiques et souvenons-nous que « la liberté est la stratégie qui consiste à soumettre le hasard et la nécessité à l’intention humaine. Être libre, c’est jouer contre les appareils » (FLUSSER : 2004, p. 83).
Biographie
Docteur en études cinématographiques et diplômée de l’École nationale supérieure d’audiovisuel de Toulouse (ENSAV), Claire Chatelet est maître de conférences en audiovisuel et nouveaux médias à l’université Paul-Valéry – Montpellier-3, membre du RIRRA 21 et chercheuse associée au LERASS et au groupe de travail Intelligence artificielle, art et créativité du CIS (CNRS). Sa recherche porte sur les écritures audiovisuelles connectées et les enjeux esthétiques-esthésiques des nouveaux dispositifs de diffusion (réseaux sociaux, Web, environnements de réalité virtuelle et réalité mixte, etc.) et, plus récemment, sur la génération d’images par intelligence artificielle. Elle est également engagée dans une pratique photographique expérimentale à partir du smartphone et de l’intelligence artificielle (voir : https:// www.instagram.com/claire_chatelet/). Elle a notamment publié L’Atelier en acte(s). Espace de création, création d’espace (Hermann, 2023), Les Dispositifs immersifs : vers de nouvelles expériences de l’image et du son ? (Cahiers Louis-Lumière, n° 13, 2020), La Réalité virtuelle, une question d’immersion ? (La Fémis présente, n° 1, 2019).