1re tournée
Version image, côté « photographie », les grands médias et leurs officines de fact-checking ont attendu la sortie de Midjourney et de DALL-E pour s’émouvoir de cette capacité donnée à n’importe quel Paganini du clavier de créer de fausses photographies plus vraies que nature. Passons sur cette mauvaise foi consternante ou sur cette crasse méconnaissance de l’univers de la photographie, où l’on s’intéresse au problème depuis les débuts de l’URSS, et encore davantage depuis que les plasticiens maîtrisent les technologies numériques et explorent les ressources des flux d’images. Je dis « passons » parce que le sujet fera l’objet d’une deuxième tournée.
Version conversationnelle, côté « chat », le truc fait frissonner les enseignants, et la directrice de la formation initiale de Sciences Po Paris en a même dégainé son stylo quatre couleurs à interdictions (elle n’est pas la seule). Les collégiens, lycéens et étudiants atteints d’hypertrichose palmaire ou de narcolepsie neuronale y voient une possibilité d’améliorer la maîtrise de leur emploi du temps, et on pense déjà ici ou là à fermer des formations de la filière tertiaire « support à l’action managériale ». Certains « testeurs » (journalistes pointus, universitaires) du bidule mis en ligne par la firme OpenAI depuis la fin de 2022 (ChatGPT, prononcer « tchatjipiti » pour paraître informé) ont mis le doigt sur tout un tas de problèmes (réponses fausses ou tirées par les cheveux, propositions d’informations erronées, capacité à générer des contenus trompeurs, j’en passe). Parmi les plus tatillons, les italiens se sont révélés plutôt taquins vis-à-vis de la firme susnommée, du genre : « Tu respectes le RGPD, sinon je te taxe de 40 millions ». Il y a belle lurette que les informaticiens (ceux qui sont devenus riches, pas ton réparateur d’en-bas-au-coin-de-la-rue) veulent sauver le monde ; il n’est donc pas surprenant que, pour mener à bien une telle mission, on ne s’embarrasse pas de quelques broutilles.
Dans l’expression « intelligence artificielle » il y a « intelligence », donc une faculté spécifiquement liée à l’acquisition de « connaissances » et, si l’ambition s’en mêle, d’agréger et d’organiser ces connaissances pour produire de la science, de la plus humble, qui autorise la survie, à la plus noble, qui permet de soigner. Baissant le curseur de plusieurs crans, et revenant au domaine qui m’est cher, « essayons ChatGPT » me dis-je in petto. J’ai donc « interrogé » la machine, non sans introduire dans mon questionnement une pincée de perversité. Primo, une demande à propos de deux principes photographiques fondamentaux : l’image latente et la loi de l’écart à la réciprocité ; secundo, une demande à propos d’un concept historique et esthétique : la Nouvelle Vision photographique en France de 1920 à 1940. Je livre ci-dessous le résultat de cette expérience toute personnelle ; en italiques, mes questions et les réponses de la machine, en romains, mes commentaires, puis quelques réflexions à la lumière d’une petite répétition de l’expérience initiale.
Question : Explique-moi le phénomène de l’image latente en photo.
Pour rappel : « latent » signifie « Qui n’est pas manifeste, qui reste caché, mais demeure susceptible d’apparaître, de se manifester à un certain moment. »
Réponse : L’image latente est un concept clé en photographie. C’est l’image enregistrée sur la surface sensible de la pellicule ou sur le capteur d’un appareil numérique avant d’être développée ou numérisée. Elle est « latente » car elle n’est pas visible à l’œil nu, mais peut être révélée par un traitement approprié. Le processus de développement ou de numérisation transforme l’image latente en une image visible.
Charabia. « Enregistrer » induit la « conservation » ; le capteur numérique conserve-t-il l’image formée dans la chambre noire ?
Question : Merci. Comment se forme cette image latente ?
Réponse : L’image latente se forme lorsque la lumière passe à travers l’objectif de l’appareil photo et atteint la surface sensible de la pellicule ou le capteur de l’appareil numérique. La lumière expose les matériaux sensibles à la lumière sur la surface, modifiant ainsi leur état chimique et électrique pour produire une charge électrique. Ce processus est appelé réaction photo chimique. L’intensité de la lumière qui atteint chaque point de la surface détermine la quantité de charge produite à cet endroit, créant ainsi une image en négatif de l’objet photographié.
Cette réponse introduit une analogie entre argentique et numérique quant au principe « négatif-positif ». Ce n’est pas pertinent pour le numérique.
Question : Bonjour. En photographie, qu’est-ce que la loi de l’écart à la réciprocité ?
Réponse : La loi de l’écart à la réciprocité est une règle en photographie qui décrit la relation entre l’exposition d’une image et la durée d’exposition. Elle stipule que pour une quantité de lumière donnée, une augmentation de la durée d’exposition entraîne une diminution de l’intensité de la lumière captée par le capteur d’image. Cela signifie que pour obtenir une image correctement exposée, il peut être nécessaire d’ajuster la durée d’exposition en fonction de la quantité de lumière disponible.
Ce que stipulent les 2 premières phrases est simplement faux, doublement. En effet, la loi de l’écart à la réciprocité (autrement nommé effet Schwarzschild, du patronyme de son découvreur) ne s’applique pas à la capture numérique des photographies, mais seulement à la prise de vue sur émulsion argentique. Toutes choses étant égales, celle-ci voit baisser sa sensibilité nominale en fonction de la durée d’exposition (au-delà de quelques secondes, ou en-deçà du millième de seconde). Chaque fabricant indique, pour chacune de ses émulsions, les seuils et les écarts envisageables.
Question : Merci. Peux-tu préciser ?
Réponse : Bien sûr. La loi de l’écart à la réciprocité indique que pour une quantité donnée de lumière incidente, l’exposition (c’est-à-dire la quantité de lumière captée par le capteur d’image) est proportionnelle à la durée d’exposition, mais inversement proportionnelle à la vitesse d’obturation. Autrement dit, si vous augmentez la durée d’exposition, vous devez réduire la vitesse d’obturation pour maintenir une exposition correcte, et vice versa. Cette loi est importante pour les photographes car elle leur permet de contrôler l’exposition en fonction des conditions d’éclairage et de l’effet souhaité.
Incompréhensible. La machine confond la loi de l’écart à la réciprocité avec l’utilisation pratique de l’échelle normalisée des vitesses d’obturation :
| Durée | 1s | 1/2s | 1/4s | 1/8s | 1/15s | 1/30s | 1/60s | 1/125s | 1/250s | 1/500s | 1/1000s |
| Échelle normalisée | 1 | 2 | 4 | 8 | 15 | 30 | 60 | 125 | 250 | 500 | 1000 |
Le début de la réponse est, là aussi, complètement « à côté de la plaque », d’autant que l’exposition (ou lumination) du récepteur peut être clairement définie par le produit de l’éclairement par le temps (ça donne des lux par seconde).
Question : Explique-moi quelles sont les caractéristiques de la nouvelle vision photographique en France entre 1920 et 1940.
Réponse : La période entre 1920 et 1940 en France a été marquée par une évolution significative de la vision photographique. Voici quelques-unes des caractéristiques de cette nouvelle vision photographique pendant cette période :
La montée en puissance du mouvement de la Nouvelle Vision : Dans les années 1920, un groupe de photographes français, tels que Germaine Krull, André Kertész et Maurice Tabard, ont cherché à explorer de nouvelles façons de voir et de représenter le monde à travers la photographie. Ils ont expérimenté des angles de vue inhabituels, des cadrages audacieux et des jeux de lumière et d’ombre pour créer des images originales et artistiques.
Les circonstances de l’époque n’ont pas permis à Kertèsz d’acquérir la nationalité française. Sans doute aussi serait-il plus judicieux d’évoquer un groupe « Krull-Kertèsz-Lotar ».
L’importance de la composition et de la forme : Les photographes de cette époque ont accordé une grande attention à la composition et à la forme dans leurs images. Ils ont utilisé des lignes, des formes géométriques, des diagonales et des motifs abstraits pour créer des compositions graphiques et dynamiques. Cette approche a permis de créer des images visuellement frappantes et expressives.
L’influence du surréalisme : Le surréalisme, un mouvement artistique influent dans les années 1920 et 1930, a également eu un impact sur la vision photographique en France. Les photographes surréalistes, tels que Man Ray et Raoul Ubac, ont utilisé des techniques expérimentales telles que le photomontage, la double exposition et la manipulation de l’image pour créer des œuvres qui défiaient la réalité et exploitaient l’inconscient.
On aurait apprécié ici que soit mentionnée (en complément de l’expression « manipulation de l’image ») la pseudo-solarisation, dont Man Ray a prétendu être le découvreur.
L’importance du reportage et du photojournalisme : Pendant cette période, la photographie a également été utilisée comme un outil pour documenter la vie quotidienne, les événements historiques et les problèmes sociaux. Des photographes comme Henri Cartier-Bresson et Robert Doisneau ont capturé des moments spontanés et des scènes de rue, créant ainsi un héritage important dans le domaine du photojournalisme.
L’émergence de la photographie humaniste : Dans les années 1930, un courant connu sous le nom de « photographie humaniste » a émergé en France. Les photographes humanistes, tels que Willy Ronis et Édouard Boubat, se sont concentrés sur la capture des émotions humaines, la poésie de la vie quotidienne et la beauté dans des moments simples. Leurs images étaient souvent marquées par une sensibilité humaniste et une attention aux détails qui reflétaient la condition humaine.
Des 2 paragraphes qui précèdent suinte un soupçon d’anachronisme. Si dans les années 1930 Cartier-Bresson s’était déjà taillé une réputation (N. et B. Newhall, en 1943, préparaient une exposition de ses photographies car on croyait alors qu’il était décédé), ce n’était pas le cas de Doisneau, tout jeune photographe illustrateur encore fort méconnu. Boubat, quant à lui, était âgé de 14 ans quand il entra à l’école Estienne en 1937 (il en sortit en 1942).
Ces caractéristiques ont contribué à façonner la nouvelle vision photographique en France entre 1920 et 1940, en repoussant les limites techniques et esthétiques de la photographie et en explorant de nouvelles façons de représenter le monde.
Fin de « l’échange ».
Au moment où je rédige ces lignes en tapant à deux doigts sur un clavier « azerty », je ne comprends pas encore très bien ce que recouvrent les expressions « architecture Transformer », « pré-entraînement supervisé/non-supervisé », « traitement/gestion du dialogue » (entre autres) ; on toucherait ici aux technologies fondamentales sur lesquelles repose le fonctionnement de ce service de création de contenu et d’assistanat. En revanche, je perçois, à tort ou à raison, la capacité d’utiliser selon les lois de la statistique et des probabilités la relation entre les termes et la forme du « prompt » (la requête de l’utilisateur) et les données stockées, pour en produire un « sortant » (le résultat textuel) qui met en cohérence « l’entrant » (la requête) et certains éléments du « stock », chaque « entrant » étant versé au « stock », ce qui permet d’affiner les résultats de calcul. À l’évidence, l’usine à gaz (c’est à dire le dispositif technologique et industriel) fonctionne.
En revanche, le résultat n’a pas été à la hauteur des thèmes soumis à la machine par mes requêtes. Encore une fois, puisque je ne sais pas « comment ça marche », j’en reste au constat.
Les réponses fournies allient clarté du langage et sémantique aléatoire. De prime abord, le système s’adresse à un élève de classe de 5e pour tenter de lui expliquer des concepts scientifiquement et historiquement complexes. C’est une forme de vulgarisation, mais celle-ci a des limites, rapidement franchies puisque la machine, pour rester en mesure de produire du contenu, met en relation des données étrangères les unes aux autres, créant ainsi l’expression d’erreurs scientifiques qui prennent l’apparence de certitudes ou d’un quelconque consensus. Comme c’est réconfortant de constater que la machine ne « comprend » ni la requête, ni le contenu qu’elle produit, mais comme c’est décevant de vérifier la réalité des problèmes évoqués par les testeurs pointus du bidule (voir plus haut) !
Lisons le discours de ChatGPT en tentant de limiter les effets de l’éblouissement provoqué par le « merveilleux » technologique. « Les photographes de cette époque ont accordé une grande attention à la composition et à la forme dans leurs images. » Dans toute l’histoire de la photographie, peut-on identifier une époque au cours de laquelle les photographes n’auraient pas accordé une grande attention à la composition et à la forme dans leurs images ? Non, évidemment. Cependant, ce qui apparaît de prime abord comme une phrase toute faite, « de remplissage », induit l’idée inverse. La formalisation de cette assertion devient fallacieuse à force de banalité. Entre banalité et conformisme existe à peine le cheveu du stéréotype : l’obligation discursive de valider la pertinence de la question avant d’y répondre. Les phrases comme « L’image latente est un concept clé en photographie » ou « La période entre 1920 et 1940 en France a été marquée par une évolution significative de la vision photographique » n’ont pas de valeur argumentative, mais contextuelle entre la requête et le contenu proposé. C’est de la rhétorique.
À ce stade de l’expérience, la machine raconte n’importe quoi (statistiques et probabilités, ça peut marcher, à condition d’appliquer convenablement les contraintes contextuelles aux modèles à partir de données « justes ») ou baratine façon dissertation pas très solide. Je ne suis pas fan, d’autant que le vieil adage « si c’est gratuit, c’est toi le produit » s’applique aussi à ce sujet : l’utilisation que je pourrais avoir de ChatGPT viendra grossir les capacités du système à satisfaire des besoins complexes et les solutions fournies à des utilisateurs payants. Comme devant les réseaux sociaux de tout poil, je tique. Pourquoi travaillerais-je gratuitement pour des gens qui ne me fournissent qu’un service minimum ? C’est donc en ronchonnant que je pose à nouveau deux de mes questions à ChatGPT, dans les mêmes termes, trois mois après la première fois…
« Explique-moi le phénomène de l’image latente en photo. » La réponse est plus détaillée, mais la machine associe le phénomène de l’image latente à « l’effet fantôme » (résidu de charge électrique au niveau du capteur numérique) et à la persistance rétinienne… Je laisse tomber.
« Explique-moi quelles sont les caractéristiques de la nouvelle vision photographique en France entre 1920 et 1940. » Un petit tableau pour comparer les deux réponses :
| 1ère réponse | 2e réponse | |
| Photographes cités | Krull, Kertèsz, Tabard, Man Ray, Ubac, Cartier-Bresson, Doisneau, Ronis, Boubat | Cartier-Bresson, Doisneau, Brassaï |
| Mouvements cités | Surréalisme, Photographie humaniste | Dadaïsme, Constructivisme, Surréalisme, Photographie humaniste |
| Éléments de contexte | Photographie documentaire et sociale, photojournalisme | Segmentation des pratiques, Revues (AMG, Regards) |
| Caractéristiques plastiques | Angles de vue, cadrages, géométrie, abstraction, photomontage, double exposition, manipulation | Photomontage, double exposition, manipulation, Réalisme, couleur |
| Conclusion | Repousser les limites techniques et esthétiques, explorer de nouvelles façons de représenter le monde | Diversifier les approches, explorer de nouveaux territoires photographiques, repousser les limites de la discipline |
Les deux conclusions sont sémantiquement identiques, à partir de ressources sensiblement différentes. Faut-il comprendre que certaines données retiendraient plus souvent « l’attention » des algorithmes ? Ou que le « tri » évolue en fonction du volume et de la nature des données « entrantes » (les requêtes) ? Dans les deux réponses, il y a de fâcheux « trous dans la raquette ». Pour compléter ce qui a été dit précédemment, et à propos de la seconde réponse, deux exemples. À côté de Regards, l’absence de Vu doit être remarquée, et la présence d’Arts et Métiers graphiques est un peu surprenante, compte tenu de son faible tirage, de son lectorat spécialisé, et de l’évolution de la ligne éditoriale de son supplément annuel « Photographie ». Quant à la photographie en couleur et la mise à disposition tardive dans la période des émulsions conditionnées pour la photographie, on peut légitimement douter de son rôle dans la construction de la Nouvelle Vision en France.
J’observe ainsi que les deux messages d’avertissement présents sur la page d’accueil de ChatGPT (l’utilisateur étant connecté) sont vérifiés : « Peut occasionnellement générer des informations incorrectes » et « Peut parfois produire des instructions préjudiciables ou un contenu biaisé » ne signifient pas « Oups, pardon pour la boulette », mais plutôt « La machine élabore un discours à partir de modèles prédictifs ; or, des prédictions peuvent s’avérer fausses ». En effet, si je poursuis le « chat » sur la Nouvelle Vision photographique par « Quelles sont les sources qui permettent d’affirmer cela ? », puis « Peux-tu en donner quelques exemples ? », le bidule produit d’abord une liste de types de sources (primaires et secondaires) puis des exemples pertinents, avec des informations assez précises pour les localiser (en privilégiant les ouvrages et articles en anglais). J’en déduis, en béotien, que le potentiel d’erreur des prédictions augmente au fur et à mesure que le système se rapproche du niveau du « prompt » original. Ce serait l’objectif de « coller » (contextuellement et sémantiquement) aux termes et à la forme de la question posée qui pourrait perturber les modèles prédictifs de synthèse et affecter la pertinence du « sortant ». Une image me vient : je vais puiser de l’eau avec un seau finement percé (1er « prompt » ou «entrant»), celui-ci se remplit d’eau au fond du puits (agitation du «stock» en fonction de la vitesse de sa chute, etc.), remonte en perdant de son contenu et, en heurtant la maçonnerie (qui fait partie du « stock »), se charge de quelques débris ; j’extrais du puits un contenu (le « sortant ») qui ne correspond qu’en partie à mes attentes (quantité insuffisante, eau corrompue). Mais au moins la question est-elle réglée : j’ai de l’eau…
Le troisième avertissement de la page d’accueil de ChatGPT est : «Connaissance limitée du monde et des événements après 2021». Je ne sais pas avec certitude ce qu’est ChatGPT, mais je vois se dessiner sa nature, ombre d’un Gorgias convaincu de la supériorité de son Art. Quant au profil de son utilisateur, c’est Cosette sans Jean Valjean dans l’univers figé des Ténardier.
2e tournée…
L’évolution rapide des capacités opérationnelles de l’intelligence artificielle a ouvert deux voies principales (parmi d’autres) au créateur d’images photographiques : la possibilité d’élaborer à partir de la pensée (et non à partir d’une réalité physique objectivée par la réflexion de la lumière par un objet quelconque et l’insolation corrélative d’un récepteur photosensible) une image ayant l’apparence d’une photographie, d’une part ; la possibilité de transférer à la machine la réalisation d’opérations complexes, évolutives et/ou aléatoires en fonction de la nature de la production photographique, d’autre part. Nommons les choses dans leur apparente banalité : dans les deux cas, il s’agit de produire des images-représentations (au sens restreint, c’est-à-dire en deux dimensions) stables dans le temps et l’espace, reproductibles ou imitables, et transposables. Ces images-représentations sont destinées à être perçues par la vision naturelle dans un contexte spatial et culturel différent de celui qui a présidé à leur élaboration. À l’origine de celle-ci, on trouve l’intention de susciter l’émotion esthétique, soit comme but (l’art), soit comme moyen (religion, publicité, communication, illustration), ou de provoquer un trouble lié à l’identification primaire de l’objet représenté, comme dans une certaine photographie familiale (souvenirs heureux, présence de l’absent) et dans la pratique propagandiste (manipulation des esprits à des fins politiques, par exemple). Ces intentions, qui savent se cumuler, sont réputées existantes si, à une image donnée correspond un sujet la percevant, alors qu’il n’en est ni le concepteur, ni l’artisan, ni l’émetteur.
Autre banalité liminaire : pour être perçues comme photographiques, ces images-représentations doivent avoir l’apparence des photographies. Comment définir « l’apparence photographique » ? On admettra par principe que ni le format, ni la taille, ni la couleur n’en sont des éléments constitutifs et déterminants. On soutiendra ici que l’apparence photographique est conférée à l’image-représentation par la micro-structure physique qui permet de la distinguer de la peinture, et par l’agglomération de morceaux visuels considérés comme autant de paramètres permettant de limiter l’effet du soupçon d’invraisemblance et de favoriser la suspension momentanée de l’incrédulité. L’apparence photographique est supposée acquise si la vision naturelle de l’image-représentation ne permet pas de mettre en doute a priori l’existence d’un réel possible qui lui correspondrait. Plus la chose représentée est éloignée du monde réel du regardant, plus est grand le risque du doute a priori, plus l’élaboration de l’apparence photographique est complexe.
De la création d’images-représentations d’apparence photographique au moyen de l’IA : nommer la chose.
Observer un objet technologique nouveau impose quelques prémices au raisonnement, et c’est par l’exemple que l’on peut tenter de trouver le chemin. Début juillet 2023, le site d’une startup a publié un article de blog intitulé : « « Le futur de la photographie : Quand l’IA prend le relais » – Explorez le concept fascinant d’un appareil photo sans objectif ni capteur, mais capable de générer des images grâce à l’intelligence artificielle »[1]. On y trouve deux des biais qui viennent corrompre tout raisonnement à venir : nommer faussement la chose inconnue pour la rattacher à un domaine connu, et soumettre l’examen de cette même chose à un état psychologique particulier. Non, un appareil (au sens de « ensemble d’éléments constituant un tout et concourant à un même but ») qui ne comporte ni système optique centré convergent (un « objectif »), ni chambre noire, ni quelconque récepteur photosensible (pellicule photo ou capteur numérique), n’est pas un appareil photo. L’existence de la chose nouvelle étant avérée, elle ne peut être nommée identiquement à une chose qui lui est différente, tant dans sa conception qu’avec ses interactions avec les lois de la physique.
Par ailleurs, la fascination, attrait irrésistible et paralysant, ou attirance qui subjugue, range son objet au rang mystique de la chose à laquelle on ne peut que s’abandonner. L’abandon de soi est-il caractéristique d’une posture efficace dans une situation vouée à l’observation, la compréhension et (éventuellement) la prospective ?
Lauréat du prix Création des Sony World Photography Awards 2023, Boris Eldagsen[2] a posé les vraies données du problème. Que déclare-t-il après l’annonce de la sélection de son image par SWPA ? Je le cite[3] : « […] Après deux décennies de photographie, mon objectif artistique s’est déplacé vers l’exploration des possibilités créatives des générateurs d’IA. Le travail que SWPA a choisi est le résultat d’une interaction complexe d’ingénierie rapide, d’inpainting et de outpainting qui s’appuie sur ma richesse de connaissances photographiques. Pour moi, travailler avec des générateurs d’images IA est une co-création, dont je suis le réalisateur. Il ne s’agit pas d’appuyer sur un bouton – et c’est fait. Il s’agit d’explorer la complexité de ce processus, en commençant par affiner les invites de texte, puis en développant un flux de travail complexe et en mélangeant diverses plates-formes et techniques. Plus vous créez un tel flux de travail et définissez des paramètres, plus votre part créative devient élevée. […] J’appelle mes images « images ». Elles sont produites synthétiquement, utilisant « le photographique » comme langage visuel. Ce ne sont pas des « photographies »[4]. En participant à des appels ouverts, je souhaite accélérer le processus des organisateurs du prix pour prendre conscience de cette différence et créer des concours distincts pour les images générées par l’IA. […] »
Le même Boris Eldagsen nous informe que le photographe péruvien Christian Vinces a proposé un terme spécifique pour nommer cette forme d’images-représentations : la promptographie, de l’anglais to prompt, « inciter à, pousser à, pousser quelqu’un à faire quelque chose, aider quelqu’un à répondre en lui suggérant quelque chose ». Nommer la chose, c’est déjà la connaître, ou plutôt admettre son existence en tant que telle, et ainsi se donner la possibilité de la concevoir et de la distinguer parmi d’autres choses. Mais pour franchir certain seuil de compréhension, c’est-à-dire passer du constat à l’intelligence d’un environnement où cohabitent images-représentations photographiques et images-représentations promptographiques, il faut effectuer un déplacement du point de vue, en distance et en élévation.
L’approche humaniste et l’approche matérialiste de la création des images-représentations ne sont pas dissociables.
Qu’il s’agisse d’art ou de non-art, distinguons trois moments de la création d’une image-représentation : la décision de faire, le faire, le rendre perceptible. En photographie, le premier moment se termine par l’acte photographique, décision sanctionnée par le déclenchement de l’obturateur ; c’est la décision de couper (Dubois), dans un réel donné au sujet photographiant, ce qui semble relever de l’important à celui-ci. En promptographie, ce moment se termine lorsque le sujet considère que l’expression littéraire descriptive de l’image virtuelle et consciente produite par son imagination peut activer efficacement les calculs de probabilités de la machine-IA.
Alors commence le deuxième moment, celui du faire. Le terminus ad quo de ce moment, c’est l’entrée dans le laboratoire, le traitement numérique du signal généré par le capteur, le début des calculs de la machine-IA ; ce moment se termine quand le sujet créant juge satisfaisante la pertinence obtenue de l’image-représentation produite, évaluée en fonction de l’image-représentation prévisualisée. Plus ou moins long et laborieux, ce deuxième moment contient les opérations de masquage et de retouche (photographie argentique), de retouche (photographie numérique), de reformulation de la requête (promptographie). Relevons ici que le créateur mobilise certaines compétences qui sont communes aux deux pratiques (photographie et promptographie), mais dont la mise en œuvre ne s’opère pas dans le même moment. Ainsi, par exemple, la compétence de communication qui consiste à faire préciser la demande ou le désir d’image-représentation se situe au début du premier moment en photographie, alors qu’elle se situe tout au long du deuxième moment en promptographie. L’édition, ou monstration, est le troisième moment, celui du rendre perceptible l’image-représentation. La nature de ce moment ne dépend pas des caractéristiques de l’image-représentation (photographique ou promptographique), mais des moyens accessibles au créateur en vue de la publication, dont le modèle répond (en principe) aux objectifs primaires qu’il s’est fixé[5].
Brièvement et par commodité, considérons photographie et promptographie comme deux ensembles qui auraient en commun certains éléments. On ne trouverait dans l’ensemble de leur intersection que leurs éléments « humanistes » : désir d’image d’apparence photographique, jugement porté par l’auteur sur la pertinence du résultat, perception du sujet regardant. Or tous les éléments de ces deux ensembles sont des lois (au sens général) et des opérations. Celles-ci sont distribuées dans un certain ordre et leur mise en œuvre répond à une logique modale activée par l’auteur puis par le sujet regardant. Dans les deux cas, « […] ce qui juge en définitive de la photographie, c’est toujours la relation du photographe à sa technique »[6], que je me permets de paraphraser : ce qui juge en définitive de la création d’une image-représentation d’apparence photographique, c’est toujours la relation de son créateur à sa technique. Photographie et promptographie sont donc des dispositifs, qui contiennent par nature lois, moyens, opérateurs (Agamben). Les éléments d’un dispositif ne sont pas, par nature, dissociables, sauf à le rendre abstrait et improductif.
On peut différentier les dispositifs en fonction du degré de maîtrise de l’opérateur des lois et moyens inclus dans le dispositif dont il fait partie et auquel il se soumet.
Le dispositif photographique est un ensemble fini. J’utilise ce terme parce que la création de l’image-représentation photographique induit la soumission totale aux lois de la physique (lois de l’optique géométrique et de l’optique ondulatoire, chimie organique et minérale éventuellement) et la maîtrise d’un appareil (moyen contenu dans le dispositif) : chambre noire, obturateur, diaphragme, matériel de laboratoire, ordinateur et logiciels applicatifs. De surcroît, le dispositif photographique contient des lois juridiques, des principes moraux et des circonstances ; autant d’éléments dont la variabilité n’a d’égal que la capacité de l’opérateur à s’y soumettre ou à les transgresser. Au sein du dispositif photographique, les choix de l’opérateur sont conditionnés par les limites (ce qui ne signifie pas que celles-ci ne puissent être franchies). L’action menée par l’opérateur ne modifie en rien la nature des éléments du dispositif.
Le dispositif promptographique n’est pas un ensemble fini. En effet, l’action de l’opérateur est constitutive de l’évolution des capacités de la machine-IA à élaborer la réponse à une requête. L’organisation et la nature des termes du prompt induisent obligatoirement une modification des calculs de probabilités, la direction des recherches dans le stock des données disponibles (donc influent sur la nature des propositions), et acquièrent le statut de nouvelles données utilisables par la machine-IA. Maîtriser la langue qui permet à la machine-IA d’exploiter au mieux les données disponibles est un préalable à l’obtention d’un résultat jugé comme pertinent par l’opérateur. « Promptographier », c’est opérer à la construction sans fin d’une incertitude mouvante.
Du style, ou de la manière de diluer l’art dans la loi des grands nombres.
Approchons de plus près le second domaine cité plus haut, la possibilité de transférer à la machine-IA la réalisation d’opérations complexes, évolutives et/ou aléatoires en fonction de la nature de la production photographique. On parle ici, essentiellement, du traitement des photographies numériques. De quoi s’agit-il ? Le photographe alimente la machine-IA en fournissant chacune de ses photographies en deux versions : un fichier non traité et un fichier traité par ses soins qui lui correspond. À partir de la reconnaissance des éléments iconiques présents dans les images et des métadonnées liées au fichier, notamment celles qui correspondent aux opérations de traitement menées par le photographe au moyen d’un logiciel applicatif identifié, la machine-IA conçoit un modèle de traitement spécifique à ce photographe et aux images qu’il produit. Une fois ce premier travail effectué, le photographe confiera ses images non traitées à la machine-IA, afin que celle-ci opère à sa place au traitement, en fonction du modèle préétabli. On comprend que, compte tenu de la nature du fonctionnement de la machine-IA, plus le nombre des « images-témoins » est grand, plus la probabilité de pertinence du modèle fourni est grande. On parle ici de la nécessité de fournir plusieurs milliers d’images à la machine-IA pour aboutir à un modèle pertinent.
Le questionnement ne se situe pas dans la capacité de la machine-IA à parvenir au résultat demandé, mais dans un registre beaucoup moins trivial. Car le traitement du fichier image produit par le photographe, partie de son processus de création, est représentatif de son style. Pour faire court, le style est l’ensemble des moyens d’expression qui traduisent de façon originale les pensées, les sentiments, toute la personnalité d’un auteur. Une des promesses des services proposés par la machine-IA est sa capacité à reproduire le style du photographe, donc d’intégrer à un modèle une partie au moins de ce qui constitue l’originalité de la personnalité du créateur.
Certains photographes ont déjà (au moins intellectuellement) opéré à ce choix mécaniste. On sait combien certaines tâches du moment du faire peuvent être pénibles, mentalement et physiquement. On sait aussi que le progressisme sait être convaincant : depuis l’invention du marteau et de la roue, l’outil, gage d’une efficacité accrue, libère le temps qui sera consacré à des tâches jugées plus importantes ou trop négligées jusqu’alors. On n’a pas oublié l’organisation de l’atelier du peintre de la Renaissance ou de l’âge classique, dans lequel le maître déléguait la réalisation des drapés ou des ciels. Mais en faisant un choix industriel, le photographe admet qu’une partie du dispositif dans lequel il s’inscrit est modélisable et prédictible.
Or le style (donc le caractère d’originalité) ne saurait exister sans une particularité dont l’IA générative[7] ne dispose pas : une ouverture vers d’autres possibles, l’évolution. L’invention est-elle modélisable ? Autrement dit, le photographe doit-il renoncer à cette partie de lui-même qui interagit avec l’ensemble du dispositif photographique, admettant ainsi que cette partie de lui-même est transférable en tant que somme de données numériques ? Une partie du faire serait donc prévisible au lieu d’être spontanée. « Il faut s’adapter », disent déjà certains opérateurs du monde de la photographie : l’émergence de l’IA y est vécue comme la généralisation d’une innovation technologique aussi cruciale que celles qui ont provoqué les révolutions industrielles (ce qu’elle est probablement par nature) dont l’usage serait inéluctable, ce qui ne fait pas sens ni dans l’art, ni dans l’artisanat. Quand en 1523 Titien utilise pour Bacchus et Ariane la quasi-totalité des pigments alors disponibles, est-il en avance par rapport à Renoir qui, trois siècles et demi plus tard, n’en emploie que sept pour peindre La Seine à Chatou (1879-1880) ? Il en est ainsi de la notion de progrès, élastique, fluctuante et fracturante. L’histoire de la photographie (artistique ou artisanale) a montré que le dispositif photographique s’accommode du passage de l’atelier à la manufacture et de la division des tâches au sein du processus de fabrication : la multitude des métiers[8] qui ont existé, évolué, parfois disparu, dans le domaine de la photographie en est le témoin. L’adoption de l’IA n’est pas ici l’évolution naturelle d’un outil informatique déjà largement utilisé, et dont la maîtrise est sanctionnée par une suite de décisions, parmi lesquelles celle de changer d’avis n’est pas la moindre. Dans les conditions mentionnées plus haut, l’adoption de l’IA correspond à la délégation du choix, posture caractéristique du déroulement d’un processus spécifiquement humain.
« Certes, mais j’ai une objection : si le résultat, pour certains traitements produits par la machine-IA, ne me convient pas, je peux soit reprendre ce traitement moi-même, soit demander à la machine-IA d’élaborer un autre modèle !
– Oui, mais alors tu vas devoir, soit débourser à nouveau de l’argent (ta seconde solution), soit à nouveau consacrer au traitement le temps que tu souhaitais réserver à d’autres tâches (ou les deux).
– Tout ça peut être organisé, mesuré.
– C’est vrai, mais il reste deux choses au moins que tu ne peux pas mesurer : comment ton métier sera perçu désormais par tes clients (pas grave, hein, un client ça se remplace), et le devenir de cette partie de toi transformée en données.
– Je ne suis pas le jouet du système. Mes données sont protégées, et je reste indépendant !
– Ok, ok… Paulo, remets-nous ça ! »
Pour terminer, regardons ailleurs. De ces photographies dites « esthétiques » produites par la grande machine à fabriquer du visuel, donc données (substantif et attribut), Fabrice Midal nous en dit « [qu’]Il nous faut apprendre [qu’elles] ne montrent rien du monde – elles prétendent même qu’il est uniforme d’un bout à l’autre de la Terre, lisse et sage comme un coucher de soleil sur papier glacé.[9] » Gageons qu’il existe des photographies qui ne sont pas données. Peut-être s’agit-il de celles dont parle Henri Vanlier dans sa Philosophie de la Photographie[10]: celles qui contiennent ce qu’il nomme effets de champ. « Ce sont des « visions », des « optiques », des manières tout à fait fondamentales de saisir l’espace-temps, et qui consistent en des taux, singuliers pour chaque individu, d’ouverture-fermeture, de souplesse-rigidité, de volume-glissement, d’enveloppement-juxtaposition, etc., par quoi Rabelais, Beethoven ou Picasso sont presque toujours d’emblée reconnaissables, mais aussi la plupart des individus quelconques […]. » Il y a bel et bien une alternative : l’essence ou la donnée.
[1] https://www.starofservice.com/blog/le-futur-de-la-photographie-quand-lia-prend-le-relais-explorez-le-concept-fascinant-dun-appareil-photo-sans-objectif-ni-capteur-mais-capable-de-generer-des-images-grace-a-lintelligence/
[2] Boris Eldagsen est responsable du numérique de la Deutsche Fotografische Akademie et membre du groupe de travail sur l’IA du Deutscher Fotorat.
[3] https://www.eldagsen.com/sony-world-photography-awards-2023/
[4] C’est moi qui souligne.
[5] J’exclus de mon raisonnement, comme à mon habitude, le cas du créateur-unique regardeur dont la richesse psychopathologique m’échappe complètement (alors même que cette démarche est parfaitement respectable).
[6] Walter Benjamin : Petite histoire de la photographie, in Walter Benjamin : sur la photographie, Éditions Photosynthèses, Arles, 2012, p. 56. Traduit de l’allemand par Jörn Cambreleng.
[7] L’IA créatrice est un fantasme médiatique de ce début de XXIe siècle, donc hors de mon champ de réflexion.
[8] Au dictionnaire (CNRTL) : « Activité manuelle ou mécanique nécessitant l’acquisition d’un savoir-faire, d’une pratique. Occupation, profession utile à la société, donnant des moyens d’existence à celui qui l’exerce. »
[9] Fabrice Midal : La Photographie, Éditions du Grand Est, Mayet, 2007, p. 12.
[10] Henri Vanlier : Philosophie de la Photographie, Les Cahiers de la Photographie, Hors-série, 1983, p. 29 à 34.