IHM


La vision transhumaniste prévoit la possibilité dans un futur proche de télécharger son cerveau sur le réseau. Vision à la fois séduisante et effrayante mais qui n’est pas sans implications quant à la nature de l’intelligence ainsi transférée.

Commençons par voir le cerveau comme une boite noire qui prend des intrants et produits des extrants. Numériser le cerveau de manière fidèle consiste alors à pouvoir produire pour tout intrant le même extrant qui serait produit par le cerveau « réel ». Passons sur le fait qu’une telle preuve est impossible à établir, et intéressons nous à la manière de produire une version digitale du cerveau. Pour produire les mêmes extrants à partir d’intrants donnés il faut être capable de reproduire les règles du fonctionnement du cerveau. Les transhumanistes envisagent qu’avec les progrès de la science/médecine il soit possible d’extraire ces règles (qui seraient spécifiques à chaque individu) et de se libérer ainsi de la matérialité du cerveau.

Malgré les difficultés que cela représente, admettons. On réussirait donc à créer un modèle numérique du cerveau dont les réactions seraient strictement équivalentes à celui sur lequel il a été copié. Cela suffit-il à conclure à la réussite de l’entreprise ? Heureusement/Malheureusement loin de là !

En mathématique irait-on conclure que deux courbes ayant un point commun sont identique ? Non elles ont seulement un point commun. En génétique, deux phénotypes exactement identiques peuvent disposer de génotypes différents, du fait de ce qu’on appelle la neutralité. Par exemple certaines mutations génétiques sont dites neutres parce que plusieurs codons peuvent coder le même acide aminé. Seulement l’étude de la neutralité montre que deux génotypes ayant la même expression phénotypique à un temps T n’ont plus nécessairement la même expression à un temps T+n.

Dans notre cas notre disposons de deux représentations, l’une analogique l’autre digitale, s’exprimant de la même manière à un temps T. Expression que j’appellerai « intelligence ». Toute la question est de savoir si intelligence analogique et intelligence digitale disposent de la même dynamique. Et c’est bien là que la théorie transhumaniste risque le plus de se trouver prise en défaut. En effet les chercheurs en intelligence artificielle (particulièrement les chercheurs en programmation génétique) ont depuis plusieurs années compris qu’à une représentation particulière d’un problème correspond ce qu’ils appellent un landscape qui influence très fortement les probabilités d’évolution de leurs algorithmes dans une direction plutôt que dans une autre. Un changement de représentation modifie donc le landscape et les probabilités associées. Il en va de même pour le cerveau : un changement de représentation modifie les probabilités d’évolution de l’intelligence résultante dans un sens plutôt que dans un autre. C’est cette divergence liée à la représentation qui fait dire à Rucker et Wolfram que l’univers n’est pas simulable par autre chose que lui-même (voir à ce sujet l’article de Rémi Sussan).

Mais alors quel serait l’évolution d’une représentation digitale de notre cerveau ? Dans le meilleur (et probablement dans la plupart) des cas elle se dégraderait. La capacité de l’intelligence humaine à réaliser le lien entre le passé et le futur, à avoir conscience du corps qui l’abrite, en un mot sa capacité réflexive, est une chose. Maintenir cette capacité, la faire persister dans le temps, en est une tout autre. Nombreuses sont les maladies psychiatriques qui prouvent que l’équilibre sur lequel se tient l’intelligence est fragile.

La dégradation de l’intelligence digitale est donc très probable mais on peut tout aussi bien imaginer une évolution pathologique ou une évolution « méchante », i.e. nuisible à elle-même ou aux autres. La probabilité de cette dernière possibilité est probablement faible, mais en même temps si vous réunissez suffisamment de singes et leur faites assembler des lettres de scrabble pendant suffisamment longtemps, la possibilité de voir apparaitre une séquence de lettre correspondant au texte de la bible est égale à 1…

Second post de la série consacrée aux liens entre la philosophie de Berkeley et les mondes digitaux. Le point de départ en est la seconde partie du principe de Berkeley :

Exister c’est percevoir.

Peut-on alors dire que Percevoir plus, c’est exister plus ? La réalité augmentée permet d’établir des ponts entre l’univers réel et un/des univers digitaux, mais pour répondre à cette question il faut se demander :

  • La réalité augmentée permet-elle de percevoir plus ou seulement de percevoir différemment ? Peut-elle devenir une sorte de 6e sens qui nous donne accès à l’information ambiante ?
  • Peut établir une telle relation ? Berkeley ne pose pas de rapport d’intensité entre percevoir et exister. Une autre manière d’aborder la question est de se demander si Percevoir moins c’est exister moins

Qu’en pensez-vous ?

  1. Je me suis ouvert un compte sur Twitter. Je n’ai pas de plage de disponibilité assez longues pour écrire des articles « de fond » comme je le faisais, et je n’ai pas réussi à écrire des articles semi-structurés comme j’en avais l’intention. Dans le cadre de ce blog Twitter pourrait m’aider à mettre en place une forme de write as you think, quitte à me contredire, à être confus, etc… comme ma réflexion a tendance à l’être avant d’accoucher d’un article de blog. Mon compte : http://twitter.com/ihmmedia

  2. Mobilizing the web : Small Surface (définitivement une ressource de grande qualité) cite un article d’Adaptive Path (définitivement un cabinet de design où on se pose des questions). Je me contente de citer la dernière phrase qui me parait tellement pleine de vérité :

    Most importantly, it will have to be based on a deep understanding of how people want to use Internet content in mobile contexts.

    On réplique actuellement notre mode de consommation de l’information en mode statique sur le mobile. La mobilité crée un (des) contexte physique et cognitif tellement différent de celui d’un bureau, que les pratiques seront nécessairement différentes. Les outils finiront par s’adapter au contexte puis par en tirer parti.

  3. Ca me ramène à des réflexions que j’avais plutôt au démarrage de ce blog sur la mobilité. J’ai en effet porté un projet voici deux ans qui m’a amené à beaucoup turbiner sur le sujet. Voici un lien vers un article sur le design d’interaction pour les interface mobiles que j’ai pris plaisir à relire (quelle prétention !).

  4. Encore Small Surface rapporte le concept de tapping and sharing développé par Nokia. Il s’agit d’utiliser la technologie NFC pour déclencher des services grâce au « toucher ». Cette techno est celle utilisée dans les pass Navigo. Nokia l’utiliserait pour déclencher des fonctionnalités particulières en approchant le téléphone d’un tag particulier. L’environnement physique devient alors une interface d’interaction avec le téléphone. Le contexte, encore lui, s’exprime directement en devenant l’interface. Au MEX la phrase The content is the interface est un lieu commun, bien que je la comprenne mal. Moi je donnerais plutôt dans The context is the interface. Ca m’évoque un post sur les surfaces d’engagement et de contact entre hommes et interfaces…

L’origine de ma réflexion sur les différences entre univers 2D et 3D vient de l’utilisation extensive du terme Web3D comme successeur au Web 2.0. J’avais écrit un article critique sur le sujet. J’essaie dans le présent post de définir quelques caractéristiques différentiant les espaces 2D et 3D.

 

Navigation météorique

Notre espace physique étant à 3 dimensions, nous ne faisons jamais physiquement l’expérience d’un espace à 2 dimensions. Une simplification mentale nous fait cependant concevoir un écran d’ordinateur, une page de livre, un mur, une façade comme un espace 2D.

Une telle surface plane étant baignée dans un espace de dimension 3 il est possible à l’observateur de s’en éloigner ou de s’en rapprocher en évoluant selon la dimension orthogonale à cette surface (je peux coller mon nez au mur ou prendre du recul).

A l’évidence lorsqu’on s’écarte d’une surface, on se permet de l’embrasser du regard plus largement mais on distingue moins bien les détails qui y figurent. Il existe donc un compromis entre la surface observée et la résolution d’observation. Ainsi, si du pied de la tour Montparnasse je m’éloigne, je vais pouvoir (pourvu que je puisse m’éloigner suffisamment) observer la tour dans son ensemble d’un seul regard, i.e. sans avoir à lever la tête. Je ne pourrai cependant plus percevoir les traces de doigts sur les vitres à cette distance.

Il s’agit là du principe mis à l’oeuvre dans la navigation météorique (dont il fut question dans un article précédent sur les espaces contigus et continus) : s’éloigner pour changer d’échelle, et offrir une perspective plus large et des déplacements plus rapides.

 

Jeux vidéos 2D

La perception des détails n’est par ailleurs pas identique pour l’ensemble d’une surface observée : si la résolution est inversement proportionnelle à la distance d’observation, ce qui est loin de moi m’apparait moins clairement. Ainsi regardant la tour Montparnasse, et étant moi même au sol, certains détails qui seront observable sur la partie inférieure de la tour (les montants des fenêtres par exemple) ne le seront pas pour le sommet (qui est beaucoup plus loin de moi, cf théorème de Pythagore…). Ce principe ne se vérifie pas seulement lorsqu’on observe un surface 2D. La résolution est inversement proportionnelle à la profondeur de champ.

Voilà quelques années encore la plupart des jeux se jouaient en 2D et à la 1ère personne. Pour rendre dans le monde 2D les limites de la vision humaine, ces jeux ont recréé un « flou » sous forme d’un assombrissement centré sur le ou les avatars incarnés par le joueur (voir screenshot de Civilization 3 ci-dessous). Puisque nous ne sommes pas capables, nous créatures 3D, de nous projeter dans un monde en 2D, les conditions d’une projection sont artificiellement recréées en nous empêchant de voir ce que nous pourrions voir du fait de notre distance à l’écran mais que nous ne pourrions pas voir si nous étions à l’intérieur du monde rendu.

 

Champ de vision et cloisonnement

Pour les jeux à la première personne le champs de vision ainsi recréé est de forme circulaire. Sauf à l’intérieur de bâtiments où les murs restreignent la profondeur de champ. Ainsi le joueur devant l’écran pourrait voir ce qu’il y a derrière le mur, mais l’avatar ne le peut pas. La projection du champ de vision se fait donc en rendant sa dégradation avec la distance mais aussi son possible cloisonnement…

Le cloisonnement est (pour nous habitant un monde en 3D) propre à un espace 3D. Si on met de côté la projection dans un espace 2D dont il vient d’être question, il est impossible de construire un « mur » dans un espace 2D. Le cloisonnement conduit à passer de la notion d’espace à la notion de « site » (place en anglais chez Dourish). Le cloisonnement d’un appartement permet d’en séparer les différentes pièces. Il permet une spécialisation des sites ainsi créés. Et de cette spécialisation découlent des conventions et des schémas mentaux qui conditionnent notre action. Si à un diner chez des amis je cherche un couteau, je commencerais par chercher la cuisine.

Cet exemple peut sembler trivial, mais si sur un ordinateur qui n’est pas le mien je recherche un document particulier, par où vais-je commencer à chercher ? La spécialisation permet donc en premier lieu de diviser l’information entre les différents sites et ainsi de réduire la charge informationnelle en chacun d’eux. En second lieu, la spécialisation des espaces permet la mise en place de routines qui réduisent la charge cognitive des tâches à effectuer : prenez en exemple ces matin où, de votre lit, vous vous rendez à votre douche presque mécaniquement, puis avalez votre petit-déjeuner et vous retrouvez au métro sans même avoir l’impression d’avoir réalisé une seule opération consciente.

 

Angles morts, point de vue et immersion

Le cloisonnement est reproductible en 2D par projection au travers d’un avatar. Hors des jeux, cette technique n’a, me semble-t-il, jamais été utilisée dans des interfaces. Elle mériterait qu’on s’y intéresse…

Le cloisonnement est associé à la définition du champ de vision. De la même manière l’angle mort est associé à la définition du point de vue. Je ne peux voir les deux profils d’un même visage en même temps (sauf dans les peintures de Picasso). Il faudrait disposer d’une 4e dimension, celle du recul, pour pouvoir embrasser un objet 3D dans son ensemble (4e dimension difficile à se représenter, j’en conviens). Les angles mort au sens strict sont les zones du champs de vision obstrués par des objets (le cloisonnement n’est alors rien d’autre que la définition d’angles morts). Ici l’angle mort peut aussi prendre le sens de « face cachée », c’est-à-dire la portion d’un objet appartenant à la zone du champ de vision que lui-même obstrue.

En changeant de position, les angles mort changent aussi. Chaque point de vue est unique. Cette variation en fonction de la position est extrêmement difficile à recréer par projection dans un univers 2D, d’où le qualificatif d’immersif accolé aux mondes synthétiques 3D : la sensation d’immersion liée au point de vue ne peut être recréé sans la troisième dimension.

 

Conclusion : De la 3D à la notion de chemin

Dans ce post j’ai utilisé les notions de champ de vision et de point de vue pour distinguer espaces 2D et espaces 3D. Des différences qui ont été relevées il faudrait ensuite passer aux conséquences sur nos pratiques. Celles-ci sont cependant, en général, le résultat d’un parcours, d’un succession d’actions prenant place dans les mondes physiques et/ou digitaux. Il existe donc une forte connexion entre les pratiques et les déplacements topographiques. Nous entrons là dans la sphère du design d’interaction. L’étape suivante est de s’interroger sur ce en quoi les chemins (au sens de parcours) dans des espaces 3D diffèrent des chemins dans les espaces 2D. Par ailleurs il pourrait être fructueux de confronter les notions de champ de vision et de point de vue aux espaces contigu (comme le web) alors qu’elles semblent consubstantielles aux espaces continus.

Par l’intermédiaire du flux del.icio.us d’InternetActu alimenté en grande partie par Hubert Guillaud, j’ai pris connaissance du projet Seadragon de Microsoft qui est une interface 2D basée sur le zooming ou, pour employer la terminologie introduite dans un billet précédent (« Spécificité des mondes contigus et continus : adresse et navigation« ), une interface qui fait usage d’une navigation météorique. J’aurais souhaité inclure la vidéo de présentation au TED mais leur lecteur ne semble pas bien s’importer, je vous donne donc le lien, n’hésitez pas à la consulter, la partie sur Seadragon est très courte : 2 minutes au début de la vidéo :

Vidéo de présentation de Seadragon

Des oiseaux de mauvaise augure ne manquent pas de poser les questions du type : et comment je fais pour retrouver une photo en particulier ? etc… J’ai confiance dans le développement de ce type de navigation car, je le disais dans un article sur différentes interfaces innovantes à propos je crois l’humain plus à même de lire une carte qu’un arbre (hiérarchique), et je crois dans le fonctionnement stygmergique (qui se concrétise dans ce cas par un déplacement naturel et continu par association d’idée, d’une idée générale à une idée particulière) qu’une telle interface rend plus accessible.

Après cette forme de navigation et d’organisation de l’information n’est pas amenée à remplacer toutes les autres. Elles sauront trouver une complémentarité. Encore une fois ce seront les pratiques qui en émergent qui seront les juges de paix.

L’acte conditionné

L’associationnisme est une théorie qui postule qu’à tout moment notre état mental est déterminé par nos états mentaux précédents et nos sensations. Ce système philosophique implique une forme de déterminisme : nos actions et nos décisions sont rendues nécessaires par nos états mentaux qui eux-mêmes sont la conséquence déterminée des états précédents.

Bergson réfute que cette théorie puisse s’appliquer à toutes les décisions. Il reconnait cependant que nombre de nos actes sont conditionnés (Essai sur les données immédiates de la conscience) :

[L]es actes libres sont rares […] je suis ici un automate conscient, et je le suis parce que j’ai tout avantage à l’être. On verrait que la plupart de nos actions journalières s’accomplissent ainsi […] les impressions du dehors provoquent de notre part des mouvements qui, conscients et même intelligents, ressemblent par bien des côtés à des actes réflexes. C’est à ces actions très nombreuse, mais insignifiantes pour la plupart que la théorie associationniste s’applique.

Sans rentrer dans un débat sur les ressorts de l’intelligence humaine, il existe des preuves empiriques de mécanismes qui, parce qu’ils sont inconscients, remettent en cause au moins en partie le libre arbitre.

 

Biais de résonnement

Je donne ci-après deux exemples de processus inconscients qui produisent des biais dans nos résonnements sans que nous puissions nous en apercevoir. Par certains aspects nous sommes déterminés. Le premier exemple est tiré de Le nouvel inconscient de Lionel Naccache :

[N]ous serions en possessions de deux systèmes visuels complémentaires. Le premier système est associé à la voie du colliculus supérieur, il est rapide, il peut procéder inconsciemment, il est centré sur la détection des objets en mouvement et élabore des représentations visuelles grossières de l’ensemble de la scène visuelle. Le second système est bien plus lent, il sous-tend une analyse visuelle très fine, riche de mille nuances perceptives et de subtils contrastes.

Cette construction du mécanisme visuel permet d’expliquer des phénomènes tels que le blindsight (vision inconsciente lorsque le cortex visuel est détruit) ou les messages subliminaux (image exposée de manière trop courte pour être vue consciemment).

L’exemple de la vision prouve que seulement une partie de nos sensations sont objectivées, les autres étant assimilées de manière subjective. Ces sensations sont ensuite traitées par le cerveau, et là, de nouveaux déterminismes se font jour : il existe des filtres culturels qui font qu’une même scène est mémorisée différemment par des personnes de cultures. Umberto Eco souligne en particulier l’importance de la langue parlée (Le Signe) :

La célèbre hypothèse Sapir-Whorf […] soutenait que la façon de concevoir les rapports d’espace, de temps, de cause et d’effet changeait d’ethnie à ethnie, selon les structures syntaxiques de la langue utilisée. Notre façon de voir, de diviser en unités, de percevoir la réalité physique comme un système de relations, est déterminée par les lois (évidemment dépourvues de caractère universel !) de la langue avec laquelle nous avons appris à penser. Dès lors, la langue n’est plus ce à travers quoi l’on pense, mais ce à l’aide de quoi l’on pense, voire ce qui nous pense, ou ce par quoi nous sommes pensés.

Et Eco de prendre l’exemple de la neige pour laquelle le français ne possède qu’un mot quand les Esquimaux en ont seize. Ainsi là où nous rappellerions une étendue blanche, d’autres se souviendraient de bien plus. Parce que leur langage le leur permet.

 

Rapport avec les IHM

Les IHM font appel aujourd’hui de manière intensive à l’attention et à l’intention conscientes, alors qu’une part importante de notre activité intellectuelle est inconsciente et que nous fonctionnons largement sur un modèle stimulus-réponse. C’est à mon avis un des enjeux des futures IHM et du design d’interaction que de s’adresser à l’attention périphérique (que j’ai à d’autres occasions appelée attention latérale) afin de déclencher nos actions sur un mode stimulus-réponse qui soit beaucoup moins consommateur de ressources cognitives.

Sans envisager de programmer l’inconscient de l’individu, le recours à l’attention périphériques consiste en la possibilité de disséminer des indices qui, sans s’adresser directement à nous, nous fournissent certaines informations. Ces indices sont moins volumineux que les informations elles-mêmes, mais parce qu’ils leurs sont associés sont de même valeur. La limite à cette indiciation (néologisme, équivalent de cue-ing) est constituée par les différences entre cultures et entre personnes qui font que les réponses à un même indice peuvent différer. Il faudra alors soit personnaliser soit trouver des valeurs communes…

Quelques exemples d’utilisation de l’attention périphérique :

  • La mise en tâche de fond illustrée par Stefana Broadbent : certains indices tels qu’un mot, un son, une couleur, conduisent l’utilisateur à ramener une tâche au premier plan, mais ils peuvent aussi être ignorés.
  • Certaines personnes se font une croix au stylo sur le dos de la main pour se rappeler qu’elles ont une tâche particulière à effectuer. La vision de cette croix déclenche l’intention de faire et non l’inverse comme dans le cas d’un agenda où l’intention (de me rappeler) précède l’attention.
  • Lorsque je prépare mon petit-déjeuner je sors le jus d’orange ou les biscuits en premier suivant que mon regard s’est porté en premier sur le frigo ou sur le placard…

Un billet précédent traitait de l’évolution des IHM, et introduisait la notion de surface de contact sans la définir clairement. C’est l’objet de ce post.

Surface d’engagement d’un service et surface de contact

On définit la surface d’engagement avec un service comme la surface géographique à partir de laquelle il est possible d’engager une interaction avec ce service. Elle est égale à la somme des surfaces d’engagement avec un point d’entrée à ce service.

Le service postal permet de poster des lettres. Un point d’entrée à ce service est donc la boite aux lettres. La surface d’engagement d’une boite aux lettres est la surface qui lui fait face et à partir de laquelle il est possible de glisser une lettre à l’intérieur, soit un demi-disque d’une cinquantaine de centimètre de rayon. La surface d’engagement avec le service postal est donc la somme de ces surfaces d’engagement avec des boites aux lettres.

Les IHM étant un point d’entrée vers différent services, on peut appliquer aux interfaces la définition de surface d’engagement. On définit ensuite la surface de contact comme la somme des surfaces d’engagement avec des interfaces. Chez moi ma surface de contact homme-machine est ainsi la somme des surfaces d’engagement avec ma TV, mon téléphone fixe, mon mobile, mon ordinateur,…

Plus simplement : la surface de contact est d’autant plus grande qu’un grand nombre d’objet de notre environnement servent de point d’entrée à un service.

Trace d’une interface

On définit la trace d’une interface comme l’intersection de la trajectoire d’un individu avec la surface d’engagement cette interface.

La figure suivante représente deux cas de figure : le cas où un individu n’a accès qu’à des téléphones fixes, et celui où il a sur lui un téléphone mobile. Dans le premier cas l’individu dispose d’autant de traces que de téléphones fixes, chacune étant de faible mesure. Dans le second cas l’individu dispose d’une unique et longue trace qui s’explique par le fait que le téléphone mobile étant « embarqué » par l’utilisateur celui-ci se trouve en permanence à l’intérieur de sa surface d’engagement.

Trace

Plus simplement : la trace d’une interface est d’autant plus grande que le temps pendant lequel son utilisateur est susceptible d’engager une interaction avec elle est grand.

Internalisation et externalisation de fonctions

Un ancien post se faisait l’écho d’une conférence où Michel Serres discourait entre autres sur l’externalisation des fonctions humaines au travers des outils. L’évolution des IHM envisagée dans le billet mentionné au début de cet article consistait en un aller-retour entre embarquement et stationnarité des fonctions de l’interface, c’est-à-dire entre internalisation et externalisation, deux processus dont cet autre billet pointait les limites : l’internalisation « alourdit » l’utilisateur, et l’externalisation « alourdit » l’environnement.

L’utilisation des notions de trace et de surface de contact permet de donner une nouvelle perspective au processus d’évolution des IHM.

Surface de contact vs Trace

Les interfaces mobiles augmentent la trace moyenne du fait qu’elles accompagnent les utilisateurs. Cependant elles ne font pas véritablement augmenter la surface de contact : au lieu d’interagir avec un terminal fixe celui-ci est mobile, le nombre de point d’entrée est donc le même. Cependant la mobilité ne permet pas et ne se contente pas d’une transposition des services « fixes », les terminaux mobiles ont donc généralement des usages différents de leurs ancêtres fixes et ne se substituent pas à eux.

Les interfaces pervasives vont permettre à une multitude d’objets de notre environnement d’intégrer une interface et devenir ainsi des points d’accès à des services particuliers. Ces objets n’ont pas vocation à nous accompagner ce qui tendra à diminuer la trace moyenne des IHM.

Les interfaces neurales permettront d’organiser la fusion du monde physique et du monde informationnel, faisant ainsi de chaque objet une poignée (« handle ») reconfigurable. Par ailleurs ces interfaces directement associées à l’individu auront, comme aujourd’hui les interfaces mobiles, une trace importante.

Page suivante »