Design d’interaction


A l’origine de la série de billets sur la communication ce post faisant mention des bénéfices attendus d’une communication et des coûts correspondant. L’un des coûts est lié à l’action d’initiation de la communication. Prenons quelques exemples :

  • Lorsque peu de lignes fixes étaient installées, passer un coup de téléphone pouvait nécessiter de se rendre dans une cabine téléphonique.

  • Un ami vous envoie un numéro de téléphone par texto. Soit votre téléphone reconnait qu’il s’agit d’un numéro, vous permet de le sélectionner à l’intérieur du SMS et de l’appeler directement, soit vous devez le mémoriser ou l’écrire, puis le composer. Le coût en temps et en concentration n’est pas le même.

  • Envoyer un message sous forme de texte (email ou texto) à partir d’un clavier à 12 touches d’un téléphone portable est plus couteux en termes d’interactions qu’à partir d’un ordinateur disposant d’un clavier classique.

La réduction du coût de l’initiation consiste donc à faciliter celle-ci, notamment en diminuant le nombre d’étapes nécessaires, ce qui inclut le nombre d’interactions avec la/les interface(s). Cela rejoint un thème développé auparavant : le design d’interaction et dont ce billet applique certains principes pour engager comparaisons des interfaces mobiles.

Une innovation récente me parait illustrer parfaitement les bénéfices produits par une réduction du coût d’initiation d’une communication : il s’agit du click-to-call et autres click-to-IM. Prenons un exemple pas tout à fait réel mais qui devrait l’être dans les mois à venir : je suis à la recherche d’un frigidaire d’occasion; je vais sur un moteur de recherche qui indexe des petites annonces de particuliers microformatées; je clique sur l’un des résultats et me trouve dirigé vers la page personnelle du vendeur. Sur cette page il a pris le soin d’installer un bouton click-to-call qui me permet d’appeler directement vers son mobile (Grand Central et d’autres offrent cette possibilité).

Le premier bénéfice est que le nombre d’actions à entreprendre pour initier l’appel est réduit : un seul clique alors que si vendeur avait fourni son numéro de téléphone mobile, il aurait fallu que j’ouvre Skype ou que je me saisisse de mon portable, puis que j’y entre/compose le numéro et enfin que je clique pour appeler. Cette réduction du coût d’initiation est importante aux yeux des marketeurs et concepteurs de sites marchands : le taux de transformation des prospects en clients est d’autant plus élevé que le coût d’interaction perçu est faible.

Un second bénéfice de ces boutons click-to-call est qu’ils permettent de ne pas révéler son adresse (qu’il s’agisse d’un numéro de téléphone, d’une adresse Skype, ou autre…). Ils permettent de l’encapsuler en fournissant une fonction call(), dans l’esprit de ce qui se fait pour OpenID, voir ce billet-ci et celui-là.

Publicité

Difficile de comparer un iPod Nano et un BlackBerry. Toute comparaison de deux interfaces n’a de sens que rapportée à une tâche particulière. La performance d’une interface sur une tâche donnée est par ailleurs dépendante du contexte de son exécution (contexte physique et contexte cognitif). La performance d’une interface se mesure donc par son adéquation au contexte mais également par sa capacité à améliorer le rapport bénéfices/coûts associé à la tâche. Après quelques éléments relatifs au contexte, ce billet aborde la définition du rapport bénéfice/coût et ses implications.

Bénéfices et coûts d’une tâche

Contexte physique : se définit tant du point de vue de la situation corporelle de l’utilisateur (est-il en mouvement ? est-il sujet à des secousses ou mouvements parasites ? a-t-il les mains libres ?) que du point de vue de son environnement (est-il dans une foule ? y a-t-il de la lumière ?). Voici quelques exemples de critères d’adéquation de l’interface au contexte physique :

  • Les exigences en termes d’encombrement ne sont pas les mêmes suivant que celui-ci se trouve dans un bureau ou dans les transports en commun.

  • La qualité de l’affichage est dégradée par des mouvements parasites et doit donc être adaptée.

  • Le type de commandes (boutons, trackpad, trackball,…), leur nombre et leur positionnement permet ou non une utilisation à une seule main de l’interface, qui peut s’avérer nécessaire en situation de mobilité.

Contexte cognitif : la charge cognitive supportée par un utilisateur dépend des ressources consommées par les tâches qu’il effectue concomitamment. Il y a un accès concurrent à ces ressources que sont l’attention et la capacité de reflexion/concentration. En voici deux exemples :

  • En situation de mobilité le sens de la vue est très sollicité, une tâche faisant appel à une autre modalité de l’attention se trouve plus adaptée (la communication téléphonique par exemple qui fait appel à l’attention auditive).

  • En mobilité la gestion des risques extérieurs, de la trajectoire,… sont des tâches de priorité supérieure, les autres tâches ont donc un accès à des plages courtes et répétées de dédication, une interface adaptée doit permettre des interactions qui puissent tirer parti de cette particularité.

 

Rapport bénéfice/coûts

Une manière générale d’aborder la performance est la comparaison coût/bénéfice : la réalisation d’une tâche présente certains bénéfices (généralement non financiers) pour l’utilisateur, ainsi que des coûts (temps, argent, efforts,…). Les bénéfices attendus sont indépendants de l’interface, alors que les coûts en sont fortement dépendants. Voici quelques éléments impactant ces coûts :

  • L’erreur : elle représente toujours un coût qui correspond au coût du retour à la situation d’origine. Certains coûts sont parfois irréversibles. Par exemple : une connexion internet lente rend coûteuse (en temps) le chargement d’une page. L’erreur de navigation est donc inversement proportionnelle à la vitesse de la connexion…

  • La charge cognitive : lorsqu’une tâche requière plus de ressources que disponibles, une des conséquences est l’augementation du taux d’erreur.

  • La capacité d’auto-révélation : lorsque l’utilisateur comprend quelles sont les actions disponibles et quelles en sont les conséquences le taux d’erreur diminue ainsi que l’hésitation (qui a aussi un coût, ne serait-ce qu’en temps)

  • Répartition modale de l’attention : en déchargeant une modalité saturée sur une autre disponible, on contribue à la diminution de la charge cognitive. Par exemple un signal tactile peut remplacer un message visuel.

  • Le feedback : plus il est rapide meilleur il est. De plus la modalité selon lequel il s’effectue influe sur son efficacité, en voici un exemple trivial : imaginez-vous devoir écrire les yeux bandés écoutant une synthèse vocale de ce que vous écrivez. Ce feedback/affichage sonore de vos écrits ne semble pas très approprié… un affichage visuel est plus intuitif.

 

Remarques autour du rapport bénéfices/coûts

  • Il s’agit plutôt de bénéfices perçus et coûts perçus : au-delà de l’identification de critères impactants, l’évaluation des coûts et bénéfices reste subjective. Ainsi l’aversion au risque, qui diffère selon l’individu, entraine un coût perçu souvent disproportionné relativement à son coût réel, notamment du fait de la généralisation de bonnes pratiques telles que l’implémentation systématique de la réversibilité des actions.

  • Inhibition de l’action : lorsque les coûts perçus sont supérieurs aux bénéfices perçus aucune action n’est entreprise.

  • Cette évaluation de rapport bénéfice/coût s’inscrit dans le cadre plus général du design d’experience : il ne sert à rien de réduire le coût d’une action si le coût perçu de l’interaction dans son ensemble n’en dépend pas. De même si le bénéfice perçu est faible, c’est-à-dire si l’utilité n’est pas perçue, il peut être plus efficace d’avoir une démarche pédagogique…

L’auto-révélation est la capacité d’une interface à signifier à l’utilisateur les interactions dans lesquelles il lui est possible de s’engager, ce qui couvre les actions à réaliser et les résultats qui peuvent être attendus de telles interactions. Le contre-exemple parfait d’une interface auto-révélatrice est l’utilisation de lignes de commandes.

Dans ce billet sur la gestion de l’ambiguïté, il a été argumenté que face à une multitude de fonctionnalités différentes options se présentent :

  • Associer une action à chaque fonction.
  • Associer un ensemble d’actions à réaliser de manière concomitante à chaque fonction
  • Associer un ensemble d’actions à réaliser de manière successive à chaque fonction

La contrainte première est l’encombrement : qu’il soit physique ou visuel limitant dans les deux cas le nombre de boutons et leur taille. La première option présente la meilleure auto-révélation mais est très encombrante. La seconde est au contraire très économe de ce point de vue comme l’illustrent les claviers à accords, mais a une capacité d’auto-révélation limitée : chaque bouton sert pour la réalisation de plusieurs accords, il est donc difficile de le libeller.

La troisième option, illustrée par l’utilisation de menus, permet autant l’auto-révélation qu’un faible encombrement. Le contrepoint en sont des séries d’actions qui peuvent être longues surtout si le nombre de clés disponibles (boutons, nombre d’item à chaque niveau de menu,…) est limité. Imaginons ainsi une interface possédant 6 clés, il est possible de choisir entre 6 menus différents, puis au second niveau il possible de choisir entre 6 options du menus et ainsi de suite. Avec un menu à 3 niveaux il possible de synthétiser jusqu’à 6x6x6=216 fonctions. Avec 3 clés il faut un menu de 5 niveaux pour offrir le même nombre de fonctions.

Il existe donc un compromis à réaliser entre auto-révélation, compacité et longueur des séquences d’actions. Sur la figure suivante apparaissent trois options envisagées :

Compromis

Ce compromis est structurant pour une interface et est d’une importance particulière dans le cas des interfaces mobiles. Le seul moyen de s’en échapper est de faire appel au contexte pour limiter les interactions possibles à celles qui sont pertinentes dans un état particulier du système.

Le feedback permet à l’utilisateur d’obtenir confirmation qu’une action a bel et bien été performée. Selon cette définition le feedback n’apporte donc aucune information quant à la validité de l’action réalisée ou quant à son adéquation avec l’intention initiale de l’utilisateur. Ces deux information relèvent de l’affichage : affichage d’un message d’erreur (qui peut prendre différentes modalités : son, vibration, coloration de l’écran…) dans le premier cas, et affichage du résultat de l’action dans le second.

Cependant feedback et affichage ne sont pas nécessairement aussi clairement séparés dans les interactions avec l’utilisateur. Ainsi il peut exister un feedback sonore à chaque pression de touche d’un téléphone portable, mais le son peut différer suivant que l’action réalisée est valide ou non. D’autre part dans le cas d’un écran tactile, en l’absence d’un feedback tactile l’utilisateur est amené à se référer bien plus régulièrement à l’écran afin de vérifier que chaque pression sur une touche virtuelle a été prise en compte. Cette recherche d’un feedback visuel se confond alors avec l’affichage du résultat de l’action.

Swiss knifeL’ambiguïté dans la relation à l’interface

Certains signaux échangés avec une interface sont univoques : un bouton Marche/Arrêt avec deux positions, Marche et Arrêt, n’admet qu’une unique interprétation, sa position correspond à l’état de l’appareil. Un bouton Marche/Arrêt dont la position reste la même quelque soit l’état de l’appareil comporte cependant déjà une ambiguïté : son action dépend de l’état actuel du système.

La multiplication des fonctions disponibles sur une interface et les limites en termes d’encombrement (physique ou visuel) conduisent les concepteurs d’interface à multiplier les significations associées à une même action. Il est alors nécessaire de lever l’ambiguïté qui en est issue lors de l’interaction avec l’utilisateur.

 

Désambiguätion contextuelle

Le contexte dans lequel a lieu l’interaction peut définir de manière univoque le sens d’une action. Ainsi dans le cas du bouton Marche/Arrêt, le résultat de son actionnement dépend de l’état du matériel mais celui-ci étant donné il n’existe plus d’ambiguïté. De même dans le cas d’un téléphone mobile, on retrouve généralement deux boutons en haut du clavier à gauche et à droite dont les commandes correspondantes varient suivant les écrans (« Ecran précédent/Sélection », « Quitter/Capturer l’image », ou « Ecran précédent/Envoyer à »).

Dans ce dernier cas, les commandes associées aux deux boutons doivent être affichée afin de permettre à l’utilisateur de bien comprendre le résultat à attendre de son action. La désambiguätion contextuelle a l’avantage d’être efficace mais consomme donc de l’affichage, et se trouve donc limitée par la disponibilité de celui-ci. Le succès de l’écran tactile s’explique ainsi au moins partiellement par la possibilité de reconfigurer les commandes. Une autre solution explorée est l’utilisation de clavier dont les touches sont recouvertes de petits écrans.

 

Désambiguätion par actions multiples

Lorsque le contexte ne permet pas de définir de manière univoque le résultat associé à une action, une série d’actions concomitantes ou successives peut permettre de lever l’ambiguïté. Voici deux exemples :

Clavier à accord : ces claviers composés d’un nombre restreint de touches permettent les mêmes entrées de données qu’un clavier où chaque touche correspond à un unique caractère par l’actionnement de plusieurs touches simultanément. Un ensemble de touches forme un « accord » auquel est associé un unique caractère. C’est l’extension à l’ensemble des caractères du « raccourci-clavier ». Les combinaisons Alt+Maj+… utilisent le même principe.

Menus : le click droit permet généralement la réalisation de plusieurs actions. La levée de l’ambiguïté se fait par un click gauche sur l’élément du menu désiré. Les menus d’une manière plus générale permettent de réduire l’encombrement visuel mais ne sont pas sans défaut comme nous le verrons dans un prochain billet.

ModalitésL’interaction avec une interface implique une relation à double sens : l’utilisateur est à la fois un émetteur (entrée de données ou data input) et un récepteur (sorties de données ou data output). On distingue deux types de sorties de données : le feedback et l’affichage. Le feedback intervient en réaction à une entrée de données et permet en premier lieu de signifier à l’utilisateur que cette entrée a bien été performée. L’absence de feedback tactile sur un écran tactile a par exemple été pointée comme un des défauts de l’iPhone. Plus généralement, le feedback est un facteur de performance : il rend possible la rétroaction, l’adaptation, la correction des actions entreprises. Imaginez-vous ainsi avoir à attraper un savon humide avec une main anésthésiée : l’absence de retour tactile rend cette tâche extrêmement difficile. L’affichage permet, quant à lui, de présenter des données à l’utilisateur.

Les modalités d’interaction et leur substitution

L’entrée de donnée se fait essentiellement par la voix, et le mouvement : boutons, clavier, souris. L’affichage est généralement sonore ou visuel mais il existe des recherches sur la possibilité de réaliser un affichage tactile (voir les travaux de Vincent Levesque). Le feedback se fait aussi selon ces trois modalités : sonore (clac d’une porte qui se ferme, bruit du verrou), visuel (diode de confirmation, flèches lumineuses de clignotants sur les tableaux de bord de voiture) ou tactile (resistance opposée par un verrou, ou un bouton).

Les modalités sont, dans une certaine mesure, substituables les unes aux autres. La commande vocale peut être remplacée par l’entrée d’un texte au clavier, le feedback tactile d’un clavier de téléphone portable par un feedback sonore ou visuel (via l’affichage du caractère sur l’écran).

Critères de choix entre les différentes modalités

Acceptabilité sociale : les contextes sociaux d’interaction autorisent ou limitent l’utilisation de certaines modalités. Le son et la parole sont particulièrement visés dans les lieux publics clos. Un affichage tactile de certaines informations telles que le nom de l’appelant permettrait aux utilisateurs de choisir de répondre ou non à un appel sans avoir à interrompre le contact visuel avec un interlocuteur.

Intrusivité : dans le cadre d’une communication de personne à personne, la modalité d’interaction est porteuse de signification. Le coup de téléphone est ainsi beaucoup plus intrusif que le SMS.

Répartition de l’attention : l’attention visuelle est généralement la plus sollicitée, l’utilisation des autres modes peuvent permettre de la décharger, ce qui profite à la performance.

Taux d’erreur : suivant les interfaces et les contextes une modalité présente différents taux d’erreur. La reconnaissance vocale est par exemple moins performante en présence de bruits parasites. Par ailleurs le coût de correction des erreurs est lui-même variable.

Lors des choix de design d’interface, le choix des modalités selon lesquelles s’effectuent les interactions n’est pas neutre. Ces modalités influent sur la performance d’action de manière directe mais entrent aussi avec d’autres facteurs, abordés lors de prochains billets, tels que l’ambigüité des données fournies en entrée/sortie ou la capacité de révélation de l’interface.

Best Buddies« On se comprend tellement bien ! », « Inutile de se parler », « Un regard suffit ». Ces paroles pourraient peut-être convenir à la relation que vous entretenez avec un(e) ami(e), un conjoint, un parent. Cette personne comprend et anticipe vos désirs, attentes sans que vous ayez à les exprimer, et sait être présente à vous sans obstruer votre perspective. Des qualités que l’on aimerait retrouver dans une interface.

L’interface doit permettre la mise en oeuvre des intentions tout en ne faisant qu’un minimum appel à l’attention. On retrouve ici le rendement informationnel défini dans ce billet pour des activités « physiques ». Dans le cadre des activités « intellectuelles » l’attention est limitée, et le design d’interaction a pour objet de maximiser le « volume intentionnel réalisé » en rapport du « volume attentionnel mobilisé ».

Dans les jours à venir plusieurs billets s’intéresserons aux facteurs impactant les relations entre les interfaces et les utilisateurs. Une ressource de premier ordre sur ces sujets est fournie par Bill Buxton et librement accessible sous forme d’un document en ligne.

tirebouchonDifficile de faire plus simple que le tire-bouchon comme ustensile, et pourtant quelle débauche de matière grise pour le rendre plus facile d’utilisation. Utilisation de la force brute, de pas de vis, de crémaillère, d’effets de levier, etc… Le principal problème posé par le tire-bouchon traditionnel est la force nécessaire à l’extraction du bouchon. L’objet premier de ces innovations était donc de limiter celle-ci. En général elles ont en même temps facilité le positionnement de la mèche en prenant appui sur le goulot de la bouteille. Cependant l’observation de l’évolution des tire-bouchons appelle une remarque : le tire-bouchon traditionnel ne possède-t-il pas des qualités propres qui ont disparues dans ces nouveaux modèles ?

Quelles sont les qualités d’un bon tire-bouchon ? Il doit permettre une extraction facile du bouchon, il doit être robuste et il doit être transportable. L’expérience tend à prouver que la première de ces qualités est antagoniste des deux suivantes.corkscrew Cependant une segmentation plus fine des usages (ici entre utilisation domestique et utilisation nomade) permet de restreindre la liste des qualités souhaitées et donc de résoudre la contradiction. Par ailleurs qui ne s’est jamais retrouvé bête devant un modèle inconnu. La plus belle des innovations ne vaut que si l’utilisateur est amené à s’en saisir.

C’est à ces challenges de conception que le design d’interaction tente d’apporter une réponse : décomposition de l’interaction avec l’outil, étude des attentes des utilisateurs, des situations d’usage, des qualités perçues, des réactions face une forme nouvelle,… Et au bout, décision en faveur d’un scénario ou réalisation de compromis.

Considérons maintenant le choix entre un tire-bouchon traditionnel et un tire-bouchon électrique : au-delà des aspects déjà évoqués, le second a la particularité de ne pas produire le bruit caractéristique d’une ouverture de bouteille. Ce bruit peut avoir pour vous un effet synesthétique ou constituer un appel à la convivialité, et si tel est le cas son absence peut dégrader l’expérience tirée du partage d’une bouteille de vin. Le design d’interaction s’inscrit dans le cadre plus général du design d’expérience : c’est l’ensemble de l’expérience dans laquelle s’inscrit l’interaction qui fait sens. L’utilisateur ne gardera pas souvenir d’un débouchage de bouteille mais d’un diner agréable. La conception d’un produit ou d’un service nécessite donc de prendre du recul par rapport au contexte d’usage et intégrer à la réflexion des éléments qui semblent parfois éloignés du produit lui-même. Il en va de même lorsqu’il s’agit de concevoir des interfaces.

« Page précédente