Cette partie fait suite à celle-ci.

INTRODUCTION

Contrairement aux méthodes qualitatives, les méthodes quantitatives nécessitent de récolter une quantité importante d’observations pour mettre en évidence des évènements ou comportements précis (Aldeber & Rouziès, 2011). La récolte de ces données est importante car il arrive fréquemment que les dires des utilisateurs ne reflètent pas ce qu’ils font (Albert & Tullis, 2013). Leur analyse repose sur les statistiques qui consistent à décrire et expliquer des phénomènes visibles uniquement au travers d’un groupe de personnes. Selon Halbwachs « la statistique permet d’atteindre les caractères d’un groupe, qui ont une réalité pour le groupe entier, mais qu’on ne découvrirait dans aucun membre de ce groupe pris à part et isolément » (Halbwachs, 1944, cité par Bugeja-Bloch & Couto, 2015).

Plus précisément, les statistiques permettent de :

Organiser, synthétiser et présenter des données,
Faire des prédictions sur des évènements ou phénomènes,
Mettre en évidence des relations de cause à effet entre des variables,
Déterminer si les résultats obtenus sont dus au hasard ou s’il est possible de les généraliser à l’ensemble de la population.

Pour ce faire, on test l’hypothèse de travail posée apriori via des tests statistiques. Ces derniers sont de 2 grands types :

Les tests paramétriques, dont les propriétés sont les suivantes (Chanquoy, 2005) :

Concernent les échelles d’intervalles uniquement.
La distribution des données suit la loi normale. Pour le savoir, on peut vérifier si la représentation graphique en courbe des données a la forme d’une cloche et si les valeurs de la moyenne, du mode et de la médiane sont proches. Il est aussi possible de faire le test Kolmogorov-Smirnov ou de Lilliefors pour s’en assurer.
La variance de la distribution (dispersion) est homogène. Pour le vérifier on peut faire le test d’homogénéité de Hartley ou le test de Cochran.

Si un test paramétrique est effectué alors que la distribution des données ne respecte pas toutes ces conditions alors on prend le risque de valider H1 et de rejeter H0 à tort. Toutefois, cela est moins problématique lorsque la taille de l’échantillon est importante, à savoir, au moins 60 participants (Chanquoy, 2005).

Les tests non-paramétriques qui ne dépendent pas de la normalité de la distribution. Ils peuvent être utilisés pour analyser des échelles de données nominales ou ordinales, ainsi qu’auprès d’un petit échantillon (Aldeber & Rouziès, 2011). Néanmoins, ces tests sont moins puissants. On prend donc le risque inverse des tests paramétrique, à savoir, rejeter à tort H1 et ne pas rejeter H0 (Chanquoy, 2005).

Ainsi, 4 situations peuvent se présenter à la suite d’un test :

Soit, les calculs permettent de rejeter H0 qui est effectivement fausse au niveau de la population.
Soit, de la même manière, les calculs permettent de rejeter H1 qui est effectivement fausse au niveau de la population.
Soit, les calculs permettent de rejeter H0 et de valider H1 alors que H0 est vraie. Dans ce cas il est question d’un « faux positif » et on parle d’erreur de type 1. Cette erreur renvoie à une erreur de puissance statistique car la probabilité de commettre cette erreur est égale à l’alpha (α).
Soit, inversement, les calculs permettent de rejeter H1 et de valider H0 alors que H1 est vraie. Dans ce cas il est question d’un « faux négatif » et on parle d’erreur de type 2. Cette erreur renvoie à une erreur d’échantillonnage qui fait que l’on n’arrive pas à conclure à une différence qui existe bel et bien dans au niveau de la population. De plus, la probabilité de commettre cette erreur est égale à β.

De plus, Lucile Chanquoy explique que « plus la probabilité de commettre une erreur de type I est faible, plus grande est celle de commettre une erreur de type II. La valeur de α est donc inversement reliée avec celle de β. Pour réduire les risques de commettre l’une ou l’autre de ces erreurs, les statisticiens n’ont qu’une seule solution : augmenter la taille des effectifs. » (Chanquoy, 2005).

Dans le cas de la UXR, peu de professionnels relèvent des données quantitatives du fait de l’analyse statistique que cela suppose. Pourtant, l’analyse statistique est un outil puissant pour mesurer le comportement et l’attitude des utilisateurs, trouver des problèmes subtils qu’on ne trouverait pas autrement et pour estimer l’importance d’un problème au sein de la population. Effectivement, si seulement 2 ou 3 participants rencontrent un même problème, pouvons-nous affirmer qu’il s’agisse d’un problème mineur ? Qu’en est-il pour la population cible ? Les statistiques permettent d’estimer le nombre de personnes de la population cible qui vont probablement rencontrer ce problème (Albert & Tullis, 2013). Enfin, elles sont très utiles pour définir des KPIs ou des ROIs, servir de pistes à explorer en recherche qualitative, et étudier si les changements apportés à un design améliorent significativement son ergonomie (Bugeja-Bloch & Couto, 2015).

Là encore, cet article ne se suffit pas à lui-même pour maitriser les analyses statistiques. Si vous souhaitez acquérir une expertise dans le traitement des données quantitatives, je vous recommande vivement de consulter les ressources sur lesquelles je me suis appuyée pour la rédaction de cet article.

L’ANALYSE STATISTIQUE DESCRIPTIVE

Le traitement statistique descriptif constitue la toute première étape de l’exploitation des données. Il s’agit d’un traitement en surface qui permet d’obtenir une vue générale des comportements (Nunnally & Farkas, 2016). En ce sens, il faut bien comprendre qu’il n’est absolument pas possible de faire des prédictions et de généraliser les résultats uniquement à partir de traitements descriptifs. En d’autres termes, si dans votre échantillon de participants 8/10 personnes n’ont pas réussi à réaliser une tâche, il n’est pas possible de conclure que « 8/10 utilisateurs (ou que) la majorité des utilisateurs vont échouer à cette tâche ».

Indices de tendance centrale & de dispersion

Les traitements les plus communs sont le calcule des indices de tendance centrale et de dispersion. Les indices de tendance centrale permettent de résumer la distribution des données par un chiffre. Les indices de dispersion viennent en complément de la tendance centrale. Ces indices permettent de déterminer la variabilité de la distribution des données autour de l’indice de tendance centrale. Ainsi, il est possible de savoir si les données des participants sont similaires ou s’il y a une grande variabilité. Il faut savoir que la dispersion est plutôt la règle que l’exception lorsque l’on traite d’humains car elle est généralement causée par des différences inter-individuelles (Albert & Tullis, 2013).

Indices de tendance centrale

La moyenne est l’indice de tendance centrale la plus connue. Elle consiste à faire la somme des données et de diviser cette somme par le nombre totale de données. Toutefois, il faut savoir que la moyenne est grandement influencée par les valeurs extrêmes. Ainsi, si la distribution en contient, il sera préférable d’utiliser la médiane ou le mode comme indicateur.

La médiane est la valeur centrale qui sépare la distribution de données en 2 parts égales. Pour l’obtenir il faut tout d’abord organiser les données de la distribution par ordre croissant ou décroissant. Si la distribution contient un nombre impair de données, il n’y a pas de calcul nécessaire. Dans le cas d’un nombre pair, il faut prendre les 2 valeurs centrales et les diviser par 2.

Le mode est la valeur la plus fréquente de la distribution. Il peut donc y avoir 1 ou plusieurs modes (distribution bimodale ou multimodale), voire même ne pas y en avoir du tout (distribution amodale).

Indices de dispersion

L’étendue correspond à l’écart entre la plus grande et la plus petite valeur de la distribution. Ainsi, elle ne vaut que pour les échelles de mesure quantitatives. Si elle a l’avantage d’être rapide à déterminer, l’étendue est néanmoins un indice très sensible aux valeurs extrêmes et qui manque de précision.

L’écart semi-interquartile s’obtient en découpant la distribution en 4 parts égales dont chacune contient 25% de la distribution. Elle sous-tend donc d’obtenir 3 quartiles, dont le 2ème représente la médiane. L’écart semi-interquartile s’étend donc du 1er quartile au 3ème quartile et contient ainsi 50% des observations (voir schéma suivant).

La variance permet de déterminer à quel point les valeurs se dispersent autour de la moyenne. Pour calculer la variance :

On calcule pour chaque donnée son écart par rapport à la moyenne
On élève ces écarts au carrée
On fait la somme de ces valeurs
On divise cette addition par l’effectif total auquel on enlève 1

Par conséquent, la variance est finalement une moyenne, la moyenne des carrées des écarts à la moyenne. Aussi, l’écart-type est simplement la racine carrée de la variance.

Par ailleurs, la variance et l’écart-type ne doivent pas être perçus comme des données de la distribution, mais plutôt comme une distance par rapport à la moyenne. De plus, il faut considérer que cette dispersion de part et d’autre de la moyenne comprend environ 95% des observations. Enfin, plus la valeur de la variance ou de l’écart-type est importante, plus il y a de la variabilité dans les données. Dans ce cas, la moyenne constitue un moins bon indice de tendance centrale.

L’intervalle de confiance

L’intervalle de confiance permet de déterminer la précision de nos résultats par rapport à la population. Il s’agit d’une plage de valeur autour de la moyenne dans laquelle il est fort probable de retrouver les résultats de la population (Sauro, 2016). L’intervalle de confiance dépend de 4 éléments :

La moyenne et l’écart-type
La taille de l’échantillon : plus l’échantillon est petit, moins l’estimation sera précise.
La valeur α qui est le pourcentage d’erreur que l’on accepte. En d’autres termes, un α à 0.5 signifie qu’il y a 5% de chance de se tromper (Albert & Tullis, 2013).

Coefficients de corrélation

Faire un test de corrélation permet de mettre en évidence une potentielle relation entre 2 variables. Par relation il ne faut pas entendre une relation de causalité car la corrélation est un test descriptif qui montre simplement la présence d’une covariation entre 2 variables. Le score de corrélation varie de + 1 (corrélation positive, les variables varient dans le même sens) à – 1 (corrélation négative, les variables varient en sens inverse). Enfin, si le score est proche de 0, cela signifie l’absence de covariation entre les 2 variables. A noter que cela ne veut pas dire qu’il n’existe pas de relation de cause à effet mais simplement que la relation qui les unit n’est pas linéaire (Chanquoy, 2005).

Il existe différents types de coefficients de corrélation selon la nature des variables. Ainsi, pour les variables numériques le coefficient de corrélation r de Bravais-Pearson sera utiliser. Pour les variables non-numériques ce sera le coefficient de corrélation par rangs de Spearman (Chanquoy, 2005).

L’ANALYSE STATISTIQUE PRÉDICTIVE (INFÉRENTIELLE)

Comme on l’a vu, les statistiques descriptives ne permettent pas de déterminer si les différences observées sont significatives et s’il est possible de les généraliser à la population. Il est question ici du rôle des statistiques prédictives. Ces dernières permettent la validation d’hypothèses de travail en démontrant, au moyen de calculs statistiques, qu’une VI impact une VD ainsi que d’étendre cet effet à l’ensemble de la population.

Par ailleurs, le résultat trouvé suite aux calculs du test statistique utilisé ne se suffit pas à lui-même pour tirer ces conclusions. En effet, il faut aussi tenir compte du degré de liberté (ddl) et du seuil de probabilité α. Le ddl est défini à la suite de calculs simples qui diffèrent selon le test utilisé. Ensuite, il faut choisir un seuil α compris généralement entre 0.05 et 0.001. Ce dernier correspond au taux de probabilité de se tromper dans notre conclusion. Ainsi, un α à 0.05 signifie qu’il y a 5% de chance de se tromper et donc qu’il y a 95% de chance d’avoir juste. Enfin, à partir du ddl et de α, il faut chercher dans la table du test correspondant une valeur critique à partir de laquelle va être comparé le résultat trouvé suite aux calculs du test.

Pas de panique cependant ! Il existe de nombreux logiciels de traitement statistique qui font ces calculs à notre place et nous donnent directement le taux de probabilité de se tromper (nommer p-value) et sa significativité (Chanquoy, 2005).

Comparaison de moyennes – T de Student & Z de la loi centrée réduite

Les tests de comparaison de moyennes permettent de déterminer s’il existe une différence significative entre les moyennes de 2 groupes différents. Les tests les plus fréquemment utilisés sont le T de Student et le Z de la loi centrée réduite. Il est aussi possible de faire une analyse de variance ANOVA pour comparer 2 moyennes mais ce dernier est surtout utilisé pour comparer plus de 2 moyennes. Ces tests sont paramétriques, ils ne peuvent donc être utilisés que sous les conditions des tests paramétriques.

Le test T de Student est utilisé dans le cas d’un échantillon dont la taille est inférieure ou égale à 30. De plus, le test T de Student sera différent selon qu’il s’agit d’un échantillon apparié (VI intra-sujet) ou indépendant (VI inter-sujet).

Le test Z de la loi centrée réduite est utilisé lorsque la taille de l’échantillon est supérieure à 30. A l’instar du test T de Student, la formule du test sera différente selon qu’il s’agit d’un échantillon apparié (VI intra-sujet) ou indépendant (VI inter-sujet).

Analyse de variance ANOVA

L’analyse de variance ANOVA est le test statistique le plus utilisé et le plus robuste. A la différence du T de Student et du Z de la loi centrée réduite, l’ANOVA prend en compte les moyennes mais aussi les indices de dispersions. Pour cela, on calcule le F de Fisher.

Comme pour les tests de comparaison de moyennes, il existe différents ANOVA selon le nombre et le type de VI :

On fera une analyse ANOVA simple lorsque l’expérimentation ne comprend que 1 seule VI. Dans ce cas, le test à réaliser est une ANOVA à 1 facteur et va simplement consister à vérifier s’il existe un effet significatif de la VI sur la VD.
On fera une analyse ANOVA multiple, ou à plusieurs facteurs, lorsqu’il y a plus de 2 VI (s’il n’y a que 2 VI, on fera un T de Student ou un Z de la loi centrée réduite). Ici, le test consiste à analyser conjointement les effets des VI sur la VD. En ce sens, il est question d’évaluer à la fois l’effet de chaque VI sur la VD, ainsi que l’effet de l’ensemble des VI sur la VD. On parle alors d’analyser l’effet d’interaction des VI sur la VD. Pour cela, on réalisera une ANOVA à mesures répétées dans le cas de VI iner- et intra-sujets, et une ANOVA factorielle s’il n’y a que des VI inter-sujets.

Lorsque les calculs permettent de valider H1, cela signifie qu’il existe effectivement un effet de la VI sur la VD. Néanmoins, cela ne suffit pas pour tirer des conclusions quant à l’importance de cet effet. Pour cela, il faut calculer la part de variance expliquée notée R². Il s’agit d’un calcul très simple et facile à faire qui permet d’avoir une valeur que l’on doit multiplier par 100 pour obtenir un pourcentage. Ainsi, si j’obtiens une valeur de 0.40, je peux conclure que la VI permet d’expliquer 40% des variations de la VD. Il reste donc 60% des effets qui ne sont pas expliqués par la VI.

Le R² offre une information supplémentaire qui va être très utile pour nuancer les résultats de l’analyse ANOVA. En effet, si la valeur du R² est faible, il faudra faire preuve de prudence pour l’interprétation des résultats (Chanquoy, 2005).

Khi²

Le Khi² (ou Chi², X²) est non paramétrique et présente ainsi l’avantage de faire des calculs auprès d’échelles nominales. Ce test permet de savoir si une distribution de fréquence (pourcentage) est due au hasard ou pas.

Toutefois, le Khi² est particulièrement dépendante de l’effectif total de l’échantillon et du nombre d’observations. Ainsi, s’il existe des formules permettant de pallier cette limite pour de petits échantillons, le risque de fausser les estimations reste grand (Chanquoy, 2005).

Khi² d’ajustement

Le principe de ce test est de comparer la distribution des fréquences de 1 VI à une norme pour voir si elles s’ajustent (H0) ou non (H1). Plus précisément, il s’agit d’étudier l'écart entre les effectifs observés et les effectifs théoriques de la norme (ces derniers pouvant être ceux que l'on pourrait avoir si H0 est vraie). En ce sens, ce test permet de déterminer le degré de ressemblance entre notre distribution de données et une distribution de données théorique.

Le Khi² d’ajustement permet d’obtenir une vision globale de la distribution selon chaque modalité de la VI. Ainsi, si les calculs montrent une différence, cela ne veut pas dire que toutes les modalités sont différentes. De la même manière, si les calculs ne mettent pas en évidence de différences, cela ne veut pas dire que toutes les modalités de la VI sont équivalentes (Chanquoy, 2005).

Khi² d’indépendance de Pearson

Ce Khi² permet de comparer plusieurs VI afin de déterminer le degré d’indépendance entre les modalités de ces VI. En d’autres termes, si les variables sont indépendantes cela signifie qu’il n’existe aucun lien entre elles (H0). A l’inverse, si les résultats montrent qu’elles sont dépendantes, alors cela veut dire qu’elles sont liées (H1). En ce sens, le test d’indépendance permet de savoir s’il est possible prédire un effet d’une modalité d’une VI à partir d’une autre modalité d’une autre VI (Chanquoy, 2005).

Exemple : Un lien existe-t-il entre la préférence d’une couleur et le genre d’une personne ?

Si les résultats montrent que H1 est vraie et qu’il y a effectivement un lien, alors cela signifie que l’on peut prédire, à partir du genre de l’individu, la couleur préférée. A l’inverse, si les résultats montrent que H0 est vraie et que les variables sont indépendantes l’une de l’autre, alors cela veut dire qu’il n’est pas possible de prédire qu’une personne préférera telle ou telle couleur selon qu’elle soit un homme ou une femme.

Khi² d’homogénéité

Le principe de ce Khi² est de savoir si l’effet d’une VI est homogène ou s’il varie auprès de différents échantillons. Ces échantillons représentent des modalités d’une autre VI. Autrement dit, si l’effet de la VI est homogène entre les échantillons, cela signifie qu’il n’existe aucun lien entre la VI et les caractéristiques de l’échantillon (H0). A l’inverse, si les résultats montrent que l’effet de la VI est différent auprès d’au moins 1 des échantillons, alors cela veut dire que la VI a un effet sur les caractéristiques des échantillons (H1) (Chanquoy, 2005).

Pour exemple, la question que l’on pourrait se poser ici est de savoir si l’établissement scolaire a un effet sur la réussite à un test. Ainsi, on aurait un premier échantillon de participants scolarisés à un établissement A, un deuxième échantillon de participants scolarisés à un établissement B, etc.

Le test d’indépendance est très proche du test d’homogénéité mais la logique de raisonnement est très différente.

Khi² de Mc Nemar

Ce test est utilisé lorsqu’un même groupe de personnes (groupe apparié) passe 2 fois le même test pour analyser l’effet d’une VI comportant uniquement 2 modalités (Succès vs. Échec ; Oui vs. Non ; Absence vs. Présence, etc.). L’idée est de comparer les résultats des 2 sessions pour relever s’il existe des différences (Chanquoy, 2005).

CONCLUSION

L’objectif de cet article était de présenter au mieux l’intérêt de la démarche quantitative dans la UXR. La première partie avait pour but de présenter la méthodologie de cette approche. Cette deuxième partie, quant à elle, consistait à présenter brièvement les principes de l’analyse statistique descriptive et prédictive. Ainsi, il n’était pas question de prétendre à l’exhaustivité ni de fournir assez de connaissances pour devenir un expert de l’approche quantitative. Pour cela, je vous conseille vivement, une nouvelle fois, de consulter les ressources sur lesquelles je me suis appuyée. L’idée était de surtout sensibiliser les professionnels de l’UX à adopter une approche méthodologique mixte, c’est-à-dire, qui applique à la fois des méthodes qualitatives et quantitatives.

Pourquoi une approche méthodologique mixte ?

L’étude de l’UX a su s’enrichir d’une pluralité de disciplines ce qui permet aux professionnels d’avoir à leur disposition un large choix d’outils de récolte et d’analyse de données. Néanmoins, aucune ne semble à elle seule assez satisfaisante pour analyser la complexe question de l’expérience vécue par les utilisateurs. En effet, la limite de l’approche qualitative est son caractère subjective, influencée par la subjectivité du professionnel et le faible effectif de l’échantillon. La limite de l’approche quantitative, quant à elle, réside dans le fait que les nombres ne tiennent pas réellement compte du contexte d’usage, ni ne fournissent des pistes pour comprendre pourquoi les choses se passent ainsi, ni comment les améliorer (Bugeja-Bloch & Couto, 2015). En ce sens, la combinaison de ces 2 méthodes dans un protocole de recherche semble être la meilleure approche possible pour étudier l’UX, car elles se complètent et s’enrichissent l’une et l’autre.

Toutefois, Angélick Schweizer précise qu’il faut faire preuve d’humilité et de modestie car « le principal objectif de ces méthodes, [qui] est non pas de rendre compte de « tout » dans un phénomène, mais d’essayer d’approcher au plus sa complexité tout en retenant les éléments généraux et les éléments singuliers qui en font sa richesse » (Schweizer, 2020). Ainsi, les données que nous récoltons et analysons ne rendent pas compte d’une « réalité vraie ». Effectivement, elle explique que « les systèmes que nous étudions sont toujours des systèmes ouverts, par définition mouvants, adaptatifs et toujours en interaction avec d’autres systèmes ouverts et mouvants. En effet, toute méthode de recherche fige les phénomènes à investiguer dans le temps et dans l’espace, cela même lorsqu’elles sont longitudinales. » (Schweizer, 2020).

Références bibliographiques

Albert, W., & Tullis, T. (2013). Measuring the User Experience (2èmeéd.). Waltham : Elsevier Science.

Aldeber, B., & Rouziès, A. (2011, juin). L'utilisation des méthodes mixtes dans le recherché francophone en stratégie : constats et pistes d'amélioration. XXème Conférence de l'Association Internationale de Management Stratégique, Nantes. https://halshs.archives-ouvertes.fr/halshs-00740158

Bugeja-Bloch, F., & Couto M-P. (2015). Les méthodes quantitatives. Paris : Presses Universitaires de France.

Chanquoy, L. (2005). Statistiques appliquées à la psychologie et aux sciences humaines te sociales. Paris : Hachette Éducation.

Nunnally, B., & Farkas, D. (2016). UX Research: Practical Techniques for Designing Better Products. Sebastopol : O’Reilly Media.

Sauro, J. (2016). Quantifying the User Experience (2ème éd.). Cambridge : Elsevier Science.

Schweizer, A. (2020). Les méthodes mixtes en psychologie : De la théorie à la pratique. Malakoff : Dunod.

La recherche UX quantitative - Analyses statistiques (Part. 2/2)