10/03/2016

Statistique pour Mathématiciens

statistics-810024_960_720.jpgIl est possible de décrire les statistiques comme étant la discipline mathématique dont le but est d’utiliser des données empiriques, générées par un phénomène aléatoire, afin de faire de l’inférence sur certaines caractéristiques déterministes du phénomène, tout en quantifiant l’incertitude liée à ces inférences. Mais avant tout : qu'est ce qu'un phénomène aléatoire?


Nous pouvons considérer un phénomène aléatoire comme étant un système ou un processus dont le résultat X est incertain. Cela signifie que même si nous connaissons chaque aspect du système ou du processus, nous ne pouvons pas prédire parfaitement le résultat X. De tels phénomènes sont formalisés de façon mathématique par la théorie des probabilités : le résultat X est une variable aléatoire, et le modèle qui décrit le phénomène est la fonction de répartition F(x) = P[X ≤ x] de la variable aléatoire X. Il peut y avoir une caractéristique θ de ce phénomène qui influence les probabilités associées aux résultats possibles de X, une telle caractéristique est appelée paramètre. Puisque la probabilité de {X ≤ x} est influencée par θ, la fonction F(x) est une fonction de θ, nous l’écrivons donc comme F (x; θ) = Pθ [X ≤ x].

Si nous connaissons la forme fonctionnelle de F(x;θ) et la vraie valeur de θ, nous pouvons alors calculer la probabilité Pθ [X ≤ x] = F (x; θ) pour n’importe quel résultat x. Les statistiques considèrent le problème inverse : supposons que nous savons la forme fonctionnelle précise de f(x;θ), mais que nous ne connaissons pas la valeur de θ. Si nous avons un résultat x (une réalisation de X), est-il possible de dire quelque chose d’utile à propos de θ ? Il semble que nous devrions être capables de faire quelque chose de la sorte. Puisque θ a une influence sur quels résultats sont les plus probables, alors le fait de connaître un résultat devrait nous donner de l’information sur quels sont les θ plausibles. Cet ouvrage traitera de la façon dont on peut rendre ce lien rigoureux et illustrera comment on peut l’utiliser afin de : (a) faire la meilleure utilisation possible des données de manière à bien s’informer au sujet de θ, et (b) comprendre le niveau d’incertitude concernant les inférences faites sur θ, étant donné des données x.

En résumé, notre cadre de travail est le suivant :

  1. Il y a une distribution F(x;θ) qui dépend d’un paramètre inconnu θ ∈ Rp.
  2. Nous observons la réalisation de n variables aléatoires indépendantes et identiquement distribuées X1,...,Xn qui suivent cette distribution.
  3. Nous voulons utiliser les n observations (les réalisations de X1 , . . . , Xn ) afin de donner des affirmations concernant la vraie valeur de θ, et afin de quantifier l’incertitude associée à ces affirmations.



978-2-88915-149-3.pngA première vue, ce cadre de travail peut sembler contraignant. Il représente en effet une simplification significative des cadres beaucoup plus généraux dans lesquels il est possible de développer des méthodologies statistiques. Par exemple, en général, le paramètre inconnu pourrait ne pas être un élément de Rp, mais plutôt un élément d’un espace mathématique plus général (par exemple, un espace de fonctions). De plus, les données (X1,...,Xn) pourraient être dépendantes, elles pourraient être elles-mêmes des vecteurs, des fonctions, ou d’autres objets mathématiques.

Cependant, plusieurs des idées clés, employées par les statisticiens afin d’attaquer ces situations plus générales, sont déjà présentes dans le scénario plus simple que nous allons considérer dans ces notes. En fait, plusieurs situations complexes peuvent souvent être réduites à ce cas simple en utilisant les mathématiques de façon adéquate (par exemple, une fonction réelle peut être identifiée par un vecteur dans Rp, lorsqu’elle est représentée par les coefficients obtenus suite à son développement par rapport à une certaine base; une collection dépendante de variables aléatoires peut en fait être approximativement indépendante; et ainsi de suite).

Avant de commencer à explorer la façon dont la statistique peut être utilisée afin d’acquérir des connaissances sur la structure des modèles de probabilité dont sont issues des données, nous devons tout d’abord spécifier les types de modèles de probabilité que nous devons considérer (et certaines de leurs propriétés de base). Dans ce cadre, un modèle de probabilité sera la distribution (aussi appelée loi ou fonction de répartition) F d’une variable aléatoire X qui prend des valeurs dans le sous-ensemble de la droite des réels R :

statistiques pour mathématiciens

Nous écrivons X ∼ F pour dire que F est la distribution de X. Si {Xi}i∈I

est une collection de variables aléatoires indépendantes et identiquement distribuées selon la distribution F, nous écrivons Xi ∼ F. La distribution F dépendra typiquement d’un ou de plusieurs paramètres, que nous allons représenter par θ = (θ1, . . . , θp)⊤ ∈ Θ ⊆ Rp (dépendamment du contexte, une différente lettre grecque ou latine peut être utilisée). L’espace Θ auquel le paramètre θ appartient est appelé l’espace des paramètres. Afin d’indiquer que la distribution F dépend du paramètre θ, nous allons souvent écrire Fθ ou F (x; θ). Tous les exemples que nous allons voir, ainsi qu’une grande partie de la théorie que nous allons développer, s’appliqueront à des modèles de probabilité dits réguliers.

Statistiques pour mathématiciens

Notons que le modèle Fθ ne peut pas passer d’un modèle continu à un modèle discret (et vice-versa) dépendamment de la valeur de θ. De plus, s’il est discret, l’espace échantillon doit toujours être un sous-ensemble de Z (par exemple il ne peut pas être Z+θ pour θ ∈ [0,1]). L’ensemble X := {x ∈ R : f(x;θ) > 0} sera appelé l’espace échantillon (notons que X peut dépendre de θ, mais satisfait toujours X ⊆ R dans le cas continu, ou X ⊆ Z dans le cas discret).

L’exemple imaginable le plus simple d’un modèle de probabilité est peut-être celui de la distribution de Bernoulli. Cette distribution modélise une situation où il y a seulement deux résultats possibles, souvent appelés « succès » et « échec ». L’exemple classique d’une telle situation est celui du lancer d’une pièce de monnaie, où un succès (disons face) a une probabilité p et un échec (pile) a une probabilité 1 − p.

Statistiques pour mathématiciens

Exemple : Presque tous les phénomènes aléatoires dont les résultats peuvent être classés en deux catégories peuvent être modélisés par une distribution de Bernoulli. Il suffit de nommer une catégorie succès et l’autre échec (la catégorie succès est habituellement celle qui nous intéresse).

1. Sélectionner de manière aléatoire une personne qui vote parmi un grand électorat (si grand que l’on peut le considérer comme infini dénombrable) juste après la fermeture des bureaux de vote. Soit X le résultat du vote de cette personne au référendum, alors X = 1 (oui) avec probabilité p et X = 0 avec probabilité 1 − p, où p est la proportion des votants qui ont voté « oui ».

2. Considérons une échographie qui est faite dans le but de déterminer le sexe d’un fœtus. Le résultat X peut être soit X = 1 (fille) ou X = 0 (garçon), avec probabilités p et 1 − p respectivement. La valeur de p dans ce cas est déterminée par plusieurs différents facteurs environnementaux, mais en général elle peut être considérée comme constante à l’intérieur d’une population homogène.

Il arrive souvent que nous ayons plusieurs répétitions indépendantes d’une expérience qui a deux résultats possibles, disons « succès » et « échec », et que nous voulions modéliser le nombre total de succès. Si les expériences individuelles sont modélisées par des épreuves de Bernoulli, nous obtenons alors inévitablement la distribution binomiale. Cette loi modélise le nombre total de faces dans une séquence de n lancers indépendants d’une pièce de monnaie.

bouton_commander.jpg

 

 

 

Extrait du titre Statistique pour mathématiciens
De Victor M. Panaretos
Publié aux Presses Polytechniques et Universitaires Romandes (PPUR)

Les commentaires sont fermés.