Exercice d'introduction
Point de vue théorique
On considère deux urnes \(U_1\) et \(U_2\) contenant :
- deux billes bleues et une bille rouge pour \(U_1\), et,
- deux billes rouges et une bille bleue pour \(U_2\).
Les billes ne diffèrent entres elles que par leur couleur. On choisit une
bille au hasard de la façon suivante :
- on lance une pièce non truquée ;
- si on obtient pile on choisit une bille dans l'urne \(U_1\) ;
- sinon on choisit une bille dans l'urne \(U_2\).
Le tirage dans l'urne est supposé uniforme. On considère le couple de
variables aléatoires \((U,C)\) où \(U\) désigne l'urne choisie et \(C\) la couleur
de la bille. Du point de vue apprentissage, l'objectif est de « prédire » \(U\)
en connaissant la couleur de la bille obtenue.
Questions
- Donner la loi (marginale) de \(U\)
- Donner la loi (marginale) de \(C\)
- Calculer \(P(U=U_1|C=rouge)\) et \(P(U=U_1|C=bleue)\)
- En déduire le meilleur classifieur possible au sens de l'erreur locale
définie par le tableau suivant
\[
l(x,y)=\left\{\begin{array}{cc|cc}
&y & U_1 & U_2\\\hline
x &U_1& 0& 1\\
&U_2&1&0\end{array}
\right.
\]
- Calculer le risque du classifieur optimal.
- D'après l'énoncé, il est clair que \(P(U=U_1)=P(U=U_2)=0,5\).
D'après l'énoncé, on a
- \(P(C=rouge|U=U_1)=\frac{1}{3}\), et,
- \(P(C=rouge|U=U_2)=\frac{2}{3}\).
En utilisant la règle des probabilités totales et la règle de Bayes, on a
\begin{align*}
P(C=rouge)=&P(C=rouge|U=U_1)P(U=U_1)\\
&+P(C=rouge|U=U_2)P(U=U_2)\\
=&\frac{1}{3}\times\frac{1}{2}+\frac{2}{3}\times\frac{1}{2}\\
=&\frac{1}{2}
\end{align*}
On applique la règle de Bayes qui donne ici
\begin{align*}
P(U=U_1|C=rouge)=&\frac{P(C=rouge|U=U_1)P(U=U_1)}{P(C=rouge)}\\
=& \frac{\frac{1}{3}\times\frac{1}{2}}{\frac{1}{2}}\\
=&\frac{1}{3}
\end{align*}
Un calcul similaire conduit à \(P(U=U_1|C=bleue)=\frac{2}{3}\).
- On sait qu'avec l'erreur de comptage, le meilleur classifieur est celui
qui choisit la classe la plus probable à posteriori. En utilisant le
calcul de la question 3, on obtient \(g(rouge)=U_2\) et \(g(bleue)=U_1\).
- On obtient facilement \(L(g)=\frac{1}{3}\).
Point de vue empirique
On observe maintenant les tirages sous forme de réalisation de copies
i.i.d. de \((U,C)\), plus précisément le tableau suivant :
U |
C |
1 |
rouge |
1 |
bleue |
2 |
bleue |
1 |
bleue |
2 |
rouge |
2 |
rouge |
1 |
bleue |
2 |
bleue |
1 |
rouge |
1 |
bleue |
1 |
bleue |
2 |
rouge |
Ce sont les données d'apprentissage.
Questions
- Estimer les lois marginales de \(U\) et \(C\) d'après le tableau.
- Estimer \(P(U=U_1|C=rouge)\) et \(P(U=U_1|C=bleue)\) d'après le tableau.
- En déduire le classifieur empirique optimal.
- Calculer l'erreur empirique du classifieur sur les données d'apprentissage
(avec l'erreur locale \(l\) définie au dessus).
- Un simple comptage donne \(P(U=U_1)=\frac{7}{12}\) et \(P(C=rouge)=\frac{5}{12}\).
- On trouve aussi par comptage \(P(U=U_1|C=rouge)=\frac{2}{5}\) et \(P(U=U_1|C=bleue)=\frac{5}{7}\).
- On choisit la classe la plus probable, ce qui donne \(g(rouge)=U_2\) et
\(g(bleue)=U_1\).
- Par un simple comptage, on trouve \(L(g)=\frac{4}{12}=\frac{1}{3}\).
Passage à la dimension deux
On étudie un problème de classement entre deux classes \(1\) et \(2\) pour des
objets caractérisés par deux variables :
- T la taille qui prend les valeurs S, M et L (small, medium et
large) ;
- P le poids, qui prend les valeurs 1, 2 ou 3.
Estimation complète
On observe des exemples d'objets de chaque classe selon le tableau suivant
(les données d'apprentissage) :
classe |
T |
P |
1 |
S |
1 |
1 |
S |
2 |
1 |
M |
1 |
1 |
L |
2 |
1 |
S |
1 |
1 |
M |
2 |
2 |
M |
3 |
2 |
L |
2 |
2 |
M |
1 |
2 |
L |
2 |
2 |
L |
3 |
2 |
L |
2 |
Questions
- Identifier les probabilités conditionnelles nécessaires au calcul du
classifieur optimal.
- Estimer ces probabilités à partir du tableau.
- Calculer le risque du classifieur empirique optimal (avec l'erreur de comptage).
- Quel problème rencontre-t-on ?
- On a besoin de \(P(classe=1|T=t,P=p)\) pour les neuf combinaisons possibles
de \(t\) et \(p\).
Les probabilités sont les suivantes :
\begin{array}{cc|ccc}
&P & 1 & 2 & 3\\\hline
T&S&1 &1 &NA\\
&M&0,5&1&1\\
&L&NA&0,25&0
\end{array}
NA désigne une probabilité qui ne peut pas être estimée car le couple
concerné n'a pas été observé dans les données.
- Par simple comptage, on trouve \(L(g)=\frac{1}{6}\).
- On ne peut pas prendre de décision pour les couples \((S,3)\) et \((L,1)\).
Estimation avec indépendance conditionnelle
On fait maintenant l'hypothèse d'indépendance conditionnelle du classifieur
bayesien naïf.
Questions
- Calculer les lois empiriques de \(T\) et \(P\) dans les deux classes.
- Calculer le risque du classifieur bayesien naïf obtenu à partir de lois
empiriques.
On obtient :
\begin{array}{l|ccc}
p&1&2&3\\\hline
P(P=p|classe=1)&0,5&0,5&0\\
P(P=p|classe=2)&\frac{1}{6}&\frac{1}{2}&\frac{1}{3}\\\hline
\end{array}
et
\begin{array}{l|ccc}
t&S&M&L\\\hline
P(T=t|classe=1)&\frac{1}{2}&\frac{1}{3}&\frac{1}{6}\\
P(T=t|classe=2)&0&\frac{1}{3}&\frac{2}{3}\\\hline
\end{array}
D'après l'hypothèse d'indépendance conditionnelle, on a
\[
P(classe=1|P=p,T=t)=\frac{P(P=p|classe=1)P(T=t|classe=1)P(classe=1)}{P(P=p,T=t)}
\]
Comme \(P(classe=1)=P(classe=2)\), on peut se contenter de comparer
\(P(P=p|classe=1)P(T=t|classe=1)\) avec \(P(P=p|classe=2)P(T=t|classe=2)\).
On obtient le tableau suivant pour la classe 1 :
\begin{array}{cc|ccc}
&P & 1 & 2 & 3\\\hline
T&S&\frac{1}{4} &\frac{1}{4} &0\\
&M&\frac{1}{6}&\frac{1}{6}&0\\
&L&\frac{1}{12}&\frac{1}{12}&0
\end{array}
et pour la classe 2 :
\begin{array}{cc|ccc}
&P & 1 & 2 & 3\\\hline
T&S&0 &0 &0\\
&M&\frac{1}{18}&\frac{1}{6}&\frac{1}{9}\\
&L&\frac{1}{9}&\frac{1}{3}&\frac{2}{9}
\end{array}
Les décisions sont donc :
\begin{array}{cc|ccc}
&P & 1 & 2 & 3\\\hline
T&S&1 &1 &tie\\
&M&1&tie&2\\
&L&2&2&2\\
\end{array}
On constate la présence de deux cas d'égalité.
Ceci conduit à 2,5 erreurs, soit un risque de \(\frac{5}{24}\).
Un exemple réaliste
Présentation des données
On considère la base de données des votes effectués par les membres de la
Chambre des représentants des EUA en 1984 sur 16 propositions
importantes. Chaque individu est un membre de la Chambre décrit par 17
variables nominales. La variable Parti prend les modalités Démocrate et
Républicain. Les autres variables, V1 à V16 représentent les votes et prennent
les valeurs OUI, NON et NSP (pour une absence de vote). Il y a 267
représentants démocrates et 168 représentants républicains.
Les données
Votes des Républicains
|
NON |
NSP |
OUI |
V1 |
134 |
3 |
31 |
V2 |
73 |
20 |
75 |
V3 |
142 |
4 |
22 |
V4 |
2 |
3 |
163 |
V5 |
8 |
3 |
157 |
V6 |
17 |
2 |
149 |
V7 |
123 |
6 |
39 |
V8 |
133 |
11 |
24 |
V9 |
146 |
3 |
19 |
V10 |
73 |
3 |
92 |
V11 |
138 |
9 |
21 |
V12 |
20 |
13 |
135 |
V13 |
22 |
10 |
136 |
V14 |
3 |
7 |
158 |
V15 |
142 |
12 |
14 |
V16 |
50 |
22 |
96 |
Votes des Démocrates
|
NON |
NSP |
OUI |
V1 |
102 |
9 |
156 |
V2 |
119 |
28 |
120 |
V3 |
29 |
7 |
231 |
V4 |
245 |
8 |
14 |
V5 |
200 |
12 |
55 |
V6 |
135 |
9 |
123 |
V7 |
59 |
8 |
200 |
V8 |
45 |
4 |
218 |
V9 |
60 |
19 |
188 |
V10 |
139 |
4 |
124 |
V11 |
126 |
12 |
129 |
V12 |
213 |
18 |
36 |
V13 |
179 |
15 |
73 |
V14 |
167 |
10 |
90 |
V15 |
91 |
16 |
160 |
V16 |
12 |
82 |
173 |
Questions
- Les tables ci-dessus représentent les votes de chaque parti aux 16
propositions. Quelles grandeurs nécessaires à la mise en œuvre d'un
classifieur bayésien naïf peuvent être évaluées grâce à cette table ?
Soit un représentant ayant voté selon le vecteur de réponse \(V\) suivant :
V1 |
V2 |
V3 |
V4 |
V5 |
V6 |
V7 |
V8 |
V9 |
V10 |
V11 |
V12 |
V13 |
V14 |
V15 |
V16 |
OUI |
NON |
NSP |
OUI |
NON |
OUI |
OUI |
OUI |
NON |
NON |
OUI |
NON |
NON |
NON |
NON |
OUI |
Donner le rapport de probabilités
\(\displaystyle\frac{P(\text{Démocrate}\mid V)}{P(\text{Républicain}\mid
V)}\) tel qu'estimé par le classifieur bayésien naïf. On rappelle qu'il y
267 représentants démocrates et 168 représentants républicains.
- Pour mettre en œuvre le classifieur bayésien, il faut estimer les
probabilités à priori des deux classes, soit \(P(\text{Démocrate})\) et
\(P(\text{Républicain})\), ce qui se fait simplement à partir des
effectifs. Il faut aussi pouvoir calculer la loi de chaque variable V1 à
V16 conditionnellement à chaque classe, ce qui se fait aussi simplement en
utilisant les tableaux. Par exemple :
\[
P(V1=OUI|Démocrate)=\frac{156}{267}
\]
- On applique l'hypothèse d'indépendance conditionnelle, ce qui conduit en
appliquant la règle de Bayes à
\[
\frac{P(\text{Démocrate}\mid V=v)}{P(\text{Républicain}\mid
V=v)}=\frac{\prod_{i=1}^{16} P(V_i=v_i|\text{Démocrate})}{\prod_{i=1}^{16}
P(V_i=v_i|\text{Démocrate})}\frac{P(\text{Démocrate})}{P(\text{Républicain})}.
\]
On remplace dans cette formule les \(v_i\) par les votes indiqués dans le
tableau (par exemple \(v_1=OUI\)). Ainsi, \(\prod_{i=1}^{16} P(V_i=v_i|\text{Démocrate})\)
s'écrit
\[
\frac{156}{267}\frac{119}{267}\cdots\frac{91}{267}\frac{173}{267}\simeq
3,15\ 10^{-7}.
\]
Comme ce nombre est très petit, on passe souvent au logarithme, ce qui
donne ici environ \(-14,96926\). De la même façon, on obtient pour \(\prod_{i=1}^{16} P(V_i=v_i|\text{Républicain})\)
\[
\frac{31}{168}\frac{73}{168}\cdots\frac{142}{168}\frac{96}{267}\simeq
9,94\ 10^{-15},
\]
dont le logarithme est environ \(-32,24233\). Le rapport des probabilités
est alors environ
\[
\frac{3,15\ 10^{-7}}{9,94\ 10^{-15}}\frac{267}{168}\simeq 50442988.
\]
De nouveau, on préfère travailler sur les logarithmes et donc faire la
différence entre les deux logarithmes, ce qui donne environ \(17,73635\). Ce
nombre étant supérieur à 0 (le rapport étant supérieur à 1), on conclut
que pour ce profil de vote, le votant est beaucoup plus probablement
démocrate que républicain.
Introduction au cas continu
Point de vue théorique
On considère deux populations, les hommes \(H\) de taille moyenne 1,74m avec
un écart type de 0,07m et les femmes \(F\) de taille moyenne 1,62m avec un
écart type de 0,065m (chiffres INSEE 2001). La population \(H\) contient \(h\)
individus et la population \(F\), \(f\) individus. On suppose que les
répartitions des tailles sont gaussiennes au sein de chaque sous-population.
On choisit aléatoirement uniformément un individu dans la population
totale et on veut déterminer en fonction de sa taille uniquement de quelle
sous-population il est issu : il s'agit donc de classer les individus en
fonction d'une variable continue.
Questions
- On note \(G\) la variable aléatoire indiquant le genre d'une personne choisie au
hasard. Donner la loi de \(G\)
- On note \(T\) la variable aléatoire donnant la taille d'une personne
choisie au hasard. Donner la densité de \(T\).
- Calculer \(P(G=f|T=t)\).
- Donner le classifieur bayésien optimal pour l'erreur de comptage.
- On suppose que \(h=f\). Préciser les décisions prisent par le
classifieur optimal.
- Comment interpréter cette stratégie de décision ?
- Le choix est uniforme dans une population de \(h+f\) individus. On a
donc \(P(G=f)=\frac{f}{f+h}\).
- On sait que \(P(T|G=h)\) (resp. \(P(T|G=f)\)) correspond à une loi
normale. De plus, selon la règle des probabilités totales, on a
\[
p(t)=p(t|G=h)P(G=h)+p(t|G=f)P(G=f)
\]
soit
\[
p(t)=\frac{1}{\sqrt{2\pi}(f+h)}\left(\frac{h}{0,07}e^{-\frac{(t-1,74)^2}{0,0098}}+\frac{f}{0,065}e^{-\frac{(t-1,62)^2}{0,00845}}\right)
\]
- D'après la règle de Bayes, on a
\[
P(G=f|T=t)=\frac{p(T=t|G=f)P(G=f)}{p(t)}
\]
Sans développer \(p(t)\), on a alors
\[
P(G=f|T=t)=\frac{\frac{f}{0,065\sqrt{2\pi}(f+h)}e^{-\frac{(t-1,62)^2}{0,00845}}}{p(t)}
\]
Dans le cas de l'erreur de comptage, le classifieur optimal est celui
qui « décide » la classe la plus probable à posteriori. On calcule donc
\[
R(t)=\frac{P(G=f|T=t)}{P(G=f|T=t)}=\frac{p(T=t|G=f)P(G=f)}{p(T=t|G=h)P(G=h)},
\]
ce qui donne après simplification
\[
R(t)=\frac{0,07fe^{-\frac{(t-1,62)^2}{0,00845}}}{0,065he^{-\frac{(t-1,74)^2}{0,0098}}}.
\]
Comme souvent, on travaille plus facilement sur le log, soit
\[
\log R(t)=\log f-\log h+\log 0,07-\log 0,065+\frac{(t-1,74)^2}{0,0098}-\frac{(t-1,62)^2}{0,00845}
\]
On reconnaît un polynôme de degré 2 en \(t\) dont on analyse le signe en
fonction de \(t\) de façon classique (à partir des racines). On écrit
d'abord \(\log R(t)\) sous la forme suivante :
\[
\log R(t)=a t^2+b t+c,
\]
avec
- \(a=\frac{1}{0,0098}-\frac{1}{0,00845}\simeq -16,3\) ;
- \(b=-\frac{2\times 1,74}{0,0098}+\frac{2\times 1,62}{0,00845}\simeq
-28,33\) ;
- et \(c=\log f-\log h+\log 0,07-\log
0,065+\frac{1,74^2}{0,0098}-\frac{1,62^2}{0,00845}\simeq \log f-\log h-1,57\)
Comme \(a\) est négatif, \(R(t)\) est négatif avant la première racine du
polynôme (si une telle racine existe), positif entre les deux racines,
puis de nouveau négatif. On décide donc \(H\) avant la première racine,
\(F\) entre les deux, puis de nouveau \(H\).
On obtient alors \(c\simeq -1,57\). Le discriminant \(\Delta=b^2-4ac\)
vaut donc \(\Delta\simeq 700,4\) et les deux racines sont donc :
- \(r_1= \frac{-b+\sqrt{\Delta}}{2a}\simeq 0,057\);
- \(r_2= \frac{-b-\sqrt{\Delta}}{2a}\simeq 1,681\).
On décide donc :
- \(H\) si \(t\leq 0,057\) ou \(t\geq 1,681\),
- et \(F\) sinon.
- La décision pour la petite racine peut sembler étrange. En fait, elle
s'explique simplement en raison de la variance plus importante des
tailles des hommes.
Point de vue empirique
On observe maintenant des exemples de la population considérée, décrits par
la table ci-dessous.
Table 1: Une population
|
Genre |
Taille |
1 |
Femme |
1.83 |
2 |
Femme |
1.72 |
3 |
Femme |
1.83 |
4 |
Femme |
1.83 |
5 |
Femme |
1.77 |
6 |
Femme |
1.63 |
7 |
Femme |
1.68 |
8 |
Femme |
1.72 |
9 |
Femme |
1.74 |
10 |
Femme |
1.91 |
11 |
Homme |
1.67 |
12 |
Homme |
1.57 |
13 |
Homme |
1.55 |
14 |
Homme |
1.60 |
15 |
Homme |
1.60 |
16 |
Homme |
1.59 |
17 |
Homme |
1.64 |
18 |
Homme |
1.56 |
19 |
Homme |
1.65 |
20 |
Homme |
1.54 |
Questions
- Quelles hypothèses permettent de se ramener au cas théorique ?
- Quelles grandeurs doit-on calculer pour définir le classifieur optimal ?
- On suppose que conditionnellement à la classe, la distribution de la
taille suit une loi normale.
Il faut calculer les moyennes et variances empiriques dans chaque
classe. Ici, on trouve :
- pour les hommes, \(\mu\simeq 1,766\) et \(\sigma\simeq 0,084\) ;
- pour les femmes, \(\mu\simeq 1,597\) et \(\sigma\simeq 0,044\).
On peut ensuite reprendre les calculs précédents pour déterminer les
seuils de décision.
Données multidimensionnelles
On étudie les Iris de Fisher/Anderson : il s'agit de 150 fleurs caractérisées
par quatre variables numériques et appartenant à trois espèces
différentes. Il y a 50 fleurs par espèce. On note \(C\) la variable de classe
(l'espèce), prenant les valeurs 1, 2 ou 3, et \(X\) la variable des
caractéristiques numériques, à valeur dans \(\mathbb{R}^4\).
Questions
- Si on fait l'hypothèse que les variables numériques suivent dans chaque
classe une loi normale, combien de paramètres doit-on estimer au total ?
- On suppose que l'hypothèse du classifieur bayésien naïf est vérifiée et
que la distribution de chaque variable est gaussienne au sein d'une
classe. Quelle est alors la loi jointe de quatre variables dans chaque
classe ? Combien de paramètres doit-on estimer dans ce cas ?
- La figure ci-contre représente les 50 éléments de l'une des classes
en utilisant deux des quatre variables. D'après cette représentation,
l'hypothèse bayésienne naïve semble-t-elle raisonnable ?
- On note \(\mu_i^j\) la moyenne de la variable \(i\) pour la classe \(j\), et
\(\sigma_i^j\) l'écart type de la variable \(i\) pour la classe \(j\). Soit un
vecteur \(x=(x_1, x_2, x_3, x_4)\). Donner \(P(C=j|X=x)\) en supposant que
l'hypothèse bayésienne naïve est vraie et avec une loi normale pour
chaque variable dans chaque classe.
- On doit donner la moyenne et la covariance de chaque classe, soit 4
paramètres pour la moyenne et 10 pour la covariance, soit un total de
\(14\times 3 = 42\) paramètres.
- L'hypothèse revient à dire que les variables ne sont indépendantes et
donc décorrélées. On a donc une distribution gausienne dans
\(\mathbb{R}^4\) de matrice de covariance diagonale. On passe ainsi à 8
paramètres par classe et donc à \(8\times 3=24\) paramètres.
- La figure fait apparaître une forte corrélation entre les deux
variables au sein de la classe. Il n'y a donc pas indépendance des
variables, contrairement à l'hypothèse.
- On rappelle qu'on a
\[
P(C=j|X=x)=\frac{\prod_{i=1}^4p(X_i=x|C=j)P(C=j)}{\sum_{k=1}^3\prod_{i=1}^4p(X_i=x|C=k)P(C=k)}.
\]
Or ici, les probabilités des classes sont identiques, ce qui donne donc
\[
P(C=j|X=x)=\frac{\prod_{i=1}^4p(X_i=x|C=j)}{\sum_{k=1}^3\prod_{i=1}^4p(X_i=x|C=k)}.
\]
Il suffit alors de remplacer les densités par
\[
p(X_i=x|C=j)=\frac{1}{\sigma_i^j\sqrt{2\pi}}e^{-\frac{(x-\mu_i^j)^2}{2(\sigma_i^j)^2}}
\]
ce qui donne après quelques simplifications mineures
\[
P(C=j|X=x)=\frac{\prod_{i=1}^4\frac{1}{\sigma_i^j}e^{-\frac{(x-\mu_i^j)^2}{2(\sigma_i^j)^2}}}{\sum_{k=1}^3\prod_{i=1}^4\frac{1}{\sigma_i^k}e^{-\frac{(x-\mu_i^k)^2}{2(\sigma_i^k)^2}}}
\]
Maximum de vraisemblance
On considère un problème de classification mixte où chaque observation est
décrite par une variable discrète \(D\) à valeurs dans \(\{0,1\}\) et une variable
continue \(C\) à valeurs dans \(\mathbb{R}\). La classe de chaque observation
est donnée par la variable \(Y\) à valeurs dans \(\{0,1\}\).
Questions
- Écrire la vraisemblance d'une observation \((d,c,y)\) en notant
\(p(C|D,Y,\theta)\) la densité conditionnelle de \(C\) sachant \(D\) et \(Y\),
où \(\theta\) désigne un vecteur de paramètres pour la densité
conditionnelle.
- Donner la forme simplifiée de la vraisemblance quand on fait
l'hypothèse du classifieur bayésien naïf (que l'on maintiendra à partir
de cette question).
- On se donne \(N\) observations, \((d_i,c_i,y_i)_{1\leq i\leq N}\) supposées
i.i.d. Déterminer l'estimation de \(P(D=1|Y=y)\) (pour \(y\in \{0,1\}\))
par maximum de vraisemblance des \(N\) observations.
- On suppose maintenant que la distribution de \(C\) sachant \(Y\) est
gaussienne. Déterminer l'estimation des paramètres des gaussiennes par
maximisation de la vraisemblance des \(N\) observations.
Approche bayésienne
Pile ou Face bayésien
On suppose que \(X\) est une variable de Bernoulli de paramètre \(\theta\) (soit
\(P(X=1)=\theta\)). On se donne \(N\) répliques i.i.d. de \(X\), \(X_1,\ldots,X_N\).
Questions fréquentistes
- Donner la vraisemblance des \(N\) répliques et en déduire l'estimation
de \(\theta\) par maximum de vraisemblance.
- Quelle valeur prend l'estimateur ci-dessus quand on obtient 2 fois 1
pour \(N=2\) ?
Questions bayésiennes
Dans l'approche Bayésienne, on considère un modèle plus complexe où on
choisit \(\theta\) aléatoirement, puis où on observe \(N\) variables de Bernoulli
du paramètre \(\theta\). On a donc \(P(X_i=1|\Theta=\theta)=\theta\). Pour simplifier les
calculs, on choisit ici pour \(\Theta\) une loi Beta, c'est-à-dire
\[
p(\Theta=\theta|a,b)=\frac{\theta^{a-1}(1-\theta)^{b-1}}{Beta(a,b)}.
\]
On rappelle que la loi \(Beta(a,b)\) est d'espérance \(\frac{a}{a+b}\), et de
mode \(\frac{a-1}{a+b-2}\).
- On note \(\mathcal{D}=(X_1,\ldots,X_N)\) avec
\[
P(\mathcal{D}=(x_1,\ldots,x_N)|\Theta=\theta)=\prod_{i=1}^N
P(X_i=x_i|\Theta=\theta)
\]
Calculer \(p(\Theta=\theta|\mathcal{D}=(x_1,\ldots,x_N))\).
- Déduire de l'expression précédente l'estimation de \(\theta\) par
maximum à postériori, c'est-à-dire le mode de
\(p(\Theta=\theta|\mathcal{D}=(x_1,\ldots,x_N))\).
- On tire une nouvelle valeur \(X_{N+1}\) selon la même loi (et donc selon
le même \(\theta\)). Donner
\(P(X_{N+1}=1|\mathcal{D}=(x_1,\ldots,x_N))\).
Modèle bayésien naïf bayésien
On considère un problème de classification binaire (variable \(Y\) à valeurs
dans \(\{0,1\}\)) où chaque observation est décrite par \(p\) variables
binaires, \(X=(X_1,\ldots,X_p)\), supposées conditionnellement indépendantes
sachant la classe. On a donc \(2p\) paramètres \(\theta_1^1,\theta_p^1\) et
\(\theta_1^0,\theta_p^0\), avec \(P(X_i=1|Y=y)=\theta_i^y\).
On choisit la distribution à priori \(Beta(a,b)\) pour tous les
\(\theta_i^y\). On suppose \(P(Y=1)=\frac{1}{2}\) et on se donne un ensemble
d'apprentissage \(\mathcal{D}=((X_1,Y_1),\ldots,(X_N,Y_N))\)
- Donner l'estimateur du maximum à posteriori pour les \(2p\) paramètres.
- Donner \(P(Y=1|X,\mathcal{D})\).