Le classifieur bayésien naïf

Exercice d'introduction

Point de vue théorique

On considère deux urnes \(U_1\) et \(U_2\) contenant :

deux billes bleues et une bille rouge pour \(U_1\), et,
deux billes rouges et une bille bleue pour \(U_2\).

Les billes ne diffèrent entres elles que par leur couleur. On choisit une bille au hasard de la façon suivante :

on lance une pièce non truquée ;
si on obtient pile on choisit une bille dans l'urne \(U_1\) ;
sinon on choisit une bille dans l'urne \(U_2\).

Le tirage dans l'urne est supposé uniforme. On considère le couple de variables aléatoires \((U,C)\) où \(U\) désigne l'urne choisie et \(C\) la couleur de la bille. Du point de vue apprentissage, l'objectif est de « prédire » \(U\) en connaissant la couleur de la bille obtenue.

Questions

Donner la loi (marginale) de \(U\)
Donner la loi (marginale) de \(C\)
Calculer \(P(U=U_1|C=rouge)\) et \(P(U=U_1|C=bleue)\)
En déduire le meilleur classifieur possible au sens de l'erreur locale définie par le tableau suivant \[ l(x,y)=\left\{\begin{array}{cc|cc} &y & U_1 & U_2\\\hline x &U_1& 0& 1\\ &U_2&1&0\end{array} \right. \]
Calculer le risque du classifieur optimal.

Réponses

D'après l'énoncé, il est clair que \(P(U=U_1)=P(U=U_2)=0,5\).
D'après l'énoncé, on a
- \(P(C=rouge|U=U_1)=\frac{1}{3}\), et,
- \(P(C=rouge|U=U_2)=\frac{2}{3}\).
En utilisant la règle des probabilités totales et la règle de Bayes, on a
\begin{align*} P(C=rouge)=&P(C=rouge|U=U_1)P(U=U_1)\\ &+P(C=rouge|U=U_2)P(U=U_2)\\ =&\frac{1}{3}\times\frac{1}{2}+\frac{2}{3}\times\frac{1}{2}\\ =&\frac{1}{2} \end{align*}
On applique la règle de Bayes qui donne ici
\begin{align*} P(U=U_1|C=rouge)=&\frac{P(C=rouge|U=U_1)P(U=U_1)}{P(C=rouge)}\\ =& \frac{\frac{1}{3}\times\frac{1}{2}}{\frac{1}{2}}\\ =&\frac{1}{3} \end{align*}
Un calcul similaire conduit à \(P(U=U_1|C=bleue)=\frac{2}{3}\).
On sait qu'avec l'erreur de comptage, le meilleur classifieur est celui qui choisit la classe la plus probable à posteriori. En utilisant le calcul de la question 3, on obtient \(g(rouge)=U_2\) et \(g(bleue)=U_1\).
On obtient facilement \(L(g)=\frac{1}{3}\).

Point de vue empirique

On observe maintenant les tirages sous forme de réalisation de copies i.i.d. de \((U,C)\), plus précisément le tableau suivant :

U	C
1	rouge
1	bleue
2	bleue
1	bleue
2	rouge
2	rouge
1	bleue
2	bleue
1	rouge
1	bleue
1	bleue
2	rouge

Ce sont les données d'apprentissage.

Questions

Estimer les lois marginales de \(U\) et \(C\) d'après le tableau.
Estimer \(P(U=U_1|C=rouge)\) et \(P(U=U_1|C=bleue)\) d'après le tableau.
En déduire le classifieur empirique optimal.
Calculer l'erreur empirique du classifieur sur les données d'apprentissage (avec l'erreur locale \(l\) définie au dessus).

Réponses

Un simple comptage donne \(P(U=U_1)=\frac{7}{12}\) et \(P(C=rouge)=\frac{5}{12}\).
On trouve aussi par comptage \(P(U=U_1|C=rouge)=\frac{2}{5}\) et \(P(U=U_1|C=bleue)=\frac{5}{7}\).
On choisit la classe la plus probable, ce qui donne \(g(rouge)=U_2\) et \(g(bleue)=U_1\).
Par un simple comptage, on trouve \(L(g)=\frac{4}{12}=\frac{1}{3}\).

Passage à la dimension deux

On étudie un problème de classement entre deux classes \(1\) et \(2\) pour des objets caractérisés par deux variables :

T la taille qui prend les valeurs S, M et L (small, medium et large) ;
P le poids, qui prend les valeurs 1, 2 ou 3.

Estimation complète

On observe des exemples d'objets de chaque classe selon le tableau suivant (les données d'apprentissage) :

classe	T	P
1	S	1
1	S	2
1	M	1
1	L	2
1	S	1
1	M	2
2	M	3
2	L	2
2	M	1
2	L	2
2	L	3
2	L	2

Questions

Identifier les probabilités conditionnelles nécessaires au calcul du classifieur optimal.
Estimer ces probabilités à partir du tableau.
Calculer le risque du classifieur empirique optimal (avec l'erreur de comptage).
Quel problème rencontre-t-on ?

Réponses

On a besoin de \(P(classe=1|T=t,P=p)\) pour les neuf combinaisons possibles de \(t\) et \(p\).
Les probabilités sont les suivantes :
\begin{array}{cc|ccc} &P & 1 & 2 & 3\\\hline T&S&1 &1 &NA\\ &M&0,5&1&1\\ &L&NA&0,25&0 \end{array}
NA désigne une probabilité qui ne peut pas être estimée car le couple concerné n'a pas été observé dans les données.
Par simple comptage, on trouve \(L(g)=\frac{1}{6}\).
On ne peut pas prendre de décision pour les couples \((S,3)\) et \((L,1)\).

Estimation avec indépendance conditionnelle

On fait maintenant l'hypothèse d'indépendance conditionnelle du classifieur bayesien naïf.

Questions

Calculer les lois empiriques de \(T\) et \(P\) dans les deux classes.
Calculer le risque du classifieur bayesien naïf obtenu à partir de lois empiriques.

Réponses

On obtient :
\begin{array}{l|ccc} p&1&2&3\\\hline P(P=p|classe=1)&0,5&0,5&0\\ P(P=p|classe=2)&\frac{1}{6}&\frac{1}{2}&\frac{1}{3}\\\hline \end{array}
et
\begin{array}{l|ccc} t&S&M&L\\\hline P(T=t|classe=1)&\frac{1}{2}&\frac{1}{3}&\frac{1}{6}\\ P(T=t|classe=2)&0&\frac{1}{3}&\frac{2}{3}\\\hline \end{array}
D'après l'hypothèse d'indépendance conditionnelle, on a \[ P(classe=1|P=p,T=t)=\frac{P(P=p|classe=1)P(T=t|classe=1)P(classe=1)}{P(P=p,T=t)} \] Comme \(P(classe=1)=P(classe=2)\), on peut se contenter de comparer \(P(P=p|classe=1)P(T=t|classe=1)\) avec \(P(P=p|classe=2)P(T=t|classe=2)\).

On obtient le tableau suivant pour la classe 1 :
\begin{array}{cc|ccc} &P & 1 & 2 & 3\\\hline T&S&\frac{1}{4} &\frac{1}{4} &0\\ &M&\frac{1}{6}&\frac{1}{6}&0\\ &L&\frac{1}{12}&\frac{1}{12}&0 \end{array}
et pour la classe 2 :
\begin{array}{cc|ccc} &P & 1 & 2 & 3\\\hline T&S&0 &0 &0\\ &M&\frac{1}{18}&\frac{1}{6}&\frac{1}{9}\\ &L&\frac{1}{9}&\frac{1}{3}&\frac{2}{9} \end{array}
Les décisions sont donc :
\begin{array}{cc|ccc} &P & 1 & 2 & 3\\\hline T&S&1 &1 &tie\\ &M&1&tie&2\\ &L&2&2&2\\ \end{array}
On constate la présence de deux cas d'égalité.

Ceci conduit à 2,5 erreurs, soit un risque de \(\frac{5}{24}\).

Un exemple réaliste

Présentation des données

On considère la base de données des votes effectués par les membres de la Chambre des représentants des EUA en 1984 sur 16 propositions importantes. Chaque individu est un membre de la Chambre décrit par 17 variables nominales. La variable Parti prend les modalités Démocrate et Républicain. Les autres variables, V1 à V16 représentent les votes et prennent les valeurs OUI, NON et NSP (pour une absence de vote). Il y a 267 représentants démocrates et 168 représentants républicains.

Les données

Votes des Républicains

	NON	NSP	OUI
V1	134	3	31
V2	73	20	75
V3	142	4	22
V4	2	3	163
V5	8	3	157
V6	17	2	149
V7	123	6	39
V8	133	11	24
V9	146	3	19
V10	73	3	92
V11	138	9	21
V12	20	13	135
V13	22	10	136
V14	3	7	158
V15	142	12	14
V16	50	22	96

Votes des Démocrates

	NON	NSP	OUI
V1	102	9	156
V2	119	28	120
V3	29	7	231
V4	245	8	14
V5	200	12	55
V6	135	9	123
V7	59	8	200
V8	45	4	218
V9	60	19	188
V10	139	4	124
V11	126	12	129
V12	213	18	36
V13	179	15	73
V14	167	10	90
V15	91	16	160
V16	12	82	173

Questions

Les tables ci-dessus représentent les votes de chaque parti aux 16 propositions. Quelles grandeurs nécessaires à la mise en œuvre d'un classifieur bayésien naïf peuvent être évaluées grâce à cette table ?
Soit un représentant ayant voté selon le vecteur de réponse \(V\) suivant :

V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V11 V12 V13 V14 V15 V16

OUI NON NSP OUI NON OUI OUI OUI NON NON OUI NON NON NON NON OUI

Donner le rapport de probabilités \(\displaystyle\frac{P(\text{Démocrate}\mid V)}{P(\text{Républicain}\mid V)}\) tel qu'estimé par le classifieur bayésien naïf. On rappelle qu'il y 267 représentants démocrates et 168 représentants républicains.

V1	V2	V3	V4	V5	V6	V7	V8	V9	V10	V11	V12	V13	V14	V15	V16
OUI	NON	NSP	OUI	NON	OUI	OUI	OUI	NON	NON	OUI	NON	NON	NON	NON	OUI

Réponses

Pour mettre en œuvre le classifieur bayésien, il faut estimer les probabilités à priori des deux classes, soit \(P(\text{Démocrate})\) et \(P(\text{Républicain})\), ce qui se fait simplement à partir des effectifs. Il faut aussi pouvoir calculer la loi de chaque variable V1 à V16 conditionnellement à chaque classe, ce qui se fait aussi simplement en utilisant les tableaux. Par exemple : \[ P(V1=OUI|Démocrate)=\frac{156}{267} \]
On applique l'hypothèse d'indépendance conditionnelle, ce qui conduit en appliquant la règle de Bayes à \[ \frac{P(\text{Démocrate}\mid V=v)}{P(\text{Républicain}\mid V=v)}=\frac{\prod_{i=1}^{16} P(V_i=v_i|\text{Démocrate})}{\prod_{i=1}^{16} P(V_i=v_i|\text{Démocrate})}\frac{P(\text{Démocrate})}{P(\text{Républicain})}. \] On remplace dans cette formule les \(v_i\) par les votes indiqués dans le tableau (par exemple \(v_1=OUI\)). Ainsi, \(\prod_{i=1}^{16} P(V_i=v_i|\text{Démocrate})\) s'écrit \[ \frac{156}{267}\frac{119}{267}\cdots\frac{91}{267}\frac{173}{267}\simeq 3,15\ 10^{-7}. \] Comme ce nombre est très petit, on passe souvent au logarithme, ce qui donne ici environ \(-14,96926\). De la même façon, on obtient pour \(\prod_{i=1}^{16} P(V_i=v_i|\text{Républicain})\) \[ \frac{31}{168}\frac{73}{168}\cdots\frac{142}{168}\frac{96}{267}\simeq 9,94\ 10^{-15}, \] dont le logarithme est environ \(-32,24233\). Le rapport des probabilités est alors environ \[ \frac{3,15\ 10^{-7}}{9,94\ 10^{-15}}\frac{267}{168}\simeq 50442988. \] De nouveau, on préfère travailler sur les logarithmes et donc faire la différence entre les deux logarithmes, ce qui donne environ \(17,73635\). Ce nombre étant supérieur à 0 (le rapport étant supérieur à 1), on conclut que pour ce profil de vote, le votant est beaucoup plus probablement démocrate que républicain.

Introduction au cas continu

Point de vue théorique

On considère deux populations, les hommes \(H\) de taille moyenne 1,74m avec un écart type de 0,07m et les femmes \(F\) de taille moyenne 1,62m avec un écart type de 0,065m (chiffres INSEE 2001). La population \(H\) contient \(h\) individus et la population \(F\), \(f\) individus. On suppose que les répartitions des tailles sont gaussiennes au sein de chaque sous-population.

On choisit aléatoirement uniformément un individu dans la population totale et on veut déterminer en fonction de sa taille uniquement de quelle sous-population il est issu : il s'agit donc de classer les individus en fonction d'une variable continue.

Questions

On note \(G\) la variable aléatoire indiquant le genre d'une personne choisie au hasard. Donner la loi de \(G\)
On note \(T\) la variable aléatoire donnant la taille d'une personne choisie au hasard. Donner la densité de \(T\).
Calculer \(P(G=f|T=t)\).
Donner le classifieur bayésien optimal pour l'erreur de comptage.
On suppose que \(h=f\). Préciser les décisions prisent par le classifieur optimal.
Comment interpréter cette stratégie de décision ?

Réponses

Le choix est uniforme dans une population de \(h+f\) individus. On a donc \(P(G=f)=\frac{f}{f+h}\).
On sait que \(P(T|G=h)\) (resp. \(P(T|G=f)\)) correspond à une loi normale. De plus, selon la règle des probabilités totales, on a \[ p(t)=p(t|G=h)P(G=h)+p(t|G=f)P(G=f) \] soit \[ p(t)=\frac{1}{\sqrt{2\pi}(f+h)}\left(\frac{h}{0,07}e^{-\frac{(t-1,74)^2}{0,0098}}+\frac{f}{0,065}e^{-\frac{(t-1,62)^2}{0,00845}}\right) \]
D'après la règle de Bayes, on a \[ P(G=f|T=t)=\frac{p(T=t|G=f)P(G=f)}{p(t)} \] Sans développer \(p(t)\), on a alors \[ P(G=f|T=t)=\frac{\frac{f}{0,065\sqrt{2\pi}(f+h)}e^{-\frac{(t-1,62)^2}{0,00845}}}{p(t)} \]
Dans le cas de l'erreur de comptage, le classifieur optimal est celui qui « décide » la classe la plus probable à posteriori. On calcule donc \[ R(t)=\frac{P(G=f|T=t)}{P(G=f|T=t)}=\frac{p(T=t|G=f)P(G=f)}{p(T=t|G=h)P(G=h)}, \] ce qui donne après simplification \[ R(t)=\frac{0,07fe^{-\frac{(t-1,62)^2}{0,00845}}}{0,065he^{-\frac{(t-1,74)^2}{0,0098}}}. \] Comme souvent, on travaille plus facilement sur le log, soit \[ \log R(t)=\log f-\log h+\log 0,07-\log 0,065+\frac{(t-1,74)^2}{0,0098}-\frac{(t-1,62)^2}{0,00845} \] On reconnaît un polynôme de degré 2 en \(t\) dont on analyse le signe en fonction de \(t\) de façon classique (à partir des racines). On écrit d'abord \(\log R(t)\) sous la forme suivante : \[ \log R(t)=a t^2+b t+c, \] avec
- \(a=\frac{1}{0,0098}-\frac{1}{0,00845}\simeq -16,3\) ;
- \(b=-\frac{2\times 1,74}{0,0098}+\frac{2\times 1,62}{0,00845}\simeq -28,33\) ;
- et \(c=\log f-\log h+\log 0,07-\log 0,065+\frac{1,74^2}{0,0098}-\frac{1,62^2}{0,00845}\simeq \log f-\log h-1,57\)
Comme \(a\) est négatif, \(R(t)\) est négatif avant la première racine du polynôme (si une telle racine existe), positif entre les deux racines, puis de nouveau négatif. On décide donc \(H\) avant la première racine, \(F\) entre les deux, puis de nouveau \(H\).
On obtient alors \(c\simeq -1,57\). Le discriminant \(\Delta=b^2-4ac\) vaut donc \(\Delta\simeq 700,4\) et les deux racines sont donc :
- \(r_1= \frac{-b+\sqrt{\Delta}}{2a}\simeq 0,057\);
- \(r_2= \frac{-b-\sqrt{\Delta}}{2a}\simeq 1,681\).
On décide donc :
- \(H\) si \(t\leq 0,057\) ou \(t\geq 1,681\),
- et \(F\) sinon.
La décision pour la petite racine peut sembler étrange. En fait, elle s'explique simplement en raison de la variance plus importante des tailles des hommes.

Point de vue empirique

On observe maintenant des exemples de la population considérée, décrits par la table ci-dessous.

Table 1: Une population
	Genre	Taille
1	Femme	1.83
2	Femme	1.72
3	Femme	1.83
4	Femme	1.83
5	Femme	1.77
6	Femme	1.63
7	Femme	1.68
8	Femme	1.72
9	Femme	1.74
10	Femme	1.91
11	Homme	1.67
12	Homme	1.57
13	Homme	1.55
14	Homme	1.60
15	Homme	1.60
16	Homme	1.59
17	Homme	1.64
18	Homme	1.56
19	Homme	1.65
20	Homme	1.54

Questions

Quelles hypothèses permettent de se ramener au cas théorique ?
Quelles grandeurs doit-on calculer pour définir le classifieur optimal ?

Réponses

On suppose que conditionnellement à la classe, la distribution de la taille suit une loi normale.
Il faut calculer les moyennes et variances empiriques dans chaque classe. Ici, on trouve :
- pour les hommes, \(\mu\simeq 1,766\) et \(\sigma\simeq 0,084\) ;
- pour les femmes, \(\mu\simeq 1,597\) et \(\sigma\simeq 0,044\).
On peut ensuite reprendre les calculs précédents pour déterminer les seuils de décision.

Données multidimensionnelles

On étudie les Iris de Fisher/Anderson : il s'agit de 150 fleurs caractérisées par quatre variables numériques et appartenant à trois espèces différentes. Il y a 50 fleurs par espèce. On note \(C\) la variable de classe (l'espèce), prenant les valeurs 1, 2 ou 3, et \(X\) la variable des caractéristiques numériques, à valeur dans \(\mathbb{R}^4\).

Questions

Si on fait l'hypothèse que les variables numériques suivent dans chaque classe une loi normale, combien de paramètres doit-on estimer au total ?
On suppose que l'hypothèse du classifieur bayésien naïf est vérifiée et que la distribution de chaque variable est gaussienne au sein d'une classe. Quelle est alors la loi jointe de quatre variables dans chaque classe ? Combien de paramètres doit-on estimer dans ce cas ?
La figure ci-contre représente les 50 éléments de l'une des classes en utilisant deux des quatre variables. D'après cette représentation, l'hypothèse bayésienne naïve semble-t-elle raisonnable ?
On note \(\mu_i^j\) la moyenne de la variable \(i\) pour la classe \(j\), et \(\sigma_i^j\) l'écart type de la variable \(i\) pour la classe \(j\). Soit un vecteur \(x=(x_1, x_2, x_3, x_4)\). Donner \(P(C=j|X=x)\) en supposant que l'hypothèse bayésienne naïve est vraie et avec une loi normale pour chaque variable dans chaque classe.

Les éléments de l'une des classes pour deux des variables

Réponses

On doit donner la moyenne et la covariance de chaque classe, soit 4 paramètres pour la moyenne et 10 pour la covariance, soit un total de \(14\times 3 = 42\) paramètres.
L'hypothèse revient à dire que les variables ne sont indépendantes et donc décorrélées. On a donc une distribution gausienne dans \(\mathbb{R}^4\) de matrice de covariance diagonale. On passe ainsi à 8 paramètres par classe et donc à \(8\times 3=24\) paramètres.
La figure fait apparaître une forte corrélation entre les deux variables au sein de la classe. Il n'y a donc pas indépendance des variables, contrairement à l'hypothèse.
On rappelle qu'on a \[ P(C=j|X=x)=\frac{\prod_{i=1}^4p(X_i=x|C=j)P(C=j)}{\sum_{k=1}^3\prod_{i=1}^4p(X_i=x|C=k)P(C=k)}. \] Or ici, les probabilités des classes sont identiques, ce qui donne donc \[ P(C=j|X=x)=\frac{\prod_{i=1}^4p(X_i=x|C=j)}{\sum_{k=1}^3\prod_{i=1}^4p(X_i=x|C=k)}. \] Il suffit alors de remplacer les densités par \[ p(X_i=x|C=j)=\frac{1}{\sigma_i^j\sqrt{2\pi}}e^{-\frac{(x-\mu_i^j)^2}{2(\sigma_i^j)^2}} \] ce qui donne après quelques simplifications mineures \[ P(C=j|X=x)=\frac{\prod_{i=1}^4\frac{1}{\sigma_i^j}e^{-\frac{(x-\mu_i^j)^2}{2(\sigma_i^j)^2}}}{\sum_{k=1}^3\prod_{i=1}^4\frac{1}{\sigma_i^k}e^{-\frac{(x-\mu_i^k)^2}{2(\sigma_i^k)^2}}} \]

Maximum de vraisemblance

On considère un problème de classification mixte où chaque observation est décrite par une variable discrète \(D\) à valeurs dans \(\{0,1\}\) et une variable continue \(C\) à valeurs dans \(\mathbb{R}\). La classe de chaque observation est donnée par la variable \(Y\) à valeurs dans \(\{0,1\}\).

Questions

Écrire la vraisemblance d'une observation \((d,c,y)\) en notant \(p(C|D,Y,\theta)\) la densité conditionnelle de \(C\) sachant \(D\) et \(Y\), où \(\theta\) désigne un vecteur de paramètres pour la densité conditionnelle.
Donner la forme simplifiée de la vraisemblance quand on fait l'hypothèse du classifieur bayésien naïf (que l'on maintiendra à partir de cette question).
On se donne \(N\) observations, \((d_i,c_i,y_i)_{1\leq i\leq N}\) supposées i.i.d. Déterminer l'estimation de \(P(D=1|Y=y)\) (pour \(y\in \{0,1\}\)) par maximum de vraisemblance des \(N\) observations.
On suppose maintenant que la distribution de \(C\) sachant \(Y\) est gaussienne. Déterminer l'estimation des paramètres des gaussiennes par maximisation de la vraisemblance des \(N\) observations.

Approche bayésienne

Pile ou Face bayésien

On suppose que \(X\) est une variable de Bernoulli de paramètre \(\theta\) (soit \(P(X=1)=\theta\)). On se donne \(N\) répliques i.i.d. de \(X\), \(X_1,\ldots,X_N\).

Questions fréquentistes

Donner la vraisemblance des \(N\) répliques et en déduire l'estimation de \(\theta\) par maximum de vraisemblance.
Quelle valeur prend l'estimateur ci-dessus quand on obtient 2 fois 1 pour \(N=2\) ?

Questions bayésiennes

Dans l'approche Bayésienne, on considère un modèle plus complexe où on choisit \(\theta\) aléatoirement, puis où on observe \(N\) variables de Bernoulli du paramètre \(\theta\). On a donc \(P(X_i=1|\Theta=\theta)=\theta\). Pour simplifier les calculs, on choisit ici pour \(\Theta\) une loi Beta, c'est-à-dire \[ p(\Theta=\theta|a,b)=\frac{\theta^{a-1}(1-\theta)^{b-1}}{Beta(a,b)}. \] On rappelle que la loi \(Beta(a,b)\) est d'espérance \(\frac{a}{a+b}\), et de mode \(\frac{a-1}{a+b-2}\).

On note \(\mathcal{D}=(X_1,\ldots,X_N)\) avec \[ P(\mathcal{D}=(x_1,\ldots,x_N)|\Theta=\theta)=\prod_{i=1}^N P(X_i=x_i|\Theta=\theta) \] Calculer \(p(\Theta=\theta|\mathcal{D}=(x_1,\ldots,x_N))\).
Déduire de l'expression précédente l'estimation de \(\theta\) par maximum à postériori, c'est-à-dire le mode de \(p(\Theta=\theta|\mathcal{D}=(x_1,\ldots,x_N))\).
On tire une nouvelle valeur \(X_{N+1}\) selon la même loi (et donc selon le même \(\theta\)). Donner \(P(X_{N+1}=1|\mathcal{D}=(x_1,\ldots,x_N))\).

Modèle bayésien naïf bayésien

On considère un problème de classification binaire (variable \(Y\) à valeurs dans \(\{0,1\}\)) où chaque observation est décrite par \(p\) variables binaires, \(X=(X_1,\ldots,X_p)\), supposées conditionnellement indépendantes sachant la classe. On a donc \(2p\) paramètres \(\theta_1^1,\theta_p^1\) et \(\theta_1^0,\theta_p^0\), avec \(P(X_i=1|Y=y)=\theta_i^y\).

On choisit la distribution à priori \(Beta(a,b)\) pour tous les \(\theta_i^y\). On suppose \(P(Y=1)=\frac{1}{2}\) et on se donne un ensemble d'apprentissage \(\mathcal{D}=((X_1,Y_1),\ldots,(X_N,Y_N))\)

Donner l'estimateur du maximum à posteriori pour les \(2p\) paramètres.
Donner \(P(Y=1|X,\mathcal{D})\).

	NON	NSP	OUI
V1	134	3	31
V2	73	20	75
V3	142	4	22
V4	2	3	163
V5	8	3	157
V6	17	2	149
V7	123	6	39
V8	133	11	24
V9	146	3	19
V10	73	3	92
V11	138	9	21
V12	20	13	135
V13	22	10	136
V14	3	7	158
V15	142	12	14
V16	50	22	96

	NON	NSP	OUI
V1	102	9	156
V2	119	28	120
V3	29	7	231
V4	245	8	14
V5	200	12	55
V6	135	9	123
V7	59	8	200
V8	45	4	218
V9	60	19	188
V10	139	4	124
V11	126	12	129
V12	213	18	36
V13	179	15	73
V14	167	10	90
V15	91	16	160
V16	12	82	173

	NON	NSP	OUI
V1	134	3	31
V2	73	20	75
V3	142	4	22
V4	2	3	163
V5	8	3	157
V6	17	2	149
V7	123	6	39
V8	133	11	24
V9	146	3	19
V10	73	3	92
V11	138	9	21
V12	20	13	135
V13	22	10	136
V14	3	7	158
V15	142	12	14
V16	50	22	96

	NON	NSP	OUI
V1	102	9	156
V2	119	28	120
V3	29	7	231
V4	245	8	14
V5	200	12	55
V6	135	9	123
V7	59	8	200
V8	45	4	218
V9	60	19	188
V10	139	4	124
V11	126	12	129
V12	213	18	36
V13	179	15	73
V14	167	10	90
V15	91	16	160
V16	12	82	173

	NON	NSP	OUI
V1	134	3	31
V2	73	20	75
V3	142	4	22
V4	2	3	163
V5	8	3	157
V6	17	2	149
V7	123	6	39
V8	133	11	24
V9	146	3	19
V10	73	3	92
V11	138	9	21
V12	20	13	135
V13	22	10	136
V14	3	7	158
V15	142	12	14
V16	50	22	96

	NON	NSP	OUI
V1	102	9	156
V2	119	28	120
V3	29	7	231
V4	245	8	14
V5	200	12	55
V6	135	9	123
V7	59	8	200
V8	45	4	218
V9	60	19	188
V10	139	4	124
V11	126	12	129
V12	213	18	36
V13	179	15	73
V14	167	10	90
V15	91	16	160
V16	12	82	173