Dans le cadre de maladies génétiques avec faible fréquence allélique en population générale et forte pénétrance (maladies mendéliennes par exemple), les approches familiales sont souvent intéressantes. En effet, les patients ont généralement une famille sévèrement touchée par la maladie et sont donc adressés au généticien. Dans ce contexte, l’estimation du risque de survenue des maladies dépendantes de l’âge (grâce aux courbes de survie/pénétrance) est requise pour la mise en place de protocoles médicaux et le suivi des patients.
Le problème principal pour effectuer ces estimations, à partir de données de pédigrés, réside dans le fait que les génotypes sont souvent non-observés et doivent être traités comme une variable latente. Dans le cadre spécifique où la maladie ne présente pas de cas sporadique (i.e. seuls les porteurs de variants pathogènes peuvent être affectés par la maladie), le problème est plus simple à traiter car un malade est, de fait, porteur d’un variant. L’incertitude sur les génotypes repose donc sur les personnes non-affectées. Dans ce scenario, une méthode utilisant des algorithmes d’espérance-maximisation et somme-produit a déjà été publiée.
Cependant, la plupart des maladies affectent à la fois les porteurs et non-porteurs de variants pathogènes à des taux différents. Les méthodes existantes dans ce cas supposent généralement que l’incidence de la maladie est connue dans la population générale ainsi que la proportion de porteurs de mutation. Elles approximent également l’incidence pour les non-porteurs par l’incidence pour la population générale. Cela se rapproche de la réalité dans les cas où la mutation présente une très faible fréquence allélique et une pénétrance très élevée, mais cette hypothèse s’effondre dans des scénarios plus modérés.
La méthode proposée dans ce chapitre vise à généraliser les méthodes précédentes d’estimation de survie des maladies génétiques. Elle repose sur deux hypothèses : l’incidence de la population générale est constante par morceaux et connue, le risque relatif entre les porteurs et les non-porteurs est également constant par morceaux mais inconnu.
Le modèle est un mélange de survie paramétré par le risque relatif et la proportion de porteurs. À paramètres fixés, les risques instantanés (incidences) des porteurs et des non-porteurs peuvent être calculés sous contrainte du risque instantané en population générale grâce à une méthode de point fixe. Avec les données de pédigrées, la vraisemblance du modèle peut être calculée grâce à un algorithme somme-produit et ainsi, la vraisemblance étant une fonction d’un nombre de paramètres finis, les paramètres du maximum de vraisemblance sont estimés à l’aide d’un algorithme d’optimisation BFGS.
La méthode présente des résultats intéressants dans le cadre de données simulées standard, estimant correctement les paramètres du modèle. Cependant, les données de pédigrées collectées en génétique sont souvent soumises à un important biais de sélection. Sur des données biaisées, la méthode échoue à estimer correctement les paramètres du modèle. Pour tenter de corriger ces biais, des méthodes publiées, la Genotype-Restricted Likelihood (GRL) et la Proband phenotype Exclusion Likelihood (PEL), sont intégrées à notre méthode. Ces dernières imposent cependant de reconsidérer la proportion de porteurs comme connue. Si la GRL semble ne pas fonctionner avec notre méthode, la PEL présentent des résultats prometteurs.