Back to Search Start Over

On consistent and rate optimal estimation of the missing mass

Authors :
Marco Battiston
Federico Camerlenghi
Fadhel Ayed
Stefano Favaro
Ayed, F
Battiston, M
Camerlenghi, F
Favaro, S
Source :
Annales de l'Institut Henri Poincaré, Probabilités et Statistiques
Publication Year :
2021
Publisher :
Institute of Mathematical Statistics, 2021.

Abstract

Etant donne un echantillon de taille n dans une population d’individus appartenant a differents types dont les proportions sont inconnues, comment estimer la probabilite de decouvrir un nouveau type au (n+1)-ieme tirage ? C’est un probleme classique en statistique, souvent appele le probleme de l’estimation de la masse manquante. Des resultats recents on montre : (i) l’impossibilite d’estimer la masse manquante sans imposer des hypotheses sur les proportions des types ; (ii) la convergence de l’estimateur de la masse manquante de Good–Turing sous l’hypothese que la queue des proportions des types decroit vers 0 comme une fonction reguliere de parametre α∈(0,1) ; (iii) la vitesse de convergence n−α/2 pour l’estimateur de Good–Turing pour la classe de probabilites a variation reguliere α∈(0,1). Dans cet article, nous proposons une preuve alternative, et remarquablement plus courte, de l’impossibilite de l’estimation de la masse manquante sans hypothese sur la distribution. Au dela de son interet propre, cette preuve alternative suggere une approche naturelle pour ameliorer et etendre les resultats de vitesse de convergence de l’estimateur de Good–Turing sous l’hypothese de proportions a variation reguliere α∈(0,1). En particulier, nous montrons que la vitesse de convergence n−α/2 est la meilleure que peut atteindre un estimateur, a une fonction a variation bornee pres. De plus, nous montrons qu’une borne inferieure a l’estimation du risque minimax est au moins d’echelle n−α/2, ce qui amene a la conjecture que l’estimateur de Good–Turing est l’estimateur minimax de vitesse optimale sous une hypothese de proportions a variation reguliere.

Details

Language :
English
Database :
OpenAIRE
Journal :
Annales de l'Institut Henri Poincaré, Probabilités et Statistiques
Accession number :
edsair.doi.dedup.....ef1111b2f2a7ee139f8c5511c07d1129