Back to Search
Start Over
On consistent and rate optimal estimation of the missing mass
- Source :
- Annales de l'Institut Henri Poincaré, Probabilités et Statistiques
- Publication Year :
- 2021
- Publisher :
- Institute of Mathematical Statistics, 2021.
-
Abstract
- Etant donne un echantillon de taille n dans une population d’individus appartenant a differents types dont les proportions sont inconnues, comment estimer la probabilite de decouvrir un nouveau type au (n+1)-ieme tirage ? C’est un probleme classique en statistique, souvent appele le probleme de l’estimation de la masse manquante. Des resultats recents on montre : (i) l’impossibilite d’estimer la masse manquante sans imposer des hypotheses sur les proportions des types ; (ii) la convergence de l’estimateur de la masse manquante de Good–Turing sous l’hypothese que la queue des proportions des types decroit vers 0 comme une fonction reguliere de parametre α∈(0,1) ; (iii) la vitesse de convergence n−α/2 pour l’estimateur de Good–Turing pour la classe de probabilites a variation reguliere α∈(0,1). Dans cet article, nous proposons une preuve alternative, et remarquablement plus courte, de l’impossibilite de l’estimation de la masse manquante sans hypothese sur la distribution. Au dela de son interet propre, cette preuve alternative suggere une approche naturelle pour ameliorer et etendre les resultats de vitesse de convergence de l’estimateur de Good–Turing sous l’hypothese de proportions a variation reguliere α∈(0,1). En particulier, nous montrons que la vitesse de convergence n−α/2 est la meilleure que peut atteindre un estimateur, a une fonction a variation bornee pres. De plus, nous montrons qu’une borne inferieure a l’estimation du risque minimax est au moins d’echelle n−α/2, ce qui amene a la conjecture que l’estimateur de Good–Turing est l’estimateur minimax de vitesse optimale sous une hypothese de proportions a variation reguliere.
- Subjects :
- Statistics and Probability
Regular variation
010102 general mathematics
Good–Turing estimator
Minimax rate
Missing mass
Optimal rate of convergence
Two-parameter Poisson–Dirichlet
01 natural sciences
010104 statistics & probability
Missing ma
0101 mathematics
Statistics, Probability and Uncertainty
Humanities
Mathematics
Subjects
Details
- Language :
- English
- Database :
- OpenAIRE
- Journal :
- Annales de l'Institut Henri Poincaré, Probabilités et Statistiques
- Accession number :
- edsair.doi.dedup.....ef1111b2f2a7ee139f8c5511c07d1129