Pronostics Coupe du Monde 2018 : l'apprentissage automatique succède à Paul le Poulpe

--- Mise à jour : pronostic finale Coupe du Monde 2018 --- Rennes, juin-juillet 2018. De jeunes chercheurs en économie utilisent l'apprentissage automatique pour tenter de prédire les résultats de la Coupe du Monde de football.

Analyse des matches de Coupe du Monde par l'intelligence artificielle
  1. France (70,63%) - Croatie (29,37%)
  2. L'art subtil des pronostics dans le football
  3. De jeunes chercheurs rennais prennent la relève de Paul le Poulpe
  4. Données et méthodes
  5. Prévisions de matchs de groupes
  6. Probabilité de remporter la Coupe du Monde de football 2018
  7. Probabilités d'élimination au cours de la compétition
  8. Faut-il parier en s'appuyant sur ces prévisions ?
  9. Référence : la version complète !

France (70,63%) - Croatie (29,37%)

Chances de remporter la finale de la Coupe du Monde 2018 :

  • France (70,63%) - Croatie (29,37%)

Rappels des étapes précédentes

Vous trouverez ci-dessous les probabilités de victoire de chaque équipe calculées pour les quarts et demi-finales de la compétition.
Les prévisions qui ont reflété la réalité des matchs sont en gras, les autres en italiques.

Demi-finales :

  • France (51,26%) - Belgique (48,74%)
  • Angleterre (66,66%) - Croatie (33,34%)

Quarts de finale :

  • Belgique (21,07%) - Brésil (78,93%)
  • France (69,56%) - Uruguay (30,44%)
  • Russie (23,47%) - Croatie (76,53%)
  • Angleterre (66,14%) - Suède (33,86%)

Huitièmes de finale :

  • Belgique (79,96%) - Japon (20.04%)
  • Brésil (66,78%) - Mexique (33.22%)
  • Angleterre (51,08%) - Colombie (48,92%)
  • Croatie (53,91%) - Danemark (46,09 %)
  • France (64,14 %) - Argentine (35,86 %)
  • Espagne (78,38%) - Russie (21,62%)
  • Suisse (78,43%) - Suède (21,57%)
  • Portugal (56,79%) - Uruguay (43,21%)

Fiabilité de ces prévisions
Ces simulations sont calculées par des techniques d'apprentissage automatique.
Les données traitées sont l'ensemble des résultats des matchs de Coupe du Monde joués depuis 1993, incluant les demi-finales de l'édition 2018. L'état de forme des joueurs, par exemple, n'est pas pris en compte.

Face aux équipes qu'elle a rencontrées, les modèles ont, dans cette Coupe du Monde, donné la France favorite à chaque fois. Mais on voit qu'en d'autres occasions, la réalité n'a pas reflété les prévisions.
En effet, les jeunes chercheurs estiment la fiabilité de leurs prévisions à 60% (contre 33% si seul le hasard jouait, dans le cas d'un match autorisant le nul). Ces prévisions sont proches de celles diffusées par les bookmakers, tout en laissant une marge de progression.

    "En tout état de cause, le but de ces modèles est d'estimer la probabilité qu'une équipe gagne", souligne Arthur Charpentier, le professeur d'économie à l'Université de Rennes 1 qui a formé les jeunes chercheurs aux outils qui ont permis de calculer ces prévisions. "Pour la demi-finale France-Belgique par exemple, ce que disaient les modèles, c'est que la probabilité de gagner pour la France (51,26%) était quasiment identique à celle d'un "pile ou face". Il aurait fallu lancer la pièce un grand nombre de fois pour vérifier ce calcul... or un match n'est joué qu'une seule fois ! Et même avec 5% de chances, une équipe peut gagner : c'est le principe du sport, et du hasard qui est particulièrement à l'œuvre dans le football en raison du faible nombre de buts marqués."

    L'art subtil des pronostics dans le football

    Lors de la Coupe du Monde 1990, l’attaquant de la sélection d’Angleterre, Gary Lineker, marque les esprits en déclarant : « Le football est un sport simple : 22 hommes courent après un ballon pendant 90 minutes et à la fin, les Allemands gagnent ». Au vu de l'édition 2018 de la compétition (élimination surprise de l'Allemagne, tenante du titre, par la Corée du Sud), on peut estimer que ce n'est pas si simple à prévoir, l'issue d'un match de foot...

    De 2008 à 2010, un poulpe nommé Paul défraye à son tour la chronique : ses prévisions se révèlent exactes concernant les matchs de l’équipe allemande lors de l'Euro 2008. Il désigne aussi correctement l’Espagne comme vainqueur de la Coupe du Monde 2010. Le poulpe aux 12 pronostics exacts (sur 14) meurt fin 2010, sans avoir révélé sa méthode...

    De jeunes chercheurs rennais prennent la relève de Paul le Poulpe

    Prévoir les résultats de la Coupe du Monde, c'est pouvoir annoncer un résultat avec un taux de réussite supérieur à l'effet du hasard.
    Est-ce si simple ? Clairement, non : l'issue d'un match de foot est d'autant plus difficile à prévoir que le nombre de buts marqués est généralement faible.

    Alors, comment s'y prendre ? Pour apporter des éléments de réponse, de jeunes chercheurs rennais en économie (Université de Rennes 1 / CREM) ont décidé d’appliquer un raisonnement et des méthodes scientifiques pour simuler les résultats de la Coupe du Monde 2018. Une manière captivante de mettre en pratique les enseignements que leur a dispensés Arthur Charpentier, professeur en économie à l'Université de Rennes 1 et chercheur au CREM.

    Leur travail tente de prédire les issues probables des rencontres à venir de juin et juillet 2018 en Russie, et permet de lever un coin du voile sur le fonctionnement des sites de paris sportif en ligne.

    Ils parviennent à un taux de prévisions réussies de 60% pour les résultats de matchs individuels (contre 33% si seul le hasard jouait).

    Ils dédient naturellement cette étude à la mémoire de Paul le Poulpe.

    Données et méthodes

    Les économistes rennais utilisent les classements et les résultats des rencontres des compétitions organisées par la Fédération internationale de football (FIFA) depuis 1993. Avec ces données, huit méthodes d’apprentissage supervisé sont utilisées afin de prédire les résultats des rencontres à venir. Chacun de ces modèles donne une prévision sur la probabilité qu’une rencontre se solde par une victoire d’une équipe, de l'autre, ou que les deux fassent match nul. Un neuvième modèle est ensuite estimé à partir des résultats fournis par les huit précédents, pour produire une nouvelle prévision.  Une fois que les modèles ont été entraînés sur les données du passé, ils sont utilisés pour effectuer des prévisions sur les matchs futurs.

    Prévisions de matchs de groupes

    Dans le diagramme interactif suivant (choisissez en haut à gauche la rencontre à prévoir ou à vérifier), des prévisions sont proposées pour un match de groupe donné de la Coupe du Monde 2018. Le super-modèle y apparaît sous l'intitulé "Combination" en haut à droite. Vous pouvez choisir les autres et afficher leurs prévisions :

    Probabilité de remporter la Coupe du Monde de football 2018

    Le tableau ci-dessous indique, pour chaque équipe, le pourcentage de simulations dans lesquelles elle a remporté la Coupe du Monde 2018 :

    À noter, la 1ère position du Brésil, et la 2e position de l'Allemagne... le football est décidément un sport difficile à prévoir !

    Probabilités d'élimination au cours de la compétition

    Le diagramme suivant permet de visualiser quelles chances les simulations donnent à chaque équipe de franchir les différentes étapes de la compétition.

    Faut-il parier en s'appuyant sur ces prévisions ?

    Ces prévisions lèvent ainsi un coin du voile sur les méthodes de prédiction utilisés par les sites professionnels de paris en ligne, qu'il s'agisse de football ou d'autres sports où les compétitions se déroulent de manière analogue. Leur fiabilité dépend en grande partie du caractère exact et complet des données prises en compte par les modèles.

    Si les performances des modèles utilisés par les jeunes chercheurs rennais font bonne figure comparées à celles qu'obtiennent les professionnels, elles manquent de données indispensables telles que l'état de forme des joueurs, les recrutements ou les départs des entraîneurs, etc.

    Alors, ces jeunes chercheurs utiliseraient-ils eux-mêmes leurs prédictions pour parier de l'argent sur les résultats de la Coupe du Monde ?

    Au final, le football reste un sport dans lequel la « chance » joue beaucoup, les prévisions proposées par les modèles des chercheurs rennais ne donneront peut-être pas le bon vainqueur de la Coupe du Monde.
    Fin juin 2018, on savait déjà que l’Allemagne ne s’imposerait pas, et ne donnerait donc pas raison à Gary Lineker...
     

    Référence : la version complète !

    La version complète de cette étude est disponible gratuitement en français sur le blog d'Ewen Gallic. Elle vous donnera accès à l'ensemble des explications et à d'autres simulations :

    Coupe du Monde 2018: Paul the octopus is back
    Enora Belz, Ewen Gallic, Romain Gaté, Vincent Malardé, Jimmy Merlet, Arthur Charpentier
    CREM UMR 6211 & Université Rennes 1, Institut Louis Bachelier