Un concept clé en Data Science: la différence entre corrélation et causalité

17 février 2021

L’intelligence artificielle est un grand sujet. Tout le monde en parle, tout le monde souhaite l’utiliser : c’est à la mode.
Elle permet d’ingérer une énorme quantité de données et de découvrir des modèles qu’aucun esprit humain ne peut repérer : elle est puissante.
Elle promet de vous éblouir avec des performances sans précédent. C’est un oracle.
La combinaison de ces attributs est si désarmante que les gens ont tendance à tomber en transe dionysiaque et à demander à l’IA : voici les données, faites ce qu’il faut et donnez-moi les résultats.

Mais ce qui est à la mode devient abusif si on l’applique au hasard. Ce qui est puissant a tendance à être incontrôlable sans une supervision adéquate. Et les oracles peuvent conduire à des catastrophes, s’ils sont mal interprétés.

Dans notre précédent article, nous avons déjà souligné l’importance de notre mélange de science des données et de connaissance du marché. Aujourd’hui, nous nous concentrons sur un concept clé de la science des données, la différence entre corrélation et causalité, en procédant à des exemples de jouets utilisant les températures, la consommation d’énergie et les prix de l’électricité.

Comme vous pouvez l’imaginer, plus la consommation d’énergie augmente, plus les prix de l’électricité augmentent. Il s’agit d’une corrélation.
Ce comportement s’explique facilement par les lois du marché : plus un produit est demandé, plus son prix augmentera, du moins à court terme. C’est la causalité.

Considérons maintenant un exemple plus profond.

Vous construisez un modèle pour prédire les prix de l’électricité des ménages, et vous le faites sur la base des données de l’été. Comme les données montrent que les prix augmentent avec les températures, votre modèle prendra cette corrélation comme un fait réel.
Mais, comme vous pouvez l’imaginer, ce modèle échouera tout simplement lorsqu’il sera appliqué aux données d’hiver. En fait, la corrélation température-prix n’a un effet de causalité direct que dans des régimes limités. En particulier, en été, les prix augmentent avec les températures, car les climatiseurs ont besoin de plus d’énergie pour atténuer la chaleur, alors qu’en hiver, c’est le contraire qui se produit, car les systèmes de chauffage absorbent plus d’énergie lorsque les températures sont plus froides.

Pour cela, vous pouvez choisir d’alimenter le modèle avec des données provenant de toutes les saisons, en laissant le modèle comprendre les corrélations et appliquer celle qui convient. Non pas qu’un tel modèle n’ait compris que les corrélations, mais il ignore la causalité. Ce scénario ne nécessite aucun effort et suit la philosophie qui consiste à laisser l’IA traiter les problèmes sans rien demander. Avec audace, il envisagera deux relations différentes pour les données basées sur la saison actuelle. Dans la plupart des cas, cela fonctionnera. Mais comment le modèle se comportera-t-il face à des semaines plus chaudes en hiver, ou plus froides en été ? Allez-vous lui faire confiance ?

C’est pourquoi, dans la plupart des cas, il est préférable de construire de nouvelles variables à partir de celles qui sont disponibles, un processus appelé « ingénierie des caractéristiques ». Dans ce cas, par exemple, on pourrait construire la variable « consommation thermique des ménages », qui réagira de manière appropriée aux variations de température, c’est-à-dire une variable ayant un effet de causalité direct avec les prix.

En utilisant cette nouvelle variable, le modèle sera plus robuste et plus fiable.

Vincenzo Lavorini
Lead Data Scientist chez COR-e

COR-e Logo

1 rue Hoche

83000 Toulon, France

client@cor-e.fr