Prenons un autre exemple: en Suisse, depuis la Seconde Guerre mondiale, aussi bien le nombre de cigognes que le nombre de bébés par famille ont diminué. Cela prouve-t-il que les cigognes amènent les bébés, comme on le croyait autrefois ? Bien sûr que non. Le fait que les cigognes désertent nos toits aujourd’hui est certes malheureux, mais n’explique en rien la diminution du nombre de naissances.
L’étudiant de Harvard, Tyler Vigen, a relevé toute une série de corrélations trompeuses. Bon nombre d’entre elles sont très drôles. Mais elles posent un problème bien connu des statisticiens : la corrélation n’implique pas de causalité. La relation entre deux éléments ne signifie pas forcément que l’un influence l’autre.
Il existe une jolie expression en informatique, « garbage in, garbage out », qui signifie grosso modo « à données inexactes, résultats erronés ». En termes de Big Data, cela signifie que la pertinence d’un résultat fourni par un algorithme ne dépend pas seulement des données qui l’alimentent, mais également de la manière dont il est programmé pour calculer les bons paramètres.