Intervention de Nicolas Curien, membre du collège de l'ARCEP, à l'école nationale d'assurance sur "L'impact cognitif du tsunami numérique", dans un séminaire intitulé "Des faits aux données : le paradigme prédictif", le 22 juin 2011

Ce séminaire nous invite à réfléchir aux modalités de production et d'exploitation des données à l'ère numérique. À cet égard, il nous semble important de distinguer deux champs d'investigation : d'une part, examiner en quoi les nouveaux gisements de données en ligne et les nouveaux logiciels de traitement informatique permettent de démultiplier les capacités de l'analyse statistique ; d'autre part, mesurer l'impact de la révolution numérique sur la cognition, c'est-à-dire sur la manière dont l'homo digitalis émet, reçoit et valorise des informations dans l'écosystème d'Internet. C'est principalement à ce second aspect qu'est consacrée la présente contribution.

1. Le devenir de la statistique

Depuis l'étude sur le suicide d'Emile Durkheim, père de la sociologie moderne, la statistique a révolutionné les sciences humaines en révélant des " faits sociaux ", dont le sens n'apparaît qu'après agrégation de faits élémentaires individuellement non interprétables : d'un désordre microscopique, la statistique fait émerger un ordre macroscopique, mettant en évidence des invariants, des régularités, des tendances.

Le data mining et les techniques de KDD (Knowledge Discovery from Databases) prolongent la méthodologie statistique, en permettant une meilleure " extraction " de connaissances à partir de données disparates et éparses. Le principe reste toutefois le même que celui de la statistique traditionnelle : dégager un savoir prenant son sens à un niveau global, à partir de " particules élémentaires " d'information brute. Ainsi, les plus récents des outils d'exploration de données enrichissent-ils les tâches de la statistique et en augmentent-ils la performance, sans pour autant la dénaturer.

De ce point de vue, Google ne tue pas l'INSEE, mais les instituts de statistique doivent perfectionner et renouveler leurs instruments d'enquête et d'analyse, éventuellement nouer des partenariats avec des acteurs de l'Internet, apporteurs de vastes gisements de données inexploités. Au temps de la ruée vers l'or, les marchands de pelles et de pioches gagnaient mieux leur vie que les chercheurs de pépites, laissant aujourd'hui présager que des modèles d'affaire prometteurs se dessinent, pour ceux qui fabriquent et mettent à disposition des instruments d'extraction de données.

2. Des données individuelles pour des services ciblés

Parallèlement aux perfectionnements de la statistique classique, les technologies de l'information et de la communication (TIC) sont porteuses d'un phénomène de nature différente et, celui-là, radicalement nouveau : la production en masse, spontanée et décentralisée, de données issues des agissements en ligne des acteurs économiques et sociaux ; comportements d'achat, pratiques relationnelles sur les réseaux sociaux, parcours de surf sur internet, géolocalisation, etc.

Ce geyser de données, foisonnant et continu, peut être exploité d'une manière qui s'écarte des méthodes historiques de la statistique, en vue de fournir des services sur mesure et situés : publicité ciblée, localisation de commerces se trouvant à proximité, scannage d'un produit afin d'en comparer le prix avec ceux du même produit proposé dans d'autres surfaces de vente, identification des " amis " de Facebook se trouvant alentours, présentation d'informations relatives à un programme audiovisuel au moment même son visionnage, chat en ligne accompagnant l'écoute d'une émission de radio, etc. Ici, le traitement des données n'est pas statistique, c'est-à-dire allant de l'individuel vers le social, du particulier au général, mais il est spécifique, c'est-à-dire allant de l'individu vers l'individu, du particulier au particulier.

3. La réalité augmentée

Depuis l'origine de l'espèce, l'être humain est un processeur d'informations : à travers ses organes sensoriels il perçoit les stimuli que lui adresse son environnement et il les traite en vue d'agir avec la pertinence requise. Ce qui prend valeur pour l'homme, c'est la connaissance, c'est à-dire un output d'information traité et adapté à l'action, et non pas l'input d'information brute : c'est bien vers une économie et une société de la connaissance, et non pas seulement de l'information, que nous conduit la révolution numérique. À cet égard, l'Internet joue le rôle d'une " prothèse cognitive " extraordinairement puissante, qui élargit le champ de la réalité perçue et multiplie les potentialités ouvertes à l'action ; d'où le vocable de " réalité augmentée ", parfois employé pour désigner les applications qui exploitent les données individuelles dans le but de fournir à chacun une connaissance contextuelle, appropriable, et utile à la décision d'agir.

La réalité augmentée est encore sur-augmentée par l'extension de l'Internet à des objets qui, pour ne pas être des ordinateurs à l'état natif, tels une automobile, un compteur électrique, une chaudière, un réfrigérateur, une pièce d'identité, un produit alimentaire, etc., peuvent acquérir ce statut : ces objets sont alors étiquetés électroniquement, voire émulés en machines connectées qui communiquent entre elles et avec leurs utilisateurs, eux-mêmes équipés de terminaux adaptés. Avec l'avènement de ce tissu électronique sans coutures, à la fois man to man, man to machine et machine to machine, la prothèse cognitive devient véritablement protéiforme, donnant notamment naissance à la " maison intelligente " ou à la " ville intelligente " ; ces territoires au sein desquels une profusion de capteurs enregistre les informations engendrées par les actes et les déplacements de leurs habitants, puis les leur restitue à travers divers effecteurs, sous une forme propre à les assister dans leur vie quotidienne.

4. Les limites du traitement rationnel de l'information

Augmenter la réalité se heurte toutefois aux bornes de la " rationalité limitée ", qu'il s'agisse ex ante de l'interprétation des informations fournies ou, ex post, de la capacité à utiliser efficacement ces informations. Par exemple, quelle serait l'utilité de l'imagerie médicale, entre les mains d'un médecin inapte à lire les images produites ou d'un thérapeute impuissant à diagnostiquer puis à traiter les pathologies qu'elles révèlent ?

Le " tsunami numérique ", ou déferlante des opportunités de production et d'exploitation des données, ne doit donc pas créer l'illusion d'une explosion concomitante de la capacité à traiter ces données, notamment dans le but de prévoir ou contrôler des évènements jugés auparavant imprévisibles et incontrôlables… et d'infléchir ainsi le cours du futur, en prévenant des catastrophes naturelles, des accidents ou des crimes. Depuis la prise du pouvoir par l'ordinateur HAL dans " 2001 Odyssée de l'espace ", le cinéma d'anticipation fait la part belle à cette thématique du traitement omnipotent des données : citons notamment Minority report, film de Stephen Spielberg en 2002, où des mutants, les " precog ", débusquent les délinquants avant même qu'ils n'aient commis leurs méfaits ; ou encore Inception, film de Christopher Nolan en 2010, où un " extracteur " de pensées espionne l'esprit de ses victimes afin de les influencer, pendant qu'elles rêvent.

En contraste avec pareilles perspectives, aussi fascinantes qu'effrayantes, trois arguments forts viennent rappeler les limites du calcul rationnel en matière de prévision des évènements " rares " et d'évaluation des risques qui s'y attachent. D'abord, une indétermination du type " 0 x ∞ ", lorsqu'il s'agit d'estimer en espérance l'impact d'une cause de probabilité très faible dont les effets potentiels sont immenses ; ensuite, la " disparition " du calcul bayesien en présence de distributions de probabilité à " longue queue ", platykurtiques, ne possédant ni moyenne ni variance finies ; enfin, plus fondamentalement encore, l'impossibilité radicale de concevoir " l'impensable ", " l'inimaginable ", et par conséquent, de l'inclure dans le champ des possibles initialement soumis à l'analyse rationnelle.

5. Le " commons " informationnel et la longue traîne

L'homo digitalis est un " commutateur " numérique, à la fois émetteur et récepteur d'informations : en ligne, il émet ou produit un " profil " numérique de données individuelles et il reçoit ou consomme un " catalogue " personnalisé de propositions d'action. Mais, paradoxalement, cette correspondance " one to one " n'est réalisable qu'en raison de la masse considérable des individus qui postent simultanément des données sur les réseaux électroniques. Il s'agit là du phénomène de la " longue traîne ", ou de la " loi de puissance ", selon lequel est accessible sur Internet une multitude de données, dont la valeur est faible si on les considère chacune séparément, mais qui forment globalement un corpus immense, dont l'accès est extrêmement précieux à chacun.

C'est nuitamment et sur un parking désert que l'auteur de ces lignes a découvert tout le bénéfice de la longue traîne, lorsqu'il eut le bonheur de dénicher dans un blog la procédure de déverrouillage mécanique de la portière de sa voiture, électriquement bloquée… Le corpus informationnel d'Internet, dans sa très grande majorité non marchand, constitue un " commons ", un bien public au sens des économistes, dont la réalisation est rendue possible par la conjonction d'un coût individuel de contribution très faible et d'une utilité de consultation très élevée : en donnant très peu de son temps, chacun " achète " la faculté d'en gagner énormément. Tel est le grand écart entre coût " d'écriture " et utilité de " lecture ", qui fait notamment le succès de l'encyclopédie en ligne Wikipedia ou du site d'échanges de vidéos YouTube.

6. Les tribus de l'Internet et les méta-marchés

L'Internet ouvert n'est pas un espace isotrope et homogène. Avec le web2.0, il s'est auto-structuré en " communautés " de toutes sortes : réseaux sociaux, réseaux peer to peer d'échanges de fichiers numériques, communautés de pratique, communautés de consommateurs, communautés d'expertise, communautés épistémiques, par exemple de logiciel libre, etc. Cette partition communautaire n'équivaut pas, cependant, à une fragmentation : chacun bénéficie en effet de la potentialité d'accéder à l'ensemble du corpus, selon le principe essentiel de la " neutralité d'internet " qui doit impérativement être préservé, au-delà de l'actuelle confrontation entre opérateurs de réseaux et fournisseurs de contenus, les premiers souhaitant optimiser à leur guise la gestion du trafic transitant sur leurs réseaux, et les seconds désirant distribuer leurs contenus à tous les internautes sans aucune restriction d'accès ni différenciation de qualité.

Selon une élégante expression due à Claude Riveline (1), " mon identité est l'intersection des tribus auxquelles j'appartiens ", elle est la superposition des masques que je porte, pourrait-on ici ajouter. À cet égard, les communautés en ligne ne sont rien d'autre que des tribus numériques, des bals masqués en ligne, des rassemblements d'identités profilées, des lieux " d'intimité instrumentale " davantage que d'interaction sociale. Ces lieux sont auto-organisés de manière à permettre l'adéquation des données postées aux besoins des participants, ainsi qu'une autorégulation " de la fiabilité de ces données, par exemple via un rating des " experts ".

Parce que leur fréquentation, instrumentalisée, finalisée, aide à mieux acheter, à mieux vendre, à mieux innover, les tribus numériques sont aussi des méta-marchés informationnels, qui assistent l'économie de marché en l'équipant d'une " infostructure ". Enfin, parce qu'elles mettent à la disposition de chacun une expertise collective, plutôt qu'individuelle, les communautés en lignes permettent, dans une certaine mesure, de repousser les limites cognitives de la rationalité : une performance collective est en effet égale au " max " des performances individuelles, cette propriété de sur-additivité expliquant par exemple la remarquable efficacité du logiciel libre, produit communautairement et de qualité souvent supérieure à celle du logiciel propriétaire.

7. Distance informationnelle et " sérendipité "

L'acquisition d'informations en ligne peut être regardée comme un " déplacement " dans l'espace numérique. En effet, si l'Internet efface la distance physique, en rendant ubiquitaires deux " agents " numériques, il n'abolit pas en revanche la " distance informationnelle ". Cette dernière est en quelque sorte la " résistance " que le milieu numérique oppose à la réalisation d'une " transaction " en ligne entre deux agents : une résistance qui peut être due à un défaut de connaissance réciproque des deux parties, à un manque de confiance quant à l'identité ou la fiabilité du partenaire, suscitant en outre une réticence au paiement en ligne dans le cas d'un échange marchand. Lorsqu'un agent récepteur a obtenu en ligne une information à la fois fiable et utile, c'est qu'il a parcouru le chemin informationnel qui le relie à l'agent émetteur.

La distance informationnelle peut-être quasi-nulle, par exemple si le récepteur connaît préalablement l'identité de l'émetteur et n'a donc plus qu'à accéder au contenu posté par ce dernier via un moteur de recherche ; elle peut-être plus importante, si le récepteur connaît la nature de l'information qu'il désire acquérir mais ne sait pas quel est l'émetteur le plus susceptible de la lui fournir ; et elle peut être considérable, si le récepteur ignore non seulement qui, mais aussi quoi précisément chercher !

Le propre d'Internet est qu'il permet de parcourir à la vitesse de la lumière de très grandes distances informationnelles, qui seraient infranchissables dans le monde physique… si l'on excepte l'univers fantasmagorique de ce conte persan où les seigneurs de Serendipe vont de trouvailles en trouvailles, aussi merveilleuses qu'inattendues, au seul hasard de leurs pérégrinations. D'avantage encore qu'à l'ubiquité, c'est-à-dire à la suppression de la distance physique, l'Internet donne réalité à la sérendipité, c'est-à-dire à la capacité d'aller quasi-instantanément là où nous ne savons pas encore que nous voulons nous rendre ; autrement dit, à la capacité d'acquérir une information qui nous est utile a posteriori, alors même que nous ne la recherchions pas a priori. La sérendipité conduit notamment à une consommation accrue des " biens d'attention ", ces produits et services dont l'existence même nous est inconnue, avant que notre attention ne soit pointée vers eux.

8. Le global et le local, le réel et le virtuel, l'économie quaternaire

La production, l'échange et le partage des données sur Internet et, plus généralement, sur les réseaux de communication électronique, marient les deux dimensions du " global " et du " local ". Ainsi, le cloud computing externalise-t-il le traitement de données locales dans le " nuage " de l'Internet ; ainsi également, la mise en commun de capacités de calcul massivement décentralisée dans la galaxie des ordinateurs personnels fait-elle tourner des programmes informatiques à l'échelle mondiale, par exemple pour modéliser l'évolution de la biosphère, ou pour analyser les signaux en provenance de l'espace.

Concomitamment au couplage local-global, les technologies de l'information et de la communication assurent le couplage réel-virtuel, c'est-à-dire la mise en correspondance de deux espaces, l'espace physique et l'espace en ligne. Ces deux propriétés, de commutation des échelles et de commutation des espaces, font en particulier des TIC l'équipement social indispensable à ce que certains nomment " l'économie quaternaire " (2), c'est-à-dire une économie basée sur le " troc " entre voisins de services physiques à la personne : un tel troc nécessite en effet un appariement fin en ligne d'une multitude d'offres et demandes localisées, confiées au nuage global de l'Internet telles des bouteilles à la mer.

9. De la révolution numérique à l'écosystème cognitif

L'originalité de la révolution numérique par rapport aux deux révolutions industrielles qui l'ont précédée réside en ce qu'elle affecte un trait essentiel de l'espèce humaine : la cognition. Pour cette raison, l'Internet n'est pas seulement un outil au service de l'homme, comme peut l'être un réseau ferré ou un réseau électrique, mais c'est un objet " total " au sens philosophique du terme, un milieu au sein duquel les individus s'expriment, lisent, écrivent, communiquent ; en bref, au sein duquel ils " Sont " !

Contrairement au coupe-papier sartrien, dont l'existence exprime l'essence sans variation aucune, l'Internet, à travers son existence tumultueuse et transgressive de média en effervescence permanente, abuse amplement son essence : ce réseau des réseaux ne saurait se prêter à une approche purement finaliste et se résumer au catalogue de ses usages, car il est un torrent d'invention permanente, un creuset d'innovation, un générateur d'imprévisibilité, un lieu " vivant ". Tel Pinocchio, transcendant sa condition originelle de pantin pour devenir un " vrai " petit garçon, bien au-delà des attentes de son " père " Geppetto, l'Internet est un artefact émancipé qui a pris vie… et qui mérite bien à ce titre le " I " majuscule dont on a coutume de le parer !

La métaphore de la marionnette animée invite alors à resituer la problématique de la production des données en ligne dans une perspective biologique, évolutionniste et darwinienne : la génération de ces données n'obéit pas à un processus programmé ou programmable, à l'instar d'une enquête diligentée par un institut de statistique, mais plutôt à un processus auto-organisé et aléatoire, opérant par sélection-mutation et obéissant à une logique adaptative. Sous cet angle, l'Internet et ses communautés en ligne ne forment pas tant l'outil de la production des données que l'écosystème de leur genèse et de leur évolution.

_____________________________
(1) Professeur à l'Ecole des mines de Paris.
(2) Cf. les travaux de Michèle Debonneuil, Inspecteur général des finances.