Les traces laissées par les individus sur Internet et sur les réseaux sociaux constituent un gisement de données numériques considérable, le big data. Certains avaient prédit la mort des sciences sociales avec l’irruption de ces données massives. Il semble au contraire que les sciences sociales se transforment et affinent leurs méthodes d’enquête grâce aux données numériques. La prudence reste toutefois de mise, en raison de la non-représentativité des échantillons utilisés et de l’opacité des algorithmes – sans parler des atteintes à la vie privée liées à la captation des données.
Les traces que nous laissons sur les moteurs de recherche, les réseaux sociaux, les sites d’achat en ligne, ainsi que le nombre croissant des objets connectés (smartphones, montres, caméras, thermostats, enceintes, capteurs), nourrissent un fabuleux gisement de données numériques. Il éclaire jusque dans les micro-détails nos comportements quotidiens, nos déplacements, nos modes de consommation, notre santé, nos loisirs, nos centres d’intérêt, nos réseaux de sociabilité, nos opinions politiques et religieuses, sans que nous en ayons toujours conscience. La numérisation accélérée d’archives et documents, jusqu’ici inaccessibles, effectuée par les administrations, les entreprises, les partis, les journaux, les bibliothèques y contribue également.
Il en résulte des données hors norme par leur volume, leur variété et leur vélocité (les « 3 V »), communément appelées le « big data ». Et les moyens de les extraire, coder, quantifier et analyser en quelques clics se sont développés de concert, grâce aux progrès de l’intelligence artificielle (IA). Comme le souligne Dominique Boullier dans son dernier livre ce processus est en train de révolutionner le paysage des sciences sociales, pour le meilleur et pour le pire.
À cet égard deux thèses s’affrontent dès la naissance du Web. Dans un article au titre provocant, « The End of Theory: The Data Deluge Makes the Scientific Method Obsolete », Chris Anderson, rédacteur en chef du magazine Wired consacré aux nouvelles technologies, y voit la mort programmée des sciences sociales. Les corrélations vont remplacer la causalité, point n’est besoin de modèle explicatif ou de théorie unifiée et « les chiffres parlent d’eux-mêmes ». En total désaccord, des chercheurs comme Burt Monroe ou Gary King saluent le potentiel de renouvellement des théories et des méthodes qu’apportent ces données et plaident pour l’hybridation des sciences sociales et de la « data science ».
Dans la même ligne, je donnerai quelques exemples illustrant l’apport du big data, notamment sur des sujets sensibles comme le racisme ou la sexualité, difficiles à saisir dans les enquêtes par sondages ou par entretiens à cause des biais de « désirabilité sociale », soit la tentation face à l’enquêteur ou l’enquêtrice de dissimuler son opinion si elle n’est pas conforme aux normes sociales en vigueur.
Big data et recherche sur le racisme
Le champ des recherches sur le racisme, en particulier le racisme anti-noir, est particulièrement développé aux États-Unis et plusieurs enquêtes par sondage ont tout naturellement voulu mesurer son impact potentiel sur les votes en faveur de Barack Obama aux élections présidentielles de 2008 et 2012. Elles ne donnent pas de résultats probants et un chercheur, Seth Stephens-Davidowitz, a eu l’idée d’utiliser un indicateur indirect de racisme, la proportion des recherches sur Google contenant le mot « nigger(s) » (« nègre(s) ») pendant les quatre ans précédant le scrutin, qu’il a mis en relation avec les votes pour Obama en 2008 et 2012, État par État. Malgré l’interdit qui pèse sur ce terme, il trouve que le « N-word » est googlé en moyenne 7 millions de fois par an. Seule face à son écran, la personne n’a aucune raison de s’autocensurer. Les résultats, après contrôles, sont sans appel. Ils montrent que les États où ce terme est le plus souvent recherché sur Google débordent largement les frontières des États du Sud traditionnellement plus racistes. Et l’usage du mot est négativement corrélé avec le vote pour Obama, lui coûtant en moyenne quatre points de pourcentage aux deux élections. Le racisme anti-noir est bien sous déclaré dans les enquêtes par sondages, et il a eu un impact non négligeable sur les choix électoraux. Un phénomène qui, jusqu’ici, était passé sous les radars.
En France, la Commission nationale consultative des droits de l’homme (CNCDH) fait tous les ans un rapport au premier ministre sur l’état du racisme, de l’antisémitisme et de la xénophobie, en s’appuyant notamment sur le Baromètre racisme pour les opinions, les statistiques fournies par les ministères concernés pour les actes. Mais les discours de haine sur les réseaux sociaux restaient hors de son champ de vision. D’où sa décision, en 2020, de demander au Médialab de Sciences Po, associé au Centre d’études européennes et de politique comparée (Sciences Po) et au Laboratoire interdisciplinaire Sciences-innovations-sociétés (Lisis, Université Gustave-Eiffel) de lancer une étude sur l’antisémitisme en ligne.
L’équipe choisit d’analyser pendant un an les commentaires postés sur les principales chaînes d’information et d’actualité présentes sur YouTube, au nombre de 628. Un corpus de près de deux millions de commentaires est extrait et un algorithme entraîné à détecter l’antisémitisme, y compris sous ses formes les plus allusives. La diffusion de propos antisémites apparaît relativement faible (0, 65 % du total des commentaires). Ce sont les chaînes d’extrême droite qui en abritent la proportion la plus importante, suivies par les chaînes de contre-information et de santé alternative. Les thèmes du complot et de la judéophobie y apparaissent plus présents que l’antisionisme. Les résultats nuancent donc la thèse d’un « nouvel » antisémitisme à base d’antisionisme remplaçant l’ancien et qui serait passé de l’extrême droite à l’extrême gauche. L’enquête a été élargie depuis à d’autres formes de racismes, notamment antimusulmans, au masculinisme et au complotisme.
Big data et recherche sur la sexualité
Le big data est aussi précieux pour aborder les questions du genre et de la sexualité. Régulièrement, l’université française est présentée comme gangrénée par les études sur le genre et l’intersectionnalité, y compris par des ministres.
L’enquête minutieuse menée par le sociologue Étienne Ollion et ses collègues montre qu’il n’en est rien. Analysant la place tenue par la question du genre dans 120 revues de sciences sociales sur un quart de siècle, soit un corpus de 58 000 résumés d’articles, grâce à un modèle d’intelligence artificielle (Large Language Model), l’article montre qu’elle est passée de 9 % en 2001 à 11,4 % du total en 2022. D’une discipline à l’autre, les résultats sont contrastés, la proportion d’article traitant du genre passant de 33,7 % à 36,6 % dans les revues de démographie au sens large, mais de 3,3 % à 5,8 % en science politique. Et ils sont encore majoritairement le fait de femmes. Tandis que les approches intersectionnelles croisant genre et race et/ou classe restent résiduelles (4 % en fin de période).
Marie Bergström, sociologue à l’Ined, a utilisé le big data pour éclairer les ressorts de l’écart d’âge qu’on observe dans les couples hétérosexuels, où l’homme est généralement plus âgé que la femme. Croisant les résultats de l’enquête « Étude des parcours individuels et conjugaux » (Epic), menée par l’Ined et l’Insee en 2012-2014 auprès de 7 800 personnes, interrogées sur leurs préférences en matière d’écart d’âge, avec des données tirées du site de rencontre Meetic (400 000 profils et 25 millions d’emails) renseignant sur les pratiques effectives, elle souligne le décalage entre ce qui se dit et ce qui se fait et les écarts selon le genre.
Au niveau déclaratif, les femmes sont les plus attachées à un écart d’âge au profit du partenaire masculin, d’autant plus qu’elles sont jeunes, tandis que les hommes se disent indifférents à l’âge. Ainsi, 79 % d’entre eux disent qu’ils accepteraient une femme plus âgée alors que 53 % seulement des femmes envisageraient un partenaire plus jeune. Mais sur le site de rencontres, c’est une autre histoire, le décalage étant particulièrement marqué chez les hommes, clairement amateurs de femmes plus jeunes, surtout quand ils vieillissent.
Dangers du big data
Les dangers du big data sont non moins grands : non-représentativité et instabilité des échantillons non construits pour les besoins de la recherche, opacité et défaillance des algorithmes et des modèles, difficultés d’accès aux données, problèmes éthiques, atteintes à la vie privée, problèmes de sécurité (vols, détournement des données), coûts énergétiques exorbitants, domination politique du Nord sur les Sud, et des États-Unis sur le reste de la planète. La prudence est nécessaire et le besoin de régulation est manifeste. Mais on ne peut se priver d’un tel vivier. Et les nouvelles générations de doctorants s’en sont aussitôt emparé.
Un nombre croissant de doctorants utilisent aujourd’hui le big data pour leur thèse et font des émules. Qu’ils s’intéressent au positionnement des partis européens sur le climat ou sur l’immigration, aux politiques énergétiques européennes ou au cadrage médiatique de groupes-cibles, ils arrivent à construire des corpus gigantesques de plusieurs millions de textes (rapports, textes législatifs, posts sur les réseaux sociaux, images, articles de presse, discours parlementaires, communiqués), couvrant plusieurs pays et sur de longues périodes. Pour les analyser, ils recourent au Supervised Learning (apprentissage supervisé), entraînant des modèles d’IA à coder ces textes en fonction de leur question de recherche et de leurs hypothèses. Cela leur permet de revisiter des objets classiques de la science politique avec un regard neuf et sur une tout autre échelle, s’inscrivant dans le courant en plein essor des « sciences sociales augmentées ».
Cet article est proposé en partenariat avec le colloque « Les propagations, un nouveau paradigme pour les sciences sociales ? » (à Cerisy (Manche), du 25 juillet au 31 juillet 2025).