Langues et statistiques

Publié le par Pruneau

Hadrien vient de me demander ce que je faisais comme sujet de recherche (enfin je crois que c'est ce qu'il demandait, Skype marchait moyen à ce moment-là). Comme Hadrien pris tout seul représente déjà 5% des lecteurs de ce blog, et que ce n'est pas forcément le seul à se poser la question, voici une explication un peu plus détaillée que "je fais des modèles statistiques de l'évolution du langage".

Tout commence avec les langues Indo-Européennes : c'est un groupe de langues qui, vous l'aurez deviné, regroupe des langues indiennes et européennes. Côté indien, ce sont des langues comme le kurde, le hindi, le népalais, le bengali ; côté européen, à peu près tout, de l'islandais à l'arménien en passant par le lithuanien. Il n'y a que quatre grandes langues en Europe qui ne font pas partie de la famille Indo-Européenne : le basque, le finnois, le hongrois et l'estonien. Toutes les autres sont de la même famille, et ont un certain nombre de points communs. Par exemple, pour dire "3", on dit tri en bengali, tre en albanais et tres en espagnol : ça se ressemble beaucoup, alors que des langues qui ne font pas partie de la famille utilisent des mots très différents (genre selosa en hébreu ou üc en turc).

Ce qui s'est passé, c'est qu'il y a bien longtemps (pour la date exacte, voir ci-dessous), un peuple, qu'on appelle les Indo-Européens, est devenu super fort et a envahi toute l'Europe et toute l'Inde. Au début, ils parlaient tous la même langue, mais en quelques siècles, certains s'étaient installés au Sri Lanka et d'autres au Pays de Galles, et les langues avaient évolué séparément. Plus récemment, la même chose s'est passée quand le latin est devenu le français, l'italien, le roumain, etc.

Toutes ces langues se ressemblent, mais certaines se ressemblent plus que d'autres : l'espagnol est très proche du portugais, plutôt proche du français, ça a de vagues ressemblances avec l'allemand, et pour voir les ressemblances avec le sanskrit, il a fallu quelqu'un de pas complètement idiot. Des langues qui se ressemblent plus ont un ancêtre commun récent : l'ancêtre commun au français et à l'espagnol, c'est le bas latin, début du Moyen-Âge ; l'ancêtre commun à l'espagnol et au sanskrit, ça s'appelle le Proto-Indo-Européen, et ça existait à la fin de la Préhistoire. Les langues évoluent un peu comme les espèces animales : l'homme et le chimpanzé se ressemblent parce qu'ils ont un ancêtre commun qui existait il y a quelques millions d'années, dont ils descendent tous deux ; l'homme et la grenouille se ressemblent nettement moins, parce que leur ancêtre commun existait il y a quelques centaines de millions d'années (j'ai la flemme d'aller chercher les nombres exacts). Ce qui n'empêche que l'homme et la grenouille ont des points communs.

Ça fait un bout de temps que les généticiens récoltent l'ADN de tout plein d'espèces, et s'en servent pour reconstruire l'arbre généalogique du monde du vivant. Pour les langues, on essaye de faire la même chose. Plutôt que l'ADN, on prend la liste des 100 ou 207 mots les plus courants qu'on retrouve dans toutes les langues : des choses comme boire, ventre, soleil, rouge ou pou. Et on regarde si différentes langues ont des mots qui se ressemblent ou pas : le mot français pou ressemble au mot catalan poll, l'anglais louse ressemble au danois lus, le persan šepeš ne ressemble à rien de tout ça. C'est un indice que le français et le catalan sont des proches cousins, de même que l'anglais et le danois. (J'entends déjà la question : mais comment il sait dire pou dans toutes ces langues ? Je ne sais pas, mais Wiktionnaire, lui, sait.) Un linguiste spécialiste de ces choses serait capable de trouver des ressemblances moins évidentes - ça se trouve, pou et lus ont en fait la même origine.

On fait un grand tableau (une matrice, pour les matheux) avec tout ça, avec pleine de langues (87 dans mon cas), on donne ça à une machine, et quelques heures ou jours plus tard, elle crache un arbre montrant qui est cousin avec qui, et de quand date l'ancêtre commun. Mon sujet de thèse, c'est la machine en question.

Vous remarquerez que je n'ai pas encore prononcé le mot statistiques . Mais l'évolution étant par nature un processus aléatoire, il faut forcément un modèle aléatoire pour pouvoir la reconstituer. Le modèle aléatoire, c'est la machine, et c'est tout plein de statistiques avec des symboles bizarres.

Les linguistes ont très bien réussi à se débrouiller sans statistiques pendant un bout de temps, de même que Linné avait réussi à classifier les être vivants sans avoir accès à leur ADN. Mais il y a des questions auxquelles on ne peut répondre qu'avec une approche quantitative, c'est-à-dire avec un ordinateur et un modèle statistique. Pour les langues Indo-Européennes, les deux principales questions sont : 1. Les langues italiques (espagnol, français...), celtiques (breton, irlandais...) et germaniques (allemand, danois...) forment trois sous-familles de la grande famille Indo-Européenne. Les trois sous-familles sont des cousines assez proches, mais quelles sont les deux les plus proches (désolé si je n'ai pas été clair) ? 2. Toutes les langues Indo-Européennes ont un ancêtre commun. De quand date cet ancêtre ?

J'essaie de répondre à la seconde question. Mine de rien, la réponse est intéressante pour les historiens et archéologues : si c'est 4000 ans av. JC, c'est que la maîtrise du cheval a permis d'envahir l'Europe ; si c'est 6000 ans av. JC, c'est que c'est l'invention de l'agriculture qui a permis aux Indo-Européens de prendre le dessus sur les autres peuples et de tous les exterminer (sauf les Basques, qui ont survécu, mais passons).

Si ça marche bien, on peut facilement appliquer la même machine à d'autres données, comme les langues polynésiennes ou les traits anatomiques de différentes espèces de guèpe.

Publié dans Ma vie ma thèse

Commenter cet article

Sparkle 18/11/2010 20:37


Bonjour j'ai decouvert cet article par le biais de la Gazette du sorcier et je tenais a laisser un petit com pour dire que je le trouvais tres interessant et j'avoue que j'aimerai en savoir plus,
etant dans les langues egalement!


Pruneau 19/11/2010 16:39



Pour en savoir plus, cet article de Geoff Nicholls
dans Significance est une bonne vulgarisation de ce thème de recherche.



Star' 16/06/2007 23:36

Bon à vrai dire je ne suis pas un grand fan des commentaires sur les blogs mais je suis tombé sur le tien "presque" par hasard (je te laisse deviner où j'ai trouvé le lien) et cet article m'a interpellé (forcément puisque je suis là). J'avais déjà eu l'occassion de voir le travail que tu as effectué lors de ton interview mais je n'avais fait aucune remarque. Je ne vais pas dire que j'ai tout compris (une trés grande partie tout de même) mais ça me fait bizarre de retrouver quelques formules statistiques en dehors du cursus. Ton travail sur cette étude est vraiment intéressant (plus que mes les miens c'est sûr) et j'aimerais savoir si tu as fait d'autres études ou pas? Si oui sur quels sujets?
Sinon, avec des anciens de promo, on se demande si l'on connait du monde qui a étudié les stats en dehors de notre formation et grace à toi je peux me vanter (même si dire que je te connais est assez gros).
Bref pas trés constructif (ni même intéressant tu vas me dire car j'ai trouvé le moyen de raconter ma vie) ce que je dis mais je sais qu'un peu de reconnaissance ne fait pas de mal de temps en temps ; et comme je suis ici j'en profite pour te dire que tous tes autres articles sont vraiment intéressants et que je vais repasser assez souvent pour voir tes mises à jour.
Bonne continuation.

hadri 05/06/2007 22:36

Merci de répondre aux questions robin! Trois commentaires à la suite de cet article: 1-Si l'agriculture a permit d'exterminer d'autres peuples comment oses-tu voter Jose BOVE? 2-Tes successeurs ne pouront sans doute plus se servir du mot pou, qui doit quand meme etre moins employé depuis quelques siecles (sauf peut etre par les basques). 3- C'est super agreable de lire tes articles avec les liens(ca doit etre du boulot de faire tout ca) mais entre la grenouille et l'homme tu pouvais trouver mieu que la colonne vertebrale, je sais pas les cuisses par exemples!
Bises et vive les froggies.

Pruneau 03/06/2007 01:10

Je n'ai pas d'article présentable pour l'instant, mais il y a déjà un peu de stats dans le rapport de stage que j'ai écrit en novembre : http://www.eleves.ens.fr/home/ryder/heterogeneity.pdf

Si tu veux tout savoir, le changement majeur est que depuis, j'ai décrété que nu=lambda*kappa/mu, ce qui rend le processus réversible, d'où plein de choses bien. Et puis je commence à avoir des jolis dessins comme résultats.

Haroun 02/06/2007 01:20

Je suis évidemment sûr de ne pas tout comprendre, mais si à l'occasion tu pouvais m'envoyer les dites formules, les lèmes, bref ton article ça serait sympa. (mon frère m'expliquerait, t'inquiètes il bosse sur les estimateurs de quantiles non paramétriques, il te piquera rien)