Collecter les SMS

Les SMS ont rencontré un succès commercial incontestable ces dernières années. Avec leur développement est né un style d'écriture particulier qui a déjà fait couler beaucoup d'encre et entraîné nombre de réactions chez les linguistes, sociologues, psychologues et autres spécialistes de la communication : pour les plus craintifs, la vague SMS est en train de balayer les repères que sont la grammaire et l'orthographe déjà peu maîtrisés par les jeunes publics qui sont par ailleurs les consommateurs les plus enthousiastes du SMS. Pour les plus optimistes, au contraire, les SMS renferment des formes variées de jeux de langue souvent subtils et en tant que phénomène de mode ils poussent les jeunes à fréquenter plus assidûment la communication écrite jusqu'alors dédaignée. Dans tous les cas, cette nouvelle forme textuelle (proche du chat sur Internet, bien que soumise à d'autres contraintes) suscite la curiosité et l'intérêt des scientifiques impliqués dans l'analyse des langues et de la communication. A la suite des SMS, les MMS ont pour leur part ouvert la porte à une communication multimodale permettant d'allier texte et image.

Depuis peu, les industries de la langue s'intéressent également à ce phénomène et tentent d'adapter leurs outils, conçus pour le texte classique, à ces messages courts (filtrage, classification thématique, traduction automatique, recherche d'information, etc).

Une difficulté se présente quand on cherche à mener une étude dans ce domaine : c'est l'absence de tout corpus de référence. Un tel corpus est nécessaire pour envisager des études linguistiques de grande envergure et pour permettre de nouveaux développements dans le domaine du TAL(Traitement Automatique du Langage). C'est à ce besoin que notre projet tentera de répondre.

Etudier les SMS

Les recherches de ce projet concernent la linguistique (étude descriptive et systématique des langues), la sociolinguistique (qui met la linguistique en relation avec les phénomènes sociaux et culturels) et les aspects liés à l'ingénierie linguistique et à l'enseignement.

A l'inverse de la communication écrite habituelle, le langage SMS a les attributs d'un langage bref et rapide. L'objectif est de transmettre un message intelligible tout en faisant le plus court possible (nombre limité de caractères et inconfort du clavier). Ces contraintes ont fait naître un langage qui se fonde sur des codes multiples. On y retrouve divers phénomènes inhérents à la langue familière actuelle et au langage branché (troncations, néologismes, emprunts, expressions, etc.) à côté de codes scripturaux variés qui constituent la part la plus originale de ce langage: phonétisation de certaines graphies (ki, "qui", kom, "comme", alé "aller"), valeur épellative des lettres (tu mM, "tu m'aimes", G, "j'ai", etc.), de chiffres (a12C4, "à un de ces quatre", 2vient, "devient") et de signes (A+). Sans oublier les codes iconiques hérités du "chat" sur Internet tels que :-) "content" ou :-( "fâché" et les abréviations utilisées beaucoup plus systématiquement que dans l'écrit standard (lgtps, "longtemps", pcq, "parce que").

La spécificité de ce langage tient dans une large mesure au mélange de tous ces procédés appliqués indistinctement à des mots français ou anglais (ce que J. Anis a dénommé un "melting-script").

On trouve déjà certaines descriptions de ce langage accompagnées d'un lexique. Le caractère ludique de cette langue la rendant fondamentalement instable, il nous apparaît plus pertinent d'en proposer une grammaire (un ensemble de règles et de procédés) plutôt qu'un lexique qui donnerait l'illusion d'une "norme" établie.

Dans tous les cas, il est aisé de constater que beaucoup d'utilisateurs de SMS n'appliquent pas systématiquement ces procédés : d'une part, on trouvera les mêmes mots codés de façons différentes dans un même message (fame ou fam pour "femme") et d'autre part, des graphies hybrides auxquelles sont appliquées des procédés différents (qLk1, "quelqu'un"). Tout ceci montre la nécessité de travailler sur un corpus étendu permettant de dégager de véritables tendances.

L'approche sociolinguistique doit tenir compte de la qualité des utilisateurs (formation, âge, contexte d'utilisation professionnel ou ludique) pour la mettre en rapport avec le type de langage observé. L'enseignement est naturellement concerné par ce phénomène, très répandu chez les jeunes. Il importe de s'interroger à la fois sur les conséquences que certains jugeront positives (incitation à communiquer et à s'exprimer par écrit) ou négatives (contamination par des procédés scripturaux incompatibles avec l'écrit standard).

L'ingénierie linguistique, qui vise à automatiser les tâches d'analyse du langage, doit nécessairement adapter son approche du texte pour prendre en compte les nouvelles formes inhérentes à ce genre d'écrits. Cela nécessite une compréhension approfondie des mécanismes qui entrent en jeu dans leur fonctionnement pour permettre de faire le lien avec les textes standard.