Structures…

Une manière très scolaire d’analyser un problème, un système, c’est de le décomposer de différentes manières, par exemple en couches. À l’université, j’ai encore appris à penser les réseaux informatiques selon Modèle OSI, même si la norme IP, qui n’est pas structurée de cette manière, commençait à s’imposer.

On apprend à découper le langage, l’écriture de manière similaire : il y a d’abord les caractères, puis les règles typographiques, viennent ensuite le vocabulaire et la morphologie des mots, la grammaire, et enfin le style plus général.

Chaque communauté a ses propres idées sur le langage, ce qui est logique : c’est un outil partagé. Ce que je trouve intéressant, c’est qu’elles ont généralement une vision différente du niveau de jeu, c’est à dire le niveau où l’on peut prendre des libertés avec les règles. Les gardiens du langage correct, comme l’académie française, tendent à limiter le champ d’action au style : on ne badine pas avec la grammaire et le vocabulaire, la typographie est considéré comme un simple problème d’artisans et complètement ignorée.

Le blog des correcteurs du Monde a un billet sur le mot égérie qui – époque oblige – commence à être utilisé au masculin. Personnellement je regrette qu’on ne puisse construire le mot masculin égère, plutôt que de marquer le masculin via l’article. Approche différente, j’aimerais jouer avec les règles de la morphologie, créer un nouveau mot fonctionnel, les correcteurs ne font qu’inscrire une constructions dans la liste des usage. Ingénieur ou correcteur, ce n’est pas pareil.

C’est une des raisons pour lesquelles le français est mal aimé des informaticiens, même francophones, c’est un milieu qui a besoin de nouveau mots, précis, et dans lequel il est naturel de construire de nouveaux outils en utilisants les systèmes à disposition : un informaticien construit des programmes, mais tous ses outils sont des programmes. Le langage est avant tout un outil. Là où l’anglais ou l’allemand permettent de recombiner des mots ou de les enrichir avec des préfixes, ces mécanismes fonctionnent mal en français. Il faut constamment emprunter au grec ou au latin des préfixes, et l’usage n’est plus systématique, on peut diluer, mais on ne peut plus abluer…

Ce qui est amusant, c’est que si le monde des informaticiens anglo-saxons a une attitude très détendue envers le vocabulaire, la situation est différente au niveau des caractères. L’informatique ayant longtemps été cantonnée au système ASCII, l’apparition de tous ces caractères exotiques, et étrangers est accueillie une intransigeance qui laisserait admiratif n’importe quel immortel. Les mots français sont les bienvenus dans le melting-pot anglais, mais ils sont priés de laisser leurs accents au vestiaire. Les lettres grecques sont tolérées, à condition d’être cantonnées aux mathématiques. Les caractères les plus honnis sont probablement les 絵文字 (emoji) : graphiques, en couleur, et non-occidentaux, ils ont, qui plus est, la malheur de se trouver au delà de la ligne des 16 bits. Bref, ils sont fourbes…

L’ironie, c’est que ces accents étaient présent dans la langue anglaise, le magazine The New Yorker maintient fièrement les trémas dans ses textes. De même, les caractères graphiques étaient là bien avant l’ASCII que l’on considère aujourd’hui comme standard. Mon premier ordinateur utilisait un encodage particulier, PETSCII, à peu près compatible avec l’ASCII de 1963, pas la version de 1967 qui est la référence aujourd’hui. De fait, les caractères graphiques de cet ordinateur n’existent pas, même dans la version d’Unicode la plus exhaustive. Bref, l’informatique que j’ai vécu est aussi proche de l’informatique pure, que les textes de Rabelais du français classique, à chacun son âge d’or et son petit conservatisme…

9 thoughts on “Structures…”

  1. J’avais pas vu les choses sous cet angle.

    Noter que la révulsion envers ce qui n’est pas ASCII pur se retrouve chez certains informaticiens français, par paranoïa que ça bugge… Ah pourquoi a-t-il fallu que ce soit le peuple de la planète à l’alphabet le plus pauvre qui a inventé l’informatique ? Si ça avait été les Chinois ou les Japonais, on aurait démarré tout de suite en UTF-8 (je suis peut-être optimiste, là).

    Quant à créer des mots en français, c’est une question de s’y mettre. Des préfixes connus et des racines gréco-latines, ça s’insère finalement assez bien. Le vocabulaire technique est plein de ce genre de termes. Première tentative : trouver des équivalents à upload et download, « télécharger » n’indiquant pas le sens…

  2. Chinois et Japonais ont toujours été plutôt opposé à Unicode, et UTF-8 en particulier est très inefficace pour représenter les kanji, pour ce faire UTF-16 est bien plus approprié. Je soupçonne qu’on aurait plutôt eu du GB, et peut-être moins d’âneries pour les caractères romains, comme le fait qu’il y a des définitions multiples du A, deux définitions du “é” etc.

    Le problème des mots français basé sur les racines grecques ou romaines c’est que les suffixes tendent à être abstraits (comme télé) et le vocabulaire technique est très pauvre, le mots de guilde ayant été éliminés sous Louis XIV, certains survivent encore en suisse-romand, mais bon…

    La question n’est pas à mon avis de trouver les mots, mais d’avoir une culture ou chacun y va de sa tentative, et c’est le meilleur, celui qui reste dans les mémoires, qui reste. S’il faut attendre que les immortels légifèrent…

  3. Les immortels ne travaillent pas dans la même échelle de temps, ils ne sont là que pour entériner ce qui est passé et resté, en oubliant ce qui est passé et a disparu. Il n’y a qu’à relire Le Tour du Monde en 80 jours pour voir tout le vocabulaire technique pris de l’anglais et remplacé depuis.

    Pour UTF-8, 16, etc. je ne peux discuter des détails d’implémentation, surtout que les alphabets ont plein de variantes selon les langues (cf le ll espagnol, le œ français, le ü allemand qui vaut un ue, etc.)
    Mais le principe reste bon : une seule référence pour tout le monde, où on peut inclure tous les langages de l’humanité connus, passés et à venir.
    Japonais comme Chinois auraient peut-être limité leurs premiers systèmes à leurs idéogrammes et quelques caractères latins de base. Ce qui compte est d’abord la volonté d’ouverture, et les Américains auraient peut-être été moins pénibles s’ils avaient pu gaspiller les octets comme nous le faisons dès le début de l’informatique.

  4. Ce que je trouve intéressant c’est que dans les deux cas (Unicode et français), la standardisation est faite post-facto, en incluant les différents usages existants, dans les deux cas on préfère une approche énumérative plutôt qu’avoir un système de construction, donc on a beaucoup de caractères composites (accents, ligatures, double ponctuation, tous les kanji) et un mécanisme de composition incomplet. Comme on entérine des usages incompatibles on a aussi un résultat très incohérent.

  5. La standardisation post-facto, j’ai peur qu’on n’y échappe pas dans la vie réelle. Pour le HTML c’est un pareil. Le standard fait d’une feuille blanche a vite fait d’être débordé.
    C’est mieux quand il est là et qu’on le fait évoluer, mais pour tout ce qui est linguistique et interculturel, difficile de faire quelque chose qui tienne compte de tout, ne soit pas un carcan, et ne soit pas trop compliqué. Que le standard, même imparfait, existe, est parfois un petit miracle.

    Les caractères composites en français, je n’en vois pas tant que ça. On est très loin du vietnamien (peut-être un bon cas d’alphabet inadapté à une langue, comme le polonais ?), et il doit y avoir une partie qui tient plus de la typographie. Effectivement, on mélange allègrement l’équivalent linguistique des niveaux OSI.

  6. Caractères composites: é peut-être représenté de deux manières: 00E9 (é) ou bien 0065 (e) + 0301 (accent aigu), donc il faut toujours canonicaliser avant de faire quoi que ce soit…

  7. Pour le é qui existe en double, ça semble aberrant, parce qu’en français le e est une déclinaison du e. Si on veut garder le lien entre e et é, on doit garder le e+’.

    En danois, le å ou le ø sont considérés des lettres à part entière, pas des déclinaisons. Si je comprends bien Wikipédia, elles aussi existent en propre et en décomposé.

    Les deux versions se défendent, et si on veut faire un système international, on ne va pas faire des cas séparés suivant les langues d’origine. Gênant peut-être dans certains cas, mais c’est cohérent. Il manque peut-être un système d’alias entre les deux formes mais tu en sais plus que moi sur le sujet.

  8. En fait, l’existence des deux système n’a pas d’origine linguistique, les deux représentations sont considérées comme équivalentes, il s’agit simplement d’une standardisation post-facto: la plupart des caractères européens existent en forme pré-compositées (00E9) vu qu’il sont définis ainsi dans la norme ISO Latin-1. La forme décomposée existe parce qu’en vol on a réalisé qu’il était impossible/couteux de pré-compositer tous les caractères accentués (il y a des langues avec des doubles accents), donc la forme décomposée a été ajoutée à la norme… Mais c’est bien le problème, deux chaînes de caractères équivalentes ont deux représentations différentes, ce qui fout un sérieux bordel. Les systèmes informatiques s’accommodent mal de l’équivalence clé/clef.

Leave a Reply to Krysztof von MurphyCancel reply

This site uses Akismet to reduce spam. Learn how your comment data is processed.