Analyse des fréquences en français


Pour établir les statistiques ci-dessous, nous avons utilisé un corpus de 10'525'096 lettres composés des ouvrages suivants, téléchargés sur le Projet Gutenberg :

L'île mystérieuse, Jules Verne, 1875, 947'887 lettres
Uranie, Camille Flammarion, 1889, 240'032 lettres
La mission Marchand, Paul d'Ivoi, 1899, 173'081 lettres
La sorcellerie, Ch Louandre, 1853, 150'479 lettres
Les contes de la bécasse, Guy de Maupassant, 1883, 157'383 lettres
Nord-Sud, René Bazin, 1913, 269'802 lettres
La marquise, George Sand, 1832, 59'273 lettres
La sagesse et la destinée, Maurice Maeterlinck, 1908, 235'901 lettres
Bouvard et Pécuchet, Gustave Flaubert, 1881, 429'014 lettres
Lettres de mon moulin, Alphonse Daudet, 1869, 218'750 lettres
Les Peintres Cubistes, Guillaume Apollinaire, 1913, 68'404 lettres
De l'origine des espèces (trad. française), Charles Darwin, 1859, 1'121'579 lettres
Psychologie des foules, Gustave Le Bon, 1895, 253'862 lettres
La bête humaine, Emile Zola, 1890, 592'675 lettres
Le musée du Louvre tome 1, Armand Dayot, 1912, 190'137
Réflexions sur quelques points de littérature et de morale, André Gide, 1912, 245'321 lettres
Paris tel qu'il est, Jules Noriac, 1884, 242'619 lettres
Notre-Dame de Paris, Victor Hugo, 1831, 814'414 lettres
A rebours, J.-K. Huysmans, 1920, 348'795 lettres
La comédie humaine, 5ème volume, Première partie, deuxième livre, Honoré De Balzac, (de 1829 à 1855), 914'590 lettres
L’ebook a 40 ans (1971-2011), Marie Lebert, 2017, 273'196 lettres
La guerre des mondes (trad. française), H. G. Wells, 1906, 314'053 lettres
Le comte de Monte-Christo, Alexandre Dumas, tome 1, 1846, 562'389 lettres
A la recherche du temps perdu, Marcel Proust, Du côté de chez Swann, 1913, 785'148 lettres
Récits d'un soldat, Amédée Achard, 1871, 202'261 lettres
Oliver Twist (trad. française), Charles Dickens, 1837, 714'051 lettres

Les lettres accentuées ont été remplacées par des lettres non accentuées et les cédilles ont été enlevées aux c. Les espaces et les ponctuations ont aussi été supprimés.


Fréquences d'apparition des lettres
Lettre Fréquence Lettre Fréquence
A 8.15 % N 7.12 %
B 0.97% O 5.28 %
C 3.15 % P 2.80 %
D 3.73 % Q 1.21 %
E 17.39 % R 6.64 %
F 1.12 % S 8.14 %
G 0.97 % T 7.22 %
H 0.85 % U 6.38 %
I 7.31 % V 1.64 %
J 0.45 % W 0.03 %
K 0.02 % X 0.41 %
L 5.69 % Y 0.28 %
M 2.87 % Z 0.15 %


Statistiques obtenues à partir d'un corpus de 10'525'096 lettres.

Histogramme par ordre alphabétique

Histogramme par ordre décroissant des fréquences

Fréquences des bigrammes
  _A _B _C _D _E _F _G _H _I _J _K _L _M _N _O _P _Q _R _S _T _U _V _W _X _Y _Z
A_ 3537 23450 39613 20580 4669 12320 21320 2766 169000 3504 140 51993 30648 130219 1319 38198 6331 81807 51131 45051 67634 47167 116 219 4962 539
B_ 11841 564 135 147 13761 27 7 59 14222 609 15 23257 58 74 15273 66 54 15182 3074 854 3329 30 0 0 102 3
C_ 25501 202 6120 1743 91946 243 119 47972 19569 136 491 11212 580 237 73848 679 1504 15868 2427 13967 14771 248 18 0 1837 5
D_ 47824 213 941 2640 207480 377 2163 25 43528 677 2 1582 2460 741 23384 1152 675 12471 4931 586 37333 543 79 2 383 3
E_ 53798 16856 97158 95752 70997 30840 19847 7275 27880 15896 271 137491 98600 231193 11918 75241 31396 160602 324798 164686 92760 40827 559 10883 850 12429
F_ 25455 37 403 679 15904 12839 26 137 17604 103 1 5534 211 163 19713 197 232 9664 1202 917 6531 81 3 1 4 1
G_ 11893 25 140 510 33968 73 245 192 7616 29 1 4181 581 9951 4227 100 74 17042 556 2077 8029 31 13 0 337 9
H_ 24584 729 331 239 34547 67 41 17 7038 129 7 379 458 406 13573 164 140 875 276 892 3679 135 26 0 1135 3
I_ 15290 8011 18720 19686 105084 10707 13762 419 2023 2220 431 91035 21179 89746 32811 8225 13624 51956 101528 137743 1380 18923 3 4207 72 825
J_ 9405 1 6 5 21546 2 0 19 121 1 4 12 4 5 10705 5 0 3 15 6 5886 20 0 0 164 0
K_ 213 9 22 57 825 25 20 39 475 29 30 165 20 17 66 46 21 80 252 17 19 7 22 0 34 1
L_ 127575 860 3084 4889 237076 3240 1381 4779 39564 609 43 61457 2913 5734 30619 3592 6426 1889 16055 4311 37615 1901 20 17 3241 55
M_ 56443 14516 449 1107 109793 140 227 70 26522 84 3 630 25756 590 36174 22105 87 131 722 515 5246 125 131 5 739 15
N_ 45221 3605 50334 68253 117358 12430 18320 3146 26703 3161 347 9592 8532 26568 35058 14230 8592 6836 86583 180982 11350 9502 87 144 2012 659
O_ 303 5959 8932 5665 4526 4299 4083 1086 56268 493 330 17085 40478 152875 611 7564 1796 51174 16177 17022 150002 1442 576 152 6463 78
P_ 66118 98 465 1648 51261 136 93 4724 12606 91 4 32436 225 126 47883 11609 150 43560 5454 4846 10650 1 0 0 179 8
Q_ 135 9 99 40 30 27 16 107 7 29 3 42 154 5 58 58 10 13 48 2 126434 10 0 0 0 0
R_ 84248 4969 22148 35935 224588 3759 7193 944 58853 1972 131 32001 18083 10574 50799 8919 8146 19665 42928 37012 16863 7616 116 6 880 108
S_ 88345 8621 38181 62122 149275 12792 6537 5421 62203 6913 140 46271 21986 12192 60339 46184 26967 13219 76763 58409 38175 10697 864 232 3967 143
T_ 89665 5532 21481 48831 169208 6015 2709 6614 71585 5523 35 43170 11007 5969 43247 31049 15631 72601 41234 33819 27425 6406 138 21 906 247
U_ 17491 6879 17366 16288 93967 5668 4902 821 73287 4860 34 24797 14391 70915 5423 17337 2549 110589 75354 52749 3357 23751 68 27688 966 397
V_ 38385 0 6 14 57808 9 2 1 28637 0 0 53 22 3 35211 13 8 9863 21 56 2617 2 0 0 52 0
W_ 1083 7 17 13 659 6 7 51 406 21 20 27 10 222 152 11 13 25 54 19 7 9 9 0 37 0
X_ 3736 841 3703 3994 5085 1162 510 960 3307 582 22 1524 2094 628 956 5090 2335 772 1875 2744 395 960 7 57 288 20
Y_ 8970 373 732 427 7351 260 135 36 157 86 6 1079 821 230 1214 1530 128 2282 2982 489 38 263 18 13 3 28
Z_ 1173 376 655 1200 2099 179 104 51 431 177 0 1928 1053 223 859 1126 447 288 524 300 369 1964 12 0 38 56

 

Bigrammes les plus fréquents en français

ES
LE
EN
RE
DE
NT
TE
AI
ET
ER
324798
237076
231193
224588
207480
180982
169208
169000
164686
160602

Liste complète ici
(649 bigrammes différents, ce qui représente 96.01% de tous les bigrammes théoriquement possibles)

Trigrammes les plus fréquents en français

ENT
LES
AIT
QUE
EDE
DES
LLE
RES
ANT
TRE
93518
75458
71946
71615
55359
51738
48108
46646
46436
42732

Liste complète ici
(8870 trigrammes différents, ce qui représente 50.47% de tous les trigrammes théoriquement possibles)

Tétragrammes les plus fréquents en français

MENT
ELLE
QUEL
EMEN
TION
DANS
IENT
ESDE
DELA
OMME
30207
28622
23983
22824
20768
20276
19220
18171
17248
16947

Liste complète ici (68'183 tétragrammes différents, ce qui représente 14.92% de tous les tétragrammes théoriquement possibles)

Pentagrammes les plus fréquents en français

EMENT
AIENT
ETAIT
DANSL
COMME
AVAIT
ATION
CETTE
ELLES
UELLE
21901
15623
12410
11763
11041
10521
10376
7575
7376
7003

Liste complète ici (314'949 pentagrammes différents, ce qui représente 2.65% de tous les pentagrammes théoriquement possibles)

Hexagrammes les plus fréquents en français

DANSLE
LEMENT
QUELLE
QUELQU
UELQUE
DANSLA
ENDANT
TAIENT
ENCORE
EMENTD
6587
6062
5466
5322
5033
4220
3885
3861
3631
3471

Liste complète ici (968'909 hexagrammes différents, ce qui représente 0.31% de tous les hexagrammes théoriquement possibles)


Exercices

Programmation

Ecrivez un programme Python qui calcule les fréquences d'apparition des lettres d'un texte. Solution.

Ecrivez un programme Python qui dessine l'histogramme des fréquences d'apparition des lettres d'un texte. Solution.


Licence Creative Commons Didier Müller, 31.1.21