0
0

Ech si Logopädie-Studentin zu Rostock un der EUFH a wollt froen, ob et eng Wuertfrequenz-Datebank bzw. ee Rating-System gëtt, iwwert deen ee rausfanne kann, wéi eng déi heefegst Wieder am Lëtzebuergesche sinn. Oder gouf vläit schonn eng Studie iwwert den Thema verfaasst?

0
1

Et ass eng komplizéiert Affär, d’Heefegkeete vun engem Wuert an enger Sprooch – zouverlässeg – ze bestëmmen. Net nëmme brauch een en ëmfangräichen Text-Corpus, mee dee Corpus muss och ausbalancéiert sinn, d.h. verschidden Textzorten opweisen (geschwat/geschriwwen, formell/informell, asw.). Ënner Ëmstänn sinn nämlech jee no Textgenre d’Heefegkeeten anescht. Denkt un de Verglach vun Chat-Gespréicher mat Chambersrieden. Am Chat si méi Wierder fir den direkte Kommunikatiounskontakt ze fannen, wärend an de Rieden e méi breede Wuertschatz ze erwaarden ass. Eng Heefegkeetslëscht fir d’Lëtzebuergescht als Gesamtsprooch muss also dës Iwwerleeunge berücksichtegen. 

Den interene Corpus an eisem Institut (ca. 80 Millioune Wuertformen) besteet den Ament aus verschiddene Textgenrë mat engem Iwwergewiicht op formellen, schrëftlech konzipéierten Texter, wärend dat geschwatent Lëtzebuergescht aus dem Alldag manner vertrueden ass.

Eng virleefeg Heefegkeetslëscht kritt een, wann een einfach déi heefegst Wierder am Corpus zielt. Déi éischt 50 Wierder aus dësem Corpus weist déi folgend Tabell. 

Wuert Frequenz
1 an 1342876
2 d 876337
3 de 720080
4 den 622458
5 ass 605874
6 ech 595629
7 der 586166
8 net 525420
9 et 509873
10 vun 479664
11 och 416003
12 déi 405743
13 a 400267
14 op 376819
15 eng 355846
16 ze 346891
17 fir 346874
18 am 330088
19 mat 319512
20 dat 315369
21 huet 307143
22 een 277452
23 en 270178
24 e 254871
25 dann 250882
26 jo 249228
27 nach 229955
28 do 229531
29 hei 218720
30 lol 210295
31 sech 195640
32 sin 192310
33 wann 190968
34 du 190265
35 vum 187610
36 zu 181017
37 hun 178079
39 well 175917
40 mir 173689
41 dass 169250
42 ginn 167700
43 daat 166175
44 oder 163290
45 awer 157320
46 bei 156828
47 wéi 156018
48 dem 150866
49 sinn 148520
50 mer 147346

Insgesamt fënnt ee virun allem déi sou genannte Funktiounswierder, d.h. Artikelen, Conjonctiounen, Hëllefsverben, Präpositiounen oder Pronomen.

Et ass evident, dass dës ‚réi‘ Lëscht vill Elementer enthält, déi d’Interpretatioun schwiereg maachen:

  • Wierder mat applizéierter n-Regel gi separat gezielt (an an a)
  • Schreifvarianten/Schreiffeeler gi separat gezielt
  • Heefeg Ofkzierungen (lol aus dem Chat) an Nimm gi vum Programm wéi Wierder behandelt

Et ass dowéinst néideg, d’Lëscht ze ‚botzen‘ (Merci un eise Masterstudent Benoît :-)), fir irrelevant Wierder erauszegeheien. An der folgender Lëscht sinn elo just Verben, Substantiver, Adjektiver an Adverben. Trotzdeem muss och déi Lëscht als relativ virleefeg betruecht ginn.

Wuert Frequenz
1 ass 605874
2 huet 307143
3 dann 250882
4 hei 218720
5 sin 192310
6 hun 178079
7 ginn 167700
8 sinn 148520
9 as 140384
10 war 134832
11 gin 133170
12 leit 129458
13 joer 109256
14 elo 109132
15 hunn 106890
16 kann 99514
17 muss 92221
18 geet 82737
19 lo 81055
20 gëtt 76992
21 gouf 69880
22 soll 66710
23 hat 65584
24 just 62656
25 gudd 57313
26 haut 54046
27 soen 52046
28 emmer 51372
29 land 49800
30 kommen 48643
31 get 47438
32 maachen 47083
33 mellen 45360
34 einfach 43048
35 lëtzebuerg 42366
36 nemmen 41899
37 mengen 41786
38 kanner 40894
39 chatten 40690
40 hu 39238
41 wier 38221
42 goen 36431
43 hues 35080
44 ëmmer 34151
45 drop 33829
46 wees 33216
47 bass 33204
48 weider 32259
49 hätt 31770
50 fannen 31659
51 kritt 31631
52 merci 31123
53 privat 30664
54 salut 30145
55 waren 30062
56 euro 29965
57 besser 29814
58 gutt 29247
59 auto 29222
60 mussen 29100
61 moien 28776
62 gemaach 28653
63 kennt 28531
64 lëtzebuerger 28470
65 kennen 28084
66 soss 28030
67 nëmmen 27734
68 laang 27425
69 loscht 27258
70 mann 27217
71 nei 27035
72 nees 26570
73 komm 26436
74 géif 25608
75 schaffen 25515
76 kréien 25453
77 staat 25345
78 richteg 25186
79 kéier 25067
80 sollen 25009
81 gett 24829
82 wëll 23240
83 grouss 23030
84 mais 22951
85 kucken 22560
86 gesot 22352
87 erem 22228
88 regierung 22147
89 police 22121
90 gi 21849
91 kënnt 21684
92 gesin 21473
93 recht 21438
94 gemeng 21212
95 grad 20985
96 machen 20761
97 direkt 20604
98 gesinn 20528
99 misst 20366
100 goufen 20229
101 wär 20181
102 liewen 20060
103 huelen 19956
104 manner 19889
105 welt 19697
106 fro 19659
107 steet 19562
108 heescht 19493
109 fall 19460
110 so 19277
111 zäit 19193
112 kënnen 19190
113 zwee 19008
114 egal 18949
115 fueren 18785
116 auer 18574
117 nie 18407
118 owend 18254
119 fort 18104
120 schoul 18088
121 man 18030
122 stad 17945
123 kleng 17874
124 sichen 17874
125 seet 17830
126 ka 17637
127 mier 17576
128 geld 17323

 

Showing 1 result
Your Answer

Please first to submit.