Frekvenstabeller från språkdata
- Millepille
- Stammis
- Inlägg: 432
- Blev medlem: tor 17 jan, 2008 1:22
Frekvenstabeller från språkdata
Är det någon som, vid en egen sammanställning av ord, tar hänsyn till frekvenstabeller eller ordfrekvenser för att veta om ett ord verkligen används? Det sägs att Sandra Scott (provutvecklare för ORD delen) kollar upp detta - enligt artikeln * - vid Göteborgs universitet <http://spraakbanken.gu.se/>
* http://www.doidoidoi.se/artikel.asp?artid=24
* http://www.doidoidoi.se/artikel.asp?artid=24
Re: Frekvenstabeller från språkdata
Intressant intervju måste jag säga.
- Millepille
- Stammis
- Inlägg: 432
- Blev medlem: tor 17 jan, 2008 1:22
Re: Frekvenstabeller från språkdata
När man söker på denna sida <http://spraakbanken.gu.se/> kan man t.ex. söka på gamla hp ord och få en översikt på vilka respektive områden (av en tidning gp? SvD?) orden används, och även i vilket sammanhang. Vilket kanske kan tas i betraktande när man väljer för att läsa en tidning. Verkar dock som om man bör (?) eller det kan vara bra att läsa hela tidningen, då orden används i väldigt många olika delar av en tidning.Kostym skrev:Intressant intervju måste jag säga.
Men jag håller med dig, visst är det intressant. Man vill liksom försöka få ut något konkret av det, men det leder väl, eller kan enbart leda till spekulationer?
Re: Frekvenstabeller från språkdata
Är det någon som har artikeln? Länken verkar inte funka längre.
Sen har jag märkt efter att ha gått igenom lite gamla ordprov och sökt på orden i språkbanken så verkar det som att varje ord är med minst ett flertal gånger. Så provförrättaren kanske har som kriterium att varje utvalt ord måste figurera i den så att det inte blir för ovanliga ord.
Detta borde man ju kunna utnyttja när man pluggar ord. Genom att slå upp ordet så ser man om det är värt att lära sig. Och på många av orden i HP-guidens ordlistor så får man 0 träffar på. Då kanske man kan strunta i dom. Eller vad säger ni?
Sen har jag märkt efter att ha gått igenom lite gamla ordprov och sökt på orden i språkbanken så verkar det som att varje ord är med minst ett flertal gånger. Så provförrättaren kanske har som kriterium att varje utvalt ord måste figurera i den så att det inte blir för ovanliga ord.
Detta borde man ju kunna utnyttja när man pluggar ord. Genom att slå upp ordet så ser man om det är värt att lära sig. Och på många av orden i HP-guidens ordlistor så får man 0 träffar på. Då kanske man kan strunta i dom. Eller vad säger ni?
Re: Frekvenstabeller från språkdata
Gjorde en liten sammanställning av det senaste ordprovet från VT08.
1. spritsa: 52 träffar
2. emalj: 64 träffar
3. fascination: 320 träffar
4. benägenhet: 386 träffar
5. expo: 347 träffar
6. inte ha något till övers för: går ej söka på fraser
7. dager: 271 träffar
8. imaginär: 36 träffar
9. med bravur: 166 träffar
10. killing: 97 träffar
11. gripa sig an: går ej söka på fraser
12. famla: 47 träffar
13. ekvivalent: 3 träffar
14. frispråkig: 135 träffar
15. hybris: 198 träffar
16. gå i svaromål: 100 träffar
17. projektera: 69 träffar
18. välbeställd: 55 träffar
19. biotop: 9 träffar
20. ledmotiv: 109 träffar
21. spjälka: 8 träffar
22. pjosk: 7 träffar
23. joint venture: går ej söka på fraser
24. epik: 31 träffar
25. falsarium: 21 träffar
26. substantiell: 28 träffar
27. konvalescens: 53 träffar
28. pagod: 9 träffar
29. hänförelse: 163 träffar
30. kampera ihop: 18 träffar
31. påstötning: 43 träffar
32. eternit: 41 träffar
33. trolös: 28 träffar
34. flagrant: 117 träffar
35. botanisera: 92 träffar
36. utmönstra: 4 träffar
37. reaktionär: 142 träffar
38. osökt: 229 träffar
39. gå i kvav: går ej söka på fraser
40. servitut: 20 träffar
Ang fraserna jag ej tog med så kan man söka på bara ett ord men det skulle i de fallen ovan ge en orättfärdig bild eftersom ett ord för sig kan ha en annan betydelse än själva uttrycket. T ex "gå i kvav" betyder "gå under" men bara "kvar" betyder "unken" eller "kväljande".
Ja, här ser man klart och tydligt. Alla ord finns med och majoriteten i ganska stor utsträckning. Så det kanske inte är helt fel att gå in och kolla om det ord man försöker lära sig är värt att göra eller inte.
1. spritsa: 52 träffar
2. emalj: 64 träffar
3. fascination: 320 träffar
4. benägenhet: 386 träffar
5. expo: 347 träffar
6. inte ha något till övers för: går ej söka på fraser
7. dager: 271 träffar
8. imaginär: 36 träffar
9. med bravur: 166 träffar
10. killing: 97 träffar
11. gripa sig an: går ej söka på fraser
12. famla: 47 träffar
13. ekvivalent: 3 träffar
14. frispråkig: 135 träffar
15. hybris: 198 träffar
16. gå i svaromål: 100 träffar
17. projektera: 69 träffar
18. välbeställd: 55 träffar
19. biotop: 9 träffar
20. ledmotiv: 109 träffar
21. spjälka: 8 träffar
22. pjosk: 7 träffar
23. joint venture: går ej söka på fraser
24. epik: 31 träffar
25. falsarium: 21 träffar
26. substantiell: 28 träffar
27. konvalescens: 53 träffar
28. pagod: 9 träffar
29. hänförelse: 163 träffar
30. kampera ihop: 18 träffar
31. påstötning: 43 träffar
32. eternit: 41 träffar
33. trolös: 28 träffar
34. flagrant: 117 träffar
35. botanisera: 92 träffar
36. utmönstra: 4 träffar
37. reaktionär: 142 träffar
38. osökt: 229 träffar
39. gå i kvav: går ej söka på fraser
40. servitut: 20 träffar
Ang fraserna jag ej tog med så kan man söka på bara ett ord men det skulle i de fallen ovan ge en orättfärdig bild eftersom ett ord för sig kan ha en annan betydelse än själva uttrycket. T ex "gå i kvav" betyder "gå under" men bara "kvar" betyder "unken" eller "kväljande".
Ja, här ser man klart och tydligt. Alla ord finns med och majoriteten i ganska stor utsträckning. Så det kanske inte är helt fel att gå in och kolla om det ord man försöker lära sig är värt att göra eller inte.
Re: Frekvenstabeller från språkdata
Det är dock två ord som bara har tre och fyra träffar, så då kan man praktiskt taget bara exkludera ord som har en eller mindre träff. Eller två om man känner sig äventyrslysten.
Re: Frekvenstabeller från språkdata
Vart gjordes dessa sökningar?
Re: Frekvenstabeller från språkdata
Japp, hade tänkt mig bara sådana med 0 träffar. I HPguidens ordlistor finns det en hel del såna ord. Kan återkomma med exempel senare.empezar skrev:Det är dock två ord som bara har tre och fyra träffar, så då kan man praktiskt taget bara exkludera ord som har en eller mindre träff. Eller två om man känner sig äventyrslysten.
http://spraakbanken.gu.se/konk/Niveus skrev:Vart gjordes dessa sökningar?
Välj "frekv.tabell" innan du söker så den letar i flertalet korpusar.
Re: Frekvenstabeller från språkdata
Kan vara jäkligt bra när man sätter ihop en lista från Bonniers ordbok.
Re: Frekvenstabeller från språkdata
Ledsen att spräcka din bubbla, men din teori stämmer inte helt.
ht'07:
inkvartera 26
klinga (av) 234
villrådighet 39
grundval 353
övertalig 60
(inte) oäven 60
amnesi 8
flyktig 154
klenod 72
sitar 43
(helt) sonika 274
upptåg 266
linning 13
utvikning 37
propsa (på) 11
handgripligen 109
kvalster 57
doktrin 126
lidelse 314
nit 233
kortison 42
(ta) fasta (på) 4288
förestående 850
trägen 65
borgenär 62
skenhelig 15
behjärtansvärd 21
dryfta 110
procession 94
härleda 73
aber 46
förankra 300
avhängig 58
*** transpirera 0
malström 39
konnotation 2
allitteration 5
vidtala 1
skälmsk 6
wallraffa 7
Däremot kan man ju helt klart resonera så att man bör lära sig orden som finns med på den där sidan först. Siktar man på 40/40 så är det dock riskabelt.
Det vore intressant att se fler prov analyseras med hjälp av den där sidan.
ht'07:
inkvartera 26
klinga (av) 234
villrådighet 39
grundval 353
övertalig 60
(inte) oäven 60
amnesi 8
flyktig 154
klenod 72
sitar 43
(helt) sonika 274
upptåg 266
linning 13
utvikning 37
propsa (på) 11
handgripligen 109
kvalster 57
doktrin 126
lidelse 314
nit 233
kortison 42
(ta) fasta (på) 4288
förestående 850
trägen 65
borgenär 62
skenhelig 15
behjärtansvärd 21
dryfta 110
procession 94
härleda 73
aber 46
förankra 300
avhängig 58
*** transpirera 0
malström 39
konnotation 2
allitteration 5
vidtala 1
skälmsk 6
wallraffa 7
Däremot kan man ju helt klart resonera så att man bör lära sig orden som finns med på den där sidan först. Siktar man på 40/40 så är det dock riskabelt.
Det vore intressant att se fler prov analyseras med hjälp av den där sidan.
Re: Frekvenstabeller från språkdata
Nu har jag gått igenom samtliga tillgängliga ORD-prov och kan konstatera att 5% av alla ord har 400 eller fler träffar i språkbanken och 8,3% av alla ord har antingen noll träffar ELLER är en fras/idiom (majoriteten av dessa är fraser/idiom). Mitt underlag är 2010 ord från gamla högskoleprov.
Eftersom Bonniers ordbok har en träffsäkerhet på 39/40 på ORD-provet kan vi då dra slutsatsen att om man kan samtliga ord i Bonniers ordbok som får 1-399 träffar i språkbanken kommer man få 33-34 rätt på ORD-provet. Detta förutsatt att man inte kan ett enda ord utöver dessa samt att man inte kan några fraser/idiom alls. Man kan alltså räkna med ytterligare några rätt.
Edit: efter att ha tittat i Bonniers ordbok hur många ord som hamnar i detta intervallet (1-399) har jag räknat ut att det handlar om 28700 ord man måste lära sig. Så detta kanske inte är något som kommer underlätta ORD-plugget trots allt. Nöjer man sig med intervallet 1-50 behöver man "bara" lära sig 21400 ord, och då är man garanterad 20 rätt.
Eftersom Bonniers ordbok har en träffsäkerhet på 39/40 på ORD-provet kan vi då dra slutsatsen att om man kan samtliga ord i Bonniers ordbok som får 1-399 träffar i språkbanken kommer man få 33-34 rätt på ORD-provet. Detta förutsatt att man inte kan ett enda ord utöver dessa samt att man inte kan några fraser/idiom alls. Man kan alltså räkna med ytterligare några rätt.
Edit: efter att ha tittat i Bonniers ordbok hur många ord som hamnar i detta intervallet (1-399) har jag räknat ut att det handlar om 28700 ord man måste lära sig. Så detta kanske inte är något som kommer underlätta ORD-plugget trots allt. Nöjer man sig med intervallet 1-50 behöver man "bara" lära sig 21400 ord, och då är man garanterad 20 rätt.
Re: Frekvenstabeller från språkdata
Tack empezar för den undersökningen! Synd bara att inte min teori höll. Ang. fraser/idiom så har jag märkt att det går att söka på dom inom citattecken om man söker på konkordans. Det går inte i varken frekvens eller frekv.tabell vilket är lite konstigt. Så uttrycken finns ju med fast då får man ju gå igenom varje korpus för sig för att få träffar och det är ju kanske inte så skoj.
Men men, har man ont om tid och inte hinner lära sig alla ord så kan ju språkbanken vara ett alternativ för att prioritera fram de viktigaste. Klart det funkar nog inte för att få 38-40 rätt men vill man ha 30+ så är det nog ett bra verktyg. Det är ju också bra för man ser ju i vilka meningar orden används så då är det lättare att sätta in dom i ett sammanhang. Det gör att man minns dom bättre.
Men men, har man ont om tid och inte hinner lära sig alla ord så kan ju språkbanken vara ett alternativ för att prioritera fram de viktigaste. Klart det funkar nog inte för att få 38-40 rätt men vill man ha 30+ så är det nog ett bra verktyg. Det är ju också bra för man ser ju i vilka meningar orden används så då är det lättare att sätta in dom i ett sammanhang. Det gör att man minns dom bättre.
Re: Frekvenstabeller från språkdata
Absolut!
Tack för tipset ang. konkordans. Ska försöka komma upp med lite nya siffror.
Tack för tipset ang. konkordans. Ska försöka komma upp med lite nya siffror.
Re: Frekvenstabeller från språkdata
Höstens ORD-prov:
stuteri 43
abdikera 61
intensitet 739
replikera 35
komparativ 14
hisnande 591
aloe 15
intravenöst 47
smältdegel 72
datortomografi 38
infantil 40
korrespondera 11
blottställd 6
dissonans 17
esperanto 140
inbegripa 46
som förgjort 4
polityr 21
frist 199
bära hundhuvudet 5
public service 54
cirrus 16
*** anbelanga 0
uppdämt 115
kvotera 128
kanvas 5
*** det går på ett ut 0
internalisera 8
malör 16
pärlspont 22
materialisera 10
magenta 17
bister 320
adekvat 379
*** arkaism 0
stigmatisera 7
patriarkat 42
oktav 19
emfatisk 2
misstroendevotum 68
Tre ord/uttryck med 0 träffar, och tre ord med >300 träffar.
stuteri 43
abdikera 61
intensitet 739
replikera 35
komparativ 14
hisnande 591
aloe 15
intravenöst 47
smältdegel 72
datortomografi 38
infantil 40
korrespondera 11
blottställd 6
dissonans 17
esperanto 140
inbegripa 46
som förgjort 4
polityr 21
frist 199
bära hundhuvudet 5
public service 54
cirrus 16
*** anbelanga 0
uppdämt 115
kvotera 128
kanvas 5
*** det går på ett ut 0
internalisera 8
malör 16
pärlspont 22
materialisera 10
magenta 17
bister 320
adekvat 379
*** arkaism 0
stigmatisera 7
patriarkat 42
oktav 19
emfatisk 2
misstroendevotum 68
Tre ord/uttryck med 0 träffar, och tre ord med >300 träffar.
Re: Frekvenstabeller från språkdata
Intressanta siffror! Dock undrar jag hur du fick dom låga siffrorna på "bära hundhuvudet" och "som förgjort". Söker man på hundhuvudet så får man ju 62 träffar och på förgjort 39 träffar.
Ang. de ord som fick 0 träffar så är det som så att man kan behöva söka på olika böjningsformer av ordet för att få resultat. Bara anbelanga ger 0 träffar men t ex anbelangade ger 11 träffar. Arkaism ger 0 träffar men arkaisk ger 28 osv. Kan vara värt att veta om man använder språkbanken för att sortera ut vilka ord man ska plugga på inför nästa ordprov.
Ang. de ord som fick 0 träffar så är det som så att man kan behöva söka på olika böjningsformer av ordet för att få resultat. Bara anbelanga ger 0 träffar men t ex anbelangade ger 11 träffar. Arkaism ger 0 träffar men arkaisk ger 28 osv. Kan vara värt att veta om man använder språkbanken för att sortera ut vilka ord man ska plugga på inför nästa ordprov.