Frekvenstabeller från språkdata

Diskussioner kring ORD-delen samt ORD-uppgifter
Användarens profilbild
Millepille
Stammis
Stammis
Inlägg: 432
Blev medlem: tor 17 jan, 2008 1:22

Frekvenstabeller från språkdata

Inlägg av Millepille »

Är det någon som, vid en egen sammanställning av ord, tar hänsyn till frekvenstabeller eller ordfrekvenser för att veta om ett ord verkligen används? Det sägs att Sandra Scott (provutvecklare för ORD delen) kollar upp detta - enligt artikeln * - vid Göteborgs universitet <http://spraakbanken.gu.se/>



* http://www.doidoidoi.se/artikel.asp?artid=24
Användarens profilbild
Kostym
Stammis
Stammis
Inlägg: 124
Blev medlem: lör 27 okt, 2007 23:45
Ort: Uppsala

Re: Frekvenstabeller från språkdata

Inlägg av Kostym »

Intressant intervju måste jag säga.
Användarens profilbild
Millepille
Stammis
Stammis
Inlägg: 432
Blev medlem: tor 17 jan, 2008 1:22

Re: Frekvenstabeller från språkdata

Inlägg av Millepille »

Kostym skrev:Intressant intervju måste jag säga.
När man söker på denna sida <http://spraakbanken.gu.se/> kan man t.ex. söka på gamla hp ord och få en översikt på vilka respektive områden (av en tidning gp? SvD?) orden används, och även i vilket sammanhang. Vilket kanske kan tas i betraktande när man väljer för att läsa en tidning. Verkar dock som om man bör (?) eller det kan vara bra att läsa hela tidningen, då orden används i väldigt många olika delar av en tidning.

Men jag håller med dig, visst är det intressant. Man vill liksom försöka få ut något konkret av det, men det leder väl, eller kan enbart leda till spekulationer?
Användarens profilbild
Asklepios
Stammis
Stammis
Inlägg: 174
Blev medlem: tis 03 jun, 2008 23:03

Re: Frekvenstabeller från språkdata

Inlägg av Asklepios »

Är det någon som har artikeln? Länken verkar inte funka längre.

Sen har jag märkt efter att ha gått igenom lite gamla ordprov och sökt på orden i språkbanken så verkar det som att varje ord är med minst ett flertal gånger. Så provförrättaren kanske har som kriterium att varje utvalt ord måste figurera i den så att det inte blir för ovanliga ord.

Detta borde man ju kunna utnyttja när man pluggar ord. Genom att slå upp ordet så ser man om det är värt att lära sig. Och på många av orden i HP-guidens ordlistor så får man 0 träffar på. Då kanske man kan strunta i dom. Eller vad säger ni?
Användarens profilbild
Asklepios
Stammis
Stammis
Inlägg: 174
Blev medlem: tis 03 jun, 2008 23:03

Re: Frekvenstabeller från språkdata

Inlägg av Asklepios »

Gjorde en liten sammanställning av det senaste ordprovet från VT08.

1. spritsa: 52 träffar
2. emalj: 64 träffar
3. fascination: 320 träffar
4. benägenhet: 386 träffar
5. expo: 347 träffar
6. inte ha något till övers för: går ej söka på fraser
7. dager: 271 träffar
8. imaginär: 36 träffar
9. med bravur: 166 träffar
10. killing: 97 träffar
11. gripa sig an: går ej söka på fraser
12. famla: 47 träffar
13. ekvivalent: 3 träffar
14. frispråkig: 135 träffar
15. hybris: 198 träffar
16. gå i svaromål: 100 träffar
17. projektera: 69 träffar
18. välbeställd: 55 träffar
19. biotop: 9 träffar
20. ledmotiv: 109 träffar
21. spjälka: 8 träffar
22. pjosk: 7 träffar
23. joint venture: går ej söka på fraser
24. epik: 31 träffar
25. falsarium: 21 träffar
26. substantiell: 28 träffar
27. konvalescens: 53 träffar
28. pagod: 9 träffar
29. hänförelse: 163 träffar
30. kampera ihop: 18 träffar
31. påstötning: 43 träffar
32. eternit: 41 träffar
33. trolös: 28 träffar
34. flagrant: 117 träffar
35. botanisera: 92 träffar
36. utmönstra: 4 träffar
37. reaktionär: 142 träffar
38. osökt: 229 träffar
39. gå i kvav: går ej söka på fraser
40. servitut: 20 träffar

Ang fraserna jag ej tog med så kan man söka på bara ett ord men det skulle i de fallen ovan ge en orättfärdig bild eftersom ett ord för sig kan ha en annan betydelse än själva uttrycket. T ex "gå i kvav" betyder "gå under" men bara "kvar" betyder "unken" eller "kväljande".


Ja, här ser man klart och tydligt. Alla ord finns med och majoriteten i ganska stor utsträckning. Så det kanske inte är helt fel att gå in och kolla om det ord man försöker lära sig är värt att göra eller inte.
Användarens profilbild
empezar
Platinapostare
Platinapostare
Inlägg: 6368
Blev medlem: tis 24 okt, 2006 2:00

Re: Frekvenstabeller från språkdata

Inlägg av empezar »

Det är dock två ord som bara har tre och fyra träffar, så då kan man praktiskt taget bara exkludera ord som har en eller mindre träff. Eller två om man känner sig äventyrslysten.
Användarens profilbild
Niveus
Silverpostare
Silverpostare
Inlägg: 1108
Blev medlem: ons 28 nov, 2007 19:23

Re: Frekvenstabeller från språkdata

Inlägg av Niveus »

Vart gjordes dessa sökningar?
Användarens profilbild
Asklepios
Stammis
Stammis
Inlägg: 174
Blev medlem: tis 03 jun, 2008 23:03

Re: Frekvenstabeller från språkdata

Inlägg av Asklepios »

empezar skrev:Det är dock två ord som bara har tre och fyra träffar, så då kan man praktiskt taget bara exkludera ord som har en eller mindre träff. Eller två om man känner sig äventyrslysten.
Japp, hade tänkt mig bara sådana med 0 träffar. I HPguidens ordlistor finns det en hel del såna ord. Kan återkomma med exempel senare.
Niveus skrev:Vart gjordes dessa sökningar?
http://spraakbanken.gu.se/konk/

Välj "frekv.tabell" innan du söker så den letar i flertalet korpusar.
Användarens profilbild
empezar
Platinapostare
Platinapostare
Inlägg: 6368
Blev medlem: tis 24 okt, 2006 2:00

Re: Frekvenstabeller från språkdata

Inlägg av empezar »

Kan vara jäkligt bra när man sätter ihop en lista från Bonniers ordbok.
Användarens profilbild
empezar
Platinapostare
Platinapostare
Inlägg: 6368
Blev medlem: tis 24 okt, 2006 2:00

Re: Frekvenstabeller från språkdata

Inlägg av empezar »

Ledsen att spräcka din bubbla, men din teori stämmer inte helt.

ht'07:

inkvartera 26
klinga (av) 234
villrådighet 39
grundval 353
övertalig 60
(inte) oäven 60
amnesi 8
flyktig 154
klenod 72
sitar 43
(helt) sonika 274
upptåg 266
linning 13
utvikning 37
propsa (på) 11
handgripligen 109
kvalster 57
doktrin 126
lidelse 314
nit 233
kortison 42
(ta) fasta (på) 4288
förestående 850
trägen 65
borgenär 62
skenhelig 15
behjärtansvärd 21
dryfta 110
procession 94
härleda 73
aber 46
förankra 300
avhängig 58
*** transpirera 0
malström 39
konnotation 2
allitteration 5
vidtala 1
skälmsk 6
wallraffa 7

Däremot kan man ju helt klart resonera så att man bör lära sig orden som finns med på den där sidan först. Siktar man på 40/40 så är det dock riskabelt.

Det vore intressant att se fler prov analyseras med hjälp av den där sidan.
Användarens profilbild
empezar
Platinapostare
Platinapostare
Inlägg: 6368
Blev medlem: tis 24 okt, 2006 2:00

Re: Frekvenstabeller från språkdata

Inlägg av empezar »

Nu har jag gått igenom samtliga tillgängliga ORD-prov och kan konstatera att 5% av alla ord har 400 eller fler träffar i språkbanken och 8,3% av alla ord har antingen noll träffar ELLER är en fras/idiom (majoriteten av dessa är fraser/idiom). Mitt underlag är 2010 ord från gamla högskoleprov.

Eftersom Bonniers ordbok har en träffsäkerhet på 39/40 på ORD-provet kan vi då dra slutsatsen att om man kan samtliga ord i Bonniers ordbok som får 1-399 träffar i språkbanken kommer man få 33-34 rätt på ORD-provet. Detta förutsatt att man inte kan ett enda ord utöver dessa samt att man inte kan några fraser/idiom alls. Man kan alltså räkna med ytterligare några rätt.

Edit: efter att ha tittat i Bonniers ordbok hur många ord som hamnar i detta intervallet (1-399) har jag räknat ut att det handlar om 28700 ord man måste lära sig. Så detta kanske inte är något som kommer underlätta ORD-plugget trots allt. Nöjer man sig med intervallet 1-50 behöver man "bara" lära sig 21400 ord, och då är man garanterad 20 rätt.
Användarens profilbild
Asklepios
Stammis
Stammis
Inlägg: 174
Blev medlem: tis 03 jun, 2008 23:03

Re: Frekvenstabeller från språkdata

Inlägg av Asklepios »

Tack empezar för den undersökningen! Synd bara att inte min teori höll. :( Ang. fraser/idiom så har jag märkt att det går att söka på dom inom citattecken om man söker på konkordans. Det går inte i varken frekvens eller frekv.tabell vilket är lite konstigt. Så uttrycken finns ju med fast då får man ju gå igenom varje korpus för sig för att få träffar och det är ju kanske inte så skoj.

Men men, har man ont om tid och inte hinner lära sig alla ord så kan ju språkbanken vara ett alternativ för att prioritera fram de viktigaste. Klart det funkar nog inte för att få 38-40 rätt men vill man ha 30+ så är det nog ett bra verktyg. Det är ju också bra för man ser ju i vilka meningar orden används så då är det lättare att sätta in dom i ett sammanhang. Det gör att man minns dom bättre.
Användarens profilbild
empezar
Platinapostare
Platinapostare
Inlägg: 6368
Blev medlem: tis 24 okt, 2006 2:00

Re: Frekvenstabeller från språkdata

Inlägg av empezar »

Absolut!

Tack för tipset ang. konkordans. Ska försöka komma upp med lite nya siffror.
Användarens profilbild
empezar
Platinapostare
Platinapostare
Inlägg: 6368
Blev medlem: tis 24 okt, 2006 2:00

Re: Frekvenstabeller från språkdata

Inlägg av empezar »

Höstens ORD-prov:

stuteri 43
abdikera 61
intensitet 739
replikera 35
komparativ 14
hisnande 591
aloe 15
intravenöst 47
smältdegel 72
datortomografi 38
infantil 40
korrespondera 11
blottställd 6
dissonans 17
esperanto 140
inbegripa 46
som förgjort 4
polityr 21
frist 199
bära hundhuvudet 5
public service 54
cirrus 16
*** anbelanga 0
uppdämt 115
kvotera 128
kanvas 5
*** det går på ett ut 0
internalisera 8
malör 16
pärlspont 22
materialisera 10
magenta 17
bister 320
adekvat 379
*** arkaism 0
stigmatisera 7
patriarkat 42
oktav 19
emfatisk 2
misstroendevotum 68

Tre ord/uttryck med 0 träffar, och tre ord med >300 träffar.
Användarens profilbild
Asklepios
Stammis
Stammis
Inlägg: 174
Blev medlem: tis 03 jun, 2008 23:03

Re: Frekvenstabeller från språkdata

Inlägg av Asklepios »

Intressanta siffror! Dock undrar jag hur du fick dom låga siffrorna på "bära hundhuvudet" och "som förgjort". Söker man på hundhuvudet så får man ju 62 träffar och på förgjort 39 träffar.

Ang. de ord som fick 0 träffar så är det som så att man kan behöva söka på olika böjningsformer av ordet för att få resultat. Bara anbelanga ger 0 träffar men t ex anbelangade ger 11 träffar. Arkaism ger 0 träffar men arkaisk ger 28 osv. Kan vara värt att veta om man använder språkbanken för att sortera ut vilka ord man ska plugga på inför nästa ordprov.
Skriv svar