Frekvenstabeller från språkdata

Diskussioner kring ORD-delen samt ORD-uppgifter
Användarens profilbild
empezar
Platinapostare
Platinapostare
Inlägg: 6368
Blev medlem: tis 24 okt, 2006 2:00

Re: Frekvenstabeller från språkdata

Inlägg av empezar »

Jag använder GP02 och söker på konkordans, inte på frekvens, när jag söker på fraser.
Användarens profilbild
Asklepios
Stammis
Stammis
Inlägg: 174
Blev medlem: tis 03 jun, 2008 23:03

Re: Frekvenstabeller från språkdata

Inlägg av Asklepios »

empezar skrev:Jag använder GP02 och söker på konkordans, inte på frekvens, när jag söker på fraser.
Aha, okej. :oops:
Användarens profilbild
Asklepios
Stammis
Stammis
Inlägg: 174
Blev medlem: tis 03 jun, 2008 23:03

Re: Frekvenstabeller från språkdata

Inlägg av Asklepios »

Kom av en slump över intervjun som länkas till i förstainlägget på den här tråden när jag var ute och "HP-surfade" lite. Tänkte att jag postar den här. :)


Från mångfacetterad till maskrosbarn - Så här går det till när Högskoleprovets ORD-del görs…

Sandra Scott är forskare vid Institutionen för beteendevetenskapliga mätningar på Umeå Universitet. Hon jobbar med att välja ut de ord som ska finnas med i ORD-delen av Högskoleprovet.

I radioprogrammet Språket sa du att orden som ni väljer ut ska vara levande. Vad betyder det?

– Att de används i svenskan idag. Vi får utgå från det som finns runt omkring oss, som finns i tidningar, tidskrifter, lexikon, det man stöter på. Ibland använder vi också ord från mer vetenskapliga texter.

Hur vet ni att ett ord verkligen används?

– Vi har hjälp av frekvenstabeller från Språkdata vid Göteborgs Universitet. Där finns det statistik på hur vanliga olika ord är. Men ofta märker man ju om ett ord är frekvent, det syns om det används ofta.

Men om högskoleprovet är till för dem som vill in på högskolan, borde man då inte ha mer ord som förekommer i akademiska texter?

– Nja, det är ett allmänt språk vi är ute efter. Vi tar från alla möjliga intressesfärer, det ska inte vara alltför fackspråkliga ord som bara folk i vissa branscher kan. Med mer riktade prov så stängs många ute, framför allt ungdomar som inte har jobbat upp samma ordförråd som äldre.

Just det. ORD-delen står för en tredjedel av poängen på provet. Men hur vet ni vad som är lagom lätta ord?

– Det ska inte vara för svårt, men måste ju ändå bli en rangordning. Annars fyller inte provet sitt syfte. Ungefär 55 % av deltagarna ska klara alla ord. En genomsnittlig provdeltagare ska alltså bara få 21,75 rätt. Vi genomför tester för att komma fram till hur svårt provet bör vara. Det är därför provdeltagarna får göra en av provdelarna två gånger. Den ena får man poäng på och den andra inte, men provdeltagarna vet inte vilken av delarna som räknas. Det går istället till testning.

Ordens svårighetsgrad varierar ju. I Språket sa du att det ska vara mellan 75-80% och ner till 25 % av provdeltagarna som ska svara rätt, beroende på ord. Hur är fördelningen? Hur många ord är svårare och hur många är lättare?

– Det finns ingen exakt fördelning. Men orden brukar vara lättare i början och svårare i slutet. Det är en fallande skala. Men det är också beroende på innehållet, att de inte ska krocka (två liknande ord efter varandra). Man vill ju göra ett snyggt prov, så att säga!

Hur går den där testningen till?

– Proven rättas alltid i en jätteavancerad scanner. I den sker någon sorts ihopkoppling med datorer som gör statistiska analyser på testdelarna. Det är ganska komplicerat det där. Men det brukar vara runt 1000 individer i varje utprövningsgrupp. Och oftast stämmer resultaten ganska bra med de procenttalen som vi har satt upp för hur många som ska klara det.

Men hur använder ni testresultaten sedan då?

– Dels så ser vi hur många som har svarat rätt. Om ordet är väldigt svårt kanske det ska tas bort. Men ibland händer det också att vi får förändra distraktorerna, alltså de felaktiga svarsalternativen.

Varför då?

– Vi har ju ett rätt svar och så distraktorer som ska dra ens uppmärksamhet bort från det rätta svaret. Men man får inte vara taskig och välja distraktorer som man vet är vanliga missförstånd. Då blir våra data jättekonstiga. Det måste vara så att det är de duktigaste, de med högst genomsnittspoäng, som väljer det rätta svaret. Om flera av dem väljer ett annat alternativ så tar vi bort ordet eller gör om uppgiften. Till exempel genom att ta bort den av distraktorerna som folk tror är rätt.

Finns det inget annat sätt att hitta lagom lätta ord på än att låta provdeltagarna slita med en extra provdel?

– I början gjorde man tester på gymnasieskolor istället, men eftersom eleverna inte fick ut något av det själva så var de flesta inte speciellt motiverade. Då blev det sämre data för oss att gå på.

Olika ord är olika svåra. I Språket sa du att det varierar mellan 75-80% och ner till 25 % av provdeltagarna som ska svara rätt. Hur är fördelningen? Hur många ord är svårare och hur många är lättare?

– Det finns ingen exakt fördelning. Men orden brukar vara lättare i början och svårare i slutet. Det är en fallande skala. Men det är också beroende på innehållet, att de inte ska krocka (två liknande ord efter varandra). Man vill ju göra ett snyggt prov, så att säga!

Hur långt innan ett prov börjar du leta nya ord?

– Jag har redan jättemånga ord, en del kan man ju spara. Det finns nog 5000-6000 ord i banken. Men det tar ganska lång tid innan provet blir klart. Nu i november ska vi slutgranska provet som ska gå i vår, och samtidigt granskar vi provet som ska gå i oktober. För oss är alltså tre prov aktuella samtidigt.

Är det andra som godkänner de orden du har valt?

– Jag sätter ihop provförslag i olika omgångar och en massa olika versioner till våra nationella granskare. Det är språkkunniga personer från runtom i landet som är med och sätter slutklämmen, sållar bland orden och säkerställer provets kvalitet. Mellan sju och nio personer brukar vara med varje gång. Ibland sitter det också med personer från Högskoleverket men de ingår inte i expertgruppen.

Så alla bestämmer tillsammans vilka ord som kommer med?

– Ja, vi brukar ha en dags konferens där vi pratar om varje ord. Vi funderar på om till exempel ungdomar och nysvenskar kan ordet och var man kan ha hört det. Det utgår mycket från skolan, om man kan ha fått lära sig ordet där.

Har ni haft fel betydelse som rätt svar på ett ord någon gång?

– Ja och nej. Det har hänt att folk som har överklagat sitt resultat har fått rätt på en annan betydelse. När det kommer in klagomål gör granskarna en ny bedömning. Oftast står de fast vid att vi har rätt. Men om de kommer fram till att två betydelser kan vara rätt så kan vi ändra i resultaten.

Hur kan det finnas flera rätt på ett och samma ord?

– Det kan ha att göra med betydelseglidning, att många personer använder ett ord på ett annat sätt än man gjorde från början. Men det kan också finnas en mer generös tolkning av ord, framför allt i synonymordböcker och äldre ordböcker. Ibland kan det ha att göra med facktermer inom till exempel ekonomi som har börjat användas på nya sätt. Fast jag minns bara ett tillfälle när vi har ändrat oss. Det gällde betydelsen av hermetisk.

Det verkar vara många äldre och lite konstiga ord med i provet. Kollar ni i SAOL att orden finns kvar där?

– Jo, vi har aldrig med ord som inte finns i ordlistan. Men det finns en tyngdpunkt åt det ovanligare hållet. Och de är ju inte helt nya heller, det händer att vi tar med ord som är klassade som ålderdomliga i ordböckerna. Det är granskarna som går igenom alla ord och tittar i olika lexikon för att se att de finns kvar. Vi använder oss mycket av SAOL, Nationalencyklopedin och Norstedts ordböcker, ja och Bonniers också…

Hur nytt får ett ord vara?

– Svårigheten med orden är att de kan variera rätt mycket. Ord kan bli svårare eller lättare på ett halvår. Man försöker undvika alltför fräscha ord för att de ska hinna sätta sig lite grann. Det tar ett tag att få in data. Granskarna gör också kontroller på hur mycket ordet används. Kollar frekvensen, funderar på hur det används, resonerar kring orden, om de har använts i något särskilt sammanhang. Man kan bli förvånad över att ett ord som verkar lätt kan vara svårförståeligt och tvärtom.

Har du några exempel på nya ord som ni har haft med?

– Ja, namedropping var med 2006. Det var väl inte direkt nytt men inte strindbergskt heller. Hospice var med 2005, det är ju inte heller så gammalt.

En sista fråga. Har du några favoriter bland alla provord?

– Det var en väldigt svår fråga. Jag har en viss svaghet för de äldre orden, till exempel gamla verb som är på väg att försvinna. Bespetsa sig på låter väl ganska trevligt. Det var med 2002. Men mina favoritord ligger kvar i banken, så dem kan jag ju inte säga!
Användarens profilbild
empezar
Platinapostare
Platinapostare
Inlägg: 6368
Blev medlem: tis 24 okt, 2006 2:00

Re: Frekvenstabeller från språkdata

Inlägg av empezar »

Asklepios skrev:Ungefär 55 % av deltagarna ska klara alla ord.
:o
eden
Stammis
Stammis
Inlägg: 458
Blev medlem: fre 24 aug, 2007 10:48

Re: Frekvenstabeller från språkdata

Inlägg av eden »

empezar skrev:
Asklepios skrev:Ungefär 55 % av deltagarna ska klara alla ord.
:o
instämmer! öhh..menar dom 5% kanske? :roll:
Användarens profilbild
Helsingborg
Stammis
Stammis
Inlägg: 348
Blev medlem: tis 18 nov, 2008 23:00
Ort: Helsingborg

Re: Frekvenstabeller från språkdata

Inlägg av Helsingborg »

Haha.

Man kan i teorin känna provskaparen och få reda på provet i förväg. Jag vet inte varför jag nämner det men ja.
Tack HPG för att ni existerar!
Användarens profilbild
empezar
Platinapostare
Platinapostare
Inlägg: 6368
Blev medlem: tis 24 okt, 2006 2:00

Re: Frekvenstabeller från språkdata

Inlägg av empezar »

Helsingborg skrev:Haha.

Man kan i teorin känna provskaparen och få reda på provet i förväg. Jag vet inte varför jag nämner det men ja.
Jag känner en utav provskaparna och hon berättade mindre för mig än vad som sades i den här intervjun.
Användarens profilbild
Asklepios
Stammis
Stammis
Inlägg: 174
Blev medlem: tis 03 jun, 2008 23:03

Re: Frekvenstabeller från språkdata

Inlägg av Asklepios »

empezar skrev:
Asklepios skrev:Ungefär 55 % av deltagarna ska klara alla ord.
:o
Hehe, känns lite felaktigt formulerat. Hon måste menat nåt annat. Har för mig att jag läst nånstans att runt 0,5 % av provtagarna spikar ORD-delen.

Annat intressant från intervjun var att de lätta frågorna kommer först och sen blir uppgifterna gradvis svårare. Det har man ju iof kunnat ana innan men kul att få det bekräftat. :)
Användarens profilbild
Modern
Stammis
Stammis
Inlägg: 169
Blev medlem: mån 31 mar, 2008 5:32

Re: Frekvenstabeller från språkdata

Inlägg av Modern »

Asklepios skrev:
empezar skrev:
Asklepios skrev:Ungefär 55 % av deltagarna ska klara alla ord.
:o
Hehe, känns lite felaktigt formulerat. Hon måste menat nåt annat. Har för mig att jag läst nånstans att runt 0,5 % av provtagarna spikar ORD-delen.

Annat intressant från intervjun var att de lätta frågorna kommer först och sen blir uppgifterna gradvis svårare. Det har man ju iof kunnat ana innan men kul att få det bekräftat. :)
Hon menar förmodligen att 55% ska få rätt på varje enskilt ord.
Användarens profilbild
empezar
Platinapostare
Platinapostare
Inlägg: 6368
Blev medlem: tis 24 okt, 2006 2:00

Re: Frekvenstabeller från språkdata

Inlägg av empezar »

Modern skrev:
Asklepios skrev:
empezar skrev:
:o
Hehe, känns lite felaktigt formulerat. Hon måste menat nåt annat. Har för mig att jag läst nånstans att runt 0,5 % av provtagarna spikar ORD-delen.

Annat intressant från intervjun var att de lätta frågorna kommer först och sen blir uppgifterna gradvis svårare. Det har man ju iof kunnat ana innan men kul att få det bekräftat. :)
Hon menar förmodligen att 55% ska få rätt på varje enskilt ord.
I så fall är ju alla orden lika svåra.
Användarens profilbild
Niveus
Silverpostare
Silverpostare
Inlägg: 1108
Blev medlem: ons 28 nov, 2007 19:23

Re: Frekvenstabeller från språkdata

Inlägg av Niveus »

Om man kickar 55 % rätt så får man 22 poäng. Är det där snittet brukar ligga?
Användarens profilbild
empezar
Platinapostare
Platinapostare
Inlägg: 6368
Blev medlem: tis 24 okt, 2006 2:00

Re: Frekvenstabeller från språkdata

Inlägg av empezar »

Niveus skrev:Om man kickar 55 % rätt så får man 22 poäng. Är det där snittet brukar ligga?
Det låter rimligt.
Skriv svar