Tilbake til blogg

Netthandelsblogg: AI

Slik sensurerte jeg 50 eksamener med hjelp fra AI

Karl Philip Lund
27.06.2023

Våren 2023 benyttet jeg AI som hjelpemiddel da jeg evaluerte ca. 50 studentoppgaver på 30-60 sider pr. oppgave.

Andre sensorer indikerte i forkant at de brukte fra 30-60 minutter på å evaluere en oppgave eller opptil 50 timer totalt på alle oppgavene.

Ved å bruke AI anslår jeg at jeg klarer å redusere evalureringstiden per oppgave til i snitt rundt 15 minutter. De dårlige oppgavene tok kortere tid. De gode oppgavene dedikerte jeg mye lenger tid på! Jeg vil faktisk hevde at bruken av AI i vurderingsprosessen har økt kvaliteten og ført til en mer rettferdig vurdering for studentene.

Her er prosessen jeg fulgte:

A. Finn riktig AI-verktøy B. Definer grunnleggende kvalitetsignaler og vurder helheten C. Still dokumentet spørsmål ved hjelp av AI D. Gjør manuell vurdering

Her er historien om hvordan jeg gikk frem:

A. Finn riktig AI-verktøy

Jeg brukte mye tid på å finne riktige AI-verktøy for å sensurere studentoppgaver.

Det dukker opp nye apper hver uke, og det var vanskelig å finne et godt alternativ. Til slutt fant jeg Humata, en ChatGPT for dokumenter. Tjenesten utvikles av en tidligere Stanford-student og brukes av utdanningsinstitusjoner over hele verden. Humata hevder at man ved hjelp av verktøyet kan gjøre research og lære 100x raskere! Humata fokuser på personvern og dokumentdata blir ikke brukt til å trene opp modellene. All data som sendes til/fra modellen slettes etter 30 dager.

I Humata kan jeg laste opp dokumenter og chatte med dokumentene. Selv om det tok tid å lære å bruke verktøyet effektivt, er det definitivt verdt det når jeg kan evaluere en oppgave på 10-15 minutter, sammenlignet med minimum 30-60 minutter per oppgave manuelt!

B. Definer grunnleggende kvalitetsignaler og vurder helheten

Før jeg begynte å bruke AI i sensureringsprosessen fikk jeg tilsendt en oppgave som flere sensorer uavhengig av hverandre hadde vurdert til karakteren A. Jeg analyserte A-oppgaven for å identifisere relevante kvalitetssignaler. Tanken var at jeg kunne bruke disse kvalitetsignalene til å evaluere de resterende oppgavene. (Satt på spissen tenkte jeg at jeg kunne gi A-er til alle oppgaver som lignet på A-oppgaven).

I det forberedende arbeidet fikk jeg god nytte av min kompetanse og erfaring med søkemotoroptimalisering (SEO). Prinsippene for god søkemotoroptimalisering kan brukes som utgangspunkt når man skal vurdere kvaliteten på et hvilket som helst dokument, også en studentinnlevering.

Et velstrukturert og godt organisert dokument med relevante overskrifter, relevante nøkkelord og andre kvalitetssignaler gjør det lettere for leseren å forstå innholdet - og dermed øker sjansen for at innleveringen får en høyere karakter.

På samme måte som en nettside bør være optimalisert for å rangere høyt i søkemotorer, bør en studentinnlevering være optimalisert for å kommunisere tydelig og effektivt med leseren (læreren eller sensor).

Grunnleggende kvalitetssignaler i A-oppgaven:

1. Tittel: Beskriver tittelen på dokumentet innholdet i dokumentet? 2. Innholdsfortegnelse: Gir innholdsfortegnelsen en god oversikt over innholdet i dokumentet? Er den for kort eller for lang? 3. Introduksjon/sammendrag: Inneholder oppgaven en kort introduksjon som gir leseren en kort innføring i hva oppgaven handler om? 4. Overskrifter: Inneholder dokumentet gode, beskrivende overskrifter som gjør det enkelt for leseren å scanne dokumentet? Er dokumentet logisk oppbygd? 5. Figurer/bilder: Inneholder dokumentet visuelle elementer som gjør det enklere å lese dokumentet? Er de visuelle elementene unike(egenutviklede) og veldesignede gjennom hele dokumentet? Finnes det relevante billedtekster som beskriver innholdet i figurene? 6. Tabeller: Finnes det gode tabeller som er enkle å lese? Er det tydelig definerte kolonneoverskrifter? 7. Formatering: Er paragrafene i dokumentet formatert og organisert på en måte som gjør det enkelt å lese? 8. Stavefeil: Studentinnleveringer bør ikke inneholde stavefeil. Stavefeil er enkle å unngå ved å bruke stavekontroll og få en person til å lese igjennom og korrigere stavefeil 9. Kildehenvisningene: Refererer dokumentet til pensum og andre troverdige kilder? (f.eks. En kilde som inneholder "gclid" indikerer at studenten har referert til en betalt Google annonse. Betalte annonser er som regel ikke troverdige kilder)

Når man scanner igjennom et langt dokument, får man raskt et inntrykk av kvaliteten ved å vurdere innholdet opp mot kvalitetsignalene.

Det er fullt mulig å manipulere en sensor ved å tilpasse oppgaven til å tilfredstille kjente kvalitetssignaler. Jeg sammenligner slik manipulasjon(eller påvirkning) med måten bedrifter jobber for å bedre plasseringen i Google. Hvis alle studenter vet om disse signalene, så vil det løfte kvaliteten på innleverte oppgaver og spare sensorer over hele verden for mye frustrasjon.

Jeg anbefaler forøvrig alle å gjøre seg kjent med pyramideprinsippet som i bunn og grunn også handler om god struktur og god kommunikasjon.

Så til bruken av AI!

C. Still dokumentet spørsmål ved hjelp av AI

Etter å ha definert grunnleggende kvalitetsignaler og vurdert helheten av dokumentene, gikk veien videre til å "chatte" med dokumentene.

I starten håpet jeg at riktig AI verktøy skulle gjøre hele jobben for meg, dvs. evaluere oppgavene og gi karakterer for meg, f.eks. "basert på vurderingskriteriene og oppgavesettet, hvilken karakter bør jeg gi oppgaven?"

Jeg tok grundig feil!

Så enkelt er det ikke.

Jeg spurte Humata grunderne om hjelp til å skrive gode prompter:

"Hey. I´m testing out Humata. I have uploaded 48 reports written by students. I´m trying to use Humata to evaluate the quality of the reports. Do you have any suggestions for prompts that I can ask in order to get a quick overview of the quality of the reports?"

Jeg fikk følgende svar:

"Hi Karl, this is a novel and creative use case. I don't have any suggestions for evaluation at bulk in the moment. Although, it would be great at evaluating the papers on a one-by-one basis. If there is a specific criteria for evaluation you can ask it that. For example, "Does this paper explain X in relation to Y?”

For instance, does the student discuss [X]'s role in the formation of [Y] and give reasons to support their conclusion?"

Jeg spurte deretter grunderen følgende spørsmål:

"I would like to do the following: Upload a student submission that is considered to be an "A" submission, high quality based on the grading criteria by human evaluators

Then I would like to use this to grade other similar submissions.

Is this a potential use case for Humata?"

Jeg fikk følgende svar

"Hi Karl, yes, this is a potential and very creative use case for the multi-document analysis mode."

Meg:

"Can you suggest a few prompts that could be used to test this?"

Svar:

"Since this is such a new use case I don't have any particular prompts that come to mind. If you have criteria that you used to deem the paper an "A", then you can turn such criteria into questions in which to ask other documents. That is the first thing to come to mind.

Another experimental strategy is to ask Humata to generate the prompt given your criteria. Although I would tread carefully with this direction."

Jeg testet mange prompter før tipset fra Humata-gründeren ledet meg i riktig retning.

Jeg leste vurderingskriteriene for eksamensoppgaven nøye og forsøkte deretter å omgjøre nøkkelkriteriene til fornuftige prompter.

Dette var en a-ha opplevelse for meg.

Jeg testet ulike prompter.

f.eks kriteriet:

"Anvend pensum og det du har lært gjennom hele semesteret"

omgjorde jeg til:

"Har studenten anvendt følgende pensum: Iversen, Aalen, Hanlon, Furu"

Denne prompten burde være relativ enkel å svare på og jeg ble overrasket over da Humata ikke svarte korrekt. Da jeg spurte Humata om årsaken, fikk jeg beskjed om at AI-modellen burde kunne svare presist på prompten, men at systemet er under utvikling og at de ville forbedre modellen basert på min input.

Etterhvert opplevde jeg at Humata fungerte godt til å trekke ut relevante utdrag av dokumentene basert på mine promtper.

Faktisk opplevde jeg at jo bedre oppgaven var, jo bedre klarte Humata å svare! For Humata-grunderen var dette ikke en overraskelse:

"Better submissions will perform better with Humata because there is more context from the writing to pull from."

Jeg var på gli! Jeg skrev 7 prompter som omhandlet ulike deler av innleveringene. For hver innlevering benyttet jeg samme prompter. Jeg gikk systematisk igjennom hver oppgave, leste igjennom tekstene og fikk på denne måten god oversikt over innleveringene. Metoden gjorde det også enklere å sammenligne dokumentene opp mot hverandre!

D. Manuell vurdering

Etter å ha vurdert helheten av dokumentene og brukt Humata til å vurdere ulike faglige deler av oppgavene, gikk veien videre til å gjøre en manuell vurdering av en begrenset del av teksten. Når man leser igjennom et utvalg av en tekst får man raskt inntrykk av skrivestilen i resten av dokumentet. I denne delen handler det om å vurdere den generelle flyten i språket til studenten.

Neste steg

AI er uten tvil spennende når det kommer til vurdering av studentoppgaver. Med riktig AI-verktøy og et sett av grunnleggende kvalitetssignaler, kan du raskt evaluere kvaliteten på dokumenter ved bruke AI til å hente ut relevante utdrag.

Å kombinere AI og manuell vurdering kan redusere tiden og innsatsen som kreves for å rette et stort antall oppgaver, noe som gjør det mer effektivt for både studenter og lærere. Så la oss fortsette å utforske hvordan AI kan brukes i utdanning for å maksimere fordelene samtidig som vi minimerer begrensningene.

Spørsmål og svar

"Gitt at du ikke laster opp studentens navn ser jeg ikke særlige personvernspørsmål her. Hva gjelder opphavsrett så må utdanningsinstitusjonen kunne ta kopier nødvendig for sensur uten samtykke. Ref også studireglement." https://twitter.com/VSondersrod/status/1673991917749645318 Vebjørn Søndersrød Leder IPR avd Advokatfirma Ræder, jus, GDPR, opphavsrett sivilprosess varemerke markedsføring personvern

"Gitt at du ikke lastet opp studentens navn ser jeg ikke særlige personvernspørsmål her. Hva gjelder opphavsrett så må utdanningsinstitusjonen kunne ta kopier nødvendig for sensur uten samtykke. Ref også studireglement." https://twitter.com/VSondersrod/status/1673991917749645318 Vebjørn Søndersrød Leder IPR avd Advokatfirma Ræder, jus, GDPR, opphavsrett sivilprosess varemerke markedsføring personvern

Googles algoritmer vurderer millioner av dokumenter (nettsider, artikler, osv) hver dag. Innhold av høy kvalitet rangerer høyt i søkeresultatene. Prinsippene bak hvordan Google evaluerer dokumenter kan overføres til en vurdering av en skoleoppgave. Les mer om hvordan Google vurderer innhold https://developers.google.com/search/docs/fundamentals/creating-helpful-content

Avisartikler om denne saken:

Slik sensurerte han 50 eksamener ved hjelp av kunstig intelligens (Khrono, 28. juni 2023)
Høyskolelektor sensurerte eksamensbesvarelser med AI (VG, 27. juni 2023)

Disclaimer: Da jeg begynte vurderingen, besluttet jeg å ikke bry meg om studentene brukte AI til å skrive oppgavene. Jeg forstår også at bruk av AI til å sensurere oppgaver kan være kontroversielt, men jeg tror faktisk at kvaliteten på evalueringen blir bedre!

PS. Dette innlegget er skrevet av meg, men jeg har brukt ChatGPT til å forbedre enkelte setninger;)