Formel søgning
Formel søgning ser kompliceret ud, men det er faktisk nemt at lære. KorpusDK benytter søgesproget fra korpusprocessoren CQP (Corpus Query Processor), og det er dette sprogs syntaks man taster ind under Formel søgning.
Søgeord
- [word="skade"]
- [lemma="skade"]
- [pos="N"]
- [lemma="skade" & pos="N"]
Et formelt søgeudtryk består af et eller flere søgeord efter hinanden på samme måde som et søgeudtryk i Standardsøgning består af et eller flere ord. Forskellen er at det formelle søgeudtryk ser lidt anderledes ud:
- Søgeordet står i kantede parenteser
- Et søgeord indeholder en eller flere attributter, der fortæller hvilken oplysningstype man søger efter
- For hver attribut opgives en værdi der bruges til at matche eksemplerne i korpus
I et standardsøgeudtryk kan det underforstås at det er en ordform man leder efter, fordi der kun er den ene mulighed. I Formel søgning må man vælge den ønskede oplysningstype (det kaldes en "søgeattribut") blandt de mulige.
Søgeudtryk i Standardsøgning: skade
Søgeudtryk i Formel søgning: [word="skade"]
Søgeattributter
Teksterne i KorpusDK er blevet opmærket med oplysninger om hvert enkelt ord. Det er disse oplysninger man søger efter ved hjælp af attributter. I KorpusDK drejer det sig om følgende: lemma, morph, ortho, pos og word. En samlet oversigt med forklaringer vises i boksen til højre for søgefeltet på siden Formel søgning. Der er også en beskrivelse i afsnittet Søgeattributter.
Det kan være nyttigt at kombinere flere søgeattributter ved hjælp af '&':
- En søgning på [word="alle"] finder forekomsterne alle, allé, Alle og Allé
- En søgning på [word="alle" & lemma="alle"] finder de samme former, men kun dem som hører til grundformen alle. På den måde sorteres flertalsforekomster af pronomenet al fra.
- Alternativt kan man søge på [word="alle" & pos="N"], dvs. den normaliserede ordform alle når den optræder som substantiv ("N"). Derved undgår man også forekomster af navne der indeholder Allé fordi navne er opmærket med PROP
Bemærk at teksterne er opmærket automatisk med oplysning om ordklasse og grundform for hvert enkelt ord. Der kan derfor være unøjagtigheder i opmærkningen. Læs mere om faldgruber ved korpussøgning.
Ordklasser
CQP's søgesprog er et internationalt søgesprog og er altså ikke tilpasset specielt til dansk. Det samme gælder det inventar som bruges i Danpars-taggerens opmærkning. Derfor kræver betegnelserne måske nogen tilvænning. De 4 mest almindelige ordklasser giver dog ganske god mening for danske brugere. Der anvendes følgende betegnelser:
| N | substantiv (navneord) |
| V | verbum (udsagnsord) |
| ADJ | adjektiv (tillægsord) |
| ADV | adverbium (biord) |
Der er i alt brugt 17 forskellige betegnelser for ordklasserne i opmærkningen af KorpusDK's tekster. Se hele listen i afsnittet Ordklasser
Flere ord
Hvis et søgeudtryk består af flere ord, skriver man blot søgeordene efter hinanden:
[lemma="holde"] [lemma="hånd"] [word="over"] finder eksempler som "holder hånden over" og "holde hænderne over". Bemærk at der for de to første søgeord er valgt attributten 'lemma' (opslagsform), hvilket betyder at søgningen finder alle bøjningsformer af de to ord.
Hvis der kan forekomme andre ord indimellem, indsætter man blot et tomt ord med et interval der specificerer hvor mange ord der kan optræde imellem:
[lemma="holde"] []{0,3} [lemma="hånd"] [word="over"] finder også forekomster af "holdt sin hånd over" og "holdt sin beskyttende hånd over".
Værktøjer
En søgning med Formel søgning kan med rette beskyldes for at være 'tastetung'. To værktøjer på siden for Formel søgning kan gøre indtastningen af et formelt søgeudtryk lidt nemmere:
- Tilføj nyt søgeord med attributter: Knappen tilføjer et formelt søgeord til søgefeltet med de tilvalgte attributter (genvejstast: n)
- Tilføj interval: Knappen tilføjer et interval (et antal vilkårlige ord) til søgefeltet (genvejstast: i)
Begge knapper indsætter tilføjelsen hvor markøren er placeret. Bemærk at det er muligt at benytte knapperne ved hjælp af genvejstaster.
Skabeloner
Det kan være svært at holde styr på de forskellige søgemuligheder med Formel søgning. Derfor er der indsat en oversigt nederst på siden for Formel søgning. Der er 2 muligheder:
- Eksempel: Klik på et eksempel for at indsætte det i søgefeltet og overskrive det der evt. står i søgefeltet. Søgningen kan herefter udføres med Søg-knappen, eller den kan redigeres til det ønskede udtryk.
- Skabelon: Klik på en skabelon for at tilføje den til søgefeltet. Den vil blive indsat på markørens plads i søgefeltet. Søgeskabelonerne kan dermed benyttes til at bygge en kompleks søgning op.
Bemærk at genvejstast+1-9 indsætter en af de 9 første skabeloner i søgefeltet. Læs mere om genvejstaster.
Eksperimentér
Det nemmeste måde at blive god til at formulere formelle søgninger er at eksperimentere sig frem. Det er nemlig sådan at et søgeudtryk "følger med" og bliver oversat når man skifter mellem de tre søgemuligheder. Hvis man derfor prøver at indtaste ordet "pandekage" i søgefeltet under Standardsøgning og derefter vælger Formel søgning, kan man se at søgeudtrykket oversættes til [word="pandekage"]. Har man forinden valgt Alle bøjningsformer, oversættes udtrykket til [lemma="pandekage"].



