Semistructured data, XML en querytalen > Inleiding

1. Inleiding

Een groot deel van de digitale informatie die tot onze beschikking staat is niet makkelijk te vatten in een structuur. Tenminste niet in een strakke structuur zoals die bestaat in een reguliere database omgeving. Een goed voorbeeld hiervan is de informatie die op het internet te vinden is. Deze informatie is vaak een stuk minder gestructureerd en alsof dat nog niet genoeg is, verandert het ook nog regelmatig, vaak zonder dat daar melding van gemaakt wordt.

Deze informatie wordt vaak semistructured data genoemd. Data die dus slechts op een zwakke of onbekende manier gestructureerd zijn. Deze vorm van data kan op het web gepresenteerd worden via XML (eXtensible Markup Language), een soort opvolger van HTML.

In de toekomst zal deze vorm van informatie een steeds grotere rol gaan spelen in de informatievoorziening. Doordat deze data echter afwijkt van de traditionele vorm van informatie zoals die te vinden is in database omgevingen, moet er ook opnieuw nagedacht worden over maniere waarop deze data te bevragen zijn. Er zullen nieuw manieren gezocht moeten worden om deze data te bevragen en de gewenste informatie er uit te filteren. Omdat de structuur een stuk minder vast ligt dan in een database, moeten deze nieuwe querytalen ook flexibel om kunnen gaan met de structuur van semisctrutured data. In deze structuur ligt ook informatie besloten die interessant en van belang kan zijn en een querytaal moet dan ook overweg kunnen met deze (flexibele) structuur. Verder moet een querytaal ook goed in staat zijn om de standaard taken uit te voeren die een gebruiker gewend is in bestaande database omgevingen. Hier bij valt vooral te denken aan de functionaliteit van SQL (Structured Query Language).

Maar wat zijn nu precies semistructured data nu precies en wat is XML precies. En aan welke eisen moet een querytaal voor deze vorm van data voldoen. Op deze vragen wil ik in deze litertauurstudie een antwoord proberen te vinden.

Mijn onderzoeksvraag is dan ook de volgende:

Wat zijn semistructured data (en XML in het bijzonder) en hoe kunnen deze gepresenteerd worden? Welke eisen worden er aan een querytaal voor XML gesteld en in hoeverre wordt dit ook toegepast in een aantal bestaande querytalen voor XML?

In deze literatuurstudie wordt dit op de volgende manier behandeld. In hoofdstuk 2 wordt eerst gekeken wat semistructured data zijn (2.1) en wat XML is (2.3). Ook wordt aandacht besteed aan hoe dit gerepresenteerd kan worden (2.2) en ten slotte wordt in 2.4 gekeken naar waar er nog problemen zijn of op welke gebieden meer onderzoek gewenst is. In hoofdstuk 3 worden de querytalen behandeld. Allereerst wordt gekeken aan welke eisen een querytaal zou moeten voldoen (3.1) en daarna welke querytalen er zijn en in hoeverre deze voldoen aan de eerder genoemde eisen (3.2). In 3.3 wordt vervogend dieper in gegaan op de query mogelijkheden van een aantal van de genoemde querytalen. Vervolgens worden hier aan conclusies verbonden in 3.4. In hoofdstuk 4 tenslotte worden de conclusies getrokken en antwoord gegeven op de onderzoeksvraag, natuurlijk gevolgd door een literatuurlijst.