Semistructured data, XML en querytalen > Semistructured Data > Problemen en onderzoeksgebieden

2.4 Problemen en onderzoeksgebieden

Semistructured data zijn zelfbeschrijvend. Dit wil zeggen dat het schema uit de data te halen is en niet perse een van tevoren vaststaande structuur heeft. Het voordeel hiervan is dat er grote flexibiliteit zit in het verwerken van de data. Een ander voordeel wordt duidelijk als de structuur van de data verandert. Dit levert geen problemen op omdat het schema rechtstreeks uit de data gehaald wordt.

Er zijn echter ook nadelen aan verbonden.10 Op de eerste plaats is de data niet efficiënt op te slaan omdat het schema met ieder data item opnieuw moet worden opgeslagen. Als je dit niet zou doen, zou de samenhang van de verschillende data items verdwijnen en daardoor zou de data niet meer bruikbaar zijn. Een ander nadeel is dat de queries moeilijk te evalueren zijn. In het slechtste geval moet zelfs voor een simpele query de hele boomstructuur doorgewandeld worden. Het laatste en misschien wel grootste nadeel is dat queries moeilijk op te stellen zijn. Omdat er nauwelijks informatie is over de structuur is het voor de gebruiker lastig om relevante queries op te stellen.

In het gebruik van semistructured data valt vaak op dat er toch een redelijk regelmatige structuur te vinden is. Dit gegeven kan goed gebruikt worden om eerdergenoemde problemen het hoofd te bieden. Zonder van tevoren een vast schema op te stellen is het toch mogelijk om iets van een schema te maken. Er zijn twee categorieën:11

Met de opkomst van XML zijn er een aantal zaken rond semistructured data die nader bestudeerd zouden moeten worden. Dit komt zowel voort uit zaken die voortkomen uit het vergelijken van XML en semistructured data als uit mogelijkheden die XML applicaties zouden moeten krijgen:12

10) 'Semistructured Data & XML', Dan Suciu, blz. 6.
11) 'Semistructured Data & XML', Dan Suciu, blz. 6.
12) 'Semistructured Data & XML', Dan Suciu, blz. 7-10.