Skip to main content

HTML parsing

Met een hele eenvoudige regex kan je controleren of elke html <table> wordt afgesloten met een </table>.

Dit kan met het volgende Python programma.

import re

def validate_tables_in_file(filename):
    with open(filename, 'r') as file:
        html_text = file.read()

    # Zoek naar alle geopende tabel tags
    opening_tags = re.findall('<table>', html_text)
    # Zoek naar alle gesloten tabel tags
    closing_tags = re.findall('</table>', html_text)

    # Controleer of het aantal geopende en gesloten tags hetzelfde is
    if len(opening_tags) == len(closing_tags):
        return True
    else:
        return False

print(validate_tables_in_file('your_file.html'))  # Vervang 'your_file.html' met de naam van je bestand

Maak een HTML test bestand en test de code uit.

Opdracht

Je maakt twee aanpassingen aan de code.

Aanpassing 1

Pas de code zodat je kan controleren of je alle <div> elementen hebt gesloten. Maak twee voorbeeld bestanden; één juiste en één onjuiste waarmee je laat zien dat je code werkt. Gebruik tenminste 6 div elementen in deze voorbeelden.

Aanpassing 2

Zorg ervoor dat de code de naam van het bestand afdrukt en daarachter of dit bestand goed is.

Inleveren

  1. De aangepaste code.
  2. Jouw eigen voorbeeld bestanden.
  3. Een screendump waarin je laat zien dat je de code hebt uitgevoerd met de resultaten.