Skip to main content

HTML parsing

Met een hele eenvoudige regex kan je controleren of elke html <table> wordt afgesloten met een </table>.

Dit kan met het volgende Python programma.

import re

def validate_tables(html_text):
    # Zoek naar alle geopende tabel tags
    opening_tags = re.findall('<table>', html_text)
    # Zoek naar alle gesloten tabel tags
    closing_tags = re.findall('</table>', html_text)

    # Controleer of het aantal geopende en gesloten tags hetzelfde is
    if len(opening_tags) == len(closing_tags):
        return True
    else:
        return False

html_text = """
<html>
<body>
<table>
<tr>
<td>Row 1, Cell 1</td>
<td>Row 1, Cell 2</td>
</tr>
<tr>
<td>Row 2, Cell 1</td>
<td>Row 2, Cell 2</td>
</tr>
</table>
</body>
</html>
"""

print(validate_tables(html_text))  # Dit zou True moeten teruggeven

 

xx