HTML parsing
Met een hele eenvoudige regex kan je controleren of elke html <table> wordt afgesloten met een </table>.
Dit kan met het volgende Python programma.
import re
def validate_tables(html_text):
# Zoek naar alle geopende tabel tags
opening_tags = re.findall('<table>', html_text)
# Zoek naar alle gesloten tabel tags
closing_tags = re.findall('</table>', html_text)
# Controleer of het aantal geopende en gesloten tags hetzelfde is
if len(opening_tags) == len(closing_tags):
return True
else:
return False
html_text = """
<html>
<body>
<table>
<tr>
<td>Row 1, Cell 1</td>
<td>Row 1, Cell 2</td>
</tr>
<tr>
<td>Row 2, Cell 1</td>
<td>Row 2, Cell 2</td>
</tr>
</table>
</body>
</html>
"""
print(validate_tables(html_text)) # Dit zou True moeten teruggeven
xx