Headers uit de HTML 1
Neem de code van het volgende voorbeeld over.
import re
string = "De kat in de hoed wist dat de vleermuis daar was."
pattern = "de"
matches = re.findall(pattern, string, flags=re.I) # De vlag re.I maakt de zoekopdracht case-insensitive
print(matches)
De output zijn alle delen van de tekst die de regex matchen. Probeer maar!
Stel je hebt een webpagina. Dus de string is een webpagina, bijvoorbeeld als volgt:
string="<!DOCTYPE html><html><head><title>Mijn webpagina</title></head><body><h1>Mijn eerste kop</h1><p>Dit is een paragraaf.</p><h1>Mijn tweede kop</h1><p>Dit is nog een paragraaf.</p></body></html>"
Zet deze string nu in de code en vervang daarmee regel 3 (de regel van "De kat....").
Pas nu de reguliere expressie zodat alle <h1> stukken uit de tekst worden gehaald.
Opdracht
Lees de tekst hierboven!
Pas de voorbeeldcode aan.
Aanpassing 1
Zet op regel 3 de html-code zoals hierboven is gegeven.
Aanpassing 2
Verander de reguliere expressie (regex) zodat je alle h1 elementen uit de HTML-code laat afdrukken.
Inleveren
- Aangepaste code
- Een screendump waarin je laat zien dat je code werkt.
Let op, in de screendump moet je ook de datum en tijd van Windows zichtbaar maken!