Market Rsearch - 'flighs case'
De Case
Als free-lancer ben je benaderd door een luchtwaartmaatschapij die zich mogelijk wil gaan richten op de Amerikaanse markt. Jouw opdrachtgever heeft een aantal vragen waarbij hij jouw hulp wil.
De vragen hebben betrekking op de Amerikaanse vliegmarkt:
- Op welke luchthavens wordt het meest gevlogen?
- Vanaf welke luchthavens wordt het meest gevlogen?
- Wat zijn de drukste maanden, en wat de minst drukste?
- Hoeveel vluchten worden er per maand in totaal gemaakt.
- Welke luchtvaartmaatschappij legt de meeste vluchten af?
- Welke luchtvaartmaatschappij legt legt de meeste airmiles af?
- Welke luchtvaartmaatschapij vliegt op de meeste bestemmingen?
- Tussen welke twee vliegvelden is de vindt de meeste vertraging plaats.?
- Op welke vliegveld vind de meeste vertragin plaats door het taxiën?
Jouw opdrachtgever heeft alle vluchtinformatie van alle vluchten uit de USA uit 2015. Alle bovenstaande vragen kunnenn dus afgeleid worden uit de data van 2015.
De data bestaat uit drie bestanden:
- de vluchtgegevens
- de luchthaven gegegevens
- de airlines gegevens
Je krijgt een Excel sheet met drie tabjes waarin deze gegevens staan.
De vluchtgegevens zijn er dermate veel dat in de Excel sheet alleen de eerste 5000 vluchten zijn opgenomen. Het volledige bestand telt ruim 580 000 vluchten (en bijnan 600 MB). Als je PC krachtig genoeg is kun je het volledige bestand inlezen, anderes kun je volstaan met de eerste 5000 vluchten. Het gaat hierbij toch om een POC, Proof of Concept waarbij geldt dat als je queries werken op een set van 5000 dan werken ze ook op 100x zoveel vluchten. Het is sowieso aan te readen om eerst emet een kleine set data te werken. Het importeren van data en het testen van queries gaat dan namelijk veel sneller. Als je eenmaal hebt bedacht hoe je de database kunt opbouwen en hoe de queries er uit moeten zien, dan kun je altijd no opschalen naar de volledige data set.
Jij krijg ontvangt de Excel sheet van de opdrachtgever met de drie bestanden in drie afzonderlijke tabjes.
Een en ander kun je wellicht in Excel uitvoeren, maar Excel zal geen 500 000 regels kunnen verwerken, bovendien wil de klant mogelijk later nog meer vluchtgegvens (uit meer jaren) toevoegen en zal de data-set nog verder vergroten. We zullen de gegevens dus moeten importeren in een database.
Je hebt dus een aantal uitdagingen:
- Hoe krijg ik de Excel data in een (mySQL) database?
- Hoe controleer ik en weet ik zeker dat alle data goed in de database zit?
- Hoe maak ik de queries die antwoord geven op de door de klant gestelde vragen?
Succes!