Market Research - 'flights case'
De Case
Als free-lancer ben je benaderd door een luchtwaartmaatschapij die zich mogelijk wil gaan richten op de Amerikaanse markt. Jouw opdrachtgever heeft een aantal vragen waarbij hij jouw hulp vraagt.
Vragen deel 1
De vragen hebben betrekking op de Amerikaanse vliegmarkt:
- Op welke luchthavens wordt het meest gevlogen?
- Vanaf welke luchthavens wordt het meest gevlogen?
- Wat zijn de drukste maanden, en wat de minst drukste (lees ook volgende vraag)?
- Let op, je kunt query (3) wel maken, maar je kunt deze lastig testen. Waarom, en wat zou je kunnen doen om dit wel te testen?
- Welke luchtvaartmaatschappij legt de meeste vluchten af?
- Welke luchtvaartmaatschappij legt legt de meeste airmiles af?
- Welke luchtvaartmaatschapij vliegt op de meeste bestemmingen?
- Maak een query die alle luchtvaarmaatschapijen laat zien die meer dan 350 bestemmingen hebben.
- Tussen welke twee vliegvelden vindt de meeste vertraging plaats.?
- Op welke vliegveld vind de meeste vertragin plaats door het taxiën?
Jouw opdrachtgever heeft alle vluchtinformatie van alle vluchten uit de USA uit 2015. Alle bovenstaande vragen kunnenn dus afgeleid worden uit de data van 2015.
Data
De data bestaat uit drie bestanden:
- de vluchtgegevens
- de luchthaven gegegevens
- de airlines gegevens
Je krijgt een Excel sheet met drie tabjes waarin deze gegevens staan.
PoC
De vluchtgegevens zijn er dermate veel dat in de Excel sheet alleen de eerste 5000 vluchten zijn opgenomen. Het volledige bestand telt ruim 580 000 vluchten (en bijnan 600 MB). Als je PC krachtig genoeg is kun je het volledige bestand inlezen, anderes kun je volstaan met de eerste 5000 vluchten. Het gaat hierbij toch om een POC, Proof of Concept waarbij geldt dat als je queries werken op een set van 5000 dan werken ze ook op een set van 580 000.
Het is in zijn algemeenheid aan te raden om eerst met een kleine set data te werken. Het importeren van data en het testen van queries gaat dan namelijk veel sneller. Als je eenmaal hebt bedacht hoe je de database kunt opbouwen en hoe de queries er uit moeten zien, dan kun je daarna opschalen naar de volledige data set.
Jij ontvangt een Excel sheet van de opdrachtgever met de drie bestanden in drie afzonderlijke tabjes.
Database
Eén en ander kun je wellicht in Excel uitvoeren, maar Excel zal geen 500 000+ regels kunnen verwerken, bovendien wil de klant mogelijk later nog meer vluchtgegvens (uit meer jaren) toevoegen en zal de data-set nog verder vergroten. We zullen de gegevens dus moeten importeren in een database.
De Uitdaging
Je hebt dus een aantal uitdagingen:
- Hoe krijg ik de Excel data in een (mySQL) database?
- Hoe controleer ik en weet ik zeker dat alle data goed in de database zit?
- Hoe maak ik de queries die antwoord geven op de door de klant gestelde vragen?
Planning
Maar voordat je met de uitvoering begint, denk eerst eens na over hoe je dit gaat aanpakken en maak een urenschatting. In het (mbo) examen zul je een Programma van Eisen en projectplan moeten opstellen. Dat gat hier te ver, maar bedenk wel voor jezelf welke stapjes je gaat doen en hoeveel tijd die kosten. Schrijf dit of leg dit vast op de computer. Het opstellen van een plan mag best wat werk kosten, want als het goed is kun je hier later veel tijd mee besparen.
Succes!
Excel bestand staat in Teams.