Een data lake is een centrale repository voor gestructureerde en ongestructureerde gegevens, die zijn verzameld uit verschillende bronnen.
Het doel van een data lake is om bedrijfsbeslissingen te ondersteunen door middel van analyse van gegevens, zonder dat deze vooraf worden opgeschoond en geclassificeerd.
Bijvoorbeeld, een bedrijf in de gezondheidszorg kan gegevens verzamelen over patiënten, ziekenhuisbezoeken en behandelingshistorie en deze opslaan in een data lake. Hierdoor kunnen zij nieuwe inzichten en verbanden vinden door middel van geavanceerde analysemethoden.