A virtualização de bigdata requer a compreensão dos princípios gerais da virtualização como um todo. A ideia essencial da virtualização é que os sistemas heterogéneos ou distribuídos são representados como sistemas complexos através de interfaces específicas que substituem o hardware físico ou as designações de armazenamento de dados por componentes virtuais. Por exemplo, na virtualização de hardware, o software transforma um sistema de computadores físicos num sistema de computadores "lógicos" ou virtuais. Uma forma de pensar num recurso de virtualização de grandes volumes de dados é como uma interface criada para tornar a análise de grandes volumes de dados mais fácil de utilizar pelos utilizadores finais. Alguns profissionais também explicam isto como a criação de uma "camada de abstração" entre os sistemas físicos de megadados, ou seja, onde cada bit de dados está alojado individualmente em computadores ou servidores, e a criação de um ambiente virtual que é muito mais fácil de compreender e navegar. A virtualização de grandes volumes de dados tem como objetivo combinar todas estas localizações distribuídas num elemento virtual simples. O mundo empresarial desenvolveu um conjunto sofisticado de ferramentas de análise de grandes volumes de dados, mas nem todas elas suportam o princípio da virtualização de grandes volumes de dados.