| Dados. Cada coisa no seu lugar. |
| Escrito por W. H. Inmon | |
|
No data warehouse (DW), ao contrário do que diz o fabricante, para ganhar performance, o melhor é a mídia mais barata. Um dos desafios a vencer, na hora de construir um DW, é convencer o CIO (Chief Information Officer) de que, ao contrário do que ele vêm ouvindo ao longo do tempo (dito pelos fabricantes, claro!), a mídia de alta performance e, portanto, de alto custo, definitivamente, não é a única maneira segura de guardar informações estratégicas. O desafio é maior quanto mais difícil se torna mudar velhos hábitos. Mas sempre se pode argumentar com um fato inquestionável: escolher a mídia certa não significa optar pela mais cara. Pelo contrário, muitas vezes, a melhor escolha é a mais barata. Tudo depende da quantidade e tipo de informação que se deseja guardar, bem como do grau de importância e freqüência com a qual ela é requisitada dentro da corporação.
No contato com os CIOs acostumados ao velho modelo, costumo dizer que, para começo de conversa, o armazenamento em disco pode ter sido a resposta no passado, numa outra era - mas simplesmente deixou de ser. A exigência só existe quando se trata de processar informações com elevado índice de performance, caso do OLTP. Mas o mundo dos dados não se circunscreve ao ambiente OLTP, onde o volume de dados se mede em megabytes, no máximo em gigabytes, exigindo, portanto, menos espaço. No DW, estamos falando de dezenas de gigabytes, terabytes e até petabytes. Haja disco e dinheiro para gastar neles!
Nesse ambiente, de maneira ainda mais dramática do que no OLTP, o que vai determinar a mídia é a natureza da informação quanto ao uso. Os dados se dividem em duas classes: os ativamente utilizados e os dormentes. No primeiro grupo, encontram-se aqueles que o usuário final examina com regularidade, no dia-a-dia. Dados dormentes são aqueles que raramente são solicitados seja lá para o que for. É o caso de 70 a 80% (ou mais) do acervo!
Não é assim, de novo, no ambiente OLTP, característico das transações online. Nele, todos os dados praticamente têm a mesma chance de virem a ser requisitados. Ao contrário do DW, no qual alguns dados são bastante solicitados, outros nem tanto e alguns jamais, permanecendo guardados, muitas vezes, até mesmo por uma questão de exigência legal.
A despeito de tudo isso, quando se dirige ao CIO disposto a fazer por menos, economizando na construção do DW para investir em outros projetos, o fabricante logo vem com o argumento de sempre: "E a performance? Se você adotar o armazenamento alternativo, ela vai piorar", diz ele. Com o argumento de que a recuperação dos dados a partir do armazenamento em disco é mais rápida do que a partir do armazenamento alternativo, logo conclui que todos os dados do data warehouse devem ser armazenados em disco. Errado!
Se não bastasse tudo aquilo que já dissemos, saiba que o que está em jogo não é somente a questão de desperdício de dinheiro. Suprema ironia, quem quer maior performance num DW não deve colocar todos os dados em disco de alta performance! Isso mesmo! A performance piora - e muito - quando um data warehouse de grande porte é 100% armazenado em disco de alta performance.
Considere dois sistemas de DW que guardam, exatamente, a mesma quantidade de dados - algo em torno de 100 terabytes de dados: o DWA e o DWB. O primeiro está inteiro em disco de alta performance; o segundo, ao contrário, foi inteligentemente dividido em dois: um terabyte fica em disco de alta performance e 99 terabytes em mídia alternativa. Os dados armazenados em disco de alta performance no DWA são os dados ativamente utilizados. Os dados guardados em sistema alternativo, no DWB, são os dormentes. Realmente, é necessário mais tempo para ter acesso aos dados que ele guarda. Mas... e daí? Afinal, os dados que ele contém são dormentes. Em outras palavras, o acesso aos 99 terabytes raramente ocorre. E, se é assim, por que pagar mais para abrigá-los em mídia de alta performance?
Agora, qual dos dois sistemas de DW é mais eficiente? O A ou o B? O B, é claro! E por uma razão simples: em cada consulta aos dados ativos, buscará a resposta em apenas 1% dos dados que residem em disco. Já no DWA, a informação procurada estará dispersa por 100 terabytes de dados. O sistema perde tempo demais procurando os dados consultados, sendo obrigado a percorrer verdadeiras "montanhas" de dados irrelevantes.
Caso o volume de dados na sua empresa esteja abaixo de 2 - 3 terabytes, você provavelmente não precisa avaliar o armazenamento alternativo. Mas, se você está lidando com volume superior a esse, não se deixe levar pela conversa do fabricante e considere-a! Com isso, além de garantir a performance, você economizará dinheiro, ganhando poder de argumentação quando precisar justificar novos investimentos em TI. Acredite! |