|
‘É difícil mudar velhos hábitos’, é o que dizem. Os fornecedores de tecnologia exerceram tanta influência sobre os gestores de TI, que parecem tê-los convencido da visão tradicional de que o ÚNICO meio de armazenamento é o disco de alta performance. Armazenamento em disco pode ter sido a resposta no passado, numa outra era – mas simplesmente deixou de ser.
É verdade que, quando se trata de processamento OLTP, portanto da necessidade de processar transações com alta performance, os fornecedores do armazenamento tradicional em disco provavelmente estão certos. Se eu estivesse construindo um novo sistema online, iria querer meus dados armazenados no mais avançado, no mais rápido de todos os discos de alta performance. Porém o mundo não se resume ao ambiente OLTP. Considere o ambiente de data warehouse, por exemplo. Ele é ordens de magnitude maior do que o ambiente OLTP. O ambiente OLTP contava seu armazenamento em termos de megabytes e, talvez, um gigabyte. Já o ambiente de data warehouse conta seu volume em termos de centenas de gigabytes, terabytes, e até petabytes. Portanto estamos falando de volumes de dados drasticamente diversos. Mas há uma diferença muito mais importante entre os mundos do OLTP e do data warehousing no que diz respeito a armazenamento. Os padrões da probabilidade de acesso nesses dois ambientes diferem dramaticamente. No mundo do data warehousing, os dados se dividem em duas classes – dados ativamente utilizados e dados dormentes. Dados ativamente utilizados são aqueles que o usuário final examina com regularidade nas suas atividades normais de processamento. Dados dormentes são aqueles raramente (talvez nunca) acessados por quem quer que seja para fazer seja lá o que for. Eles simplesmente ficam lá no banco de dados, marcando passo. Normalmente, há uma pequena quantidade de dados ativamente utilizados, e uma grande quantidade de dados dormentes num data warehouse de grande porte. A probabilidade de acesso aos dados ativamente utilizados é muito diferente da probabilidade de acesso aos dados dormentes. Mas o mundo do OLTP é bem diferente quando visto pelo prisma da probabilidade de acesso. No mundo do OLTP, qualquer dado tem aproximadamente a mesma chance de acesso que qualquer outro dado. Uma transação online pode utilizar QUALQUER dado contido no ambiente OLTP. Portanto há uma probabilidade de acesso aproximadamente igual para todos os dados encontrados no ambiente OLTP. Assim, as probabilidades de acesso aos dados no data warehouse e no OLTP são muito diferentes. Todos os dados de OLTP possuem aproximadamente a mesma probabilidade de acesso, e alguns dos dados de data warehouse possuem uma alta probabilidade de acesso enquanto outros dados de data warehouse possuem uma baixíssima probabilidade de acesso, sendo este padrão aproximadamente o mesmo para qualquer data warehouse. Comparar esses dois ambientes quanto à probabilidade de acesso é como comparar maçãs e laranjas. Elas simplesmente não são a mesma coisa – mesmo. Agora, pense no fornecedor de disco conversando com o executivo de TI que está avaliando o armazenamento alternativo. O fornecedor de disco diz presunçosamente: “e a performance? Se você adotar o armazenamento alternativo, sua performance vai piorar”. O fornecedor de disco ressalta que a recuperação dos dados a partir do armazenamento em disco é mais rápida do que a partir do armazenamento alternativo. E extrai a conclusão de que todos os dados do data warehouse devem ser armazenados em disco. O pior, neste cenário, é que o executivo de TI realmente acredita no fornecedor de disco. Conquanto seja verdade que, para o acesso a um único dado qualquer, tal recuperação é mais rápida a partir do disco do que a partir do armazenamento alternativo, a conclusão é falsa. Num ambiente de data warehouse – COM TODA A ÊNFASE – NÃO se devem colocar todos os dados em disco de alta performance, porque a performance do data warehouse será prejudicada. Na verdade, a performance PIORA, PIORA MUITO, quando um data warehouse de grande porte é colocado inteiramente em disco de alta performance. Este cenário exige alguma explicação, por ser anti-intuitivo e se opor à sabedoria convencional (a qual, logicamente, é difundida pelos fornecedores de disco de alta performance). Considere dois warehouses que possuem exatamente a mesma quantidade de dados – digamos, 100 terabytes de dados (muito, por qualquer critério). Chamemo-los ‘warehouse A’ e ‘warehouse B’. Warehouse A consiste exclusivamente em disco de alta performance. Warehouse B, inteligentemente, dividiu seus dados. Um terabyte fica em disco de alta performance, e 99 terabytes, em armazenamento alternativo. Os dados armazenados em disco de alta performance no warehouse B são os dados ativamente utilizados. Os dados alocados em armazenamento alternativo no warehouse B são seus dados dormentes. Realmente, é necessário mais tempo para acessar os dados do armazenamento alternativo no warehouse B. Mas, como os dados ali contidos são dormentes, o acesso a esses 99 terabytes raramente ocorre. E, já que o acesso aos dados dormentes raramente ocorre, não se paga nenhum preço real em termos de performance ao tocá-los. Agora, qual dos dois warehouses é mais eficiente quanto ao acesso – warehouse A ou warehouse B? É claro que o warehouse B oferece um acesso muito mais eficaz. Ele traz todos os seus dados habilmente concentrados, tais que, quando uma consulta é submetida, fica fácil encontrar o que lhe é relevante. Há somente um terabyte de dados no warehouse B. Porém, quando a mesma consulta é submetida ao warehouse A, os mesmos dados necessários para respondê-la estão dispersos por 100 terabytes de dados. O sistema perde uma terrível quantidade de tempo procurando os dados consultados, pois tem de vasculhar verdadeiras “montanhas” de dados irrelevantes à consulta. A busca através de todos os dados indesejados – mesmo que eles residam em disco de alta performance – é de uma ineficiência grosseira. Ora, qual dos warehouses oferece o acesso mais rápido – aquele construído inteiramente sobre disco de alta performance, ou o warehouse baseado numa combinação de disco de alta performance com armazenamento alternativo? A resposta é (logicamente): o warehouse construído sobre uma combinação de armazenamentos. No mundo do warehousing hoje, é necessária uma grande quantidade de dados para se colherem os benefícios da migração dos dados para armazenamento alternativo. Estimo que a faixa dos 2 a 3 terabytes seja o break-even point para se passar ao armazenamento alternativo. Caso o seu volume de dados esteja abaixo de 2 – 3 terabytes, você provavelmente não precisa avaliar o armazenamento alternativo. Mas, se está lidando com mais de 2 – 3 terabytes, então você deve considerar seriamente o armazenamento alternativo. Se você está na faixa dos 10 terabytes ou mais, então está jogando dinheiro fora – rios de dinheiro – caso esteja tentando armazenar todos os dados em disco de alta performance. É claro que estas diretrizes estão sujeitas à mudança. A tecnologia muda e os custos mudam, portanto as diretrizes variarão com o tempo. Mas, no cenário atual, o que se propõe aqui está firmemente estabelecido. Quando seu fornecedor de disco tornar a dizer, presunçosamente, que a performance piora com a adoção do armazenamento alternativo, dê a ele uma cópia deste artigo e comece a procurar por um fornecedor que compreenda que a probabilidade de acesso aos dados num data warehouse é fundamentalmente distinta do acesso aos dados em OLTP. |