Internet Security Threat Report 2014
O valor da gestão empresarial associada com lâminas modernas fez-se sentir para mim. Ao mesmo tempo, eu entendo o valor que os sistemas "unblade", tais como os sistemas Supermicro Série Dupla ou Open Compute, pode trazer.
Custo, eo que você pretende fazer com as coisas, são, como sempre, o determinante, mas não há vencedores claros e não há vilões gananciosos que podem ser encontrados aqui.
Eu quero voltar em um pouco no tempo: a julho de 2014, e os preparativos para VMworld. Eu tinha acabado de comprar um novo Supermicro F627G2-F73PT + FatTwin, um de seus modelos de GPU-capable.
Micron lascado em um monte de M500DC SSDs e Nvidia um par de GRID K2 cartões. Supermicro lascado num SSE-X3348T interruptor e meu laboratório estava quase começando a parecer respeitável.
Eu ocasionalmente desfrutar de testar coisas consumidor: alto-falantes Bluetooth , por exemplo. Mas eu tenho sido repetidamente pediu para testar equipamento ligado para a mid-range e de nível de entrada da empresa.
Meus sonhos de responder ao pedido dos meus leitores foram jubilantly eufórico. Eu estava indo para testar SANs servidor, VDI reforçada-GPU e uma lista, desde que meu braço de outras coisas.
Se você busca de opiniões com o meu nome neles, você vai notar uma escassez deles nos últimos meses. As razões são tanto de negócios como intricada técnica, mas uma coisa que se destaca: olhando para trás, o tipo de software de gestão empresarial que acompanha servidores blade high-end teria me salvou meses de esforço e dezenas de milhares de dólares.
Trial by calvário
Para um exemplo de valor nos últimos meses de esforços na criação de protótipos de novas construções e componentes de teste, vamos olhar para o meu teste de cartões de rede da Nvidia ao lado da VMware Horizon View.
Eu finalmente acabou com um sistema que mostrou o quão incrível essa configuração poderia ser, mas a viagem para chegar lá serve como uma grande demonstração de porque os cartões GRID tendem a estar disponíveis apenas em sistemas de pré-enlatados.
Para chegar Nvidia GRID cartões funcionando corretamente você precisa de três coisas: o cartão, um hypervisor que joga bonito com os outros e um BIOS que suporta todo o assunto. Quando você colocá-lo em conjunto, é incrível.
Eu não ligo para o que os pessimistas VDI pensar, Nvidia VDI-powered GRID é uma tecnologia tão bonita que ele queimou uma década de cinismo cansado e lembrou-me porque eu entrei em primeiro lugar.
Na iteração atual que você precisa para obter a combinação de componentes e configurações corretas. Se você quer fazer GPU-to-Virtual Machine passar, então no Supermicro BIOS se certificar de que "acima 4G decodificação" está desativado.
Olhe através deste PDF para o pciHole.start = informação "2048" e aplicá-lo à sua máquina virtual. Não coloque o vib motorista Nvidia na linha de comando ESXi.
Em teoria, o acima permite que você passe um GPU através de uma máquina virtual, e então você pode jogar Espaço Engineers por dois dias sólidos fazer alterações de desempenho, se você quer fazer GPUs totalmente virtualizados.
Agora, vamos adicionar na parte em que, sem o conhecimento de mim, havia um bug nesta configuração específica, de modo que um ESXi 5.5 RTM instalar passaria ambos os GPUs da K2 através de diferentes máquinas virtuais, mas ESXi 5.5 U2 iria funcionar corretamente apenas quando Eu escolhi para restringir o meu passe através de uma das GPUs.
Se eu tentasse passar por tanto, ele seria um fracasso sem erros úteis. Mas eu achei que eu poderia carregar o driver Nvidia sob essa configuração e ambos passam por uma das GPUs, bem como executar o outro no modo GPU virtualizada, apesar do fato de que foi-me dito isso não deve ser possível no momento.
Passei mais de um mês tentando encontrar a combinação mágica exata de configurações da BIOS, hypervisor instalar e configuração de máquina virtual que me deixaria passar por ambas as GPUs.
Bug mania
Além do erro GPU, há um bug unidade de rede Intel para os cartões de 10GbE onboard em minha FatTwin que quase custou a minha sanidade. Certamente me custar clientes, e minha incapacidade de resolvê-lo - e para se desconectar da tentativa de resolvê-lo - tem prejudicado a minha reputação.
Há um pouco razoável de documentação sobre determinado assunto aqui e um exemplo de buck-passagem aqui .
A versão curta é esta: se tudo no meu interruptor 10GbE é 10GbE, tudo funciona bem. Mas há um dispositivo de 1 GbE na rede, em seguida, todos os dispositivos de 10GbE com a Intel NICs irá enviar a esse dispositivo 1GbE não mais rápido do que cerca 500Kps.
Isso vale para cerca de 60 por cento dos dispositivos 1GbE que você se importa para anexar. Para os outros 40 por cento, as NICs Intel parecem funcionar muito bem. Eu não percebi isso.
Para reproduzir o erro carregar ESXi 5.5 U2 em um Supermicro F627G2-F73PT + e ligar tudo isso a qualquer switch 10GbE baseado em Broadcom (como a Supermicro SSE-X3348T). Em seguida, conecte um switch D-Link DES-1016 (a partir do qual seus outros dispositivos 1GbE irá travar.)
Você pode enviar dados do lado da D-Link 1 GbE para o lado de 10GbE na velocidade do fio. Dados em outra direção vai desacelerar para um rastreamento. Trocar o DES-1016 para a placa de rede Intel 82579LM no meu notebook, mesmo problema. Escolha uma vez V2 Wi-Fi router Netgear WNDR-3700, e você terá velocidade de fio em ambos os sentidos. Cheap $ 10 interruptor TP-LINK? Mesma coisa.
Este é um bug de idade. Eu tenho algumas placas de rede Intel 1GbE que fazem exatamente a mesma coisa se você atirar um dispositivo 100Mbit na rede. Apesar de saber de uma iteração anterior desta edição, foi uma semana para tentar descobrir por que meu finalmente-bloody--me obedecer configuração GPU VDI estava realizando um lixo antes de eu twigged que a resposta não estava na caixa, foi em a banda.
Claro o suficiente: $ 10 interruptor TP-LINK mais tarde e Espaço Engenheiros meu regime de testes estava trabalhando suave como a seda.
Aconselhamento Grief
Peço desculpas para o longo preâmbulo ao meu ponto principal, mas eu quero que você, caro leitor, para compreender a profundidade das complexidades técnicas que aqueles de nós que fazemos prototipagem formal de ter que lidar com eles.
Havia provas e tribulações, mas o resultado final foi que agora eu tenho um sistema TESTLAB que faz GPU trabalho VDI maravilhosamente.
Esse mesmo sistema pode ser re-encarregado de esforço de algumas horas para ser um sistema SAN servidor realmente incrível. Eu também pode carregar cartões adicionais PCI-E para testar coisas como A3Cube PCI-E networking 's, e quem sabe mais o quê.
Mas chegar até aqui me custou. Dezenas de milhares de dólares, um pouco dele na frente para cumprir os compromissos para os clientes. Eu tive que, por exemplo, sair e comprar algumas novas placas de rede 10GbE, porque eu não poderia vencer as existentes em forma a tempo de cumprir o prazo.
Eu também tive de afastar os clientes, e para minha vergonha eterna, foram atrás prazo para os outros como Eu tentei resolver o problema após problema.
A quantidade espetacular de tristeza teria ido embora, se estes sistemas tiveram o tipo de software de gestão empresarial que as lâminas high-end enviar regularmente com.
Em um sistema de lâmina, a configuração da BIOS está estampado no nó pelo módulo de administração. Essa configuração vive com o slot, não a lâmina, e você pode armazenar várias configurações.
Você pode ter dezenas de as coisas ao redor para diferentes configurações e faz testes muito mais fácil
A configuração contém não apenas as configurações da BIOS, mas também os endereços MAC e WWN para os nós. Suas instâncias do sistema operacional pode ser vinculado a um determinado endereço MAC e que MAC vinculado a uma determinada configuração.
Você pode ter dezenas de coisas ao redor para as diferentes configurações que você precisa, e faz testes - e revertendo se as coisas derem errado - muito mais fácil.
Quanto tempo leva para carregar um sistema operacional completamente do zero e configurá-lo? Não é por isso que criamos imagens, em seguida, configurações implementáveis, automação, fantoche, orquestração web escala e assim por diante?
Mas e quanto ao hardware subjacente? Aquilo que toca o metal precisa ser configurado como bem.
Em adição ao sistema operativo ou hypervisor que se senta sobre o metal, o BIOS do sistema tem de ser configurada. Sistemas de gestão de banda de base de configuração precisa. Módulos de segurança e criptografia precisam ser carregados com chaves relevantes.
Mesmo placas de rede, discos rígidos e placas RAID têm a sua própria ROM que precisam ser atualizados, as suas próprias configurações para ser gerida e divulgada.
Levei meses para resolver os problemas de configuração com o meu TESTLAB, em grande parte porque ele pode levar uma hora para chegar tudo recarregado, reconfigurado e depois executar através de um teste, e eu tinha centenas de configurações que tinham que ser testados.
Não é tão burra
Para um homem em um TESTLAB, minha configuração fará. Mas muitas empresas redirecionar milhares de nós em uma base regular, e "boa conhecida" precisa ser mais do que uma configuração de escrita à mão rabiscou em um pedaço de papel coberto por uma xícara de café.
Se eu estou correndo Facebook, em seguida, um grupo de OpenCompute nodos despojado a tal ponto que não há nem mesmo uma placa de som $ 2 por nó que não é necessária faz todo o sentido.
Para eles, tudo é feito em software. As chances de uma mudança BIOS para um nó uma vez que se estatelou na abordagem rack de zero. É um balde de computação que agarra um sistema operacional a partir de uma rede e que é tudo o que sempre tem que ser.
Da mesma forma, o meu Supermicro FatTwin faz para um cluster Caringo verdadeiramente glorioso. Caringo executa uma máquina virtual controlador que mãos fora uma versão somente leitura do CentOS mais de inicialização de rede PXE.
Descobre todo o armazenamento nos nós que arrancar isso, formata o armazenamento e adiciona-lo em seu pool de armazenamento. Precisa de mais espaço de armazenamento? Bota mais nós: o armazenamento de objetos tornou-se tão simples como ligar um computador conectado que é projetado para iniciar a partir de PXE.
Mais uma vez, o que é necessário esse tipo de cenários são nós "burras". Eles não fazem nada de especial. Na melhor das hipóteses, eles sediar alguns discos SATA. Este é o futuro do armazenamento em grande escala.
É o presente de provedores de nuvem Hyperscale. Mas, apesar de todo o hype lá fora, não é o princípio eo fim de todo o mercado.
Blades cortá-la
Muitas empresas, a partir da empresa de pequeno porte para as maiores empresas ainda precisam de seus computadores para fazer alguma coisa. Eles precisam de seus servidores para ser mais do que nós de idiotas. Todas essas tecnologias interessantes que a Intel constrói em suas CPUs estão lá por uma razão: alguém queria.
Existem cartões PCI-E que fazem qualquer número de widgets vão bing, dongles USB para software, aplicações OLTP que exigem armazenamento flash-classe MCS e bondade apenas sabe mais o quê.
O que é mais, nós não apenas jogar fora nossos servidores sempre que as alterações de carga de trabalho. Também não são administradores de sistemas - ou aqueles que lhes pagam - disposto a gastar uma hora por nó reconfigurando a coisa.
Quando um determinado conjunto de cargas de trabalho é migrado de uma classe de nó para o outro, os antigos são reutilizadas. Mudanças são testados em um cluster de nós para a nova carga de trabalho, e empurrado para fora de lá para toda a população daquela classe.
Desenvolvimento de protótipos de todos os erros fora de um cluster me custou três meses da minha vida. Isso não pode acontecer em escala empresarial. Assim, apesar da tristeza e melancolia de quem não consegue ver além das diferenças de preços de um fundo de barril nó Abrir Compute e um sistema de lâmina, lâminas estão aqui para ficar.
Eles têm um papel a desempenhar no futuro da TI, e, por enquanto, continua a ser um passo importante. ®
Nenhum comentário:
Postar um comentário