What Hash Functions Actually Do (And Why You Should Care)?

Let's start with the fundamentals. A hash function takes an input of any size and produces a fixed-size output called a hash or digest. Think of it as a mathematical fingerprint. You feed in "password123" and get back something like "482c811da5d5b4bc6d497ffa98491e38". The same input always produces...

What about md5: the broken algorithm that won't die?

MD5 (Message Digest Algorithm 5) was designed by Ronald Rivest in 1991. It produces a 128-bit hash value, typically expressed as a 32-character hexadecimal number. For over a decade, it was the go-to hash function for everything from password storage to file integrity checks. Then we discovered it...

What about sha-256: the cryptographic workhorse?

SHA-256 is part of the SHA-2 family, designed by the NSA and published in 2001. It produces a 256-bit hash value, typically rendered as a 64-character hexadecimal string. Unlike MD5, SHA-256 remains cryptographically secure. No practical collision attacks exist, and it's the backbone of modern...

What about bcrypt: purpose-built for password security?

bcrypt was designed in 1999 by Niels Provos and David Mazières specifically for password hashing. Unlike MD5 and SHA-256, which were designed for speed, bcrypt was designed to be slow. This fundamental difference makes it the right tool for protecting user credentials.

What about choosing the right hash function for your use case?

The question I get most often is: "Which hash function should I use?" The answer depends entirely on what you're trying to accomplish. I've developed a decision framework based on hundreds of implementations across different industries.

Hash Functions Explained for Developers (MD5, SHA-256, bcrypt) [Português]

💡 Key Takeaways

What Hash Functions Actually Do (And Why You Should Care)
MD5: The Broken Algorithm That Won't Die
SHA-256: The Cryptographic Workhorse
bcrypt: Purpose-Built for Password Security

Eu ainda me lembro do dia em que tive que explicar ao nosso CEO por que todo o nosso banco de dados de usuários foi comprometido. Era 2016, eu trabalhava como engenheiro de segurança há oito anos e achava que sabia o que estava fazendo. Estávamos usando MD5 para hash de senhas—uma decisão tomada anos antes de eu entrar—e um atacante havia quebrado 87% das 340.000 senhas de usuários em menos de 48 horas. A violação nos custou US$ 2,3 milhões em remediação, inúmeras horas de trabalho de engenharia e quase destruiu nossa reputação. Essa lição dolorosa me ensinou algo crucial: entender funções hash não é mais opcional para desenvolvedores. É fundamental.

💡 Principais Pontos

O Que as Funções Hash Realmente Fazem (E Por Que Você Deve se Importar)
MD5: O Algoritmo Quebrado Que Não Quer Morrer
SHA-256: O Cavalinho de Batalha Criptográfico
bcrypt: Projetado para Segurança de Senhas

Hoje, como arquiteto de segurança principal com 15 anos de experiência, revisei centenas de bases de código e consultei dezenas de startups. Os mesmos erros continuam aparecendo. Os desenvolvedores tratam as funções hash como caixas pretas intercambiáveis, escolhendo MD5 porque é "rápido" ou SHA-256 porque parece seguro. Mas aqui está a verdade: escolher a função hash errada é como instalar uma tela em uma porta de submarino. Pode parecer segurança, mas não vai te salvar quando a pressão aumentar.

O Que as Funções Hash Realmente Fazem (E Por Que Você Deve se Importar)

Vamos começar com os fundamentos. Uma função hash pega uma entrada de qualquer tamanho e produz uma saída de tamanho fixo chamada hash ou digest. Pense nisso como uma impressão digital matemática. Você insere "senha123" e recebe algo como "482c811da5d5b4bc6d497ffa98491e38". A mesma entrada sempre produz a mesma saída, mas até mesmo uma pequena mudança—como "senha124"—produz um hash completamente diferente.

Esse comportamento determinístico torna as funções hash incrivelmente úteis. Eu as uso diariamente para verificações de integridade de dados, assinaturas digitais, armazenamento de senhas e chaves de cache. Mas aqui está o que a maioria dos desenvolvedores não percebe: nem todas as funções hash são criadas iguais, e usar a errada pode ser catastrófico.

Funções hash têm três propriedades críticas. Primeiro, são funções unidirecionais—você não pode reverter o processo para obter a entrada original. Em segundo lugar, são resistentes a colisões, o que significa que deve ser computacionalmente inviável encontrar duas entradas diferentes que produzam o mesmo hash. Terceiro, elas exibem o efeito avalanche, onde uma pequena mudança na entrada cria uma saída drasticamente diferente.

Em meu trabalho de consultoria, vi desenvolvedores confundirem funções hash com criptografia. Isso é perigoso. A criptografia é reversível com a chave certa; hashing não é. Quando você criptografa dados, planeja descriptografá-los mais tarde. Quando você hash dados, está criando uma transformação unidirecional. Uma vez auditei uma startup de saúde que estava "criptografando" senhas com AES e armazenando as chaves no mesmo banco de dados. Eles achavam que estavam sendo seguros. Eles não estavam.

As implicações no mundo real são massivas. De acordo com o Relatório de Investigações de Vazamentos de Dados da Verizon de 2023, 86% das violações envolviam credenciais roubadas. Se você está armazenando senhas de maneira incorreta, não está apenas arriscando seus usuários—está arriscando todo o seu negócio. Eu vi empresas fecharem após incidentes de segurança que um hashing adequado teria evitado.

MD5: O Algoritmo Quebrado Que Não Quer Morrer

MD5 (Mensagem Digest Algorithm 5) foi projetado por Ronald Rivest em 1991. Ele produz um valor hash de 128 bits, tipicamente expresso como um número hexadecimal de 32 caracteres. Por mais de uma década, foi a função hash padrão para tudo, desde armazenamento de senhas até verificações de integridade de arquivos. Então descobrimos que estava fundamentalmente quebrada.

"A diferença entre MD5 e bcrypt não é apenas técnica—é a diferença entre uma violação que custa milhões e uma violação que é apenas inconveniente. Escolha sua função hash como se a sobrevivência da sua empresa dependesse disso, porque depende."

O primeiro ataque de colisão contra o MD5 foi publicado em 2004 por Xiaoyun Wang e sua equipe. Eles demonstraram que duas entradas diferentes poderiam produzir o mesmo hash MD5 em apenas algumas horas de computação. Em 2012, pesquisadores podiam gerar colisões de MD5 em segundos em hardware comum. Hoje, com computação em nuvem, você pode gerar colisões por cerca de US$ 0,65 em tempo de computação na AWS.

Eu ainda encontro MD5 em sistemas de produção regularmente. No mês passado, eu revisei uma aplicação fintech processando US$ 50 milhões em transações mensais. Eles estavam usando MD5 para hash de tokens de API. Quando apontei a vulnerabilidade, o desenvolvedor principal disse: "Mas estamos apenas usando para checksums, não senhas." Isso perde completamente o cerne da questão. A vulnerabilidade de colisão do MD5 a torna inadequada para qualquer aplicação crítica de segurança.

Aqui está um exemplo concreto do perigo. Um atacante pode criar dois arquivos executáveis diferentes com o mesmo hash MD5. Eles enviam a versão benigna para revisão de código, conseguem aprovação, e então trocam pela versão maliciosa. Sua verificação de checksum MD5 passa, mas você acabou de implantar malware. Isso não é teórico—aconteceu em ataques reais, incluindo o malware Flame que explorou colisões de MD5 na assinatura de código da Microsoft.

A velocidade que antes tornava o MD5 atraente é agora sua maior fraqueza. Em hardware moderno, você pode computar cerca de 8 bilhões de hashes MD5 por segundo usando uma única GPU. Isso torna os ataques de força bruta trivialmente fáceis. Eu fiz um teste na minha estação de trabalho com uma NVIDIA RTX 4090: eu quebrei um banco de dados de 100.000 senhas hashadas em MD5 em 47 minutos. As senhas não eram fracas—tinha uma média de 10 caracteres com letras maiúsculas e números. O MD5 simplesmente não consegue se defender contra o poder de computação moderno.

Apesar de tudo isso, o MD5 persiste. Eu o vejo em sistemas legados, em scripts rápidos e sujos, em tutoriais que não foram atualizados desde 2010. Os desenvolvedores o escolhem porque é rápido, porque é familiar, porque "não estamos armazenando nada importante". Mas segurança não funciona assim. Você não pode ser quase seguro. Ou sua função hash é criptograficamente sólida, ou é uma responsabilidade à espera de explodir.

SHA-256: O Cavalinho de Batalha Criptográfico

SHA-256 é parte da família SHA-2, projetada pela NSA e publicada em 2001. Ele produz um valor hash de 256 bits, geralmente apresentado como uma string hexadecimal de 64 caracteres. Ao contrário do MD5, o SHA-256 permanece criptograficamente seguro. Não existem ataques práticos de colisão, e é a espinha dorsal da infraestrutura de segurança moderna, incluindo o algoritmo de prova de trabalho do Bitcoin.

Função Hash	Velocidade	Caso de Uso	Status de Segurança
MD5	Extremamente Rápido (~300 MB/s)	Checksums, aplicações não relacionadas à segurança	Cryptograficamente Quebrado - Nunca use para senhas
SHA-256	Muito Rápido (~150 MB/s)	Assinaturas digitais, certificados, integridade de arquivos	Seguro para integridade, ferramenta errada para senhas
bcrypt	Intencionalmente Lento (ajustável)	Hashing de senhas	Padrão da indústria - projetado para senhas
Argon2	Intencionalmente Lento (ajustável)	Hashing de senhas, derivação de chaves	Padrão moderno - vencedor da Competição de Hashing de Senhas
PBKDF2	Lento Configurável	Hashing de senhas, sistemas legados	Aceitável, mas bcrypt/Argon2 preferido

Eu uso SHA-256 extensivamente, mas com algumas ressalvas importantes. É excelente para integridade de dados, assinaturas digitais e aplicações de blockchain. É rápido—meu laptop pode computar cerca de 500 milhões de hashes SHA-256 por segundo—o que o torna perfeito para verificar downloads de arquivos ou criar sistemas de armazenamento endereçados por conteúdo. O Git usa SHA-1 (o predecessor do SHA-256) exatamente para esse propósito.

Mas aqui está onde os desenvolvedores se enganam: eles usam SHA-256 para hashing de senhas. Isso parece lógico—é seguro, é rápido, é recomendado por padrões de segurança. O problema é que "rápido" é exatamente o que você não quer para hashing de senhas. Lembre-se desses 500 milhões de hashes por segundo? Isso significa que um atacante com uma GPU decente pode tentar 500 milhões de suposições de senhas a cada segundo.

Deixe-me ilustrar com números reais. Recentemente, testei a quebra de senhas contra hashes SHA-256 usando hashcat em um sistema com quatro GPUs RTX 4090. A configuração custou cerca de US$ 8.000 e poderia computar 200 bilhões de hashes SHA-256 por segundo. A essa taxa, eu poderia exaurir todo o espaço de senhas de 8 caracteres (usando letras maiúsculas, minúsculas e números) em aproximadamente 3,5 horas. Mesmo com um sal—que você deve sempre usar—a velocidade do SHA-256 torna os ataques de força bruta assustadoramente eficazes.

O uso adequado do SHA-256 é quando você precisa de segurança criptográfica, mas não de armazenamento de senhas. Eu o uso para implementações HMAC (Código de Autenticação de Mensagens Baseado em Hash), onde estou verificando se uma mensagem não foi adulterada. Eu o uso para criar IDs determinísticos a partir de conteúdo. Eu o uso em cadeias de certificados e assinaturas digitais. Essas aplicações se beneficiam da velocidade e segurança do SHA-256.

Um padrão que recomendo é usar SHA-256 como parte de uma função de derivação de chaves, mas nunca sozinho. Por exemplo, em um projeto recente, precisávamos gerar chaves de criptografia a partir de senhas de usuários. Usamos PBKDF2 com SHA-256 como a função hash subjacente, ru