Muito bem, essa parte do artigo pode ser pulada se você não quer entrar em detalhes de como funciona a gravação, edição e reprodução de áudio. Se você gosta de coisas técnicas como eu, creio que a maioria dos usuários
GNU/Linux gostam, leia com atenção para entender o que você precisa e quando você precisa.
Eu te convido agora a entrar na Matrix do áudio, clicando para ir à próxima página você está ingerindo a pílula azul e seguindo a leitura você está ingerindo a pílula vermelha... você vai para o país das maravilhas do áudio e eu vou te mostrar o quão profundo é o bit.
Taxa de amostragem
Para entender termos como latência, temos que entender o que faz a latência e os benefícios e malefícios dela, primeiro vamos entender o que é taxa de amostragem.
Imagine as ondas criadas por um áudio quando você abre para edição, vai ver um monte de riscos indo para cima e para baixo mais parecendo um borrão. Essa é a representação visual do som gravado, cada vez que a onda sobe o seu alto-falante vai para frente ou sobe, cada vez que a onda desce o alto-falante vai para trás ou desce, basicamente é uma forma binária de representar o som, 1 positivo lança uma descarga de energia que faz o risco subir, 0 negativo desliga essa energia que faz ele descer.
Essa imagem em um zoom de 0.01 segundo na representação desse movimento, o alto-falante ao movimentar-se desloca o ar criando assim uma onda sonora que ao chegar ao seu ouvido faz o seu ouvido repetir esses movimentos e o seu celebro identifica o som.
Taxa de amostragem em poucas palavras é a representação de quantas vezes por segundo esse movimento pode se repetir, por exemplo uma taxa muito usada é 44.1 Khz, que quer dizer que em cada segundo 44.100 vezes esse movimento pode se repetir. A imagem abaixo é um áudio de um segundo a 44.1 Khz usando o Sonic Visualizer:
Se você gravar a 8 Khz, quer dizer que em 1 segundo o risco vai 8000 vezes para cima e para baixo, essa é a taxa da maioria dos telefones celulares. Se você percebe a diferença entre uma ligação de celular e um CD essa é a comparação entre 8 Khz e 44.1 Khz.
Um detalhe importante quando você está gravando um áudio: o programa vai pegar o tanto que você definir no seu programa, só que quando você vai tocar o reprodutor da mídia divide essa taxa de amostragem em dois para o lado esquerdo e direito dos canais stereo. Assim, uma gravação a 44.100 Hz é reproduzida a 22.050 Hz e 8 Khz é reproduzido a 4 Khz.
A audição humana varia em um campo entre 20Hz a 20 Khz em casos extremos, ou seja, um músico ou alguém que trabalha com música o tempo todo. A maioria das pessoas ouvem entre 35 Hz e 18 Khz, assim sendo, você pergunta "Se eu gravar em 44.1 Khz e reproduzir a 22Khz e o limite da audição humana é 20 Khz, porque tem programas que me dão a opção de gravar em taxas maiores?".
Se você gravar alguns instrumentos que tem a taxa maior que aquela você está gravando, por exemplo uma flauta em uma nota alta vai dar mais que 44.1 Khz. Digamos que deu 46 Khz, esse 1.9 Hz vai voltar em cima da onda sonora sobrepondo como -1.9 Hz, criando uma dissonância no som, ou seja, ele não vai soar limpo e cristalino. Se você grava a 96 Khz esse problema é resolvido, porque a sua reprodução será a 48 Khz que é bem superior à taxa mais alta de qualquer instrumento musical, porém lembre-se que quanto maior a taxa de amostragem maior o arquivo final.
Profundidade de bits
Muito bem, agora espero explicar e não complicar, lembre-se que uma taxa de amostragem é a representação do risco subindo ou descendo e quando você grava a 44.1 são 44100 taxas. Agora a profundidade de bit é a representação da profundidade de cada bit em termos binários, ou seja 44.1 em 16 bits depth quer dizer que cada taxa é composta por uma palavra binária com 16 uns e zeros (101001).
Eu sei, na minha explicação anterior eu disse que cada sample é como 1 sobe e 0 desce, só que a realidade é que cada sample pode ser quebrado em bits para uma reprodução fiel do som. Se 1 é para subir e 0 é para descer o computador ao receber 1 ele ia jogar a onda no máximo e 0 no mínimo, porém com a profundidade de bit estamos dizendo ao computador o quanto ele vai subir e o quanto ele vai descer na escala.
Muitas pessoas descrevem profundidade de bit como sendo o quanto de volume você pode trabalhar naquele áudio, o que de certa forma é correto, porém eu prefiro usar a comparação de o quão profundo o mínimo de decibéis vão fazer parte da sua escala ou o alcance do áudio. Por exemplo, toda gravação digital tem ruídos que ficam abaixo da percepção do ouvido humano, aquele mesmo barulho que você ouvia nas gravações de fitas K7 lembra? E garotada, eu estou falando de algo dos anos 80, antes da invenção do CD. Na gravação digital esses barulhos ainda estão presentes em volumes que chamamos de noise floor ou o "piso de ruído", quanto maior a profundidade do bit mais baixo esses ruídos ficam na escala.
Isso é bom, porque ao adicionar filtros como compressão, normalização, limitação ou qualquer filtro de edição que aumente o volume do áudio, esses barulhos continuam imperceptíveis, já se a profundidade do bit não é tão profundo ao adicionar esses filtros o barulho se apresenta na edição.
Uma gravação com 16 bits depth vai me dar um alcance de -96db e 24 bits vai ser -144db, assim como o sample rate quanto mais profundidade de bit você tem no seu áudio maior é o arquivo final, porém é muito mais válido você aumentar a profundidade do bit que a taxa de amostragem, se você tem que escolher entre um e outro.
Latência
Muito bem, onde entra a latência na explicação desses dois fatores mencionado antes? Quando você aumenta a profundidade e a taxa do seu áudio você está passando mais informação para o processador mastigar.
Imagine que você tem uma sacola e vai fazer compras, só pode fazer compras com essa sacola, nada de carrinho de compras ou entrega a domicílio.
Para fazer a compra do mês com uma sacolinha você tem que ir ao mercado várias vezes e encher a sacola com o máximo de produtos que ela pode aguentar, em termos de computação essa sacola se chama buffer e você está enchendo ele com taxas e profundidade.
Você tocou um instrumento, aquele sinal se converteu em bytes e foi transportado para o programa de gravação. Dependendo do tamanho do seu buffer (ou da sacolinha) o processador vai ter que fazer essa viagem ao mercado várias vezes, quanto maior o buffer menos vezes ele vai até o "mercado", só que o processo fica mais lento, essa lentidão chamamos de latência.
Um buffer grande significa uma latência grande, assim existe um atraso entre o toque do instrumento e o som saindo do computador, o lado bom disso é que o processador não é levado ao limite. Se você vai reproduzir uma música, editar ou masterizar você pode usar vários plugins e efeitos sem traumatizar o seu processador.
Se você vai gravar, não dê férias ao processador, abaixe o buffer e a latência vai cair como resultado disso, o seu processador vai suar, mas o seu áudio será maravilhoso e sem atrasos, você pode usar plugins enquanto grava mas tenha em mente que uma latência baixa é um limite em quantos plugins você pode usar ao mesmo tempo, caso contrário você pode travar o programa de gravação.
Muito bem agora você vai entender a fundo o porquê da próxima página.