Pular para o conteúdo

Extraindo Dados de Sites da Internet pelo Terminal

Dica publicada em Linux / Comandos
Mauricio Ferrari (LinuxProativo) maurixnovatrento
Hits: 7.096 Categoria: Linux Subcategoria: Comandos
  • Indicar
  • Impressora
  • Denunciar

Extraindo Dados de Sites da Internet pelo Terminal

Resolvi fazer essa dica porque é difícil encontrar um conteúdo tão simples como esse na internet. Com certeza é um recurso pouco usado e portanto, não muito divulgado.

Precisei fazer um script que acessasse um site e extraísse o conteúdo em forma de texto para depois de lá tirar as informações necessárias.

Devido à persistência, acabei encontrando um comando que supriu as necessidades e me possibilitou extrair o conteúdo que eu precisava com sucesso. O comando é o w3m.

Sua utilização é muito simples:

w3m -dump https://www.google.com.br/

Tem que usar com o parâmetro -dump, senão ele vai entrar no site pelo terminal, porque afinal, é para isso que é o w3m, assim como o links e links2.

Aí você faz a exportação dessa forma:

w3m -dump https://www.google.com.br/ >> conteudo

Agora vamos visualizar o arquivo conteúdo:

cat conteudo
Pesquisa Imagens Maps Play YouTube Notícias Gmail Drive Mais »
Histórico da Web | Configurações | Fazer login

                                    Google

             [                                                       ]    Pesquisa
                        [Pesquisa Google] [Estou com sorte]            avançada

                    Disponibilizado pelo Google em: English
   Soluções de publicidade     Soluções empresariais     Sobre o Google
                                 Google.com.br

                         © 2020 - Privacidade - Termos

E assim, fica mais uma dica.

Ctrl+C e Ctrl+V no Terminal Linux

Executando Arquivo de Mídia .opus pelo Terminal

Grub não detecta outras partições após a atualização do Slackware [Resolvido]

Incluindo o libmediainfo corretamente em um arquivo CMakeFiles.txt para uso em seus projetos

Três Formas Fáceis de usar Super Usuário pelo Terminal no Linux

Montando imagens ISO no OpenBSD

Convertendo PDF com senha para PDF sem senha

Recuperando inicialização do Slackware após atualização do kernel via slackpkg

Copiar apenas os arquivos e não os diretórios

Visualizar a árvore de arquivos no terminal

#1 Comentário enviado por cizordj em 15/09/2020 - 14:04h
Muito interessante, parabéns pela dica!

Contribuir com comentário

Entre na sua conta para comentar.