Pular para o conteúdo

Extraindo Dados de Sites da Internet pelo Terminal

Dica publicada em Linux / Comandos
Mauricio Ferrari (LinuxProativo) maurixnovatrento
Hits: 7.095 Categoria: Linux Subcategoria: Comandos
  • Indicar
  • Impressora
  • Denunciar
O Viva o Linux depende da receita de anúncios para se manter. Ative os cookies aqui para nos patrocinar.
Não conseguimos carregar os anúncios. Se usa bloqueador, considere liberar o Viva o Linux para nos patrocinar.

Extraindo Dados de Sites da Internet pelo Terminal

Resolvi fazer essa dica porque é difícil encontrar um conteúdo tão simples como esse na internet. Com certeza é um recurso pouco usado e portanto, não muito divulgado.

Precisei fazer um script que acessasse um site e extraísse o conteúdo em forma de texto para depois de lá tirar as informações necessárias.

Devido à persistência, acabei encontrando um comando que supriu as necessidades e me possibilitou extrair o conteúdo que eu precisava com sucesso. O comando é o w3m.

Sua utilização é muito simples:

w3m -dump https://www.google.com.br/

Tem que usar com o parâmetro -dump, senão ele vai entrar no site pelo terminal, porque afinal, é para isso que é o w3m, assim como o links e links2.

Aí você faz a exportação dessa forma:

w3m -dump https://www.google.com.br/ >> conteudo

Agora vamos visualizar o arquivo conteúdo:

cat conteudo
Pesquisa Imagens Maps Play YouTube Notícias Gmail Drive Mais »
Histórico da Web | Configurações | Fazer login

                                    Google

             [                                                       ]    Pesquisa
                        [Pesquisa Google] [Estou com sorte]            avançada

                    Disponibilizado pelo Google em: English
   Soluções de publicidade     Soluções empresariais     Sobre o Google
                                 Google.com.br

                         © 2020 - Privacidade - Termos

E assim, fica mais uma dica.

O Viva o Linux depende da receita de anúncios para se manter. Ative os cookies aqui para nos patrocinar.
Não conseguimos carregar os anúncios. Se usa bloqueador, considere liberar o Viva o Linux para nos patrocinar.
O Viva o Linux depende da receita de anúncios para se manter. Ative os cookies aqui para nos patrocinar.
Não conseguimos carregar os anúncios. Se usa bloqueador, considere liberar o Viva o Linux para nos patrocinar.

SED - inserindo uma palavra abaixo de outra palavra específica

Expandindo o Til pelo Diretório Inicial do Usuário em Python

Efetuando cálculo de Aspect Ratio de vídeos em C/C++

O Mais Prático ou o Mais Rápido? Alternativa ao cut -c

Instalando o Nulloy no Deepin 20 ou Debian 9

Comando CUT usando delimitador TAB

Utilizando o comando scp

Orientações sobre comandos para iniciantes

Awk - Uma poderosa ferramenta de análise

talk - chat entre usuários de uma rede local ou internet

#1 Comentário enviado por cizordj em 15/09/2020 - 14:04h
Muito interessante, parabéns pela dica!

Contribuir com comentário

Entre na sua conta para comentar.