Extraindo Dados de Sites da Internet pelo Terminal
Dica publicada em Linux / Comandos
Extraindo Dados de Sites da Internet pelo Terminal
Resolvi fazer essa dica porque é difícil encontrar um conteúdo tão simples como esse na internet. Com certeza é um recurso pouco usado e portanto, não muito divulgado.
Precisei fazer um script que acessasse um site e extraísse o conteúdo em forma de texto para depois de lá tirar as informações necessárias.
Devido à persistência, acabei encontrando um comando que supriu as necessidades e me possibilitou extrair o conteúdo que eu precisava com sucesso. O comando é o w3m.
Sua utilização é muito simples:
w3m -dump https://www.google.com.br/
Tem que usar com o parâmetro -dump, senão ele vai entrar no site pelo terminal, porque afinal, é para isso que é o w3m, assim como o links e links2.
Aí você faz a exportação dessa forma:
w3m -dump https://www.google.com.br/ >> conteudo
Agora vamos visualizar o arquivo conteúdo:
cat conteudo
E assim, fica mais uma dica.
Precisei fazer um script que acessasse um site e extraísse o conteúdo em forma de texto para depois de lá tirar as informações necessárias.
Devido à persistência, acabei encontrando um comando que supriu as necessidades e me possibilitou extrair o conteúdo que eu precisava com sucesso. O comando é o w3m.
Sua utilização é muito simples:
w3m -dump https://www.google.com.br/
Tem que usar com o parâmetro -dump, senão ele vai entrar no site pelo terminal, porque afinal, é para isso que é o w3m, assim como o links e links2.
Aí você faz a exportação dessa forma:
w3m -dump https://www.google.com.br/ >> conteudo
Agora vamos visualizar o arquivo conteúdo:
cat conteudo
Pesquisa Imagens Maps Play YouTube Notícias Gmail Drive Mais »
Histórico da Web | Configurações | Fazer login
Google
[ ] Pesquisa
[Pesquisa Google] [Estou com sorte] avançada
Disponibilizado pelo Google em: English
Soluções de publicidade Soluções empresariais Sobre o Google
Google.com.br
© 2020 - Privacidade - Termos
E assim, fica mais uma dica.