Semalt - Como raspar páginas da Web?

Beautiful Soup é uma biblioteca Python amplamente usada para raspar páginas da Web, criando uma árvore de análise a partir de documentos XML e HTML. A raspagem na Web, uma técnica de extração de dados de sites e páginas, é amplamente usada nos campos de análise e gerenciamento de dados. Na maioria dos casos, a linguagem de programação Python é um pré-requisito na ciência de dados.

O Python 3 possui ferramentas e módulos de raspagem que você pode aplicar ao seu projeto de gerenciamento de dados. Atualmente sendo executado como Beautiful Soup 4, este módulo é compatível com o Python 3 e o Python 2.7. O módulo Beautiful Soup 4 também é capaz de criar uma árvore de análise para a sopa de etiquetas não fechadas. Neste tutorial, você aprenderá como raspar a página e gravar os dados raspados em um arquivo CSV.

Começando

Para começar, configure um servidor ou ambiente de codificação Python baseado em local no seu PC. Você também deve instalar o módulo Beautiful Soup and Requests em sua máquina. O conhecimento de trabalhar com os dois módulos também é um pré-requisito necessário. A familiaridade com a marcação e a estrutura HTML também é uma vantagem.

Entendendo seus dados

Nesse contexto, dados reais da Galeria Nacional de Arte serão usados para ajudá-lo a entender como usar a Beautiful Soup 4. A Galeria Nacional de Arte é composta por 120.000 peças feitas por aproximadamente 13.000 artistas. The Art é baseado em Washington DC, Estados Unidos.

A extração de dados da Web com Beautiful Soup não é tão complicada. Por exemplo, se você se concentrar na letra Z, marque e anote o primeiro nome na lista. Nesse caso, o primeiro nome é Zabaglia, Niccola. Para obter consistência, indique o número de páginas e o nome do último artista nessa página.

Como importar a biblioteca Requests and Beautiful Soup

Para importar bibliotecas, ative seu ambiente de programação Python 3. Verifique se você está no mesmo diretório do seu ambiente de programação. Execute o seguinte comando para começar. my_env / bin / ativar.

Crie um novo arquivo e comece a importar as bibliotecas Beautiful Soup and Requests. A biblioteca de solicitações permitirá que você use HTTP nos seus programas Python em formatos legíveis. Beautiful Soup, por outro lado, trabalha para raspar páginas rapidamente. Use o bs4 para importar a Beautiful Soup.

Como coletar e analisar uma página da web

Usando Solicitações, colete o URL da sua primeira página. O URL da primeira página será atribuído à página variável. Crie um objeto BeautifulSoup a partir de Requests e analise o objeto no analisador do Python.

Neste tutorial, o objetivo é coletar links e nomes dos artistas. Por exemplo, você pode coletar datas e nacionalidades de artistas. Para usuários do Windows, clique com o botão direito do mouse no primeiro nome do artista. Nesse caso, use Zabaglia, Niccola. Para usuários do Mac OS, toque em "CTRL" e clique no nome. Clique no menu "Inspecionar elemento" que aparece na tela para acessar as ferramentas dos desenvolvedores da web. Imprima os nomes dos artistas para fazer a Beautiful Soup analisar uma árvore rapidamente.

Removendo os Links Inferiores

Para remover os links inferiores em sua página da web, inspecione o DOM clicando com o botão direito do mouse no elemento. Você identificará que os links estão em uma tabela HTML. Usando Beautiful Soup, use o "decompose method" para remover tags da árvore de análise.

Como extrair conteúdo de uma tag

Você não precisa imprimir a tag inteira, use a Beautiful Soup para remover o material de uma tag. Você também pode capturar URLs associados aos artistas usando Beautiful Soup 4.

Capturando dados raspados em um arquivo CSV

O arquivo CSV permitirá que você armazene dados estruturados em texto sem formatação, um formato usado principalmente para folhas de dados. Recomenda-se conhecimento sobre o manuseio de arquivos de texto sem formatação no Python.

A extração de dados da Web é usada para raspar páginas e obter informações. Seja atencioso com os sites dos quais você extrai informações. Alguns sites dinâmicos restringem a extração de dados da web em seus sites. Raspar página com Beautiful Soup e Python 3 é simples assim.