Como Fazer Perguntas Orientadas a Dados

No items found.
6/10/2020
Willian Moya
Willian Moya
Desenvolvedor Backend

Desenvolvedor backend em tempo integral e construtor de IAs nas horas vagas

Está sem tempo para ler? Aperte o play para escutar o artigo.

Dados estão muito presentes em nossas vidas. Por sinal, você já deve ter ouvido que "dados são o novo petróleo". Neste instante, milhões de dados são coletados e se juntam a mais uma quantidade inimaginável de outros já coletados. 

Mas por que coletamos tanto assim? Existe algum motivo específico para essa coleta?

Sim, dados podem nos ajudar a enxergar o melhor o caminho dentro das nossas metas — seja na vida pessoal, seja nos negócios. Os dados nos dão a visão do que estamos fazendo de positivo e de negativo, além do que o mercado está fazendo. Eles também nos trazem a possibilidade de explorar caminhos que ninguém ainda tenha explorado e errar onde ninguém tenha errado. 

Contudo, para obter visões e encontrar oportunidades, é necessário fazer boas perguntas orientadas aos dados que temos disponíveis.

E como fazer isso?

Antes de falar sobre as perguntas, é necessário garantir que temos os dados coletados. Já imaginou ter que controlar a sua vida financeira, ou de uma empresa inteira, sem ter os dados de quanto está se gastando, com o quê e onde? Seria praticamente impossível.

Vamos pegar um exemplo hipotético bem simples: João está com sobrepeso. Buscando possíveis soluções, ele pesquisa no Google perguntas do tipo "Como emagrecer?", "Como emagrecer rápido?", "Como emagrecer comendo o que gosta?" etc. 

No entanto, essas são todas perguntas muito genéricas. Pode ser que algo que funcionou para uma pessoa não funcione para outra. Afinal, cada um tem seus hábitos, rotinas, metabolismo... Como esse conjunto de fatores é muito particular de um indivíduo, indivíduos diferentes vão produzir dados únicos que influenciam peso.

Então como podemos fazer uma pergunta que seja mais assertiva para nosso exemplo?

Digamos que João tenha resolvido consultar um especialista da área, como um médico ou nutricionista. O especialista vai fazer perguntas do tipo "Como está sua alimentação?", "Você toma muito refrigerante?", "Como está seu sono?", "Pratica atividade física? Se sim qual e em com qual frequência?".

Note que as perguntas perguntas feitas pelo especialista são direcionadas a pontos específicos da rotina e hábitos de João. Desta maneira, é possível identificar mais precisamente as falhas dentro de cada fator.

Com os dados que o especialista obteve por meio das perguntas, ele consegue explorar pontos que podem estar causando o sobrepeso. Às vezes, o sobrepeso pode estar ligado à retenção de líquidos pela falta de ingestão de água durante o dia, ou a um sono de má qualidade e de poucas horas, mesmo que a alimentação e os exercícios possam estar em dia. Observando os dados atentamente, podemos atacar os pontos que estão causando o problema e manter aquilo que estava dando certo.

Um exemplo mais prático

Suponha que você esteja querendo construir um hotel novo em Paris. Você sabe da importância dos dados e quer que seu hotel seja uma empresa orientada a dados. Portanto, para começar seu empreendimento ,você obtém uma base de dados com dados de hotéis da Europa.

Neste exemplo, utilizarei a base de dados do kaggle: 515K Hotel Reviews Data in Europe

Quando não se sabe nada ou quase nada sobre como montar hotéis, algumas perguntas podem surgir, do tipo:

  • Como montar um hotel?
  • Como atrair hóspedes?
  • O que faz um hotel ser bom?
  • Como posso me diferenciar dos meus concorrentes?

Vamos, no decorrer desta postagem, analisar estas perguntas, verificar se elas se encaixam e se conseguimos respondê-las com os dados que temos.


Os dados estão estruturados da seguinte maneira

  • Hotel_Address: Endereço do hotel.
  • Review_Date: Data da avaliação.
  • Average_Score: Média das avaliações.
  • Hotel_Name: Nome do hotel.
  • Reviewer_Nationality: Nacionalidade do avaliador.
  • Negative_Review: Avaliação negativa — caso não exista comentário negativo, está comentado apenas como "No negative".
  • ReviewTotalNegativeWordCounts: Total de avaliações negativas.
  • Positive_Review: Avaliação positiva — caso não exista avaliação estará como "No positive".
  • ReviewTotalPositiveWordCounts: Total de avaliações positivas.
  • Reviewer_Score: Nota dada pelo avaliador.
  • TotalNumberofReviewsReviewerHasGiven: Número de avaliações que os avaliadores fizeram no passado.
  • TotalNumberof_Reviews: Número total de avaliações.
  • Tags: Tags que o avaliador deu ao hotel.
  • dayssincereview: Dias passados desde a data da última avaliação.
  • AdditionalNumberof_Scoring: Notas adicionais.
  • lat: Latitude do hotel.
  • lng: Longitude do hotel.


Agora que já carregamos os dados, vamos separá-los para incluir apenas hotéis na França, mais especificamente Paris, já que o objetivo desta prática é analisar os dados para esta capital.

 

Temos 59928 dados de hotéis em Paris, ou seja, temos bastante dados com os quais trabalhar.

Mas agora reflita um pouco: veja que os dados que temos em mãos não conseguem responder as perguntas que definimos alguns momentos atrás.

  • Como montar um hotel?
  • Como atrair hóspedes?
  • O que faz um hotel ser bom?
  • Como posso me diferenciar dos meus concorrentes?

Se as observarmos mais de perto, vamos reparar que elas são muito genéricas. Elas precisam de algum refinamento. Em relação à primeira pergunta, perceba que na descrição da nossa base dados não tem muita informação a respeito do processo de construção de um hotel.

A segunda pergunta é um pouco melhor, mas ainda precisa ser refinada — e até mesmo combinada com a terceira pergunta. Ou seja, as respostas para “como atrair hóspedes?” podem ter relação com o hotel ser bom. 

A boa notícia é que nossos dados podem nos ajudar com essa fusão. Podemos transformar essas duas perguntas em: Dadas as avaliações dos hóspedes em relação aos hotéis, o que podemos identificar que mais agrada os hóspedes e o que desagrada?

Veja o poder desta questão: com estes dados, nós poderemos descobrir os principais acertos e erros dos hotéis. Não precisamos errar onde a maioria já errou, pois já vamos saber os pontos que mais desagradam os hóspedes em Paris. Ao mesmo tempo, podemos começar já da maneira certa, proporcionando o que todo hóspede já procura e encontrou em outros hotéis.

Com a resposta a esta pergunta, podemos também encontrar oportunidades quanto a novas demandas que hotéis não atenderam — o que vai nos dar mais abertura para testar novas hipóteses e fazer coisas que outros não fizeram para ter um diferencial.

Vamos continuar com a mão na massa. Vamos começar separando as avaliações positivas e negativas dos hóspedes, removendo os comentários sem valor (No Positive, No Negative).

 

Legal, temos bastante avaliações tanto positivas quanto negativas para avaliar!

Positivas: 56.123 avaliações para analisar

Negativas: 43.307 avaliações para analisar

Mas calma, não precisamos avaliar uma a uma. Vamos procurar pelos termos mais mencionados nas avaliações: eles vão indicar um caminho. 

A partir desses termos, podemos avaliar quais fatores influenciam em uma nota positiva ou negativa de um hóspede.

Para encontrar os termos mais utilizados nas avaliações positivas, vamos executar uma simples contagem de palavras. Se um termo for usado muitas vezes, ele vai receber uma alta contagem, o que nos vai dar um bom indício de que aquele termo merece atenção.

 

Ah, é claro, não vamos nos esquecer que existem palavras que podem aparecer nos dois tipos de comentários, mas são palavras que não trazem nenhum valor para nossa análise — por exemplo: preposições, artigos e pronomes. Essas palavras podem ocorrer bastante e podem sujar nossa contagem. Por isso, vamos removê-las da equação.

 

Estamos chegando cada vez mais perto de responder nossa pergunta! Vamos agora ordenar nossas palavras pelos termos mais utilizados e começar a descobrir o que os hóspedes valorizam e não valorizam.

 

Ordenadas as palavras, conseguimos agora confeccionar de gráficos que vãos nos ajudar a entender visualmente os aspectos positivos mais citados dentre os comentários dos hóspedes.

Repare que a localização e os funcionários do hotel lideram os termos positivos citados pelos hóspedes. Mas podemos notar também uma série de outros termos que são interessantes de serem observados, como café da manhã (breakfast), limpeza (clean) e bed (cama).

Todos esses pontos são importantíssimos na visão dos clientes. Então, como nosso objetivo é montar um hotel que agrade nossos clientes e atraia hóspedes, nós precisamos nos atentar a eles ao montar um hotel.

Agora, observe os termos mais utilizados em avaliações negativas. Veja como os quartos (room) estão mal avaliados, e como o café da manhã (breakfast), banheiro (bathroom), chuveiro (shower) e cama (bed) estão entre pontos de melhoria.

A primeira observação que faço é que vários termos que apareceram no positivo também apareceram no negativo, o que indica que esses pontos são cruciais na avaliação do hotel.

Outra observação: a localização, apesar de ser um ponto muito destacado nas avaliações positivas, não figurou dentre os pontos negativos. Mais para frente neste post, vamos avaliar se a localização é determinante ou apenas parte do todo que compõe um bom hotel.

É claro que, no gráfico de barras, não podemos colocar todos os pontos de destacados nas avaliações. Ficaria muito grande e ilegível. Por isso, escolhi fazer um top 15.asd.

Uma outra representação visual e com a qual podemos trabalhar nesta análise é a nuvem de palavras. Com ela, podemos identificar alguns outros pontos que podem ter ficado omitidos por um gráfico de barras, ou que podem ocorrer com menos frequência mas ainda sim são válidos de serem considerados.

 

Agora, podemos ver mais palavras que contribuem para uma avaliação positiva.

Podemos notar agora palavras como vista (view), restaurantes (restaurants) e quieto (quiet), que podem ter impacto positivo e ficariam escondidas em um gráfico de barras.

Como fizemos para as positivas, vamos fazer para as palavras negativas também:

Veja que palavras como recepção (reception) e wifi aparecem nas reviews

negativas. São pontos de atenção aparentemente bobos de início, porém importantes.

Nós temos os termos, mas e agora? 

O que exatamente as avaliações dizem sobre os pontos?

O processo da análise de dados é contínuo e, para isso, temos que continuar explorando nossos dados.

Vamos pegar o termo bed (cama) que apareceu tanto em reviews positivas quanto negativas e fazer uma análise rápida em alguns comentários positivos:


Se olharmos os comentários, podemos destacar os adjetivos que definem a cama do hotel.

  • Customized attention Very good beds
  • Good location comfortable bed modern room
  • The bed was very comfortable

Isto é apenas um indício, de que camas confortáveis fazer a diferença, agora podemos fazer uma nova pergunta: "Será que existem outros pontos importantes relacionados à cama, como tamanho ou posição?”

Lembra que eu disse que o processo é contínuo? Pois então, agora podemos aumentar o filtro e correr atrás das respostas para esta nova pergunta. Podemos fazer o mesmo processo que fizemos para identificar os principais termos positivos e negativos, mas dessa vez voltados para todos os comentários que tenha relação com a cama (bed), e descobrir os termos mais citados neste aspecto.

Isso pode ser feito para qualquer termo encontrado. Novas perguntas podem sempre surgir, e podemos continuar a usar os dados para validar ainda mais hipóteses. Deixo a tarefa de analisar os outros termos relacionados a cama com vocês!

Vamos dar uma olhadinha nos termos negativos em relação a cama:

  • the beds was little uncomfortable
  • The bed was too small I don t think i’ s made to fit 2 people
  • Small bed it was supposed to be a king bed It was not the case
  • The double bed is a bit too small for two
  • TV location is not at the right spot to watch from the bed

Veja que o problema, ao contrário da visão inicial que vimos nos comentários positivos, é que, nos negativos, alegam que a cama é pequena, ou mal posicionada. É claro que há comentários sobre ela ser desconfortável também. Realmente temos vários fatores que afetam a avaliação da cama, então cabe mesmo a investigação do termo.

Agora lembra quando disse que iríamos dar uma olhada na localização? Vamos analisar se ela é determinante para a boa nota ou se apenas contribui.

Para este caso, estou desconsiderando outros pontos turísticos de Paris e estou considerando apenas a Torre Eiffel. Nossos dados possuem a latitude e longitude dos hotéis, então podemos calcular a distância de cada hotel para a Torre Eiffel. Ou seja vamos avaliar se um hotel próximo à Torre Eiffel possui nota maior que os outros ou não.

Calculadas as distâncias em quilômetros, podemos remover os campos que são desnecessários para nossas análise no momento. Vamos deixar apenas a média das notas do hotel, a distância da torre e o nome do mesmo.

Agora, vamos fazer um top 20 dos hotéis ordenados por média das notas.

Veja que temos hotéis com notas acima de 9 e a distância acima de 5 km, e o hotel com maior nota fica a quase 3 km da torre.

Agora, vamos ordenar pela distância e ver se os mais próximos a torre têm boa nota.

Veja que boa parte dos hotéis mais próximos da torre tem nota abaixo de 9. Alguns a meros 300 metros de uma das atrações mais famosas do mundo. Mas não é suficiente.

Podemos notar, portanto, que a localização apenas contribui, mas não é determinante para a boa nota do hotel. É claro que a distância ainda é pequena dos hotéis com nota mais alta. Mas, como vimos, temos hotéis um pouco mais distantes, com o quase 6km de distância, que ainda conseguem se sobressair sobre os mais próximos a torre. Ou seja os outros fatores são tão importantes quanto a localização.

Observações: É claro que durante esta análise não foram avaliados a categoria do hotel (número de estrelas) — por sinal, o dado também não estava disponível. Além disso, também não tivemos acesso aos valores das diárias. Contudo, ainda sim, podemos avaliar um pouco do processo de avaliação de dados e obter informações interessantes.

Conclusão

Vimos como os dados são poderosos, como eles podem nos mostrar o caminho, gerar insights interessantes, nos dar uma visão de como o negócio está, quais são as dores, quais são os acertos e quais os próximos passos. 

Com certeza, fazendo as perguntas certas para os dados que tivermos disponíveis, podemos nos tornar cada vez mais orientados a dados, tomar decisões mais assertivas, fazer diferente, errar onde os outros ainda não erraram e inovar cada dia mais.

O exemplo que foi dado aqui foi fictício e experimental. Tente aplicar isso na sua vida e no seu negócio. Criou um aplicativo? Avalie os comentários do seu aplicativo nas lojas. Tem um produto ou presta algum serviço? Entreviste seu cliente, colete dados de uso, colete feedbacks e analise os dados para melhorar cada vez a experiência do seu consumidor. Ambos saem ganhando.

Existem inúmeras maneiras e usos para os dados, basta descobrir as perguntas certas!


O que você achou deste conteúdo?
Quer receber nossos conteúdos?
Seu cadastro foi efetuado com sucesso! Enviaremos as novidades no seu email.
Oops! Something went wrong while submitting the form.