Projeto em Python com Machine Learning
Olá pessoal!😀
Carnaval está aí para quem quer ver e se divertir 😎 . Em meio a esse carnaval, estou aqui em casa finalizando o projeto em Python, utilizando Machine Learning. Na verdade, estou dando continuidade aos meus estudos em Python, essa linguagem que conheci e me apaixonei 💙 há um tempo atrás, quando se iniciava o advento tecnológico na área de Data Science, em que as empresas começaram a enxergar com bons olhos essa novidade. Hoje em dia, isso se tornou uma realidade, e podemos defini-la da seguinte forma:
Data Science é uma disciplina interdisciplinar que combina técnicas de estatística, ciência da computação e domínio de negócios para extrair insights e conhecimentos de dados. É um campo abrangente que envolve várias etapas, desde a coleta e limpeza de dados até a análise e visualização de dados, e finalmente a construção de modelos preditivos e prescritivos para tomada de decisão.
Alguns dos principais componentes do trabalho em data Science incluem:
Coleta de Dados: Este é o processo de adquirir dados brutos de várias fontes, como bancos de dados, arquivos, APIs da web, etc.
Limpeza de Dados: Os dados coletados geralmente estão sujos, incompletos ou inconsistentes. A limpeza de dados envolve a remoção de valores ausentes, tratamento de outliers e padronização dos dados para análise.
Exploração de Dados: Nesta etapa, os dados são explorados visualmente e estatisticamente para entender suas características e relacionamentos. Isso pode envolver a criação de gráficos, tabelas de resumo e cálculo de estatísticas descritivas.
Modelagem de Dados: A modelagem de dados envolve a aplicação de algoritmos de aprendizado de máquina e estatística para construir modelos que possam prever, classificar ou agrupar dados. Isso pode incluir regressão, classificação, clustering, entre outros.
Avaliação de Modelos: Após a construção dos modelos, eles precisam ser avaliados para determinar sua precisão e eficácia. Isso geralmente envolve a divisão dos dados em conjuntos de treinamento e teste, validação cruzada e métricas de avaliação como precisão, recall, F1-score, entre outras.
Implantação e Monitoramento: Uma vez que um modelo é considerado aceitável, ele pode ser implantado em um ambiente de produção para uso real. É importante monitorar o desempenho do modelo ao longo do tempo e recalibrá-lo conforme necessário.
Data Science é aplicado em uma ampla variedade de áreas, incluindo negócios, saúde, finanças, marketing, ciências sociais, entre outros, e desempenha um papel crucial na tomada de decisões baseada em dados.
Sem mais delongas, vou mostrar de forma prática como foi desenvolvido esse projeto.
1. Missão do Projeto
1.1 O Problema de Negócio
Uma companhia aérea gostaria de realizar uma campanha de marketing para aumentar o número de passageiros que participam do programa de fidelidade da empresa.
O programa de fidelidade da empresa oferece 3 tipos de benefícios, de acordo com o uso e o engajamento do passageiro com a empresa, ao longo do tempo. Esses níveis de prêmios são representados pelos tipos de cartões de fidelidade.
O programa de fidelidade possui 3 cartões de participação: STAR, NOVA e AURORA. Cada cartão possui níveis de benefícios e prêmios, sendo o STAR com menos e o AURORA com mais prêmios.
O time de marketing forneceu uma base de novos clientes para o time comercial entrar em contato e fazer a oferta da assinatura do programa de fidelidade. Porém, não há vendedores suficientes no time comercial para abordar todos os clientes, obrigando o time alcançarem altas taxas de compra da assinatura, para baterem a meta.
Para alcançar a meta o time comercial precisa entrar em contato com o cliente, sabendo qual a probabilidade dele assinar o cartão STAR, NOVA ou AURORA. Assim, o vendedor consegue oferecer o cartão de maior probabilidade, diminuindo o tempo da venda e aumentando a receita, através da oferta do cartão mais adequado para o perfil de uso de cada cliente.
Você foi contratado como Cientista de Dados para determinar qual a probabilidade de cada cliente assinar cada um dos 3 cartões de programa de fidelidade. Por exemplo, o cliente A tem probabilidade de 70% de assinar o cartão STAR, 20% de assinar o cartão NOVA e 10% de assinar o cartão AURORA.
Com essa informação em mãos, o vendedor pode oferecer para o cliente A, o cartão STAR, diretamente.
Aqui está o código fonte, utilizando uma ferramenta indispensável para quem quer ingressar nessa magnifica carreira, que se chama Notebook. Essa ferramenta já vem de forma nativa dentro do Google Colab, e o mais legal que ela é gratuita, basta se inscrever com uma conta de e-mail, já é o suficiente para dar seus primeiros passos nesse mundo de Data Science.
Vamos direto ao código!
De forma didática, os dados foram extraídos do banco de dados SQLite. O modelo de Machine Learning aplicado ao projeto é baseado em árvore de decisão. Foram utilizadas várias bibliotecas Python, entre elas, Pandas, Numpy, Gradio e Scikit-learn.
Temos múltipla escolha dos atributos, onde podemos montar diversos tipos de cenários e validar em percentual, a propensão de compra do cliente nos três planos existentes.
É isso aí pessoal! Chegamos ao fim de mais uma jornada, espero contar com todos para próxima novidade que estar por vir.
Um Abraço a todos e até lá! ✌



