Artigo Assinado por:
Neylson Crepalde, CTO da A3Data. Com participação especial de: Claudio Lucio, Founder da A3Data
Resposta rápida para a pergunta: NO. Mas tenho que explicar isso.
Se você está familiarizado com projetos de dados, provavelmente percebeu que hoje temos brevemente três funções principais nas equipes de dados:
Um Engenheiro de Dados, responsável pela aquisição, processamento e disponibilidade de dados;
Analista de dados, responsável por conectar problemas de negócios com análise de dados históricos. Estão preocupados em entender “o que aconteceu”;
Cientista de Dados, responsável por testar hipóteses e prever o futuro.
Também já se sabe que a maior parte do tempo de uma equipe de dados é gasta na limpeza, transformação e estruturação de dados. Essa é a principal razão pela qual os engenheiros de dados são tão procurados. Dado o volume de dados com que as organizações lidam, a grande quantidade de diferentes fontes/estruturas e a incrível velocidade com que se espera que esses dados sejam entregues, as tarefas de engenharia de dados não são nada triviais. São complexos, demorados e exigem profissionais altamente qualificados (que, aliás, são difíceis de encontrar hoje em dia).
Tenho trabalhado com diversas equipes de dados em vários projetos em diferentes setores nos últimos anos. Durante esse tempo, percebi alguns desafios em relação à engenharia de dados. Um deles é que os usuários corporativos geralmente têm dificuldade em perceber o valor dos resultados da engenharia de dados. Qual valor comercial um pipeline de dados (uma das principais entregas criadas pelos engenheiros de dados) gera por si só? É uma pergunta complicada.
Algumas palavras sobre o assunto
Após algumas pesquisas sobre o tema, dois posts médios me chamaram a atenção. O primeiro da equipe da Quantum Black sobre o papel e a importância da engenharia de dados. Depois de discutir quatro arquétipos de nível de maturidade em engenharia de dados entre as organizações, eles afirmam que
Em todos esses arquétipos, a engenharia de dados desempenha um papel crítico; muitas vezes é o fator decisivo para que as organizações alcancem seu North Star (nível mais alto) em análise.
Mais adiante, sobre a importância dos engenheiros de dados, afirmam que
Os engenheiros de dados podem “desbloquear” a ciência e a análise de dados em uma organização, bem como construir bases de dados acessíveis e bem organizadas.
Nesta segunda postagem,Lewis Gavin descreve os engenheiros de dados como “capacitadores da ciência de dados”. Ele argumenta que 60% a 70% do tempo da equipe de dados é improdutivo e é gasto em limpeza de dados, estruturação, processos ETL e assim por diante. Esse tempo deveria ser absorvido pelos Engenheiros de Dados, especialistas no assunto, para que analistas e cientistas pudessem se concentrar em suas tarefas primárias. Para ele,
Para chegar à Lua mais rápido você não precisa de mais astronautas. Você precisa de pessoas para construir o foguete que permitirá ao astronauta fazer seu trabalho.
Portanto, são necessários mais engenheiros de dados do que cientistas ou analistas. Ao deixar as tarefas de processamento de dados para os engenheiros de dados, ele também argumenta que
Isso não apenas melhorará a eficiência de sua equipe de ciência de dados, mas também seus resultados. Seus dados são um ativo e devem ser tratados como tal. Ter um engenheiro construindo práticas confiáveis, escaláveis e repetíveis em sua plataforma de dados é essencial para qualquer empresa que deseja usar análises para crescer.
Procurando por uma resposta
Para entender o valor comercial gerado pela engenharia de dados e como isso é percebido pelos usuários empresariais, eu e minha equipe entrevistamos vários engenheiros com diferentes níveis de senioridade, gerentes de produto, coaches ágeis, patrocinadores de projetos de dados, executivos de tecnologia dentro e fora de nossa organização. Isto é o que descobrimos:
Os engenheiros de dados, em geral, afirmam que suas tarefas geram muito valor. Com efeito, permitem o acesso a alguns dados, a integração entre diferentes sistemas ou fontes de dados, a consistência e a regularidade no tratamento dos dados. Mesmo assim, é fato comum que essas possibilidades são complexas de serem percebidas pelos usuários empresariais, até porque a principal interface que eles utilizam para lidar com os dados geralmente é uma planilha ou um dashboard ou outra coisa que os engenheiros não fizeram.
Normalmente, quando os projetos possuem uma abordagem mais técnica (visando reduzir o tempo de processamento de dados ou uma série de erros de cálculo em um conjunto de dados analíticos ou até mesmo otimizar o custo dos recursos da nuvem), a percepção de valor na engenharia de dados fica mais fácil. Isso também acontece quando os pipelines de dados estão conectados a decisões automatizadas, abrindo a possibilidade do que o prof. Cláudio Lúcio chama de “insights acionáveis”. A ideia vem de um termo antigo usado pelo Gartner Business Activity Monitoring — BAM e, na verdade, enfatiza que os projetos de dados estão relacionados internamente à tomada de decisões e não apenas aos dashboards. Neste sentido, numa fase de engenharia de dados existem muitas oportunidades para proporcionar aos utilizadores uma melhor tomada de decisão. Alertas automatizados baseados na última compra de um cliente (alertas simples, não sistemas de recomendação) ou no artigo mais comprado nos últimos 6 meses, ou apenas um aviso de que alguns equipamentos se comportaram de forma estranha são apenas alguns exemplos. O céu é o limite com isso.
Últimas palavras para engenharia de dados
Certa vez, ouvi de um técnico executivo: “Se eu pudesse, extinguiria o trabalho de engenharia de dados. Por que? Engenheiros de dados são caros, muito difíceis de encontrar, suas tarefas demoram muito e o valor só vem depois”.
Embora a frase possa parecer um pouco radical, ela ilustra o ponto: dados com qualidade garantida são o principal produto fornecido pelos engenheiros de dados. Os dados por si só não resolverão um problema, melhorarão um processo ou ajudarão a concentrar a atenção num alvo valioso, mas permitem todas estas possibilidades.
Não há Ciência de Dados ou Inteligência de Dados se você não tiver dados confiáveis. Então,
A Engenharia de Dados é uma condição necessária para gerar valor comercial, mas não é uma condição suficiente.
Em outras palavras, a engenharia de dados não gera valor comercial por si só. No entanto, você simplesmente não pode gerar valor de dados sem engenharia.