Como a IA está reescrevendo as tarefas diárias dos cientistas de dados

Da eliminação de tarefas de baixo valor à aceleração de projetos de alto impacto, veja como a IA está remodelando os fluxos de trabalho da ciência de dados.

Em meus artigos anteriores, explorei e comparei várias ferramentas de IA, por exemplo, o Data Science Agent do Google, ChatGPT vs. Claude vs. Gemini Para ciência de dados e DeepSeekV3, etc. No entanto, este é apenas um pequeno subconjunto de todas as ferramentas de IA disponíveis para Ciência dados. Por exemplo, algumas das ferramentas que usei no meu trabalho:

API OpenAI:Eu o uso para categorizar e resumir o feedback do cliente e identificar fraquezas do produto.
ChatGPT و GeminiEles me ajudam a redigir mensagens e e-mails do Slack, escrever relatórios de análise e até avaliações de desempenho.
Recolha IA:Glean usou IA para encontrar respostas rapidamente em documentos e comunicações internas.
Cursor و Copilot: Gosto de simplesmente tocar na tecla Tab para completar automaticamente o código e os comentários.
Hex MagiaEu uso o Hex para planilhas colaborativas no trabalho. Ele também oferece um recurso chamado Hex Magia Para escrever código e corrigir bugs usando IA conversacional.
Córtex de floco de neveO Cortex AI permite que os usuários invoquem endpoints LLM, criem RAGs e serviços de texto para SQL usando dados no Snowflake.

Tenho certeza de que você poderia adicionar mais a esta lista, e novas ferramentas de IA são lançadas todos os dias. É quase impossível obter uma lista completa neste momento. Então, neste artigo, gostaria de dar um passo para trás e focar em uma questão mais ampla: O que realmente precisamos como profissionais de dados e como a IA pode ajudar?؟

Na seção abaixo, vou me concentrar em duas tendências principais: eliminar tarefas de baixo valor e acelerar o trabalho de alto valor.

1. Elimine tarefas de baixo valor

Tornei-me um cientista de dados porque realmente gosto de descobrir insights de negócios a partir de dados complexos e tomar decisões de negócios com base neles. No entanto, estando nesta área há mais de 7 anos, devo admitir que nem todo trabalho é tão emocionante quanto eu esperava. Antes de podermos executar análises avançadas ou criar modelos de aprendizado de máquina, há muitos fluxos de trabalho de baixo valor que são inevitáveis diariamente — e, em muitos casos, isso ocorre porque não temos as ferramentas certas para capacitar nossos stakeholders com análises de autoatendimento. Vamos dar uma olhada na nossa situação atual e no caso ideal:

Situação atual: Atuamos como intérpretes e guardiões de dados (às vezes, “macacos SQL”)

Solicitações simples de pull de dados Ela vem até mim e minha equipe no Slack toda semana perguntando: "Qual foi o seu Valor Bruto de Mercadoria (VBM) no mês passado?" “Você pode obter uma lista de clientes que atendem a esses critérios?” “Você pode me ajudar a preencher esse número para a apresentação que preciso fazer amanhã?”
Ferramentas de Business Intelligence (BI) não oferecem bom suporte a casos de uso de autoatendimento.. Adotamos ferramentas de inteligência empresarial como Looker e Tableau para que as partes interessadas possam explorar dados e monitorar métricas facilmente. Mas a verdade é que sempre há uma compensação entre a simplicidade e a capacidade de autoatendimento. Às vezes, criamos painéis fáceis de entender com algumas métricas, mas eles só podem atender a alguns casos de uso. Ao mesmo tempo, se tornarmos a ferramenta altamente personalizável com a capacidade de explorar livremente as métricas e os dados subjacentes, as partes interessadas podem achar a ferramenta confusa e não ter confiança para usá-la e, no pior dos casos, os dados podem ser extraídos e mal interpretados.
Os documentos são poucos ou estão desatualizados.. Essa é uma situação comum, mas pode ser causada por vários motivos: talvez estejamos agindo rapidamente e focados em entregar resultados, ou não haja uma ótima documentação de dados e políticas de governança em vigor. Como resultado, o conhecimento tribal se torna um gargalo para que pessoas de fora da equipe de dados usem os dados.

Caso ideal: permitir que as partes interessadas se autossufiram para que possamos reduzir o trabalho de baixo valor

As partes interessadas podem realizar extrações de dados simples e responder a perguntas básicas sobre dados com facilidade e confiança.
As equipes de dados gastam menos tempo preparando relatórios repetitivos ou consultas básicas únicas.
Os painéis podem ser descobertos, interpretados e acionados sem assistência direta.

Então, para chegar mais perto do estado ideal, que papel a IA pode desempenhar aqui? Pelo que observei, estas são as tendências comuns que as ferramentas de IA estão adotando para preencher essa lacuna:

Consulta de dados em linguagem natural (texto para SQL)Uma maneira de diminuir a barreira técnica é permitir que as partes interessadas consultem dados em linguagem natural. Existem muitos esforços de conversão de texto em SQL no setor:
- por exemplo, Floco de neve É uma das empresas que mais tem evoluído em Modelos Text2SQL E começou a integrar a capacidade em seu produto.
- Muitas empresas (incluindo a minha) também exploraram soluções Text2SQL internamente. Por exemplo, eu participei Uber Sua jornada com QueryGPT da Uber Para facilitar a consulta de dados para sua equipe de operações. Este artigo detalhou como a Uber projetou uma arquitetura multiagente para gerar consultas. Ao mesmo tempo, também revelou desafios significativos neste campo, incluindo interpretar com precisão a intenção do usuário, lidar com grandes gráficos de tabela, evitar alucinações e assim por diante.
- Francamente, para que o Text-to-SQL funcione, há um nível muito alto em que você precisa tornar a consulta precisa – mesmo que a ferramenta falhe apenas uma vez, isso pode destruir a confiança e, eventualmente, as partes interessadas voltarão a você para validar as consultas (e então você precisa ler e reescrever as consultas, o que quase dobra o trabalho 🙁). Até agora, não encontrei um modelo ou ferramenta de conversão de texto em SQL que funcione perfeitamente. Eu vejo isso como algo possível somente quando você consulta um subconjunto muito pequeno de conjuntos de dados subjacentes bem documentados para casos de uso específicos e padronizados, mas é muito difícil escalar para incluir todos os dados disponíveis e diferentes cenários de negócios.
- Mas é claro que, dado o enorme investimento nesse espaço e o rápido desenvolvimento da IA, tenho certeza de que chegaremos cada vez mais perto de soluções de texto para SQL precisas e escaláveis.
Assistente de Business Intelligence (BI) baseado em chatOutra área popular para melhorar a experiência das partes interessadas com ferramentas de BI é um assistente de BI baseado em chat. Na verdade, isso vai um passo além do Text-to-SQL: em vez de gerar uma consulta SQL com base no prompt do usuário, ele responde em um formato de visualização e também em um resumo de texto.
- Gêmeos em Looker Ele é um exemplo aqui. O Looker é de propriedade do Google, então é natural que eles se integrem ao Gemini. Outra vantagem que a Looker tem para construir sua IA é que os campos de dados já estão documentados na camada semântica do LookML, com mapeamentos comuns definidos e métricas comuns incluídas nos painéis. Então, há muitos dados excelentes para aprender. O Gemini permite que os usuários personalizem os painéis do Looker, façam perguntas sobre os dados e até criem agentes de dados personalizados para análises de conversação. Embora, com base na minha experiência limitada com a ferramenta, ela muitas vezes acaba falhando em responder até mesmo perguntas simples. Conte-me se você teve uma experiência diferente e se conseguiu fazer funcionar…
- O Tableau também lançou um recurso semelhante, IA do Tableau. Eu mesmo não o utilizei, mas, com base na demonstração, ele ajuda a equipe de dados a preparar dados, criar painéis rapidamente usando linguagem natural e resumir insights de dados no Tableau Pulse para que as partes interessadas identifiquem facilmente alterações de métricas e tendências anormais.
Ferramentas de indexação de dadosA IA também pode ajudar a superar o desafio de ter pouca ou nenhuma documentação de dados.
- Durante um hackathon interno, lembro-me de que um dos projetos dos nossos engenheiros de dados era usar o LLM para aumentar a cobertura da documentação da tabela. A IA é capaz de ler a base de código e descrever colunas adequadamente com alta precisão na maioria dos casos, o que pode ajudar a melhorar a documentação rapidamente com validação e modificações humanas limitadas.
- Da mesma forma, quando minha equipe cria novas tabelas, começamos a pedir ao Cursor para escrever arquivos YAML para a documentação da tabela para nos economizar tempo com resultados de alta qualidade.
- Há também muitos catálogos de dados e ferramentas de governança que foram integrados à IA. Quando pesquiso "índice de dados de IA" no Google, vejo logotipos de ferramentas de indexação de dados como Atlan, Alation, Collibra, Informatica, etc. (Aviso: não usei nenhuma delas). Esta é uma tendência clara do setor.

2. Acelere o trabalho de alto valor

Agora que falamos sobre como a IA pode ajudar a eliminar tarefas de baixo valor, vamos discutir como ela pode acelerar projetos de dados de alto valor. “Trabalho de alto valor” aqui se refere a projetos de dados que combinam excelência técnica com contexto empresarial e alcançam impacto significativo por meio de colaboração multifuncional. Por exemplo, uma análise aprofundada que entende os padrões de uso do produto e leva a mudanças no produto, ou um modelo de previsão de rotatividade de clientes para identificar clientes em risco de rotatividade e resulta em iniciativas de prevenção de rotatividade. Vamos comparar a situação atual com o futuro ideal:

Situação atual: Existem gargalos em Produtividade No fluxo de trabalho diário

A análise exploratória de dados (EDA) consome tempo.. Esta etapa é essencial para obter uma compreensão inicial dos dados, mas realizar todas as análises univariadas e multivariadas pode ser demorado.
Tempo desperdiçado em codificação e depuração. Sejamos honestos: ninguém consegue se lembrar de todos os parâmetros dos modelos numpy, pandas e sklearn. Precisamos constantemente procurar documentação enquanto codificamos.
Dados ricos não estruturados não estão sendo totalmente utilizados.. As empresas geram muitos dados de texto todos os dias a partir de pesquisas, tickets de suporte e avaliações. Mas como extrair insights de forma escalável continua sendo um desafio.

Caso ideal: cientistas de dados se concentram no pensamento profundo, não na sintaxe.

Escrever código parece mais rápido sem precisar consultar a sintaxe.
Os analistas passam mais tempo interpretando resultados e menos tempo trabalhando com dados.
Dados não estruturados não são mais uma barreira e podem ser analisados rapidamente.

Quando você vê o caso ideal, tenho certeza de que já tem algumas ferramentas de IA em mente. Vamos ver como a IA pode realmente impactar ou fazer a diferença:

Assistentes de IA para codificação e depuração. Acredito que esse seja de longe o tipo mais confiável de ferramenta de IA para quem programa. Já estamos vendo isso acontecer novamente.
- Quando os chatbots do LLM gostam ChatGPT و ClaudeOs engenheiros perceberam que poderiam simplesmente fazer perguntas sobre sintaxe ou mensagens de erro a um chatbot que obteria respostas altamente precisas. Isso ainda interrompe seu fluxo de trabalho de codificação, mas é muito melhor do que clicar em dezenas de guias do StackOverflow — e isso já parece o século passado.
- Mais tarde, vemos surgir mais e mais ferramentas de codificação de IA integradas – integradas Copiloto do GitHub و Cursor Com seu editor de código, eles podem ler sua base de código para sugerir proativamente a conclusão de código e depurar problemas dentro do seu IDE.
- Como mencionei brevemente no início, ferramentas de dados como Floco de neve و Feitiço Ele também inclui assistentes de codificação de IA para ajudar analistas e cientistas de dados a escrever códigos facilmente.
Inteligência Artificial para Análise e Análise Exploratória de Dados. Isso é um pouco semelhante às ferramentas de assistente de BI baseadas em chat que mencionei acima, mas seu objetivo é mais ambicioso: começa com conjuntos de dados brutos e visa automatizar todo o ciclo de análise de limpeza de dados, pré-processamento, análise exploratória e, às vezes, até mesmo modelagem. Essas são as ferramentas que muitas vezes são anunciadas como “substituidoras dos analistas de dados” (mas será que são mesmo?).
- Agente de Ciência de Dados do Google É uma nova ferramenta muito impressionante que pode criar um Jupyter Notebook inteiro com um prompt simples. Eu escrevi recentemente um artigo Explica o que ele pode e não pode fazer. Resumindo, ele pode criar rapidamente um Jupyter Notebook bem organizado que é executado com base em um plano de execução personalizável. No entanto, ele não possui recursos para modificar um Jupyter Notebook com base em perguntas de acompanhamento, ainda requer alguém com forte conhecimento em ciência de dados para revisar métodos e executar iterações manuais e requer uma declaração clara do problema de dados com conjuntos de dados limpos e bem documentados. Então, vejo isso como uma ótima ferramenta para economizar tempo no código inicial, em vez de ameaçar nossos empregos.
- Também pode ser classificado como Ferramenta de análise de dados ChatGPT Dentro deste escopo. Permite que os usuários carreguem um conjunto de dados e conversem com ele para concluir suas análises, criar visualizações e responder perguntas. Você pode encontrar meu artigo anterior discutindo suas capacidades. aqui. Ele também enfrenta desafios semelhantes e funciona melhor como assistente de EDA do que como substituto de analistas de dados.
Os recursos de PNL são fáceis de usar e escaláveis.. O LLM é ótimo em conversas. Portanto, a PNL se tornou significativamente mais fácil com o LLM de hoje.
- Minha empresa organiza um hackathon interno todo ano. Lembro-me de que meu projeto de hackathon, três anos atrás, estava tentando BERT e outros métodos tradicionais de modelagem de tópicos para analisar as respostas da pesquisa NPS, o que era divertido, mas honestamente muito difícil de tornar preciso e significativo para o negócio. Então, há dois anos, durante um hackathon, tentamos API OpenAI Classificar e resumir os dados de feedback em si funcionou perfeitamente, permitindo modelagem temática de alta fidelidade, análise de sentimentos e classificação de feedback, tudo em uma única chamada de API, e o resultado se encaixou perfeitamente em nosso contexto de negócios com base em prompts do sistema. Posteriormente, criamos um pipeline interno que se expandiu facilmente para incluir dados de texto em respostas de pesquisas, tickets de suporte, chamadas de vendas, notas de pesquisa de usuários, etc. Tornou-se o ponto central para o feedback do cliente e embasou nosso roteiro de produto. Você pode encontrar o Plus em Este blog técnico.
- Há também muitas empresas novas criando ferramentas de análise de feedback de clientes com tecnologia de IA, ferramentas de análise de avaliações de produtos, ferramentas de assistência de atendimento ao cliente e muito mais. As ideias são todas as mesmas: aproveitar como o LLM pode entender o contexto do texto e conduzir conversas para criar agentes de IA especializados em análise de texto.

Conclusão

É fácil se deixar levar pelas últimas ferramentas de inteligência artificial (IA). Mas, no final das contas, o que mais importa é usar a IA para eliminar o que nos atrasa e acelerar o que nos faz avançar. O segredo é permanecer pragmático: adotar o que funciona hoje, manter a curiosidade sobre o que surge e nunca perder de vista o objetivo principal da ciência de dados, que é tomar melhores decisões por meio de melhor compreensão.