E se você ficar sem dados de treinamento do modelo de IA?

O rápido progresso na inteligência artificial depende principalmente da disponibilidade de dados de treinamento precisos e em larga escala. À medida que o uso da inteligência artificial se expande em vários setores, muitas empresas estão começando a enfrentar desafios relacionados à falta de dados de treinamento disponíveis, o que pode afetar a qualidade e a eficácia dos modelos inteligentes que desenvolvem. Então, como podemos continuar a treinar e desenvolver sistemas de IA apesar dessa deficiência?

A internet pode parecer cheia de dados disponíveis, mas a IA já consumiu a maior parte dos códigos abertos. No entanto, isso não significa que o progresso irá parar. Existem novas estratégias que podem ser usadas para preencher a lacuna de dados, como gerar dados sintéticos, coletar dados personalizados e usar dados não estruturados de maneiras inovadoras. Neste artigo, exploraremos essas soluções inovadoras e como elas podem dar suporte ao desenvolvimento da IA, garantindo que ela continue oferecendo melhor desempenho e maior valor aos usuários.

E se você ficar sem dados de treinamento do modelo de IA?

1. Os dados adicionais são sempre adicionados on-line.

Em suma, diz o Instituto de Pesquisa em Inteligência Artificial Época Os dados de alta qualidade para treinar a IA poderão esgotar-se até 2026.

A palavra-chave é “pode”. A quantidade de dados adicionados à Internet aumenta todos os anos, pelo que algo drástico pode mudar antes de 2026. No entanto, esta ainda é uma estimativa justa – de qualquer forma, os sistemas de IA ficarão sem dados bons em algum momento.

No entanto, devemos lembrar que cerca de 147 zettabytes de dados são adicionados online todos os anos (de acordo com... Tópicos Explodindo). Apenas um zetabyte equivale a 1,000,000,000,000,000,000,000 bits de dados. Em termos reais, são mais de 30 bilhões de filmes em 4K (reais, mas incompreensíveis). É uma quantidade impressionante de informações para a IA analisar.

No entanto, a inteligência artificial está consumindo dados mais rápido do que a humanidade pode produzi-los...

2. A IA pode esquecer dados de baixa qualidade

É claro que nem todos os 147 zetabytes de dados são dados bons. Há mais do que se vê no olho. Mas estima-se que a IA também consumirá dados linguísticos de baixa qualidade até 2050.

relatado Reuters O Photobucket, que já foi um dos maiores repositórios de fotos do mundo, está em negociações para licenciar sua vasta biblioteca para empresas de treinamento em IA. As fotos têm dados para treinar modelos como DALL-E e Midjourney, mas mesmo isso pode acabar até 2060. Há um problema maior aqui também: o Photobucket incluiu fotos de plataformas de redes sociais dos anos XNUMX, como o MySpace, o que significa que não são tão de alto nível quanto as atuais. fotografia. Isso leva a dados de baixa qualidade.

O Photobucket não está sozinho. Em fevereiro de 2024, o Google fechou um acordo com o Reddit, permitindo que o gigante das buscas usasse os dados dos usuários da plataforma de mídia social para treinar inteligência artificial. Outras plataformas de redes sociais também fornecem dados de usuários para fins de treinamento em IA; Alguns o usam para treinar modelos internos de IA, como o Llama do Meta.

No entanto, embora algumas informações possam ser extraídas de dados de baixa qualidade, a Microsoft está supostamente desenvolvendo uma maneira de a IA “ignorar” seletivamente os dados. Principalmente, esta solução será utilizada para questões de propriedade intelectual, mas também pode significar que as ferramentas podem esquecer o que aprenderam com conjuntos de dados de baixa qualidade.

Podemos alimentar a IA com mais dados sem sermos muito seletivos; Esses sistemas de IA podem então escolher o que é mais útil para aprender.

3. O reconhecimento de fala desbloqueia os dados disponíveis em vídeos e podcasts

Os dados alimentados às ferramentas de IA até agora consistiram em grande parte em texto e, em menor grau, em imagens. Isto irá sem dúvida mudar, e provavelmente já mudou, porque o software de reconhecimento de voz significará que a abundância de vídeos e podcasts disponíveis também pode treinar a inteligência artificial.

É importante notar que a OpenAI desenvolveu a rede neural de código aberto para reconhecimento automático de fala (ASR). Sussurro, usando 680.000 horas de dados multilíngues e multitarefa. A OpenAI então alimentou mais de um milhão de horas de informações de vídeos do YouTube em seu grande modelo de linguagem, GPT-4.

Este é um modelo ideal para outros sistemas de IA, que utilizam reconhecimento de voz para transcrever vídeo e áudio de muitas fontes e executar esses dados através dos seus próprios modelos de IA.

De acordo com Estadista, mais de 500 horas de vídeo são enviadas ao YouTube a cada minuto, um número que se mantém bastante constante desde 2019. E isso sem mencionar outras plataformas de vídeo e áudio como Dailymotion e Podbean. Se a IA conseguir voltar a sua atenção para novos conjuntos de dados como estes, ainda haverá uma enorme quantidade de informação a ser extraída.

4. A IA manteve-se em grande parte fiel à língua inglesa

Isso não é tudo que podemos aprender com o Whisper. A OpenAI treinou o modelo usando 117000 horas de dados de áudio em idiomas diferentes do inglês. Isto é especialmente interessante porque muitos sistemas de IA foram treinados principalmente usando o idioma inglês ou visualizando outras culturas através de lentes ocidentais.

Em essência, a maioria das ferramentas está vinculada à cultura de seus criadores.

Veja o ChatGPT como exemplo. Pouco depois de seu lançamento em 2022,... Jill Walker Rettberg, professor de cultura digital na Universidade de Bergen, Noruega, fez experiências com ChatGPT e concluiu o seguinte:

“ChatGPT não sabe muito sobre a cultura norueguesa. Ou melhor, presume-se que tudo o que ele sabe sobre a cultura norueguesa foi aprendido principalmente de fontes inglesas… O ChatGPT é claramente compatível com os valores e as leis americanas. Em muitos casos, estes estão próximos dos valores noruegueses e europeus, mas nem sempre é esse o caso.

Portanto, os sistemas de IA poderiam se desenvolver para que mais pessoas multinacionais interagissem com eles ou usassem línguas e culturas mais diversas para treinar tais sistemas. Atualmente, muitos modelos de IA estão limitados a uma única biblioteca; Poderia crescer se recebesse as chaves de bibliotecas em todo o mundo.

5. As editoras podem ajudar a desenvolver a inteligência artificial.

A propriedade intelectual é obviamente um grande problema, mas alguns editores podem ajudar a promover a IA celebrando acordos de licenciamento. Isto significa fornecer às ferramentas dados de livros de alta qualidade, ou seja, confiáveis, em vez de informações de baixa qualidade provenientes de fontes on-line.

Na verdade, a Meta, dona do Facebook, Instagram e Whatsapp, teria considerado comprar a Simon & Schuster, uma das “Cinco Grandes” editoras. A ideia era utilizar a literatura publicada pela empresa para treinar a IA da Meta. O acordo acabou fracassando, talvez devido à área ética cinzenta da empresa que processa IPs sem o consentimento prévio dos redatores.

Outra opção que está sendo considerada parece ser a compra de direitos de licenciamento individuais para novos títulos. Isso deve causar preocupações significativas para os criadores, mas ainda será uma maneira interessante de desenvolver ferramentas de IA se ficarmos sem dados utilizáveis.

6. Os dados sintéticos são o futuro

Todas as outras soluções ainda são limitadas, mas há uma opção que pode levar à prosperidade da IA no futuro: dados sintéticos. O assunto já está sendo investigado como uma possibilidade muito real.

Então, o que são dados sintéticos? São dados gerados por inteligência artificial; Assim como os humanos criam dados, este método fará com que a IA crie dados para fins de treinamento.

Na verdade, a IA pode criar vídeos deepfake convincentes. Este vídeo deepfake pode ser enviado de volta à IA para que ela possa aprender com o que é essencialmente um cenário fictício. Afinal, esta é uma das principais formas de aprendizagem do ser humano: lemos ou assistimos algo para compreender o mundo que nos rodeia.

Os sistemas de IA provavelmente já consumiram informações artificiais. Deepfakes espalharam informações enganosas e falsas on-line; portanto, quando os sistemas de IA verificam o conteúdo on-line, é lógico que alguns possam ter sido expostos a conteúdo falso.

Sim, há um lado sinistro nisso. Também pode danificar ou limitar os sistemas de IA, reforçando e disseminando os erros cometidos por essas ferramentas. As empresas estão trabalhando para eliminar o problema; No entanto, a frase “IAs aprendendo umas com as outras e cometendo erros” é um ponto da trama de muitos cenários de pesadelo da ficção científica.

7. Faça melhor uso da inteligência artificial

As ferramentas de inteligência artificial são controversas. Há muitas desvantagens nisso, mas os críticos ignoram seus benefícios. Por exemplo, Rede de Auditoria e Consultoria PwC [PDF] A inteligência artificial poderá contribuir com até 15.7 biliões de dólares para a economia global até 2030.

Além disso, a IA já está a ser utilizada em todo o mundo. Você provavelmente já o usou hoje de uma forma ou de outra, talvez sem perceber. Agora que o gênio saiu da garrafa, a chave é definitivamente treiná-lo com dados confiáveis e de alta qualidade para que possamos aproveitá-lo adequadamente.

A inteligência artificial tem seus prós e contras. Definitivamente, há um equilíbrio a ser encontrado.

As ferramentas de IA enfrentam um desafio crescente devido à falta de dados de treinamento disponíveis, o que ameaça prejudicar seu progresso e desenvolvimento. Para superar esse desafio, soluções inovadoras estão sendo adotadas, como o uso de dados sintéticos, aproveitando o aprendizado não supervisionado e promovendo a colaboração entre instituições para compartilhar dados. Essas soluções ajudam a fornecer novas fontes de dados, garantindo que modelos inteligentes continuem sendo aprimorados e desenvolvidos de forma eficiente e eficaz.