Want to Partnership with me? Book A Call

Popular Posts

Dream Life in Paris

Questions explained agreeable preferred strangers too him her son. Set put shyness offices his females him distant.

Hot

Categories

Edit Template

IETF: Nova Abordagem para Controlar Scraping de AI

A AI website scraping é um desafio crescente para editores da web, que lutam para proteger seu conteúdo valioso.

Com o avanço dos bots de AI, a situação se torna cada vez mais complicada, e a IETF está buscando soluções inovadoras para enfrentar esse problema.

O Desafio do Scraping de AI

O desafio do scraping de AI é um tema que vem ganhando destaque entre os editores de conteúdo na web. A sensação de que é quase impossível impedir que bots de IA consumam o melhor conteúdo, enquanto drenam a largura de banda, é um sentimento comum. É como tentar apagar um incêndio florestal com um copo d’água – por mais que se tente, os bots continuam a avançar, consumindo dados para treinar modelos de IA em um crescimento competitivo acelerado.

As abordagens tradicionais para limitar o comportamento dos bots, como o uso de arquivos robots.txt, estão se mostrando cada vez mais obsoletas. No entanto, uma solução pode estar a caminho através do trabalho do Grupo de Trabalho de Preferências de IA (AIPREF) da Internet Engineering Task Force (IETF), que se reuniu recentemente em Bruxelas. O objetivo é criar um novo sistema semelhante ao robots.txt que sinalize para os sistemas de IA o que é e o que não é permitido.

O grupo está trabalhando para definir dois mecanismos principais para conter os scrapers de IA. O primeiro é desenvolver um vocabulário comum que expresse as preferências de autores e editores sobre o uso de seu conteúdo para treinamento de IA. O segundo é criar um meio de anexar esse vocabulário ao conteúdo na internet, seja incorporando-o diretamente no conteúdo ou utilizando formatos semelhantes ao robots.txt.

Os co-presidentes do AIPREF, Mark Nottingham e Suresh Krishnan, destacaram a necessidade de mudança, afirmando que atualmente os fornecedores de IA utilizam uma variedade confusa de sinais não padronizados no arquivo robots.txt e em outros lugares para orientar suas decisões de rastreamento e treinamento. Isso resulta em uma perda de confiança por parte de autores e editores, que acabam recorrendo a medidas como o bloqueio de endereços IP.

Além disso, a preocupação com o scraping de IA está crescendo na indústria de publicações. Em 2023, o Google enfrentou um processo alegando que sua IA havia raspado material protegido por direitos autorais. Embora o processo tenha sido posteriormente arquivado, a questão central gira em torno do princípio de usar conteúdo protegido para treinar modelos de IA.

Um exemplo prático dessa situação é o caso da Wikimedia Foundation, que relatou um aumento de 50% na largura de banda consumida por bots de IA desde janeiro de 2024, devido ao download de conteúdo multimídia, como vídeos. Isso não está vindo de leitores humanos, mas sim de programas automatizados que raspam o catálogo de imagens da Wikimedia Commons para alimentar modelos de IA.

Os métodos estabelecidos para impedir bots de IA têm desvantagens. O uso de arquivos robots.txt pode ser ignorado, assim como outras alternativas, como bloqueio de IP, CAPTCHAs e firewalls de aplicativos web. Mesmo abordagens laterais, como os tarpits, que confundem os crawlers com labirintos de arquivos, podem ser superadas por crawlers de IA sofisticados.

A grande questão é se o AIPREF fará alguma diferença. A eficácia pode depender da postura ética das empresas que realizam o scraping. Enquanto alguns podem aderir ao AIPREF, outros provavelmente não o farão. Especialistas como Cahyo Subroto, desenvolvedor da ferramenta de scraping ético MrScraper, expressam ceticismo sobre a eficácia do AIPREF em mudar o comportamento de scrapers agressivos.

Por fim, Nathan Brunner, CEO da ferramenta de preparação para entrevistas de IA Boterview, ressalta que bloquear scrapers de IA pode criar novos problemas. Os editores desejam que suas páginas sejam indexadas por mecanismos de busca para atrair tráfego, mas não querem que suas páginas sejam usadas para treinar IA. Isso resulta em um delicado ato de equilíbrio.

O desafio do scraping de IA é complexo e multifacetado, exigindo uma abordagem colaborativa e inovadora para proteger os direitos dos criadores de conteúdo.

Fonte: Computer World

Iniciativas da IETF para Soluções

A Iniciativa da IETF para soluções de controle sobre bots de IA surge em um contexto onde editores da web enfrentam desafios crescentes com o scraping de conteúdo. A AI Preferences Working Group (AIPREF) está trabalhando para desenvolver um sistema que funcione de maneira semelhante ao robots.txt, permitindo que autores e editores expressem suas preferências sobre o uso de seu conteúdo para treinamento de IA.

Durante uma reunião em Bruxelas, o grupo pretende definir dois mecanismos principais: primeiro, um vocabulário comum que permita expressar as preferências dos autores e editores; segundo, um meio de anexar esse vocabulário ao conteúdo na internet, seja incorporando-o diretamente ou utilizando formatos semelhantes ao robots.txt.

Os co-presidentes do AIPREF, Mark Nottingham e Suresh Krishnan, destacaram a necessidade de mudança, afirmando que atualmente os fornecedores de IA utilizam uma variedade confusa de sinais não padronizados, o que gera desconfiança entre autores e editores. Isso leva muitos a bloquear seus endereços IP como uma medida de proteção.

Além disso, a preocupação com o scraping de IA está crescendo na indústria de publicações. Casos como o da Wikimedia Foundation, que relatou um aumento de 50% no uso de largura de banda devido a bots de IA, ilustram a magnitude do problema. A fundação destacou que esse aumento não é causado por leitores humanos, mas por programas automatizados que consomem conteúdo para alimentar modelos de IA.

As abordagens tradicionais para limitar o comportamento de bots, como o uso de robots.txt, têm se mostrado ineficazes, pois muitos bots simplesmente ignoram essas diretrizes. Alternativas como bloqueio de IP, CAPTCHAs e firewalls também apresentam desvantagens. A questão central é se a AIPREF conseguirá fazer a diferença, considerando que a ética das empresas que realizam o scraping pode influenciar sua adesão às novas diretrizes.

Especialistas expressam ceticismo sobre a eficácia da AIPREF. Para alguns, como Cahyo Subroto, a iniciativa pode ajudar a esclarecer expectativas, mas não será suficiente para aqueles que operam em áreas cinzentas. Outros, como Nathan Brunner, ressaltam que bloquear scrapers de IA pode criar novos problemas, já que os editores desejam que suas páginas sejam indexadas por mecanismos de busca, mas não usadas para treinar IA.

Portanto, a AIPREF representa um passo importante, mas a responsabilidade de mitigar os impactos negativos dos crawlers de IA recai sobre os próprios crawlers e os provedores de serviços de proxy, que podem impor limites de taxa em suas operações.

Implicações para Editores e Criadores de Conteúdo

As implicações para editores e criadores de conteúdo são profundas, especialmente em um cenário onde bots de IA estão cada vez mais presentes e vorazes. Para os publicadores da web, a luta contra esses bots que consomem seu conteúdo valioso e largura de banda pode parecer uma batalha perdida. É como tentar apagar um incêndio florestal com um copo d’água – por mais que se tente, os bots continuam a avançar, consumindo dados para treinar modelos de IA em um crescimento competitivo acelerado.

Tradicionalmente, os editores têm utilizado métodos como o arquivo robots.txt para limitar o comportamento dos bots, mas essa abordagem está se mostrando cada vez mais obsoleta. Uma possível solução está sendo desenvolvida pelo Grupo de Trabalho de Preferências de IA (AIPREF) da Internet Engineering Task Force (IETF), que se reuniu recentemente em Bruxelas. O objetivo é criar um sistema semelhante ao robots.txt que sinalize para os sistemas de IA o que é e o que não é permitido.

O grupo pretende definir dois mecanismos principais: primeiro, um vocabulário comum que expresse as preferências de autores e publicadores sobre o uso de seu conteúdo para treinamento de IA. Em segundo lugar, desenvolver uma forma de anexar esse vocabulário ao conteúdo na internet, seja incorporando-o diretamente no conteúdo ou utilizando formatos semelhantes ao robots.txt.

Os co-presidentes do AIPREF, Mark Nottingham e Suresh Krishnan, destacaram a necessidade de mudança, afirmando que atualmente os fornecedores de IA utilizam uma variedade confusa de sinais não padronizados, o que leva autores e publicadores a perderem a confiança de que suas preferências serão respeitadas.

Além disso, a preocupação com a IA parasitária está crescendo na indústria de publicações. Casos como o processo contra o Google, que alegava que sua IA havia raspado material protegido por direitos autorais, evidenciam a necessidade de proteger o conteúdo criativo. A Wikimedia Foundation também relatou um aumento de 50% no uso de largura de banda devido a bots de IA que baixam conteúdo multimídia, o que causa interrupções significativas em seus serviços.

Os métodos estabelecidos para impedir bots de IA têm suas desvantagens. O uso de arquivos robots.txt pode ser ignorado, e alternativas como bloqueio de IP ou strings de agente de usuário também apresentam limitações. Mesmo abordagens mais criativas, como os ‘tarpits’, que confundem os crawlers, podem ser superadas por crawlers de IA sofisticados.

A questão central é se o AIPREF fará alguma diferença. A eficácia do novo sistema dependerá da ética das empresas que realizam a raspagem. Enquanto alguns podem aderir às novas diretrizes, outros continuarão a ignorá-las. Especialistas sugerem que, sem bases legais para a aplicação, é improvável que o AIPREF resolva os problemas relacionados aos crawlers de IA.

Por fim, Nathan Brunner, CEO de uma ferramenta de preparação para entrevistas de IA, ressalta que bloquear scrapers de IA pode criar novos problemas. Os editores enfrentam um dilema: querem que suas páginas sejam indexadas por mecanismos de busca para atrair tráfego, mas não desejam que seu conteúdo seja usado para treinar IA. Portanto, um padrão universal seria muito bem-vindo.

Share Article:

Leonardo Martins

Writer & Blogger

Considered an invitation do introduced sufficient understood instrument it. Of decisively friendship in as collecting at. No affixed be husband ye females brother garrets proceed. Least child who seven happy yet balls young. Discovery sweetness principle discourse shameless bed one excellent. Sentiments of surrounded friendship dispatched connection is he. Me or produce besides hastily up as pleased. 

Leave a Reply

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Lillian Morgan

Endeavor bachelor but add eat pleasure doubtful sociable. Age forming covered you entered the examine. Blessing scarcely confined her contempt wondered shy.

Follow On Instagram

Dream Life in Paris

Questions explained agreeable preferred strangers too him her son. Set put shyness offices his females him distant.

Hot

Join the family!

Sign up for a Newsletter.

You have been successfully Subscribed! Ops! Something went wrong, please try again.

Tags

    Edit Template

    About

    Appetite no humoured returned informed. Possession so comparison inquietude he he conviction no decisively.

    Tags

      © 2023 Created with Royal Elementor Addons