MUNDO
OpenAI training data ‘contains millions’ of NYT and Daily News works
PUBLICADO
1 mês atrásem
Millions of stories published by sites including The New York Times and The New York Daily News have been found in three weeks of searching OpenAI’s training dataset.
The news publishers are currently trawling through data to find instances of their copyrighted work being used to train OpenAI’s models – but they say the tech company should be forced to provide the information itself.
They are now asking for a court order requiring OpenAI to “identify and admit” which of their copyrighted content was used to train each of its large language models between GPT-1 and GPT-4o.
According to the ChatGPT creator, which objected to the request, the publishers have asked for information about almost 20 million pieces of content mentioned in the case, “effectively resulting in almost 500 million requests”.
The publishers told the court on Friday that their requests to the AI company for help with inspecting the data “would be significantly reduced if OpenAI admitted that they trained their models on all, or the vast majority, of News Plaintiffs’ copyrighted content”.
Thanks for subscribing.
A letter to the court also stated: “While they have already found millions of News Plaintiffs’ works in the training datasets, they do not know how many more works are yet to be uncovered – information that OpenAI, as the party that chose to copy these works, should be ordered to provide.”
The New York Times was the first major news publisher to file a copyright case against OpenAI and its partner Microsoft in December last year.
The New York Daily News and seven sister publications, all owned by Alden Global Capital, followed suit in April and the two cases have since been combined after OpenAI and Microsoft argued they “involve nearly identical allegations relating to the same new technology”.
In the new letter, the news publishers argued that identifying which of their copyrighted work was taken and used to train the GPT models is “foundational to these cases and informs the scope” of their claims.
“But News Plaintiffs and OpenAI have a fundamental disagreement about who is responsible for identifying this information.”
The publishers said they have served numerous requests since February for information about what’s in OpenAI’s training datasets, to which the tech company replied: “OpenAI will make available for inspection, pursuant to an inspection protocol to be negotiated between the parties, the pretraining data for models used for ChatGPT that it locates after a reasonable search.”
After long-running negotiations, since last month the news publishers have been inspecting OpenAI’s training data under strict conditions, previously described by the court as a “sandbox” (meaning a highly controlled environment in which only certain applications can be run).
But the news publishers said they initially faced “severe and repeated technical issues” stopping them from being able to “effectively and efficiently” carry out the search and “ascertain the full scope of OpenAI’s infringement”.
They complained that the process is “time-consuming, burdensome, and hugely expensive” and said they had spent the equivalent of 27 days via lawyers and experts in the OpenAI sandbox but were “nowhere near done”.
The New York Times Company results published on Monday revealed it has so far spent at least $7.6m on the case against OpenAI and Microsoft.
OpenAI: Training data searches are ‘uncharted waters’
OpenAI responded within the same letter that the publishers’ complaints about the inspection have either been resolved or are being actively discussed. It blamed the issues on consultants for the publishers “overwhelming the file system with malformed searches”.
OpenAI added: “Taking a step back, everyone agrees the parties are navigating uncharted waters with training-data discovery.
“There are no precedents for such discovery, where Plaintiffs seek access to several hundred terabytes of unstructured textual data. OpenAI cannot easily identify the specific content that Plaintiffs are interested in, so it did exactly what Rule 34 allows: it invited Plaintiffs to inspect the data as it is kept in the ordinary course. There is no ‘sandbox’. Rather, because the data is far too voluminous to produce, OpenAI built the hardware and software that Plaintiffs need to inspect.
“Specifically, OpenAI organised hundreds of terabytes of training data in an object-storage file system for Plaintiffs’ exclusive use; it built an enterprise-grade virtual machine with the computing power to access, search, and analyse the datasets; it installed hundreds of software tools and tens of gigabytes of Plaintiffs’ data upon their request; and it managed the necessary firewalls and secure virtual private network to support the inspection.”
OpenAI said it would continue to help the publishers overcome technical challenges provided they “engage in good faith” but added: “Unfortunately, this has not always been the case,” accusing them of delaying the process for months and submitting “hundreds of irrelevant requests”.
Representatives for the Authors Guild and progressive newsbrand Raw Story Media have also viewed the OpenAI training data for their own cases.
OpenAI previously asked a judge to force The New York Times to hand over its journalists’ confidential notes, a move the publisher warned would have “serious negative and far-reaching consequences” and was ultimately denied in September.
Email pged@pressgazette.co.uk to point out mistakes, provide story tips or send in a letter for publication on our “Letters Page” blog
Relacionado
MUNDO
Lindo: os maiores cânions do mundo – em fotos | Viagem
PUBLICADO
11 minutos atrásem
12 de dezembro de 2024 Guardian Staff
Fotografia: Anadolu/Getty Images
Relacionado
MUNDO
Pachuca surpreende o Botafogo por 3 a 0 no Catar e avança na Copa Intercontinental da FIFA | Notícias de futebol
PUBLICADO
14 minutos atrásem
12 de dezembro de 2024O Pachuca, do México, se tornou o primeiro time a erguer o troféu do Derby das Américas da FIFA ao derrotar o Botafogo em Doha.
O Pachuca, do México, derrotou o Botafogo por 3 a 0 na Copa Intercontinental e avançou para a próxima fase da competição.
Gols no segundo tempo de Oussama Idrissi, Nelson Deossa e Salomon Rondon, do Pachuca, deram aos campeões continentais norte-americanos a vitória sobre os sul-americanos na quarta-feira, no Estádio 974, em Doha.
Os vencedores do confronto totalmente americano avançam para a próxima rodada do novo formato da Copa Intercontinental, onde enfrentarão o Al Ahly, do Egito, vencedor da Liga dos Campeões da CAF, no dia 14 de dezembro.
O Real Madrid, actual detentor da UEFA Champions League, aguarda na final quatro dias depois. A final do dia 18 de dezembro será disputada no Estádio Lusail, local que sediou a final da Copa do Mundo FIFA de 2022.
O Pachuca se classificou para o torneio como vencedor da Copa dos Campeões da Concacaf de 2024 – após a vitória por 3 a 0 na final contra o Columbus Crew, da MLS, no início de junho.
A derrota atrapalhou as duas semanas brilhantes do Botafogo, nas quais conquistou a Copa Libertadores e conquistou a Série A do Brasil.
A Copa Intercontinental deste ano é a edição inaugural da Copa Intercontinental da FIFA, um torneio anual de futebol de associações de clubes organizado pela FIFA.
Relacionado
MUNDO
‘Cem Anos de Solidão’, da Netflix, tem incesto e tragédias – 12/12/2024 – Ilustrada
PUBLICADO
15 minutos atrásem
12 de dezembro de 2024 Maurício Meireles
Macondo. O fabuloso talvez reste mais sólido na memória com o passar dos anos: peixinhos de ouro, mariposas que visitam a casa, uma chuva de flores amarelas. Quem leu “Cem Anos de Solidão” há muito tempo talvez tenha na lembrança pequenos detalhes assim —fofos, não seria injusto dizer.
Mas essas imagens não fazem jus ao romance mais famoso de Gabriel García Márquez. “Cem Anos de Solidão” logo revela-se também uma fábula de decadência, maldição familiar, pecados, culpas ancestrais, fatalismo e desfechos trágicos.
Por isso, num tempo em que adaptações literárias para as telas costumam sumir com elementos controversos das obras, é interessante que a aguardada série “Cem Anos de Solidão”, que estreia na Netflix nesta quarta-feira (11), não se esquive desses pontos —pelo menos dos principais.
O incesto entre os personagens, por exemplo, está fartamente retratado, como um pecado original que retorna à casa dos Buendía, muitas vezes antecipando mortes terríveis. Basta lembrar que José Arcádio Buendía e Úrsula Iguarán, patriarca e matriarca que fundam a cidade fictícia Macondo, são primos —daí o medo que têm de gerar lagartos como filhos.
Há ainda histórias como a de meio-irmãos que se casam ou a de Aureliano, que pede em casamento Remédios, menina que ainda brinca de boneca. Os pais dela se horrorizam, mas dão sinal verde, pedem só para esperar um pouco.
“Não podemos mudar o comportamento dos personagens porque eles nos deixam desconfortáveis”, diz o argentino Alex Garcia López, um dos diretores da série.
“Seria letal olhar a obra sob o prisma da correção política”, acrescenta a colombiana Laura Mora, também diretora. “O livro fala de relações quase que de uma tragédia grega, de símbolos trágicos da repetição. Tirar esses elementos seria tirar o coração da obra.”
Há algo de bíblico e trágico já no começo da história. Depois do casamento de José Arcadio e Úrsula, o rapaz acaba matando um homem em um duelo, e vai ser assombrado não só pela culpa, mas pelo próprio fantasma do morto. Depois do duplo pecado —o incesto e o homicídio—, os dois deixam a cidade com companheiros, em um êxodo que vai levar à fundação de Macondo.
Os temas de decadência familiar chegam à obra de García Márquez em partes pela influência do escritor americano William Faulkner, que ele admirava. Mas Gabo pega esses elementos e os alia a uma linguagem lírica e a um senso de humor particular, de modo que um vento de força vital sopra sobre o trágico.
A série da Netflix consegue transpor para a tela essa atmosfera, mesmo tendo que escolher o que incluir e o deixar de fora. E boa parte disso se deve à construção visual do universo do romance, não só na criação da Macondo cenográfica.
Um exemplo são os elementos fantásticos em cena. Em Macondo, o mágico é mundano, não espanta ninguém. “São propriedades da matéria, não é nada extraordinário”, diz José Arcadio numa cena em que um berço flutua.
Para reproduzir essa naturalidade, o fantástico foi construído em cena, de forma quase artesanal, em vez de ser realizado computador, na pós-produção: um personagem que voa é içado por um cabo, enquanto um fantasma é um ator de carne e osso.
Não é só para o espectador que isso tem um ar gracioso. Os efeitos também exercem poder sobre a imaginação dos atores em cena.
“Era muito interessante interagir com o efeito vivo”, recorda Marco Antonio González, que interpreta José Arcadio Buendía jovem. “Havia muitos efeitos que me eram explicados no set de gravação e eu ficava como um menino brincando com gelo seco.”
Mesmo a passagem do tempo é construída muitas vezes apenas com movimentos de câmera, em vez de cortes ou efeitos visuais.
“Gabo dizia que tentou escrever essa história muitas vezes, até perceber que precisava contá-la em um tom neutro”, diz Alex García López. “Por isso, quisemos captar essa atmosfera com o uso da câmera e do movimento, não com efeitos especiais.”
Mas o mais complicado não deve ter sido lidar com o fantástico e sim com um dos personagens mais tinhosos da narrativa: o tempo, que avança, mas se repete, deixando os Buendía aprisionados numa história ancestral.
A passagem dos anos traz transformações profundas para a família —e abre um território amplo para os atores criarem. Isso é verdade para todos os personagens, sem exceção, mas três têm uma centralidade maior: José Arcadio, o patriarca; Úrsula, a mãe; e Aureliano, que logo vira o famoso coronel Aureliano Buendía.
O primeiro, por exemplo, é um homem de imaginação prodigiosa que cria Macondo depois de um sonho. Mas vai pouco a pouco mergulhando em um estado irreversível de loucura, dizendo frases desconexas em latim.
“José Arcadio é um personagem que tem o peso dos anos”, diz Diego Vásquez, que interpreta o patriarca. “É um peso da culpa de ter cometido um assassinato e não ter chegado ao lugar onde queria. Pouco a pouco, vai se transformando e alguém alheio ao mundo real.”
Úrsula, interpretada por Marleyde Soto, é a âncora da casa, mas que testemunha os descaminhos da família —inclusive o de Aureliano, rapaz pacífico convertido em líder de uma revolução armada que, em certo ponto, mais parece um chefe de bandoleiros.
“Aureliano é um personagem que permite uma travessia por uma vida cheia de ambiguidades”, diz o ator Claudio Cataño, um dos destaques da série, que o interpreta.
O filho de José Arcadio e Úrsula é o centro gravitacional da parte de maior carga política da temporada: a violenta guerra entre conservadores e liberais, em que logo não dá mais para saber quem é mocinho e quem é bandido, com o povo como vítima dos dois lados.
É uma mensagem política clara, mas que Gabo escreveu com os conflitos do século 20 em mente. Ainda terá espaço junto ao público do século 21?
“Tem uma atualidade profunda em um mundo dividido, em tensão com o conservadorismo”, diz Laura Mora, a diretora. “Mas também é uma lembrança de que o ser humano, mesmo aquele envolvido em lutas românticas, pode virar um tirano. Como Aureliano Buendía.”
Os temas mais duros dessa história não são muito comuns nas atuais produções de TV. A escolha da produção de facilitar aspectos mais difíceis do romance deve dar uma forcinha —mas seria preciso ler o futuro nas cartas, como em Macondo, para saber como o público vai reagir.
O jornalista viajou a convite da Netflix
Relacionado
PESQUISE AQUI
MAIS LIDAS
- ACRE6 dias ago
Tarauacá celebra inclusão em Sorteio Habitacional do Governo do Acre
- AMAZÔNIA6 dias ago
Tarauacá engaja-se no Programa Isa Carbono para fortalecer Políticas Ambientais
- MUNDO1 dia ago
Herdeiro da Marabraz move ação para interditar o pai – 10/12/2024 – Rede Social
- OPINIÃO5 dias ago
O Indiciamento de 37 pessoas pela PF – O Episódio e suas consequências
You must be logged in to post a comment Login