Arthur presenta Arthur Bench, un Open

Blog

CasaCasa / Blog / Arthur presenta Arthur Bench, un Open

Jul 30, 2023

Arthur presenta Arthur Bench, un Open

Notizie fornite da 17 agosto 2023, 09:00 ET Condividi questo articolo Arthur ha anche presentato il Generative Assessment Project (GAP), un'iniziativa di ricerca che monitora i punti di forza e di debolezza del modello linguistico

Notizie fornite da

17 agosto 2023, 9:00 ET

Condividi questo articolo

Arthur ha anche presentato The Generative Assessment Project (GAP), un'iniziativa di ricerca che monitora i punti di forza e di debolezza dei modelli linguistici offerti da OpenAI, Anthropic, Meta e altri mentre si evolvono nel tempo

NEW YORK, 17 agosto 2023 /PRNewswire/ -- Arthur, una piattaforma di prestazioni IA a cui si affidano alcune delle più grandi organizzazioni al mondo per garantire che i loro sistemi IA siano ben gestiti e implementati in modo responsabile, ha presentato oggi Arthur Bench , uno strumento di valutazione open source per confrontare modelli linguistici di grandi dimensioni (LLM), prompt e iperparametri per modelli di testo generativi. Questo strumento open source consentirà alle aziende di valutare come si comporteranno i diversi LLM in scenari reali in modo che possano prendere decisioni informate e basate sui dati quando integrano le più recenti tecnologie di intelligenza artificiale nelle loro operazioni.

Insieme ad Arthur Bench, Arthur ha anche presentato The Generative Assessment Project (GAP), un’iniziativa di ricerca che classifica i punti di forza e di debolezza delle offerte di modelli linguistici di leader del settore come OpenAI, Anthropic e Meta. In particolare, la ricerca di Arthur suggerisce che Anthropic potrebbe guadagnare un leggero vantaggio competitivo rispetto al GPT-4 di OpenAI sulle misure di “affidabilità” all’interno di domini specifici. Ad esempio, mentre GPT-4 ha avuto più successo nel rispondere a domande di matematica, il modello Claude-2 di Anthropic è stato più efficace nell’evitare errori fattuali allucinati e nel rispondere “Non lo so” al momento opportuno quando si rispondeva a domande di storia. Attraverso GAP, Arthur continuerà a condividere con il pubblico le scoperte sulle differenze di comportamento e le migliori pratiche nel suo viaggio per far sì che i LLM funzionino per tutti.

"Come mostra chiaramente la nostra ricerca GAP, comprendere le differenze di prestazioni tra i LLM può avere un'incredibile quantità di sfumature. Con Bench, abbiamo creato uno strumento open source per aiutare i team a comprendere a fondo le differenze tra i fornitori LLM, i diversi suggerimenti e miglioramenti strategie e regimi di allenamento personalizzati", ha affermato Adam Wenchel, co-fondatore e CEO di Arthur.

Arthur Bench è il più recente nella suite Arthur di prodotti incentrati su LLM, dopo Arthur Shield a maggio. Arthur Bench aiuta le aziende in diversi modi:

"Arthur Bench ci ha aiutato a sviluppare un framework interno per scalare e standardizzare la valutazione LLM in tutte le funzionalità e per descrivere le prestazioni al team di prodotto con metriche significative e interpretabili", ha affermato Priyanka Oberoi, Staff Data Scientist presso Axios HQ, un cliente Arthur con accesso anticipato ad Arthur Bench.

Informazioni su Artù:

Arthur è la società leader nel settore delle prestazioni di intelligenza artificiale. Arthur monitora, misura e migliora i modelli di machine learning per fornire risultati migliori, collaborando con i team aziendali per accelerare le operazioni dei modelli e ottimizzare l'accuratezza, la spiegabilità e l'equità. L'approccio di Arthur allo sviluppo prodotto, basato sulla ricerca, promuove capacità esclusive in scalabilità aziendale, visione artificiale, PNL, mitigazione dei pregiudizi e altre aree critiche. Lanciato nel 2019, Arthur ha raccolto oltre 60 milioni di dollari in capitale di rischio da Index Ventures, Acrew Capital, Greycroft e Work-Bench, tra gli altri principali investitori. Per ulteriori informazioni, visitare il sito www.arthur.ai.

FONTE Arturo

Artù