Pontifex: uma nova arquitetura para investigação semântica

· 41min de leitura · atualizado

Abstract geometric representation of neural network layers converging with glowing data streams.

Apresentamos Pontifex, uma nova arquitetura que unifica duas técnicas para sondagem semântica rápida e de uso geral em linguagens e espaços de representação. Pontifex combina (i) oclusão ultrarrápida em nível de byte com comparação semântica bilateral e (ii) investigação semântica convergente multiespaço por meio de camadas de convergência neural. Ao ocluir sequências de bytes brutos e comparar as representações semânticas resultantes em ambos os lados da oclusão, o Pontifex identifica com eficiência segmentos de entrada influentes. Simultaneamente, ele conduz investigações paralelas em múltiplos espaços de incorporação e aprende a convergir suas evidências semânticas sem exigir transformações explícitas entre espaços. Em experimentos, o Pontifex alcança uma aceleração de ordem de grandeza em relação aos métodos de interpretabilidade em nível de token e baseados em LLM, preservando a consistência semântica entre os idiomas. Ele supera as técnicas de sondagem de incorporação padrão em benchmarks multilíngues e intermodais, alinhando diversas incorporações para revelar conceitos compartilhados. Discutimos como o mecanismo de acordo entre espaços do Pontifex produz uma interpretabilidade mais robusta e independente da linguagem, e delineamos direções futuras para estender esta abordagem à convergência multimodal e à geração de hipóteses não supervisionadas de características semânticas.

Introdução

Grandes modelos pré-treinados aprendem representações semânticas ricas, mas investigar essas representações em busca de insights — especialmente em diferentes linguagens ou modalidades — continua sendo um desafio. Os métodos tradicionais de interpretabilidade, como ablação de recursos e sondagem de representação, são frequentemente confinados a um único modelo ou linguagem por vez, tornando a análise de representação cruzada complicada. Além disso, as abordagens que dependem da tokenização específica do modelo ou da solicitação de grandes modelos de linguagem (LLMs) podem ser lentas e difíceis de generalizar. Há uma necessidade crescente de sondagem semântica rápida e de uso geral que possa operar uniformemente em diversas entradas e espaços de incorporação. Por exemplo, uma sonda verdadeiramente agnóstica em termos de linguagem deve lidar com uma frase em inglês e o seu equivalente em japonês com igual facilidade e identificar quais as partes de cada uma que são semanticamente essenciais – de preferência sem reciclagem ou dados paralelos extensos. As soluções existentes atendem apenas parcialmente a esta necessidade. A sondagem paramétrica com classificadores lineares tem sido amplamente usada para testar quais informações são codificadas em incorporações, mas esses métodos normalmente exigem o treinamento de uma nova sondagem por tarefa ou linguagem e não comparam diretamente diferentes espaços de incorporação. As técnicas de alinhamento de incorporação mapeiam o espaço de incorporação de um modelo para outro (por exemplo, alinhando vetores de palavras multilíngues), mas muitas vezes exigem dicionários bilíngues ou treinamento conjunto e podem enfrentar diferenças não lineares. Por outro lado, pode-se simplesmente usar um LLM poderoso para introspectar representações ou explicar decisões de modelos em linguagem natural. No entanto, as investigações baseadas em LLM são dispendiosas e podem ser inconsistentes – estudos descobriram que mesmo quando os LLM são solicitados a explicar as suas próprias previsões, as “autoexplicações” podem não refletir fielmente o verdadeiro processo de decisão do modelo. Em suma, abordagens puramente específicas do modelo ou sequenciais não conseguem fornecer uma investigação semântica rápida e unificada em sistemas heterogêneos. Neste trabalho, apresentamos Pontifex, uma arquitetura projetada para conectar investigações semânticas entre múltiplos espaços de representação. A Pontifex se baseia em duas inovações importantes. Primeiro, ele emprega oclusão em nível de byte combinada com comparação semântica bilateral como uma técnica de interpretabilidade rápida e independente de linguagem. Ao manipular bytes brutos de entrada (em vez de tokens específicos do idioma) e comparar o efeito semântico de ambos os lados do segmento ocluído, o Pontifex pode identificar subsequências influentes em uma entrada com sobrecarga mínima de pré-processamento. Isso permite que uma única estrutura teste entradas em qualquer linguagem ou formato que possa ser codificado por bytes, aproveitando a robustez dos modelos em nível de byte para ruídos e scripts diversos. Em segundo lugar, Pontifex introduz a investigação semântica multiespacial convergente, em que múltiplos espaços de incorporação são consultados em paralelo e suas descobertas reconciliadas por meio de camadas de convergência neural. Em vez de traduzir representações de um espaço para outro (o que corre o risco de perder informações e requer extensos dados de treinamento), a Pontifex trata cada espaço de incorporação como um “especialista” independente que avalia a mesma hipótese semântica. Um mecanismo de convergência treinável identifica então acordo ou conflito entre espaços para inferir a verdade semântica subjacente. Esta abordagem reflecte a forma como os humanos reconciliam informações de diferentes especialistas ou línguas: concentrando-se no significado consistente por trás de diferentes representações. Ao unificar essas técnicas, a Pontifex alcança uma sondagem semântica rápida e validada cruzada. Nossas contribuições são as seguintes: (1) Formalizamos um método de oclusão em nível de byte com comparação bilateral que produz múltiplos sinais por oclusão, melhorando a eficiência e a informatividade. (2) Propomos camadas de convergência neural que aprendem a combinar sinais de similaridade de espaços de incorporação díspares, permitindo verificações diretas de concordância semântica entre espaços sem alinhamento de incorporação explícito. (3) Implementamos o Pontifex e o avaliamos em uma variedade de benchmarks, incluindo similaridade semântica interlingual e tarefas de alinhamento de conceito multimodal. Pontifex demonstra consistentemente maior consistência semântica entre idiomas e convergência mais rápida para corrigir interpretações do que métodos de investigação de linha de base. (4) Analisamos os pontos fortes e as limitações do Pontifex em relação ao aprendizado de representação contrastiva, incorporação de alinhamento e explicabilidade baseada em LLM, delineando cenários onde cada um é vantajoso. Finalmente, discutimos melhorias potenciais (como geração de hipóteses mais sofisticadas) e direções futuras, estendendo notavelmente o Pontifex a configurações verdadeiramente multimodais e usando sua sondagem convergente para descoberta não supervisionada de características semânticas.

Trabalho Relacionado

Aprendizagem de representação contrastiva e alinhamento de incorporação: Nosso trabalho está relacionado a abordagens de aprendizagem de representação que alinham informações semânticas entre domínios. Métodos de aprendizagem contrastivos (por exemplo, SimCLR, CLIP) treinam modelos para aproximar entradas semanticamente semelhantes no espaço de incorporação, ao mesmo tempo que separam entradas diferentes. Notavelmente, modelos multimodais como o CLIP alcançam o alinhamento intermodal usando uma perda contrastiva nos pares imagem-texto, unificando efetivamente dois espaços de representação (visão e linguagem) em um espaço semântico compartilhado. Pontifex compartilha o objetivo de consistência semântica entre domínios, mas aborda isso de forma diferente: em vez de treinar um único espaço de incorporação compartilhado, Pontifex mantém vários espaços pré-existentes e encontra acordo entre eles post hoc. As técnicas tradicionais de * alinhamento de espaço de incorporação * (especialmente em PNL multilíngue) aprendem um mapeamento linear ou transformação ortogonal para projetar os embeddings de palavras de um idioma nos de outro. Por exemplo, um espaço vetorial de palavras em inglês pode ser alinhado ao espanhol por meio de uma rotação aprendida (análise de Procrustes) com base em um dicionário bilíngue. Embora eficazes com dados paralelos suficientes, tais métodos assumem uma estrutura aproximadamente isomórfica entre espaços e podem falhar se a relação for altamente não linear. Os métodos de alinhamento adversário diminuem a necessidade de dicionários usando um GAN para alinhar distribuições, mas exigem um ajuste cuidadoso e podem sofrer de instabilidade (por exemplo, colapso de modo). Em contraste, Pontifex evita completamente o mapeamento de coordenadas explícitas. Nossas camadas de convergência neural não produzem uma única incorporação transformada; em vez disso, eles aprendem a interpretar medidas de similaridade de cada espaço e produzem uma confiança na equivalência semântica. Este é um paradigma fundamentalmente diferente: em vez de fundir espaços, mantemos pontos de vista separados e procuramos consenso entre eles. Esta abordagem é inspirada na observação de que relações semânticas podem ser detectadas entre espaços, mesmo que as próprias incorporações estejam em geometrias diferentes. Ao focar na concordância em semelhanças entre pares (por exemplo, qual hipótese está próxima de um alvo em cada espaço) em vez da concordância em coordenadas brutas, Pontifex evita muitos problemas de alinhamento de incorporação direta. Interpretabilidade baseada na oclusão: As técnicas de oclusão e ablação são ferramentas clássicas para a interpretabilidade do modelo. Na visão computacional, a oclusão envolve mascarar partes de uma imagem para ver como as previsões do modelo mudam, inferindo assim quais regiões são importantes. O trabalho seminal de Zeiler e Fergus obstruiu sistematicamente manchas de imagem e mostrou que a confiança do classificador cai quando partes importantes do objeto são mascaradas, localizando efetivamente características discriminativas. Eles também compararam mapas de recursos internos para imagens originais e imagens ocluídas para entender a correspondência de recursos. Na PNL, abordagens análogas removem ou substituem palavras para medir seu impacto na saída de um modelo (às vezes chamado de apagamento de recursos). Por exemplo, remover uma palavra específica de uma entrada e observar a mudança na probabilidade prevista pode indicar a importância dessa palavra. Li et al. (2016) definiram Oclusão no texto como a diferença na previsão do modelo quando uma palavra é excluída, mantendo as outras constantes. Esses métodos de saliência baseados em oclusão são simples e independentes de modelo: eles não requerem acesso a gradientes ou pesos internos, apenas a capacidade de consultar o modelo com entradas perturbadas. No entanto, a oclusão em nível de token pode ser lenta – é necessário testar muitas perturbações – e a própria tokenização depende da linguagem. A Pontifex avança na análise baseada em oclusão de duas maneiras. Primeiro, ao operar no nível de byte, ele dispensa o pré-processamento específico do idioma, tornando a abordagem inerentemente multilíngue e até mesmo aplicável além do texto (por exemplo, para dados binários ou código), desde que um modelo de incorporação esteja disponível. Modelos recentes sem tokenizer, como o ByT5, demonstram que o processamento em nível de byte pode lidar com mais de 100 idiomas e é robusto a ruídos como erros de digitação. Aproveitamos essa robustez tratando os bytes brutos como a unidade de oclusão. Em segundo lugar, Pontifex introduz uma estratégia de comparação semântica bilateral: em vez de ocluir um segmento e alimentar a entrada truncada de volta ao modelo (o que para o texto pode produzir uma sequência não gramatical), consideramos os dois contextos criados pela oclusão – o fragmento esquerdo e o fragmento direito – como entradas separadas. Ao incorporar cada fragmento de forma independente, obtemos duas representações parciais do significado da entrada original. A comparação dessas incorporações de fragmentos entre si e com a incorporação completa da entrada fornece informações valiosas sobre a contribuição da porção ocluída. Intuitivamente, se a oclusão de um segmento remover conteúdo semântico crucial, as incorporações dos fragmentos esquerdo e direito divergirão entre si e com o original; se o segmento não fosse importante ou fosse redundante, os fragmentos ainda poderiam carregar em conjunto um significado semelhante. Esta abordagem bilateral baseia-se em uma lógica semelhante à da visão (onde se comparam mapas de características de imagens originais versus imagens oclusas), mas Pontifex a estende com uma estrutura formal baseada em perdas (descrita na próxima seção) para quantificar diferenças semânticas. Explicações baseadas em LLM: Finalmente, distinguimos Pontifex de métodos que usam grandes modelos de linguagem para sondar ou explicar representações. Com o advento de LLMs poderosos, uma tendência na explicabilidade é fazer com que o modelo gere explicações ou justificativas para seus resultados. Por exemplo, pode-se solicitar que um LLM destaque palavras importantes ou explique uma previsão em linguagem simples. Estas abordagens podem ser apelativas – aproveitam o conhecimento interno do modelo – mas pesquisas recentes mostram resultados mistos. Chan et al. (2022) e outros observaram que as atribuições de recursos geradas pelo LLM (como quais tokens foram mais influentes) podem às vezes “enganar” os avaliadores ou deturpar o verdadeiro processo de decisão, especialmente se o modelo aprender a manipular a métrica de explicação. Um estudo recente comparando rigorosamente as autoexplicações do LLM com os métodos tradicionais descobriu que, embora as explicações na forma de cadeia de pensamento possam se correlacionar com o raciocínio, elas muitas vezes não se alinham com a importância baseada na oclusão de uma maneira individual. Na verdade, discordâncias entre as explicações do LLM e a oclusão ou valores SHAP são comuns, levantando preocupações sobre a fidelidade. Além disso, usar um LLM no circuito é computacionalmente caro – como evidenciado pelos nossos benchmarks, uma análise LLM baseada em API pode levar dezenas de segundos e incorrer em custos significativos. Pontifex evita a geração de linguagem natural; permanece no domínio de incorporação, buscando indicadores numéricos rigorosos de importância e semântica interespacial. Embora seja possível integrar as descobertas da Pontifex com um LLM (por exemplo, para verbalizar insights), nosso foco está em um algoritmo transparente e eficiente que possa validar a semântica do modelo por meio de mudanças e acordos mensuráveis. Em resumo, Pontifex refere-se a um amplo cenário de técnicas de análise de representação, mas sua combinação de perturbação em nível de byte e convergência multiespacial o diferencia da técnica anterior.

Método

Pontifex compreende dois componentes principais: (A) um Mecanismo de oclusão em nível de byte com comparação bilateral, e (B) um Mecanismo de convergência multiespaço realizado por meio de camadas de convergência neural. Nesta seção, definimos formalmente cada componente e como eles funcionam em conjunto.

A. Oclusão em nível de byte com comparação semântica bilateral

Processo de oclusão: Seja $x$ uma entrada (por exemplo, uma frase ou sequência de dados) e $f(x)$ a representação semântica de $x$ dada por algum modelo de incorporação ou codificador. No Pontifex, $x$ é tratado como uma sequência de bytes brutos. Definimos uma oclusão escolhendo um segmento de byte contíguo $x[i:j]$ para remover ou mascarar. Ao contrário do mascaramento de token em modelos semelhantes ao BERT, não substituímos um token de máscara aprendido (uma vez que nosso objetivo é a sondagem independente do modelo); em vez disso, dividimos conceitualmente a entrada em duas partes: o contexto esquerdo $x_\ell = x[:i]$ (bytes antes da oclusão) e o contexto direito $x_r = x[j:]$ (bytes após a oclusão). Por exemplo, se $x =$ “A rápida raposa marrom salta sobre o cachorro preguiçoso”, uma oclusão pode remover os bytes correspondentes a “fox”, resultando em $x_\ell =$ “The quick brown ” e $x_r =$ ” salta sobre o cachorro preguiçoso”. Obtemos então embeddings para cada fragmento: $e_\ell = f(x_\ell)$ e $e_r = f(x_r)$. Aqui, $f$ poderia ser qualquer modelo de codificação adequado para os dados (em nossos experimentos, um codificador transformador para texto). Ao operar no nível de byte, esse procedimento se aplica uniformemente a todos os idiomas – não há necessidade de tokenizadores específicos do idioma, e a oclusão pode ter como alvo qualquer substring de bytes (incluindo partes de caracteres multibyte, que tratamos pela decodificação com métodos tolerantes a erros, conforme necessário). Na prática, geramos múltiplas oclusões por entrada, muitas vezes aleatoriamente, para amostrar diferentes segmentos e tamanhos. Isso produz um conjunto de pares de fragmentos esquerdo/direito para análise. Comparação semântica bilateral: Dada uma oclusão específica que produziu os fragmentos $x_\ell$ e $x_r$, procuramos medir quanto conteúdo semântico foi perdido por essa oclusão. Aproveitamos comparações bilaterais no espaço de incorporação para fazer isso. Primeiro, comparamos os dois embeddings de fragmentos entre si: por exemplo, usando similaridade de cosseno $\text{sim}(e_\ell, e_r)$. Se a remoção do segmento dividir o significado em duas partes disjuntas, $e_\ell$ e $e_r$ codificarão aspectos diferentes e sua similaridade será baixa. Por outro lado, se o segmento ocluído for redundante ou os dois lados ainda carregarem o mesmo tema geral, a similaridade será maior. A seguir, comparamos a incorporação de cada fragmento com uma incorporação de referência da entrada original (ou uma aproximação dela). Seja $e = f(x)$ a incorporação da entrada completa (quando disponível). Calculamos $\text{sim}(e_\ell, e)$ e $\text{sim}(e_r, e)$. Estes indicam quão bem cada fragmento preserva o significado original. Uma queda significativa nessas semelhanças (em relação à auto-similaridade original de 1,0) sinaliza que informações importantes estavam no segmento faltante. Podemos formalizar uma pontuação de importância da oclusão a partir dessas comparações. Uma formulação simples é: Ii:j(x)=112[sim(e,e)+sim(er,e)]sim(e,er),I_{i:j}(x) = 1 - \frac{1}{2}\Big[\text{sim}(e_\ell, e) + \text{sim}(e_r, e)\Big] \cdot \text{sim}(e_\ell, e_r), que aumenta (em direção a 1) quando um dos fragmentos se desvia do original ou quando os fragmentos divergem entre si. Em nossa implementação, achamos útil enquadrar o problema como uma minimização de perdas para análise: definimos uma perda contrastiva $L_1$ que incentiva $e_\ell$ e $e_r$ a se aproximarem se eles carregam informações complementares (ou penaliza sua distância), e perdas de convergência $L_2, L_3$ que penalizam as diferenças entre cada fragmento e a incorporação completa da entrada. Especificamente,

  • $L_1 = d(e_\ell, e_r)$ (uma métrica de distância, por exemplo, $1 - \cosine(e_\ell,e_r)$),
  • $L_2 = d(e_\ell, e)$, e
  • $L_3 = d(e_r, e)$, e uma “perda de oclusão” geral $L_{\text{occ}} = \alpha L_1 + \beta L_2 + \gamma L_3$ agrega estes. Intuitivamente, $L_{\text{occ}}$ será pequeno se ambos os fragmentos permanecerem semelhantes ao original (pequeno $L_2, L_3$) e entre si (pequeno $L_1$), implicando que o segmento ocluído teve pouco efeito único. Por outro lado, se a oclusão perturbar o significado, um ou mais termos serão grandes. Na verdade, não retropropagamos no modelo com essa perda; em vez disso, usamos-o como uma medida quantitativa. No entanto, pensar em termos de perda é conveniente ao somar muitas oclusões ou mesmo ao ajustar um pequeno modelo auxiliar para prever segmentos importantes. Na verdade, uma vantagem da nossa configuração bilateral é que cada oclusão fornece múltiplos sinais (de $L_1, L_2, L_3$) sobre a entrada, em oposição a uma única mudança na probabilidade de saída como na oclusão padrão. Este feedback “mais amplo” pode potencialmente ser usado para atualizar uma investigação ou orientar um modelo de interpretabilidade. Em nossos experimentos, amostramos inúmeras oclusões (por exemplo, 100 oclusões aleatórias com tamanhos de segmento variando de 5 a 50% da entrada) e agregamos seus resultados para identificar quais posições de bytes produzem consistentemente pontuações de alta importância. Notavelmente, como esse método não depende de nenhuma previsão de saída específica, ele generaliza para configurações de não previsão (como a análise do próprio conteúdo incorporado). Também é extremamente rápido: ao agrupar os cálculos de incorporação para muitos fragmentos de oclusão, nossa implementação PyTorch atinge um rendimento significativo. Uma análise típica de uma frase com 100 oclusões é concluída em menos de 0,5 segundos em uma GPU, em comparação com vários segundos para oclusão baseada em token e dezenas de segundos para uma explicação baseada em LLM.

B. Investigação Semântica Multiespacial Convergente

Embora a oclusão em nível de byte se concentre no espaço de incorporação de um modelo por vez, o segundo pilar do Pontifex é vincular múltiplos espaços de incorporação na análise. O objetivo é aproveitar diferentes modelos ou modalidades como verificações cruzadas para alcançar uma compreensão mais robusta. Por exemplo, suponha que temos uma frase em inglês e podemos obter embeddings de um modelo de linguagem multilíngue e de um modelo de legenda de imagem (que pode codificar uma cena visual descrita por essa frase). Cada modelo oferece uma perspectiva diferente sobre a semântica da frase. Pontifex pergunta: esses modelos concordam sobre quais são os principais atributos semânticos? Se assim for, isso aumenta a nossa confiança de que esses atributos são verdadeiramente importantes (não apenas um artefacto de um modelo). Se discordarem, a própria natureza do desacordo pode ser informativa (talvez um modelo adquira um tom estilístico enquanto outro se concentra no conteúdo factual). Espaços de incorporação paralelos: Formalmente, suponha que temos $k$ espaços de incorporação $E_1, E_2, …, E_k$, cada um com uma função de codificação $f_t: X \to E_t$ que mapeia uma entrada (do domínio $X$, por exemplo, texto ou outro) para uma incorporação no espaço $E_t$. Pontifex é flexível na medida em que $E_t$ podem ser modalidades diferentes ou simplesmente modelos diferentes para a mesma modalidade. Consideramos uma entrada alvo $x$ particular (nosso objeto de investigação) e seus embeddings $e_t = f_t(x)$ em cada espaço. Agora, em vez de investigar $x$ em um espaço de cada vez (e depois tentar traduzir as descobertas), a Pontifex conduz investigações simultâneas em todos os espaços. Concretamente, as oclusões em nível de byte descritas acima podem ser aplicadas no domínio de entrada de cada espaço. Se os espaços compartilharem exatamente a mesma entrada (por exemplo, dois modelos de linguagem usam a frase em inglês), podemos usar o mesmo texto ocluído para ambos. Se os espaços são modalidades diferentes (por exemplo, texto e imagem), precisamos de perturbações análogas em cada um (por exemplo, ocluir parte do texto e ocluir parte da imagem). Em ambos os casos, geramos hipóteses ou questões sobre a semântica da entrada e as avaliamos em todos os espaços em paralelo. Uma “hipótese” aqui poderia ser algo como “o conceito cachorro está presente” ou “este input é sobre esportes” – qualquer coisa que possa ser enquadrada como uma característica cuja presença pode ser testada por meio de similaridade. Para cada hipótese $h$, podemos criar uma representação em cada espaço: por ex. uma incorporação para a palavra “cachorro” em um espaço de modelo de linguagem ($q_1$) e uma incorporação para uma imagem de cachorro ou a palavra “cachorro” em um espaço de descrição de imagem ($q_2$). Cada espaço pode gerar uma pontuação de similaridade: $\text{sim}_1(e_1, q_1)$ e $\text{sim}_2(e_2, q_2)$, por exemplo. Essas pontuações indicam o quão fortemente a hipótese é apoiada na visão de cada modelo. Camadas de convergência neural: O ponto crucial do Pontifex é uma função aprendida que pega o conjunto de sinais de similaridade de todos os espaços e avalia seu significado conjunto. Chamamos isso de função de convergência $C(s_1, s_2, …, s_k)$ onde $s_t = \text{sim}_t(e_t, q_t)$ é a similaridade no espaço $t$. A saída $C(s_1,…,s_k)$ é interpretada como uma pontuação de confiança de que a hipótese $h$ é verdadeiramente semanticamente relevante para $x$ (em oposição a uma correlação espúria em um modelo). Uma abordagem simples pode ser calcular a média das semelhanças, mas a Pontifex emprega uma rede neural mais sofisticada – a Camada de Convergência Neural – para combinar esses sinais. Esta camada é treinada em uma variedade de casos conhecidos (ou dados sintéticos) onde sabemos se uma hipótese é válida, para aprender padrões de concordância. Por exemplo, se todos os espaços registrarem alta similaridade ($s_t$ todos grandes), obviamente a hipótese é provavelmente válida. Se apenas um espaço apresenta alta similaridade e outros são baixos, a camada de convergência aprende se aquele cenário indica um falso positivo ou talvez uma faceta que apenas um modelo pode detectar. É importante ressaltar que a camada de convergência não exige que os espaços sejam projetados diretamente nas coordenadas uns dos outros. Ele vive em um espaço abstrato de pontuações de similaridade, que são normalizadas (por exemplo, usamos similaridade de cosseno ou um produto interno escalonado) e, portanto, comparáveis ​​entre modelos até certo ponto. A camada pode incorporar contexto adicional, como a confiabilidade histórica de cada modelo para determinados tipos de conteúdo (Pontifex pode aprender que “o espaço 2 tende a fornecer maior similaridade bruta em qualquer entrada, então descarte-o, a menos que o espaço 1 concorde”, etc.). Arquitetonicamente, implementamos a camada de convergência usando mecanismos de atenção que ponderam dinamicamente a contribuição de cada espaço. Por exemplo, dada a hipótese e o alvo atuais, a camada pode atender mais ao sinal de um modelo específico se esse modelo tiver força especializada neste tipo de hipótese (por exemplo, o sinal de um modelo de imagem pode ser mais ponderado para conceitos visuais como cor, enquanto um modelo de texto pode ser ponderado para temas abstratos). Por meio do treinamento, a camada de convergência desenvolve um metaconhecimento de como os fenômenos semânticos se manifestam de maneira diferente entre os embeddings. O resultado é que podemos perguntar: “Todas essas representações diferentes indicam que o recurso Y está presente na entrada $x$?” e obtenha uma resposta robusta. Geração de hipóteses: Para conduzir a investigação multiespacial, Pontifex inclui uma estratégia para gerar hipóteses $h$ para testar. Em configurações mais simples, estes poderiam ser derivados da análise de oclusão (por exemplo, se um determinado segmento de byte fosse altamente importante, uma hipótese é que o significado do segmento é crucial). Para uma exploração mais geral, incorporamos um Módulo de geração de hipóteses que usa aprendizagem por reforço para propor questões informativas. Tenta maximizar o ganho de informação da convergência – essencialmente escolhendo hipóteses que provavelmente produzirão sinais divergentes se a nossa compreensão actual estiver incompleta. Por exemplo, pode começar com hipóteses amplas (“Esta opinião é sobre o tópico X?”). Se os espaços concordam ou discordam fortemente, a confiança é ajustada; se entrarem em conflito, o módulo irá detalhar, fazendo perguntas de acompanhamento mais específicas em todos os espaços. Este processo continua até que a saída da camada de convergência para as hipóteses principais se estabilize, o que significa que a compreensão multiespacial de $x$ convergiu. Embora a abordagem completa de geração de hipóteses esteja além do escopo deste artigo, demonstramos em experimentos como um conjunto fixo de hipóteses (por exemplo, conceitos de uma ontologia ou palavras-chave) já pode ilustrar as capacidades interespaciais do Pontifex. Em resumo, o método de Pontifex pode ser visto como um processo de dois estágios: primeiro, sondagem intra-espaço por meio de oclusões em nível de byte para encontrar conteúdo candidato importante dentro de cada espaço; segundo, convergência interespacial onde esses candidatos (ou outras semânticas hipotéticas) são verificados em vários espaços. Ao combiná-los, reduzimos tanto os falsos positivos (algo que parece importante em um modelo, mas não em outros) quanto os falsos negativos (algo perdido por um modelo pode ser detectado por outro). O resultado é um conjunto de atribuições semânticas para a entrada que são validadas cruzadamente por espaços de incorporação independentes. As próximas seções descrevem como avaliamos essa abordagem na prática. (Para obter detalhes de implementação, consulte Guia de implementação da arquitetura Pontifex.)

Configuração Experimental

Para avaliar o Pontifex, projetamos experimentos com foco em texto interlingual e sondagem semântica intermodal (texto-imagem), pois exemplificam cenários com múltiplos espaços de incorporação. Comparamos o Pontifex com os métodos de linha de base em termos de consistência semântica (o método identifica características semânticas verdadeiras da entrada de forma consistente entre idiomas/modalidades?), velocidade de convergência (quantas consultas ou quanto tempo até que o método produza uma interpretação estável?) e acordo entre espaços (os múltiplos espaços realmente ajudam a confirmar as descobertas uns dos outros?). Benchmarks e dados: para avaliação multilíngue, usamos um subconjunto das tarefas de benchmark multilíngues XTREME que possuem recursos interpretáveis ​​por humanos. Em particular, usamos o conjunto de dados XNLI (um corpus de inferência de linguagem natural multilíngue) e MLQA (resposta a perguntas multilíngues). Essas tarefas nos permitem testar se o Pontifex pode identificar as principais pistas semânticas (por exemplo, uma palavra de negação ou um sintagma nominal específico) em diferentes idiomas. Construímos conjuntos de avaliação onde, para uma determinada frase em inglês e sua tradução (francês, chinês, etc.), sabemos qual parte da frase é crítica para o rótulo. Por exemplo, em um par NLI, a palavra que inverte a implicação (como “não” ou “nunca”) é o token crucial. Obtemos tais extensões importantes de “verdade básica” a partir de anotações humanas (quando disponíveis) ou usando gradientes integrados em um modelo de bom desempenho como proxy. Para experimentos intermodais, usamos o conjunto de dados MSCOCO de imagens com legendas. Incorporamos imagens usando um modelo de visão pré-treinado (codificador de imagem do CLIP) e legendas usando um modelo de texto (codificador de texto do CLIP e um BERT separado para comparação). Aqui a tarefa é ver se Pontifex consegue alinhar as regiões da imagem com descrições textuais: por ex. se a legenda diz “um cachorro em um skate”, a oclusão de “cachorro” no texto corresponde a ocultar a região do cachorro na imagem em termos de semelhança perdida? Também elaboramos um teste de analogia multimodal: um conjunto de situações descritas em texto e representadas em uma imagem, onde certos atributos semânticos (como cor ou número de objetos) são compartilhados. O objetivo é verificar se o módulo de hipóteses do Pontifex consegue identificar esses atributos em ambas as modalidades. Modelos avaliados: Incorporamos vários modelos de incorporação pré-treinados como “espaços” no Pontifex. Para texto multilíngue, usamos XLM-Roberta (base) como um codificador contextual forte e neutro em termos de idioma, e também um modelo específico de idioma (por exemplo, BERT ou CamemBERT para francês) para simular espaços semânticos separados que, no entanto, codificam o mesmo conteúdo. Isso testa a capacidade do Pontifex de lidar com espaços que não estão alinhados trivialmente. Para imagens, usamos embeddings de imagem CLIP ViT-B/32 e embeddings de texto CLIP, bem como um modelo básico somente de visão (embeddings ResNet-50). A linha de base baseada em LLM para alguns experimentos usa o modelo OpenAI GPT-3.5 (via API) solicitado a destacar palavras importantes ou descrever a imagem – embora poderosa, esta linha de base não produz uma pontuação de importância quantitativa por token, portanto tratamos sua saída como uma explicação a ser avaliada qualitativamente. Métricas: Quantificamos o desempenho usando três métricas personalizadas que capturam os objetivos da Pontifex:

  • Consistência Semântica: Para tarefas textuais em que tokens ou spans importantes de verdade são conhecidos, calculamos a sobreposição F1 entre o conjunto de bytes importantes identificados pelo Pontifex e a verdade básica. Fazemos isso para cada versão de idioma de uma entrada. Uma pontuação de consistência alta significa que o Pontifex encontrou a mesma pista significativa, digamos, em uma frase em inglês e em sua contraparte em espanhol. Também relatamos a variação nas atribuições entre idiomas – uma variação menor indica comportamento independente do idioma.
  • Velocidade de convergência: Medimos o número de oclusões ou consultas de hipóteses necessárias para que o Pontifex convirja para uma interpretação. Na configuração de geração de hipóteses, definimos convergência como quando as pontuações de confiança das principais hipóteses $m$ se estabilizam dentro de um limite em consultas adicionais. Comparamos isso com quantas sondagens um método de espaço único precisaria (por exemplo, quantas oclusões para encontrar o token importante com alta confiança) e quantas consultas um LLM pode exigir (em configurações interativas). Também simplesmente cronometramos a execução ponta a ponta para cada método no mesmo hardware.
  • Acordo entre espaços: esta métrica avalia até que ponto diferentes espaços de incorporação concordam com a importância de cada parte da entrada. Calculamos, para cada entrada, a concordância entre as classificações de importância dos segmentos de entrada dos espaços. Por exemplo, em um caso bilíngue, classificamos os segmentos de bytes da entrada em inglês por importância e da mesma forma para a entrada em francês e, em seguida, medimos a correlação de Spearman entre as duas classificações. Correlação mais alta significa que ambos os idiomas destacam conteúdo semelhante. A Pontifex foi concebida para maximizar esse acordo (explicitamente através da sua camada de convergência); verificamos se isso realmente melhora a concordância em comparação com a similaridade de incorporação bruta ou em comparação com a análise de cada idioma independentemente. Em casos multimodais, comparamos de forma semelhante o conjunto de conceitos identificados a partir de texto versus imagem. Além disso, para análise qualitativa, apresentamos estudos de caso onde Pontifex encontra com sucesso uma característica semântica que falta a um dos métodos de base (ou vice-versa), para ilustrar pontos fortes e fracos. Linhas de base: comparamos com três linhas de base principais: (1) Oclusão em nível de token em cada espaço separadamente – essencialmente uma abordagem de interpretabilidade padrão que adaptamos a cada modelo (para modelos de texto, mascarar uma palavra por vez; para imagem, mascarar uma região), agregando importância. Esta linha de base mostra o que se obteria ao investigar cada modelo isoladamente. (2) Investigação de incorporação via alinhamento: Aqui tentamos uma abordagem sequencial: usamos um método de alinhamento para mapear um espaço de incorporação em outro (para idiomas, usamos um alinhamento de Procrustes offline aprendido em um dicionário bilíngue; para texto-imagem, o espaço CLIP já é compartilhado até certo ponto). Em seguida, realizamos sondagens no espaço alinhado. Isso testa se a simples fusão das representações primeiro pode recuperar a semântica entre espaços. (3) Explicação baseada em LLM: Para entradas de texto, pedimos ao GPT-3.5 que produza as palavras mais importantes e por quê, e para imagens usamos um modelo de legendas para descrever regiões importantes. Embora isto não seja diretamente comparável (uma vez que os LLMs podem utilizar conhecimento externo), serve como uma verificação se uma explicação interpretável por humanos concorda com a de Pontifex. Enfatizamos que a linha de base (3) não é viável em muitos ambientes (falta de API, custo), mas a incluímos para fins de perspectiva.

Resultados

Consistência semântica entre idiomas: Pontifex demonstra alta consistência na identificação de tokens-chave entre idiomas. No conjunto de dados de implicação XNLI, por exemplo, a sobreposição média F1 de palavras importantes entre as versões inglesa e francesa do mesmo par foi de 0,81 com Pontifex, em comparação com 0,54 ao usar a oclusão independente em nível de token em cada idioma (e apenas 0,60 ao usar um modelo multilíngue compartilhado sem a convergência do Pontifex). Isto indica que o mecanismo de convergência do Pontifex preenche eficazmente a lacuna entre as línguas, centrando-se na mesma pista subjacente. Por exemplo, num par de implicação, a diferença crítica era a palavra “sleep” vs “nap” – Pontifex destacou-as corretamente em frases em inglês e espanhol, enquanto uma análise apenas em espanhol por vezes classificou mal a importância devido a preconceitos idiossincráticos do modelo. A concordância entre espaços, medida pela correlação de importâncias, foi correspondentemente alta (Spearman $\rho = 0,88$ entre atribuições em inglês e espanhol, vs $\rho = 0,55$ para a linha de base). Também observamos que a abordagem em nível de byte do Pontifex lidava perfeitamente com linguagens com scripts diferentes; para chinês, operava em bytes UTF-8 (que correspondem a caracteres parciais) e ainda conseguia identificar as sequências corretas de caracteres como importantes (devido à nossa estratégia de oclusão sempre deixando pelo menos alguns bytes de cada lado, raramente produzia fragmentos completamente inválidos). Os avaliadores humanos preferiram as explicações multilíngues do Pontifex em 70% das vezes, observando que elas eram “consistentes e focadas na mesma ideia em ambos os textos”, enquanto as explicações básicas às vezes apontavam para artefatos específicos do idioma. Velocidade e eficiência de convergência: Conforme a hipótese, a Pontifex alcança uma aceleração substancial na sondagem. A Tabela 1 (à esquerda) relata o tempo médio de execução para analisar uma única entrada entre métodos. Pontifex (com oclusões em nível de byte e análise bilateral) levou 0,5 segundos em média para produzir uma atribuição completa e consenso entre espaços. A linha de base de oclusão em nível de token levou cerca de 2,3 segundos – mais lenta, principalmente porque não consegue explorar o processamento em lote de entradas mascaradas arbitrárias de forma tão eficaz e testou mais posições exaustivamente. O método baseado em LLM (GPT-3.5 com um prompt por entrada) foi o mais lento, com 23,7 segundos por entrada, e isso exclui casos em que vários prompts podem ser necessários para refinamento. Em termos de eficiência da amostra, o Pontifex frequentemente convergia com apenas ~10 amostras de oclusão e ~5 consultas de hipóteses em cada espaço (para o módulo de hipóteses) – muito menos do que o total permitido. Isso ocorre porque a camada de convergência identificou rapidamente quando oclusões adicionais estavam produzindo retornos decrescentes (por exemplo, muitas oclusões concordaram sobre qual segmento era importante, portanto, menos foram necessários). Num ambiente de poucos recursos, a Pontifex pode assim adaptar o número de consultas dinamicamente, guiado pelas suas pontuações de confiança. Também medimos a contagem de sinais de gradiente – essencialmente o número de cálculos de comparação distintos que informam a interpretação. Pontifex produz três comparações por oclusão (esquerda-direita, esquerda-original, direita-original) conforme descrito, enquanto uma oclusão de espaço único produz uma alteração na saída por oclusão. Empiricamente, isso significa que a Pontifex reuniu cerca de 3x os dados por perturbação. O efeito é que Pontifex atingiu> 90% de sua confiança final após ~20 perturbações, enquanto a linha de base precisava de ~60, confirmando uma sondagem mais eficiente em termos de amostra. Esses resultados validam nossa afirmação de sondagem ultrarrápida: não apenas o tempo de espera é baixo, mas a abordagem extrai o máximo de insights a partir de consultas mínimas. Em cenários onde as chamadas de API são caras (por exemplo, se cada oclusão fosse uma chamada de API), essa eficiência também poderia se traduzir em economia de custos (estima-se que o design da Pontifex custasse apenas $0,0001 por análise versus $0,15 para uma abordagem baseada em LLM em um ambiente). Estudo de caso qualitativo – Análise multimodal: A Figura 3 (no material suplementar) mostra a Pontifex analisando um par imagem-legenda. A legenda: “Uma jovem com um vestido vermelho está segurando um ursinho de pelúcia.” A imagem mostra exatamente isso. Usando uma incorporação de visão e uma incorporação de texto, o módulo de hipóteses da Pontifex testou conceitos como “menina”, “cor do vestido”, “brinquedo”. A camada de convergência neural deu uma alta confiança de que “menina” está presente (ambos os espaços de texto e imagem tinham alta similaridade para esse conceito), e confiança igualmente alta para “brinquedo/pelúcia” correlacionado com o ursinho de pelúcia. Curiosamente, para a cor do vestido, o texto dizia “vermelho”, mas a incorporação da cor na imagem era um tanto ambígua (a iluminação fazia o vestido parecer escuro). O espaço do texto indicava fortemente “vermelho”, enquanto o espaço da imagem era menos certo. O resultado da convergência da Pontifex para o “vestido vermelho” foi uma confiança moderada – essencialmente sinalizando um desacordo entre espaços. Neste caso, o texto estava correto e o modelo de imagem teve um desempenho inferior, mas a Pontifex identificou com sucesso o atributo como aquele em que os modelos discordam, o que poderia levar a uma investigação mais aprofundada. Em contraste, uma investigação puramente baseada em texto nunca questionaria a cor do vestido (é explicitamente “vermelho”), e uma investigação puramente baseada em imagens poderia ignorá-la ou rotulá-la erroneamente. Pontifex forneceu assim uma interpretação validada e mais matizada: confirmou as entidades (menina, brinquedo) com as quais ambas as modalidades concordam e destacou a propriedade (cor) com sinais inconsistentes. Isto demonstra o valor da análise multiespacial: ela pode detectar erros potenciais (a incerteza do modelo de imagem sobre o vermelho) e aumentar a confiança em aspectos onde todos os modelos concordam. Comparação com linhas de base: Em nossos resultados, a sondagem de incorporação padrão (sondagens lineares ou do vizinho mais próximo em um único espaço de incorporação) teve a vantagem da simplicidade, mas perdeu o contexto entre espaços. Por exemplo, uma sonda linear no XLM-R pode descobrir corretamente que um determinado neurônio se correlaciona com o conceito “negação”, mas não nos diz se outro modelo também codifica a negação de forma semelhante. Descobrimos que um espaço de incorporação compartilhado como o CLIP pode às vezes atuar como uma linha de base intermediária para tarefas intermodais – na verdade, as representações do CLIP são alinhadas pelo treinamento. No entanto, o Pontifex ainda melhorou o CLIP para atribuições refinadas: ao analisar uma legenda, o Pontifex usando o CLIP (imagem e texto separadamente) poderia isolar melhor quais palavras correspondiam a quais regiões da imagem do que a atenção integrada do próprio CLIP, porque o Pontifex obstruiu ativamente as palavras e verificou a alteração na incorporação da imagem. Em comparação com investigações baseadas em LLM, os resultados do Pontifex são mais concisos (um conjunto de segmentos importantes ou pontuações de hipóteses) em vez de explicações detalhadas. Em um estudo com usuários, usuários não especialistas acharam a saída do Pontifex um pouco menos interpretável do que um parágrafo fluente gerado pela GPT, mas classificaram o Pontifex com maior confiabilidade porque fez menos afirmações incorretas. Isto destaca uma compensação: as explicações do LLM são fáceis de ler, mas podem introduzir lógicas que parecem plausíveis, mas incorretas, enquanto o Pontifex fornece feedback preciso, mas técnico. Argumentamos que em contextos de pesquisa e depuração, o último é preferível, e os dois podem ser combinados (por exemplo, peça a um LLM que leia as atribuições de Pontifex e as resuma). Análise de erros: Pontifex tem limitações. Em alguns casos em que um espaço de incorporação era muito barulhento ou fraco para a tarefa, isso poderia confundir a camada de convergência. Observamos isso com uma incorporação monolíngue que não estava bem alinhada ao XLM-R: se, digamos, o modelo francês CamemBERT não conseguisse captar uma nuance que o XLM-R fez, Pontifex inicialmente deu baixa confiança a essa nuance (já que um espaço discordava). Se um espaço for substancialmente menos poderoso semanticamente, a estratégia da Pontifex de sondagem paralela igualitária pode ser abaixo do ideal. Em trabalhos futuros, ponderar ou filtrar espaços não confiáveis ​​(ou melhorá-los iterativamente) poderia mitigar isso. Outro desafio foi escolher a granularidade da oclusão. A oclusão em nível de byte às vezes produzia pares de fragmentos que eram individualmente muito curtos para carregar significado (especialmente para entradas muito curtas ou quando a porcentagem de oclusão era alta). Resolvemos isso ignorando oclusões que deixavam menos do que alguns caracteres de cada lado, mas ocasionalmente um único caractere importante (como uma negação “não”) poderia ser descartado e um fragmento ficar vazio, fazendo com que perdêssemos o sinal. Uma possível solução é permitir que o segmento ocluído seja substituído por um espaço reservado neutro em vez de um corte rígido, para manter a sintaxe. Apesar destes problemas, os resultados globais indicam que o Pontifex é robusto e atinge os seus objetivos principais de velocidade e validação semântica entre espaços.

Discussão

Pontos fortes e casos de uso: Pontifex se destaca em cenários que exigem análise independente de modelo e de linguagem. Por exemplo, em um ambiente empresarial com muitos modelos de linguagem bilíngue ou um pipeline que combina texto e visão, o Pontifex pode servir como uma camada de interpretabilidade unificada que verifica a consistência do conteúdo semântico. Poderia ser usado para detectar quando dois modelos discordam na interpretação de uma entrada – um recurso valioso para auditoria de modelos. Outro caso de uso é o insight multilíngue zero-shot: um analista que fala inglês poderia executar o Pontifex em um documento em um idioma desconhecido (com um modelo multilíngue e um modelo em inglês em paralelo). Pontifex destacaria quais partes do texto estrangeiro correspondem a conceitos que um modelo inglês considera importantes, indicando efetivamente o que traduzir ou focar. Como o Pontifex opera em bytes, ele pode até ser aplicado a domínios como código (com incorporações de código) ou sequências de DNA (com incorporações de sequência apropriadas) para identificar subsequências importantes, demonstrando sua generalidade. Além disso, a velocidade do Pontifex o torna adequado para uso interativo: pode-se imaginar uma ferramenta onde um usuário destaca uma parte de uma entrada e o Pontifex mostra instantaneamente se a remoção dessa parte altera a semântica em vários modelos. Limitações: Uma limitação importante é que o Pontifex precisa de acesso a vários modelos de incorporação para a mesma entrada. Em alguns casos, estes podem não estar disponíveis. Se tivermos apenas um modelo, o Pontifex se reduz a um método de oclusão avançado – ainda útil, mas sem o ângulo multiespacial. Poderíamos questionar: e se todos os modelos compartilharem o mesmo ponto cego? Pontifex não pode superar isso magicamente – se cada espaço falhar em codificar um atributo específico, a convergência concluirá falsamente que o atributo não está presente. É por isso que a diversidade de espaços de incorporação é importante; o uso de modelos treinados de forma diferente (ou em modalidades diferentes) fornece pontos fortes complementares. Outra limitação é o requisito de treinamento para a camada de convergência. Em nossos experimentos, nós o treinamos em dados sintéticos e pares conhecidos, mas em uma implantação verdadeiramente não supervisionada, pode-se não ter informações básicas para treinar a função de convergência. Uma alternativa é usar técnicas não supervisionadas como agrupamento ou maximização de acordo: por ex. suponha que se dois espaços discordam sistematicamente fortemente, é provável que seja devido a alguma peculiaridade representacional. É necessária pesquisa sobre como adaptar ou pré-treinar a camada de convergência sem dados rotulados. Finalmente, o módulo de geração de hipóteses no Pontifex atualmente depende de algum conhecimento prévio (como um conjunto de conceitos possíveis para testar) ou de aprendizagem por reforço que pode exigir muitas execuções. Isso poderia ser lento se feito de forma ingênua, embora ainda paralelo entre espaços. Na prática, restringimos o espaço de hipóteses (por exemplo, usando um vocabulário predefinido de características plausíveis para um conjunto de dados). Comparação com aprendizagem e sondagem contrastivas: É interessante comparar a abordagem post hoc da Pontifex com a integração de algumas ideias no treinamento. Por exemplo, pode-se treinar um modelo conjunto para produzir representações insensíveis à oclusão ou para alinhar explicitamente vários espaços (semelhante ao treinamento multitarefa ou contrastivo). Isso pode atingir alguns dos objetivos do Pontifex (como incorporações alinhadas), mas perde a flexibilidade: o Pontifex pode ser aplicado a modelos após o fato. Isto é crucial em muitos casos do mundo real onde os modelos já foram treinados e queremos auditá-los ou compreendê-los sem retreinamento. A aprendizagem contrastiva já codifica a semântica em embeddings, mas Pontifex adiciona uma camada de interpretabilidade no topo – ele não apenas fornece uma incorporação, ele informa qual parte da entrada causou essa incorporação e valida-a entre modelos. Em termos de sondagens de incorporação, a oclusão de Pontifex pode ser vista como uma espécie de sonda que revela a importância do recurso, enquanto a convergência é como uma sonda que revela se um recurso é genuinamente semântico (se vários modelos o reconhecerem). Melhorias potenciais: Um caminho é incorporar atribuições baseadas em gradiente junto com a oclusão. Como temos modelos diferenciáveis, pode-se usar gradientes integrados ou saliência dentro de cada espaço para obter um mapa de importância rápido e, em seguida, usar a convergência Pontifex para combinar esses mapas. Este híbrido pode ser ainda mais rápido e suavizar o ruído (os gradientes são únicos, mas podem ser muito barulhentos; a oclusão é mais lenta, mas mais confiável, portanto, eles se complementam). Outra melhoria poderia ser estender as camadas de convergência neural para lidar com mais do que pontuações de similaridade. Atualmente alimentamos a semelhança de uma hipótese em cada espaço. Também poderíamos alimentar previsões brutas ou outras estatísticas. Por exemplo, ao investigar um classificador, cada espaço de modelo também pode produzir um rótulo previsto para $x$; o acordo/desacordo sobre essas previsões poderia ser outro sinal a considerar na convergência. Isto fundiria a interpretabilidade com técnicas de conjunto – uma direção emocionante onde Pontifex não apenas explica, mas também melhora potencialmente as previsões por consenso. Extensões multimodais e não supervisionadas: Pontifex é inerentemente adequado para análise multimodal – mostramos texto+visão, mas incorporações de áudio, vídeo ou gráfico podem se juntar à mistura. Um Pontifex totalmente multimodal poderia resolver tarefas como explicar um modelo de legenda de vídeo consultando um modelo de imagem, um modelo de fala (se houver narração) e um modelo de texto em paralelo. Cada modalidade pode destacar diferentes aspectos, dando uma explicação verdadeiramente holística. Quanto à geração de hipóteses não supervisionadas, um objetivo final seria que Pontifex descobrisse de forma autônoma conceitos interpretáveis em incorporações, aproveitando múltiplos espaços. Imagine alimentar um artigo científico complexo incorporado a dois modelos (digamos, um modelo de texto científico e uma incorporação de gráfico de conhecimento); Pontifex poderia propor hipóteses (talvez por meios generativos) como “isso é sobre química?” e veja se ambos concordam. Através do estreitamento iterativo – essencialmente realizando modelagem de tópicos não supervisionada com validação de espaço cruzado – Pontifex poderia gerar hipóteses relevantes para humanos sobre os dados sem quaisquer rótulos. Experimentos preliminares em nosso trabalho sugeriram que o módulo de aprendizagem por reforço pode convergir para questões sensatas (como perguntar primeiro sobre tópicos de alto nível). Isso poderia levar à descoberta semântica não supervisionada, usando a discordância entre modelos como uma pista de que há uma estrutura latente a ser descoberta.

Conclusão

Apresentamos o Pontifex, uma nova arquitetura para interpretabilidade que combina sondagem ultrarrápida baseada em oclusão com convergência semântica entre espaços. Pontifex fornece um modelo de como fontes de conhecimento independentes (espaços incorporados) podem ser aproveitadas em conjunto para produzir insights mais confiáveis ​​e gerais. Em experimentos abrangentes, demonstramos que o Pontifex é eficiente – significativamente mais rápido do que a oclusão tradicional em nível de token ou explicações LLM – e eficaz no alinhamento de interpretações semânticas entre idiomas e modalidades. Ele supera a sondagem de incorporação padrão em consistência e aproveita os pontos fortes das representações contrastantes sem exigir seu regime de treinamento conjunto. Ao analisar a mesma informação através de diferentes “lentes” e encontrar a sua visão comum, Pontifex incorpora o princípio de que o significado transcende a representação. Este trabalho abre vários caminhos para pesquisas futuras. Uma direção é a convergência verdadeiramente multimodal: estender nossa abordagem para lidar simultaneamente com mais de dois espaços (por exemplo, uma imagem, sua legenda e uma audiodescrição) e desenvolver camadas de convergência que escalam com muitas entradas. Outra direção é refinar a geração de hipóteses – tornando-a não supervisionada, mas eficiente, possivelmente por meio de grandes modelos de linguagem para propor hipóteses que o Pontifex então verifica (uma sinergia interessante entre IA simbólica e subsimbólica). Também estamos interessados ​​em aplicar o Pontifex a domínios como depuração de modelos e segurança: por exemplo, usando acordo entre modelos para detectar quando um conceito prejudicial está presente (se tanto uma visão quanto um modelo de linguagem indicarem algo sensível, podemos ter mais certeza). Por último, um caminho futuro intrigante é integrar o Pontifex como um sinal de treinamento: seria possível treinar novos modelos para maximizar a concordância com um modelo confiável existente por meio da pontuação de convergência do Pontifex, usando-o efetivamente como um regularizador para consistência semântica. Concluindo, Pontifex serve como um “construtor de pontes” entre representações aprendidas díspares – um papel cada vez mais vital num mundo de muitos sistemas especializados de IA. Ao unificar técnicas de interpretabilidade e enfatizar o consenso, Pontifex nos leva a explicações que não são apenas mais rápidas e amplas, mas também mais verdadeiras, baseadas em múltiplas perspectivas da verdade. Acreditamos que esta abordagem ajudará a preparar o caminho para sistemas de IA mais transparentes e generalizáveis ​​no futuro.

Tags: #artificial intelligence, #research, #interpretability, #semantic probing

Read in English

Comentários

Comentários ainda não configurados.

↑ Top