RESEARCHarXiv CS.AI·4d atrás
Weakly Supervised Distillation of Hallucination Signals into Transformer Representations
Este artigo propõe um novo método para detecção de alucinações em LLMs, destilando sinais de supervisão externa diretamente nas representações internas do modelo durante o treinamento. Para isso, introduz um framework de supervisão fraca que combina correspondência de substrings, similaridade de embeddings e um LLM como juiz, culminando na criação de um dataset de 15.000 amostras para este propósito.
Transformer RepresentationsHallucination DetectionLLMsmachine learning