NVDA+2.57%GOOGL-0.39%MSFT-0.59%META+0.23%AMZN+2.02%AMD+3.55%ORCL+0.17%PLTR-1.86%
RESEARCHarXiv CS.CL·5d atrás

LangFIR: Discovering Sparse Language-Specific Features from Monolingual Data for Language Steering

Este artigo introduz LangFIR, um método que descobre características de linguagem esparsas e específicas a partir de dados monolíngues para direcionar a saída de LLMs. Ele supera a limitação de abordagens existentes que exigem dados multilingues caros, utilizando autoencoders esparsos e sequências de tokens aleatórios.

Model InterpretabilityMultilingual ModelsLLMsMonolingual Data
28
RESEARCHarXiv CS.CL·5d atrás

Noise Steering for Controlled Text Generation: Improving Diversity and Reading-Level Fidelity in Arabic Educational Story Generation

O artigo investiga a técnica de "noise steering", que injeta perturbações gaussianas em modelos Transformer durante a inferência, para gerar histórias educacionais em árabe. O método melhora a diversidade narrativa para avaliações de leitura de nível inicial, mantendo a qualidade e o nível de leitura.

Noise SteeringNLP DiversityText GenerationTransformer Models
28
arXiv CS.AI·5d atrás

IC3-Evolve: Proof-/Witness-Gated Offline LLM-Driven Heuristic Evolution for IC3 Hardware Model Checking

16
RESEARCHarXiv CS.AI·5d atrás

Position: Science of AI Evaluation Requires Item-level Benchmark Data

Este artigo de posição argumenta que dados de benchmark em nível de item são essenciais para uma ciência rigorosa da avaliação de IA, abordando falhas de validade sistêmicas nas metodologias atuais. Ele propõe a análise em nível de item para diagnósticos detalhados e validação de benchmarks, baseando-se em conceitos da ciência da computação e psicometria.

Benchmarks de IAAvaliação de IADados em nível de itemIA Generativa
28
RESEARCHarXiv CS.AI·5d atrás

Automated Analysis of Global AI Safety Initiatives: A Taxonomy-Driven LLM Approach

Este trabalho apresenta um framework automatizado para comparar documentos de política de segurança de IA usando LLMs e uma taxonomia compartilhada, avaliando a estabilidade e validade da análise.

Policy AnalysisCrosswalk FrameworkAutomated AnalysisLarge Language Models
28
RESEARCHarXiv CS.AI·5d atrás

Towards the AI Historian: Agentic Information Extraction from Primary Sources

Este relatório técnico apresenta o primeiro módulo de Chronos, um Historiador de IA em desenvolvimento. Ele permite que historiadores convertam imagens digitalizadas de fontes primárias em dados através de interações em linguagem natural, adaptando e refinando fluxos de trabalho.

Open Sourceinformation extractionNatural Language ProcessingAI
28
RESEARCHarXiv CS.AI·5d atrás

When Do Hallucinations Arise? A Graph Perspective on the Evolution of Path Reuse and Path Compression

Este artigo explora as alucinações de raciocínio em LLMs, modelando a previsão de tokens como um processo de busca em grafo. Ele identifica dois mecanismos fundamentais para o surgimento dessas alucinações: o "Path Reuse" (reutilização de caminhos) e o "Path Compression" (compressão de caminhos).

LLMsPath ReusePath Compressionmodelos de grafo
28
RESEARCHarXiv CS.AI·5d atrás

ActionNex: A Virtual Outage Manager for Cloud

ActionNex é um sistema de IA agente de nível de produção projetado para gerenciar interrupções em operações de nuvem em larga escala, oferecendo assistência completa, incluindo atualizações em tempo real e recomendações de ações. Ele processa sinais operacionais multimodais, destila conhecimento em uma memória hierárquica e utiliza um agente de raciocínio para guiar a tomada de decisão.

Multimodal AIAgentic AI SystemsCloud ComputingOutage Management
29
RESEARCHarXiv CS.CL·5d atrás

Self-Execution Simulation Improves Coding Models

Este trabalho demonstra que LLMs de código podem ser treinados para simular a execução de programas passo a passo, melhorando o desempenho em programação competitiva. A abordagem combina fine-tuning supervisionado e aprendizado por reforço, permitindo que os modelos realizem auto-verificação e correção iterativa.

LLMsReinforcement LearningCode Generationprogram execution simulation
28
RESEARCHarXiv CS.AI·5d atrás

Resource-Conscious Modeling for Next- Day Discharge Prediction Using Clinical Notes

Este estudo avaliou a viabilidade de modelos de linguagem grandes (LLMs) e modelos tradicionais baseados em texto para prever a alta hospitalar no dia seguinte usando notas clínicas pós-operatórias. Os resultados sugerem que modelos interpretáveis e eficientes em recursos podem superar LLMs compactos em tarefas de predição clínica desbalanceadas e do mundo real.

resource-efficient modelsLLMsMachine Learningdischarge prediction
28
RESEARCHarXiv CS.CL·5d atrás

Rethinking Token Prediction: Tree-Structured Diffusion Language Model

Este trabalho propõe um modelo de linguagem de difusão com estrutura de árvore para otimizar o treinamento e reduzir o uso de parâmetros e memória em modelos de difusão discretos. Ele substitui a previsão de vocabulário completo pela exploração da estrutura inerente dos tokens através de uma árvore de vocabulário pré-construída, utilizando estados latentes intermediários.

previsão de tokensárvore de vocabuláriodifusão discretaarquitetura de IA
28
RESEARCHarXiv CS.CL·5d atrás

Cultural Authenticity: Comparing LLM Cultural Representations to Native Human Expectations

Este artigo introduz um framework centrado no ser humano para avaliar o alinhamento das representações culturais de LLMs com as expectativas das populações nativas. Ele estabelece vetores de importância cultural a partir de pesquisas globais e os usa para computar e comparar vetores de representação de modelos como Gemini 2.5 Pro, GPT-4o e Claude 3.5 Haiku.

Representação CulturalAvaliação de IAEstudo HumanoDiversidade
28
RESEARCHarXiv CS.CL·5d atrás

MultiPress: A Multi-Agent Framework for Interpretable Multimodal News Classification

Este artigo propõe o MultiPress, uma estrutura inovadora de múltiplos agentes em três estágios para a classificação de notícias multimodais, visando superar as limitações de métodos existentes na compreensão de dados heterogêneos como texto e imagens. A pesquisa integra agentes especializados para percepção, raciocínio aumentado por recuperação e fusão, demonstrando melhorias significativas em um novo conjunto de dados em grande escala.

news classificationdeep learningmultimodal classificationMulti-Agent Systems
28
RESEARCHarXiv CS.CL·5d atrás

Text Summarization With Graph Attention Networks

Este estudo explorou o uso de informações de grafos (RST e Co-referência) para sumarização de texto, descobrindo que Redes de Atenção Gráficas não melhoraram o desempenho, enquanto um Perceptron Multicamadas obteve sucesso. Adicionalmente, foi criado um novo benchmark para sumarização baseada em grafos ao anotar o dataset XSum com informações RST.

Graph Attention NetworksRhetorical Structure TheoryMachine LearningNatural Language Processing
28
RESEARCHarXiv CS.AI·5d atrás

TABQAWORLD: Optimizing Multimodal Reasoning for Multi-Turn Table Question Answering

TABQAWORLD é um novo framework para otimizar o raciocínio multimodal em perguntas e respostas sobre tabelas multi-turn. Ele aborda erros de representação e altos custos de inferência ao empregar uma política de seleção multimodal que alterna dinamicamente entre representações visuais e textuais para maximizar a confiabilidade do estado da tabela.

AI FrameworksTable Question AnsweringMultimodal ReasoningMulti-turn
30
RESEARCHarXiv CS.AI·5d atrás

BioAlchemy: Distilling Biological Literature into Reasoning-Ready Reinforcement Learning Training Data

Este trabalho apresenta o BioAlchemy, um pipeline que aborda o desalinhamento de tópicos em conjuntos de dados de raciocínio de biologia existentes. Ele gera o BioAlchemy-345K, um novo conjunto de dados de treinamento com mais de 345 mil problemas de raciocínio científico verificáveis para aplicação em aprendizado por reforço em pesquisa biológica.

raciocínio científicobiologiaAprendizado por Reforçopesquisa em IA
30
RESEARCHarXiv CS.AI·5d atrás

Structural Rigidity and the 57-Token Predictive Window: A Physical Framework for Inference-Layer Governability in Large Language Models

Este artigo introduz uma nova estrutura de governança baseada em energia para LLMs, que conecta a dinâmica de inferência de transformers a modelos de satisfação de restrições, desafiando métodos atuais de segurança de IA. A pesquisa identifica uma janela de pré-comprometimento de 57 tokens em Phi-3-mini-4k-instruct, demonstrando que tais sinais existem, mas são específicos do modelo, tarefa e configuração, e propõe uma taxonomia de comportamento de inferência.

Transformer architectureInference Dynamicsenergy-based modelsPre-commitment Signals
30
RESEARCHarXiv CS.CL·5d atrás

Robust LLM Performance Certification via Constrained Maximum Likelihood Estimation

Este artigo propõe uma nova abordagem eficiente para estimar as taxas de falha de LLMs, essencial para sua implantação segura. O método utiliza estimação por máxima verossimilhança restrita, combinando dados humanos de calibração, anotações de LLM-judge e informações adicionais via restrições de domínio, sendo validado empiricamente contra métodos como PPI.

LLM-as-a-JudgeConstrained MLEModel EvaluationFailure Rate Estimation
29
RESEARCHarXiv CS.CL·5d atrás

CresOWLve: Benchmarking Creative Problem-Solving Over Real-World Knowledge

CresOWLve é um novo benchmark para avaliar a resolução criativa de problemas em LLMs, superando as limitações dos benchmarks existentes. Ele utiliza quebra-cabeças baseados em conhecimento do mundo real, exigindo diversas estratégias de pensamento criativo e combinação de fatos para encontrar soluções.

LLMsCreative Problem SolvingBenchmarksCognitive Abilities
29
RESEARCHarXiv CS.AI·5d atrás

Structural Segmentation of the Minimum Set Cover Problem: Exploiting Universe Decomposability for Metaheuristic Optimization

Este trabalho explora a segmentabilidade do universo no Problema da Cobertura Mínima de Conjuntos (MSCP) para otimizar heurísticas. Propõe uma estratégia de pré-processamento baseada em union-find para decompor instâncias em subproblemas independentes, resolvidos com a metaheurística GRASP.

Otimização CombinatóriaAlgoritmosIANP-hard
29
←1…6970717273…82→
[email protected]