NVDA+2.57%GOOGL-0.39%MSFT-0.59%META+0.23%AMZN+2.02%AMD+3.55%ORCL+0.17%PLTR-1.86%
RESEARCHarXiv CS.AI·4d atrás

Qualixar OS: A Universal Operating System for AI Agent Orchestration

Qualixar OS é apresentado como o primeiro sistema operacional de camada de aplicação para orquestração universal de agentes de IA, capaz de gerenciar sistemas multiagentes heterogêneos em múltiplas plataformas. Ele oferece semânticas de execução, um motor de design de equipes baseado em LLM, roteamento dinâmico de modelos e um pipeline de juízes com detecção de Goodhart.

AI Agent OrchestrationAgent FrameworksMulti-Agent SystemsOperating Systems for AI
30
RESEARCHarXiv CS.LG·4d atrás

MO-RiskVAE: A Multi-Omics Variational Autoencoder for Survival Risk Modeling in Multiple MyelomaMO-RiskVAE

Este trabalho explora autoencoders variacionais multimodais para modelagem de risco de sobrevivência no mieloma múltiplo, integrando dados ômicos e clínicos. A pesquisa investiga como escolhas no design do espaço latente afetam a preservação de variações prognósticas relevantes em treinamentos supervisionados por sobrevivência.

Multiple MyelomaMulti-OmicsVariational AutoencoderAI
29
RESEARCHarXiv CS.LG·4d atrás

TalkLoRA: Communication-Aware Mixture of Low-Rank Adaptation for Large Language Models

TalkLoRA propõe um framework MoELoRA que aborda a instabilidade de roteamento e a dominância de especialistas em métodos existentes, permitindo a comunicação entre especialistas antes do roteamento. Isso é feito através de um Módulo de Conversação leve, que facilita a troca de informações, gerando um sinal de roteamento mais robusto para Large Language Models (LLMs).

LLMsMoECommunicationFine-tuning
29
RESEARCHarXiv CS.AI·4d atrás

Blind Refusal: Language Models Refuse to Help Users Evade Unjust, Absurd, and Illegitimate Rules

Este estudo documenta o fenômeno da 'recusa cega' em modelos de linguagem, onde eles se recusam a ajudar usuários a contornar regras, mesmo que estas sejam injustas ou ilegítimas, o que é visto como uma falha de raciocínio moral. A pesquisa apresenta resultados empíricos baseados em um conjunto de dados sintético que cruza famílias de razões para quebrar regras com tipos de autoridade, analisando o comportamento de 18 configurações de modelos.

Rule FollowingLanguage ModelsAI EthicsSafety Training
29
RESEARCHarXiv CS.CL·4d atrás

Emergent decentralized regulation in a purely synthetic society

Este artigo de pesquisa investiga a auto-regulação em sociedades sintéticas compostas por agentes de IA autônomos, utilizando uma rede social exclusiva para agentes. O estudo observa que a sinalização corretiva em comentários aumenta com o conteúdo diretivo das postagens, sugerindo dinâmicas sociais emergentes e auto-reguladas sem intervenção humana.

Dinâmicas SociaisRedes Sociais de IARegulação EmergenteAgentes Autônomos
29
RESEARCHarXiv CS.CL·4d atrás

SensorPersona: An LLM-Empowered System for Continual Persona Extraction from Longitudinal Mobile Sensor Streams

SensorPersona é um sistema baseado em LLM que infere continuamente personas de usuários a partir de dados multimodais coletados de forma discreta de sensores móveis. Ele aprofunda a personalização ao extrair padrões físicos, traços psicossociais e experiências de vida, superando as limitações da inferência baseada apenas em histórico de chat.

PersonalizationMultimodal AImobile sensorspersona extraction
29
RESEARCHarXiv CS.CL·4d atrás

The Stepwise Informativeness Assumption: Why are Entropy Dynamics and Reasoning Correlated in LLMs?

Este artigo investiga a correlação entre a dinâmica interna de entropia e o raciocínio correto em Large Language Models (LLMs), um enigma ainda sem solução. Propõe a Hipótese de Informatividade Gradual (SIA), que afirma que os modelos raciocinam corretamente ao acumular informações relevantes sobre a resposta por meio de prefixos informativos, um processo reforçado por métodos de treinamento padrão.

information theoryLLMsmachine learningReasoning
29
RESEARCHarXiv CS.AI·4d atrás

Weakly Supervised Distillation of Hallucination Signals into Transformer Representations

Este artigo propõe um novo método para detecção de alucinações em LLMs, destilando sinais de supervisão externa diretamente nas representações internas do modelo durante o treinamento. Para isso, introduz um framework de supervisão fraca que combina correspondência de substrings, similaridade de embeddings e um LLM como juiz, culminando na criação de um dataset de 15.000 amostras para este propósito.

Transformer RepresentationsHallucination DetectionLLMsmachine learning
35
RESEARCHarXiv CS.AI·4d atrás

BDI-Kit Demo: A Toolkit for Programmable and Conversational Data Harmonization

O BDI-Kit é uma ferramenta que aborda a harmonização de dados, superando a heterogeneidade em esquemas e valores. Ele oferece uma API Python para pipelines programáticos e uma interface de chat assistida por IA para especialistas, permitindo explorar, validar e refinar correspondências de dados de forma iterativa.

Data HarmonizationNatural Language ProcessingAI
34
RESEARCHarXiv CS.CL·4d atrás

Consistency-Guided Decoding with Proof-Driven Disambiguation for Three-Way Logical Question Answering

Este conteúdo apresenta CGD-PD, uma camada leve para modelos de linguagem grandes (LLMs) que melhora a resposta a perguntas lógicas de três vias (Verdadeiro/Falso/Desconhecido). Ele aborda falhas recorrentes como inconsistência de negação e previsões 'Desconhecido' epistêmicas, utilizando decisões consistentes e desambiguação baseada em prova para maior precisão.

LLMsQuestion AnsweringConsistencyNLP
36
RESEARCHarXiv CS.AI·4d atrás

SymptomWise: A Deterministic Reasoning Layer for Reliable and Efficient AI Systems

SymptomWise é um framework que aprimora a análise de sintomas por IA, separando a compreensão da linguagem do raciocínio diagnóstico para aumentar a confiabilidade e rastreabilidade. Ele utiliza conhecimento médico especializado e inferência determinística, empregando LLMs apenas para extração de sintomas e explicações, não para o diagnóstico em si.

deterministic AILLM applicationsinterpretabilityAI Reliability
33
RESEARCHarXiv CS.AI·4d atrás

On Emotion-Sensitive Decision Making of Small Language Model Agents

Este estudo explora a tomada de decisão sensível a emoções em agentes baseados em Small Language Models (SLM), combinando indução de emoções com uma avaliação estratégica usando teoria dos jogos. Foi introduzido um novo benchmark com cenários competitivos e cooperativos, aplicando-o a jogos como Diplomacy e StarCraft II para analisar o impacto emocional em diversas arquiteturas de modelos.

Teoria dos JogosTomada de DecisãoAgentes de IAInteligência Emocional
32
RESEARCHarXiv CS.CL·4d atrás

Hallucination as output-boundary misclassification: a composite abstention architecture for language models

Este artigo enquadra a alucinação em grandes modelos de linguagem como um erro de classificação e propõe uma intervenção composta por recusa baseada em instruções e um gate de abstenção estrutural. O gate utiliza um score de déficit de suporte de sinais como auto-consistência e cobertura de citação, mas a avaliação controlada mostrou que nenhum mecanismo isolado foi suficiente para mitigar totalmente o problema.

HallucinationAbstention Architectureslarge language modelsAI safety
31
RESEARCHarXiv CS.LG·4d atrás

Asymptotic-Preserving Neural Networks for Viscoelastic Parameter Identification in Multiscale Blood Flow Modeling

Este estudo aplica Redes Neurais com Preservação Assintótica para identificar parâmetros viscoelásticos em um modelo multiescala de fluxo sanguíneo, visando melhorar a aplicabilidade prática em fenômenos cardiovasculares. A abordagem permite inferir parâmetros e reconstruir a evolução temporal das variáveis dos vasos sanguíneos a partir de formas de onda de pressão, incorporando princípios físicos no aprendizado.

Parâmetros ViscoelásticosIAModelagem CardiovascularBioengenharia
31
RESEARCHarXiv CS.AI·4d atrás

High-Precision Estimation of the State-Space Complexity of Shogi via the Monte Carlo Method

Este artigo estima com alta precisão a complexidade do espaço de estados do jogo Shogi (xadrez japonês), um problema desafiador. Utilizando o método Monte Carlo e uma nova busca reversa, os autores estimam o número de posições legais em $6.55 \times 10^{68}$.

Monte CarloComputational ComplexityGame TheoryShogi
29
RESEARCHarXiv CS.CL·4d atrás

LLM-Augmented Knowledge Base Construction For Root Cause Analysis

Este estudo avalia metodologias de Large Language Models (LLM) – Fine-Tuning, RAG e uma abordagem Híbrida – para construir uma base de conhecimento de Análise de Causa Raiz (RCA) a partir de tickets de suporte. Os experimentos com um conjunto de dados industrial real demonstram que a base de conhecimento gerada acelera as tarefas de RCA e melhora a resiliência da rede.

RAGKnowledge BaseFine-tuningLLM
31
RESEARCHarXiv CS.LG·4d atrás

SMT-AD: a scalable quantum-inspired anomaly detection approach

SMT-AD é uma nova abordagem inspirada em computação quântica para detecção de anomalias, utilizando redes de tensores e embedding de características assistido por Fourier. O método se mostrou eficaz em datasets padrão, como transações de cartão de crédito, alcançando performance competitiva mesmo com configurações mínimas.

anomaly detectionmachine learningtensor networksfeature embedding
29
RESEARCHarXiv CS.CL·4d atrás

Temporally Phenotyping GLP-1RA Case Reports with Large Language Models: A Textual Time Series Corpus and Risk Modeling

Este estudo desenvolveu um corpus de séries temporais textuais a partir de relatórios de casos de diabetes tipo 2 para extrair cronogramas clínicos complexos com LLMs. O GPT5 demonstrou alta eficácia na recuperação de eventos e sequenciamento temporal, com aplicações que sugerem redução do risco de sequelas respiratórias entre usuários de GLP-1.

DiabetesSaúdeProcessamento de Linguagem NaturalSéries Temporais
29
RESEARCHarXiv CS.LG·4d atrás

Probabilistic Language Tries: A Unified Framework for Compression, Decision Policies, and Execution Reuse

Este artigo apresenta Probabilistic Language Tries (PLTs), uma representação unificada que explicita a estrutura de prefixo de qualquer modelo generativo sobre sequências. PLTs atuam como compressor lossless ideal, representação de política para problemas de decisão sequencial (como jogos e robótica) e índice de memoização para reuso de execução, com um teorema chave sobre caching guiado por prior.

sequence generationReinforcement Learningdata compressionprobabilistic models
30
RESEARCHarXiv CS.LG·4d atrás

FLeX: Fourier-based Low-rank EXpansion for multilingual transfer

Este artigo investiga a geração de código cross-lingual, focando em métodos de fine-tuning paramétrico-eficiente (PEFT) e otimizadores para LLMs. Os autores demonstram que o fine-tuning LoRA no Code Llama 7B, com um dataset pequeno de alta qualidade, pode superar o desempenho de modelos mais amplamente fine-tuned, e que otimizadores como Sophia oferecem convergência mais rápida com resultados finais comparáveis.

Cross-lingual code generationPEFTLoRALLM fine-tuning
30
←1…5859606162…88→
[email protected]