Wei Wang

Wan: Open and Advanced Large-Scale Video Generative Models

arXiv 2025

CoSER: Coordinating LLM-Based Persona Simulation of Established Roles

arXiv 2025

OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement

arXiv 2025

A Retrospective Systematic Study on Hierarchical Sparse Query Transformer-assisted Ultrasound Screening for Early Hepatocellular Carcinoma

arXiv 2025

Chasing the Tail: Effective Rubric-based Reward Modeling for Large Language Model Post-Training

arXiv 2025

A Comprehensive Survey in LLM(-Agent) Full Stack Safety: Data, Training and Deployment

arXiv 2025

In-Context LoRA for Diffusion Transformers

arXiv 2024

CivRealm: A Learning and Reasoning Odyssey in Civilization for Decision-Making Agents

arXiv 2024

Fully Open Source Moxin-7B Technical Report

arXiv 2024

ChatDiT: A Training-Free Baseline for Task-Agnostic Free-Form Chatting with Diffusion Transformers

arXiv 2024

BearLLM: A Prior Knowledge-Enhanced Bearing Health Management Framework with Unified Vibration Signal Representation

arXiv 2024

Enhancing Large Vision Language Models with Self-Training on Image Comprehension

arXiv 2024

AllWeatherNet:Unified Image Enhancement for Autonomous Driving under Adverse Weather and Lowlight-conditions

arXiv 2024

QAQ: Quality Adaptive Quantization for LLM KV Cache

arXiv 2024

IDEA-Bench: How Far are Generative Models from Professional Designing?

CVPR 2025 1

Learning to Edit: Aligning LLMs with Knowledge Editing

arXiv 2024

ProteinGPT: Multimodal LLM for Protein Property Prediction and Structure Understanding

arXiv 2024

UnifiedMLLM: Enabling Unified Representation for Multi-modal Multi-tasks With Large Language Model

arXiv 2024

Security Attacks on LLM-based Code Completion Tools

arXiv 2024

Harnessing Scale and Physics: A Multi-Graph Neural Operator Framework for PDEs on Arbitrary Geometries

arXiv 2024

Object Detectors in the Open Environment: Challenges, Solutions, and Outlook

arXiv 2024

LogicVista: Multimodal LLM Logical Reasoning Benchmark in Visual Contexts

arXiv 2024

InverseCoder: Self-improving Instruction-Tuned Code LLMs with Inverse-Instruct

arXiv 2024

Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization

arXiv 2024

TradingAgents: Multi-Agents LLM Financial Trading Framework

arXiv 2024

A Comprehensive Survey of Scientific Large Language Models and Their Applications in Scientific Discovery

arXiv 2024

Layer-wise Importance Matters: Less Memory for Better Performance in Parameter-efficient Fine-tuning of Large Language Models

arXiv 2024

Stealth edits to large language models

arXiv 2024

Detecting Conversational Mental Manipulation with Intent-Aware Prompting

arXiv 2024

Beyond Answers: Transferring Reasoning Capabilities to Smaller LLMs Using Multi-Teacher Knowledge Distillation

arXiv 2024

Counterfactual Explanations for Face Forgery Detection via Adversarial Removal of Artifacts

arXiv 2024

CLIMB: A Benchmark of Clinical Bias in Large Language Models

arXiv 2024

Template-Driven LLM-Paraphrased Framework for Tabular Math Word Problem Generation

arXiv 2024

Advancing Fine-Grained Visual Understanding with Multi-Scale Alignment in Multi-Modal Models

arXiv 2024

Qwen Technical Report

arXiv 2023

InCharacter: Evaluating Personality Fidelity in Role-Playing Agents through Psychological Interviews

arXiv 2023

mPLUG-2: A Modularized Multi-modal Foundation Model Across Text, Image and Video

arXiv 2023

Bongard-OpenWorld: Few-Shot Reasoning for Free-form Visual Concepts in the Real World

arXiv 2023

D-IF: Uncertainty-aware Human Digitization via Implicit Distribution Field

ICCV 2023 1

Learning Over Molecular Conformer Ensembles: Datasets and Benchmarks

arXiv 2023

Householder Projector for Unsupervised Latent Semantics Discovery

ICCV 2023 1

YUAN 2.0: A Large Language Model with Localized Filtering-based Attention

arXiv 2023

Lion: Adversarial Distillation of Proprietary Large Language Models

arXiv 2023

SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models

arXiv 2023

FollowBench: A Multi-level Fine-grained Constraints Following Benchmark for Large Language Models

arXiv 2023

Towards Vision Enhancing LLMs: Empowering Multimodal Knowledge Storage and Sharing in LLMs

arXiv 2023

RRHF: Rank Responses to Align Language Models with Human Feedback without tears

arXiv 2023

mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal Skip-connections

arXiv 2022

Code Recommendation for Open Source Software Developers

arXiv 2022

Global and Local Hierarchy-aware Contrastive Framework for Implicit Discourse Relation Recognition

arXiv 2022

Improved Universal Sentence Embeddings with Prompt-based Contrastive Learning and Energy-based Learning

arXiv 2022