Backes

Backes

My group is working on various aspects of information security, with a current main focus on the intersection of information security with AI / Machine Learning. Further topics of interest include: trustworthy information processing of medical information; design, analysis and verification for security-critical systems and services; and universal solutions in system and software security.

Members

Most Recent Publications

Year 2026

2026-07-07

Reward Yourself: Efficient Self Rewards for Trustworthy Sampling

Conference / Medium

Annual Meeting of the Association for Computational Linguistics (ACL)
Reward Yourself: Efficient Self Rewards for Trustworthy Sampling

Tags

Authors

Mingjie Li
Si Wai-man
Backes Michael
Zhang Yang

Full Paper Visit Detail Page

2026-07-02

Open Schrödinger’s Closed Box: Identifying Retrieval Augmented Generation in API-Accessible Large Language Model Services

Conference / Medium

Annual Meeting of the Association for Computational Linguistics (ACL)
Open Schrödinger’s Closed Box: Identifying Retrieval Augmented Generation in API-Accessible Large Language Model Services

Tags

Trustworthy Information Processing

Authors

Full Paper Visit Detail Page

2026-07-02

Jailbreaking Attacks vs. Content Safety Filters: How Far Are We in the LLM Safety Arms Race?

Conference / Medium

Annual Meeting of the Association for Computational Linguistics (ACL)

Tags

Trustworthy Information Processing

Authors

Yuan Xin
Dingfan Chen
Linyi Yang
Michael Backes
Xiao Zhang

Full Paper Visit Detail Page

2026-07-01

DE-CLIP: Few-Shot Anomaly Detection via Difference-Guided Embedding Editing

Conference / Medium

Annual Meeting of the Association for Computational Linguistics (ACL)

Tags

Authors

Full Paper Visit Detail Page

2026-06-20

MultiMem: Measuring and Mitigating Memorization in Multi-Modal Contrastive Learning

Conference / Medium

The 19th European Conference on Computer Vision (ECCV), 2026
MultiMem: Measuring and Mitigating Memorization in Multi-Modal Contrastive Learning

Tags

Trustworthy Information Processing

Authors

Full Paper Visit Detail Page

Backes

Head of Group

Email

Address

Members

Yihan Ma

Xinyue Shen

Yiting Qu

Wai Man Si

Yuan Xin

Junjie Chu

Hai Huang

Yugeng Liu

Yiyong Liu

Minxing Zhang

Yixin Wu

Ziqing Yang

Wenhao Wang

Vincent Hanke

Mingjie Li

Yukun Jiang

Xun Wang

Yage Zhang

Shengyun Si

Most Recent Publications

Year 2026