Home CISPA Helmholtz Center for Information Security

2025-12-03

Conference / Medium

Conference on Neural Information Processing Systems (NeurIPS)
Finding and Reactivating Post-Trained LLMs’ Hidden Safety Mechanisms

Tags

Trustworthy Information Processing

Authors

2025-04-01

Conference / Medium

International Conference on Learning Representations (ICLR)
SaLoRA: Safety-Alignment Preserved Low-Rank Adaptation

Tags

Trustworthy Information Processing

Authors

2023-05-12

Conference / Medium

Usenix Security Symposium (USENIX-Security)
Two-in-One: A Model Hijacking Attack Against Text Generation Models

Tags

Trustworthy Information Processing

Authors

2022-11-07

Conference / Medium

ACM Conference on Computer and Communications Security (CCS)

Tags

Trustworthy Information Processing

Authors

Wai Man Si