# 技术伦理 · 文章索引

> Tech Ethics — AI 安全、可解释性、评估基准、对齐研究

## 分类框架

| 子方向 | 关键词 |
|--------|--------|
| 🛡️ AI 安全 | 红队测试、越狱防御、威胁建模 |
| 🔍 可解释性 | 机制可解释性、特征可视化、归因 |
| 📊 评估基准 | 安全评估、能力测试、红队框架 |
| 🧪 对齐研究 | RLHF、DPO、奖励建模、超对齐 |

## 文章列表

> 📝 本模块正在收集中，欢迎通过 GitHub Issues 推荐优质文章。

---

### 待收录推荐方向

1. **"Concrete Problems in AI Safety"** (Amodei et al., 2016)
   - AI 安全的五个核心问题：规避不良副作用、奖励黑客、可扩展监督等

2. **RLHF 技术原理与演进**
   - 从 InstructGPT 到 Claude、Gemini 的人类反馈强化学习

3. **Mechanistic Interpretability 研究综述**
   - 机制可解释性：理解神经网络的内部运作

4. **Red Teaming Language Models** (Ganguli et al., 2022)
   - Anthropic 的红队测试方法论

5. **"The Alignment Problem"** (Brian Christian)
   - AI 价值对齐的系统性挑战

6. **Superalignment 研究路线图** (OpenAI)
   - 超人类智能的对齐研究框架

7. **Jailbreak Attack 分类与防御**
   - 从 Prompt Injection 到多模态越狱

8. **LLM Evaluation Benchmarks 演进**
   - MMLU → HumanEval → AGIEval → Chatbot Arena

---

*本文档持续更新。建议通过 arXiv、Papers With Code、知乎专栏等平台检索最新研究。*
*收录标准：具有技术深度或方法创新的 AI 安全/对齐相关论文、技术报告、深度分析。*