Robustes Reinforcement Learning aus korrumpiertem menschlichem Feedback | Synapse