IBM 의 마이크로서비스를 위한 재시도 메커니즘을 읽고

이 글은, 제어할 수 없는 써드파티 시스템에 의존하는 로직에서 재시도를 어떻게 설계했는지에 대해 설명하는 글이다.

3계층을 설계해서, 초 단위 / 분 단위 / 일 단위로 복구가 진행될 수 있는 방식을 설명한다.
그리고, 왜 이런 재시도 메커니즘에서 Kafka 를 안 쓰는지? (안 좋아하는지?) 에 대해 설명한다.

3계층

MSA 에서 실패는 실패가 아니다. 관측되는 것이다.
네트워크 실패, 서버 다운, 레이턴시 급증등은 항상 발생할 수 있는 것이다.

레이턴시 급증 : 네트워크 혼잡, ISP 경로 문제 혹은 무선 신호 불안정 등 지연시간이 의도치않게 늘어나는 것

그래서, 이를 계속 대응할 수 있게 3계층을 구축했다고 한다.

타임아웃, 커넥션 에러, 서버 에러 등 일시적 장애에 대응한다.

서비스가 지속적으로 문제가 바로 해결 안되거나, 느린 경우에 대응한다.

실패를 기록할 큐 테이블 생성

Janitor : 청소부 역할, 성공 및 오랜 지난 데이터 주기적 삭제해서 무한히 커지는 것을 방지(house-keeping)

2계층으로도 복구 안되는 건들을 위한 최종 안정망에 해당한다.

이때부턴, 어떻게 구현 하냐에 따라 달라질거 같다.

25년 10월 8일로 따끈따끈한 글이다.
여전히, 카프카만이 정답은 아니라는걸 알려주는거 같다?