강화 학습을 통한 유체 혼합 최적화

최근 뉴스

Nov 07, 2023

최고의 푸드 프로세서 10가지: 완벽한 가이드

Jul 08, 2023

최고의 푸드 프로세서 10가지: 완벽한 가이드

May 09, 2023

최고의 푸드 프로세서 10가지: 완벽한 가이드

May 13, 2023

스콘이 되는 데 도움이 되는 12가지 팁

Oct 25, 2023

끓이는 것 외에 인스턴트 커피를 활용하는 15가지 방법

문의 보내기

제출하다

Jun 23, 2023

과학 보고서 12권,

Scientific Reports 12권, 기사 번호: 14268(2022) 이 기사 인용

2471 액세스

2 인용

103 알트메트릭

측정항목 세부정보

유체 혼합은 다양한 산업 공정에서 매우 중요합니다. 본 연구에서는 강화학습(RL)이 전역 시간 최적화에 적합한 특성에 초점을 맞춰 패시브 스칼라 필드의 유동 혼합 최적화를 위해 RL 활용을 제안합니다. 이류-확산 방정식으로 설명되는 2차원 유체 혼합 문제의 경우 훈련된 혼합기는 사전 지식 없이도 기하급수적으로 빠른 혼합을 실현합니다. 정체 지점 주변에서 훈련된 믹서에 의한 스트레칭과 접힘은 최적의 혼합 과정에 필수적입니다. 또한, 본 연구에서는 훈련된 믹서의 물리적으로 합리적인 전이 학습 방법을 소개합니다. 즉, 특정 Péclet 수로 훈련된 믹서를 다른 Péclet 수의 혼합 문제에 재사용하는 것입니다. 층류 혼합의 최적화 결과를 바탕으로 제안된 방법을 난류 혼합을 포함한 산업적 혼합 문제에 적용하는 방법을 논의합니다.

유체 혼합은 다양한 산업 공정에서 기본적인 역할을 합니다. 그러나 대부분의 혼합 공정은 수학적 최적화보다는 물리적 실험을 통한 시행착오 방법을 사용하여 경험적으로 설계됩니다. 난류가 "효과적인 혼합기"1이지만 경우에 따라(예: 생물 반응기 또는 식품 산업 공정의 혼합기) 강한 전단 흐름이 혼합할 재료를 손상시키기 때문에 난류 혼합은 적절하지 않습니다. 더욱이, 마이크로 믹서에서 난류 흐름을 유지하는 것은 레이놀즈 수가 낮기 때문에 어렵습니다. 이는 층류에 의한 향상된 혼합을 필요로 합니다. 따라서 층류에 의한 혼합 최적화가 중요합니다. 여러 분석 연구에서는 층류 혼합 프로토콜2,3,4,5의 효율성을 평가했습니다. 예를 들어 혼합 속도의 기하급수적 한계를 입증했습니다. 그러나 건설적인 최적화 방법에 대한 연구는 여전히 제한적입니다.

본 연구에서는 건설적인 방법으로 강화학습(RL)을 기반으로 한 혼합 최적화를 제안합니다. 유체 혼합 최적화를 위한 RL 알고리즘의 효과를 설명하기 위해 먼저 수학적 프레임워크를 요약합니다. RL 알고리즘은 마르코프 결정 프로세스(MDP)6,7: \(M= \{{S}, {A}, p_{0}, P, R\}\)로 공식화됩니다. 여기서 S는 상태 집합, \({S}=\{s_1, \cdots s_{|{S}|} \}\); A는 일련의 작업을 나타냅니다. \({A}=\{ a_{1}, \cdots a_{|{A}|} \}\); \(p_{0}\)는 초기 상태의 확률 분포를 나타냅니다. \(p_{0}: {S} \rightarrow [0,1]\); P는 전환 확률, \(P: {S} \times {S}\times {A} \rightarrow [0,1]\)을 나타냅니다. R은 보상 함수 \(R:{S} \times {A} \rightarrow \mathbb {R}\)를 나타냅니다. 초기 상태 \(s_{0}\)는 \(p_{0}(\cdot )\)에 의해 결정되고, 다음 단계에서는 상태가 전이 확률 \(P(\cdot)에 의해 결정됩니다. |s_{0},a_{0})\), \(a_0\) 작업이 필요합니다. 작업은 정책 \(\pi : {S} \rightarrow {A}\)에 따라 \(a=\pi (s)\)로 결정됩니다. RL 알고리즘은 누적 보상의 기대치를 최대화하는 주어진 MDP에 대해 최적의 정책 \(\pi ^*\)을 결정하기 위해 구현됩니다. \(\sum _{t=0}^{\infty } \ 감마 ^{t} R_{t+1}\). 여기서 \(\gamma \in (0,1)\)은 할인 요소를 나타내고 \(R_{t+1}:=R(s_{t},a_{t})\)를 나타냅니다.

RL 알고리즘은 즉각적인 보상 \(R_{t}\)(즉, 로컬 시간)보다는 누적 보상(즉, 전역 시간)을 최대화합니다. 따라서 전역 시간 최적화 문제에 적합합니다. 효율적인 혼합 프로토콜을 설계하는 것은 글로벌 시간 최적화 문제 중 하나입니다. 최종 스칼라 필드는 유체 흐름에 의한 신축 및 접힘과 분자 확산과의 결합을 포함하는 전체 혼합 프로세스에서 동작의 시간적 순서에 따라 달라지기 때문입니다. Villermaux8의 역사 문제에 예시가 제시되었습니다. 핵융합 및 난류 모델링13을 포함하여 유체 역학9,10,11의 다양한 문제를 해결하는 데 RL 알고리즘의 효과에도 불구하고 유체 혼합 문제는 아직 탐구되지 않은 상태로 남아 있습니다.

소식

강화 학습을 통한 유체 혼합 최적화