Pemodelan Hibrida Pemurnian Kromatografi Fase Terbalik dari Oligonukleotida: Pembelajaran Beberapa Tahap dari Fisika Terdiferensiasi Solver-in-the-Loop

Pemodelan Hibrida Pemurnian Kromatografi Fase Terbalik dari Oligonukleotida: Pembelajaran Beberapa Tahap dari Fisika Terdiferensiasi Solver-in-the-Loop

ABSTRAK
Model hibrida memadukan komponen mekanistik dan berbasis data, yang secara efektif mengatasi tantangan pemahaman proses terbatas dan ketersediaan data yang umum terjadi pada proses biofarmasi. Dalam studi ini, kami menerapkan kerangka kerja pemodelan hibrida yang disebut differensiable physics solver-in-the-loop (DP-SOL) untuk menggambarkan pemurnian kromatografi fase terbalik dari oligonukleotida, mengatasi keterbatasan yang disebutkan dari model mekanistik dan berbasis data murni. Kerangka kerja tersebut menetapkan hubungan antara jaringan saraf (NN) dan model mekanistik melalui operator fisik yang dapat dibedakan dan gradiennya. Kami pertama-tama mengumpulkan satu set data yang terdiri dari enam eksperimen elusi gradien linier pada pemuatan resin dan kemiringan gradien yang berbeda, dibagi menjadi tiga eksperimen masing-masing untuk pelatihan dan pengujian, untuk pembelajaran beberapa bidikan. Hiperparameter ditentukan melalui pencarian grid, yang menghasilkan NN dengan dua lapisan tersembunyi dan 14 simpul. Dibandingkan dengan model mekanistik terkalibrasi yang digunakan untuk inisialisasi NN, model hibrida DP-SOL menunjukkan peningkatan kinerja yang signifikan pada set pelatihan dan pengujian, dengan0,97 untuk yang pertama. Prediktivitas DP-SOL yang baik disebabkan oleh kombinasi model mekanistik dan NN pada tingkat penyelesai. Sebagai paradigma pemodelan hibrida yang baru dan serbaguna, DP-SOL berpotensi untuk memengaruhi pendekatan pemodelan secara signifikan di bidang pemrosesan hilir dan sektor biofarmasi yang lebih luas.

1 Pendahuluan
Model matematika dari proses kimia/biokimia dapat dibagi menjadi dua kelas utama (Rizki dan Ottens 2023 ): model mekanistik, yang mengekspresikan prinsip-prinsip fundamental pada proses dalam bentuk persamaan diferensial parsial (PDE) (Chen et al. 2024 ), dan model berbasis data yang sebagian besar didasarkan pada pembelajaran mendalam (DL). Sementara model mekanistik dapat memberikan wawasan yang lebih dalam tentang proses (Huuk et al. 2014 ; Kozorog et al. 2023 ; Qian et al. 2023 ), model tersebut memerlukan pemahaman yang komprehensif tentang sistem yang sedang diselidiki, yang seringkali tidak terjangkau. Sebaliknya, model berbasis data memerlukan set data yang besar untuk membangun korelasi statistik antara variabel input dan output (Velioğlu et al. 2024 ) dan mungkin tidak memiliki interpretabilitas dan wawasan proses.

Model hibrida, yang sering disebut sebagai model kotak abu-abu, telah muncul sebagai alternatif yang berharga karena menggabungkan kekuatan model yang murni mekanistik dan murni berbasis data, mengimbangi keterbatasan keduanya (Jungbauer et al. 2024 ; Mahanty 2023 ; Malinov et al. 2024 ; Narayanan et al. 2022 ; Narayanan et al. 2023 ; Roush et al. 2020 ; Wittkopp et al. 2024 ). Integrasi ini, yang didefinisikan sebagai DL berbasis fisika oleh Thuerey et al. ( 2021 ), mencakup tiga kategori: pembelajaran terbimbing, jaringan saraf berinformasi fisika (PINN), dan simulasi numerik terdiferensiasi dari sistem fisik (disebut sebagai fisika terdiferensiasi (DP) dalam studi ini). ( 2021 ) menyarankan bahwa metode ini bersifat evolusioner, dengan DP mewakili bentuk akhir dari DL berbasis fisika.

Upaya terkini dalam pembelajaran terbimbing (kategori pertama DL berbasis fisika) dalam bidang biofarmasi meliputi (Ding et al. 2023 ; Narayanan et al. 2022 ; Narayanan et al. 2022 ; Narayanan et al. 2021 ). Dalam proses kultur sel (hulu), model hibrida ini telah menunjukkan kinerja yang lebih unggul dibandingkan dengan model yang murni mekanistik dan murni berbasis data (Narayanan et al. 2022 ; Narayanan et al. 2022 ). Dalam pemrosesan hilir, jaringan saraf (NN) digunakan untuk menggambarkan dinamika adsorpsi, yang kurang dipahami, sembari mempertahankan deskripsi mekanistik dari transpor molekul dalam kolom, sehingga memperoleh model NN-PDE hibrida yang efektif (Ding et al. 2023 ; Narayanan et al. 2021 ). Akan tetapi, pembelajaran terbimbing ini memiliki dua keterbatasan utama. Pertama, kinerjanya sangat bergantung pada integrasi prinsip-prinsip pertama dan komponen berbasis data, yang tidak memiliki pendekatan terpadu dan memerlukan uji coba dan kesalahan yang ekstensif. Misalnya, dalam pemodelan kromatografi (Ding et al. 2023 ; Narayanan et al. 2021 ), kontribusi perpindahan massa yang berbeda dapat dimodelkan menggunakan NN atau PDE, dan integrasi istilah-istilah ini memerlukan pertimbangan yang cermat. Kedua, model ini dilatih menggunakan optimasi kuadrat terkecil dan mengabaikan diferensiabilitas dan backpropagation NN, sehingga hanya efektif dengan NN dangkal. Ketika NN diperdalam untuk memodelkan proses yang lebih kompleks, metode ini menjadi tidak dapat diterapkan, mudah jatuh ke optima lokal.

Kategori kedua, PINN, juga telah dilaporkan dalam pemodelan kromatografi untuk masalah maju dan terbalik (Santana et al. 2022 ; Söderström 2022 ; Subraveti et al. 2022a , 2022b , 2023 ; Tang et al. 2023 ; Zou et al. 2024 ). Namun, masalah utama dengan PINN adalah bahwa PINN dibangun secara independen dari metode numerik tradisional, sehingga mengabaikan pengetahuan yang telah terkumpul selama puluhan tahun dalam komputasi numerik.

Untuk mengatasi keterbatasan ini, kerangka kerja pemodelan hibrida yang baru dan serbaguna, DP (third-category physics-based DL), diusulkan. Tidak seperti pembelajaran terbimbing, yang memperkenalkan NN pada tingkat model, DP mengintegrasikan NN pada tingkat penyelesai (Ramsundar et al. 2021 ). Integrasi tingkat penyelesai ini memungkinkan penyelesai numerik yang ada untuk menghitung gradien sehubungan dengan masukannya, yang mengarah ke penyelesai DP. Setelah integrasi ini dicapai untuk semua perhitungan dalam simulasi, fungsionalitas diferensiasi otomatis (AD) dari kerangka kerja DL yang dikombinasikan dengan backpropagation memungkinkan pelatihan model berbasis gradien, yang secara signifikan mengungguli metode optimasi kuadrat terkecil (DL berbasis fisika kategori pertama). Oleh karena itu, DP mengatasi keterbatasan kategori pertama DL berbasis fisika dengan menghilangkan kebutuhan untuk integrasi NN dan PDE yang cermat dan dengan memanfaatkan diferensiabilitas dan backpropagation NN. Selain itu, ia mengatasi kekurangan kategori kedua DL berbasis fisika dengan mempertahankan pengetahuan perhitungan numerik.

Pendekatan klasik melibatkan evaluasi siklik DP menggunakan diferensiabilitas dan backpropagation dalam proses penyelesaian waktu, disebut sebagai DP solver-in-the-loop (DP-SOL), yang dapat secara signifikan mengurangi kesalahan simulasi numerik. Sejak diperkenalkan pada tahun 2020, DP-SOL telah digunakan untuk mengembangkan berbagai model hibrida dalam dinamika fluida komputasional, yang mencakup persamaan Navier-Stokes (Um et al. 2020 ), dan masalah konveksi-dispersi (Wiewel et al. 2020 ). Mengingat potensinya, model kromatografi, varian dari sistem konveksi-dispersi, dapat sangat diuntungkan dalam hal akurasi dan waktu komputasi dengan penerapan DP-SOL. Secara khusus, kromatografi fase terbalik (RPC) adalah salah satu proses yang paling sering digunakan untuk pemurnian biofarmasi (Catani et al. 2020 ; De Luca et al. 2020 ), tetapi masih dominan dijelaskan melalui model mekanistik, termasuk model Mollerup ( 2007 ) berdasarkan sifat termodinamika dan aktivitas (Chen et al. 2024 ), serta model perpindahan stoikiometri (SDM) (Arkell et al. 2017 ; Arkell et al. 2018 ; Arkell et al. 2018 ) dengan versi yang disederhanakan (Nozaki et al. 2024 ). Namun, kurangnya konsensus tentang mekanisme yang mendasari RPC, khususnya yang menyangkut penggunaan model aktivitas untuk pelarut organik, telah membatasi aplikasi pendekatan mekanistik ini di bidang ini.

Mengingat pemahaman terbatas tentang proses RPC, model hibrida merupakan alternatif yang menjanjikan untuk deskripsi operasi yang andal. Namun, model hibrida memerlukan lebih banyak data eksperimen untuk pelatihan dibandingkan dengan model mekanistik murni, karena penggabungan komponen berbasis data. Pada saat yang sama, pembuatan data berkualitas tinggi dalam jumlah yang cukup untuk pelatihan model tetap menjadi tantangan dalam bioteknologi (Jungbauer et al. 2024 ; Ou et al. 2024 ; Saleh et al. 2022 ; Wu et al. 2024 ). Akibatnya, bidang ini sering menggunakan pembelajaran beberapa langkah (Liu et al. 2024 ) untuk mengurangi persyaratan data dan menyelaraskan dengan model mekanistik, sehingga memfasilitasi transisi dari pendekatan yang lebih konvensional ke pendekatan hibrida tanpa menimbulkan upaya eksperimen tambahan.

Dalam hal ini, penelitian ini bertujuan untuk mengembangkan model hibrida menggunakan DP-SOL yang dapat secara akurat menggambarkan pemurnian RPC dari oligonukleotida dengan data eksperimen yang terbatas. Pertama, kami memperkenalkan konsep dan derivasi DP-SOL dan membahas cara membangunnya untuk proses RPC. Kemudian, DP-SOL diimplementasikan dalam pemodelan enam pemisahan gradien linier terfraksinasi yang diperoleh pada pemuatan oligonukleotida yang berbeda pada resin dan durasi gradien. Dari percobaan ini, tiga digunakan untuk melatih model dan tiga untuk mengujinya, dalam rasio 1:1. Perbandingan antara DP-SOL dan model mekanistik dilakukan dengan menggunakan set data yang sama, yang menunjukkan potensi besar model hibrida dalam meningkatkan akurasi dan prediktabilitas simulasi dan membuka jalan menuju paradigma baru dalam pemodelan kromatografi.

2 Teori
Gambar 1 secara skematis menggambarkan konsep DP-SOL untuk pemodelan hibrid proses RPC dan berbagai panel dijelaskan secara rinci di bagian berikut.

GAMBAR 1
Pemecah fisika diferensial dalam loop (DP-SOL) untuk pemodelan hibrida (model kotak abu-abu). (A) Perambatan maju dan mundur DP-SOL dengan pemecah dalam loop menggunakan operator diferensial Bahasa Indonesia: , Dan (B) Model kotak putih untuk operator (C) Pemecah untuk operator (D) Model kotak hitam untuk operator .

2.1 Diferensiabilitas dan Backpropagation Jaringan Syaraf

2.2 Pemecah Masalah Nilai Awal dalam Kromatografi

Persamaan yang mengatur Persamaan ( 10 ) dapat ditulis sebagai:

2.3 Pemecah dengan Operator Diferensiabel

Demikian pula, untuk mengimplementasikan backpropagation dari DP-SOL (Gambar 1A ), diperlukan bahwa baik NN maupun solver BDF dapat melakukan backpropagation. Backpropagation NN didasarkan pada diferensiabilitasnya. Jadi, solver BDF juga memerlukan diferensiabilitas. Karena solver BDF dapat diekspresikan oleh operator yang dapat didiferensiasikan, solver tersebut dapat didiferensiasikan dengan mengambil turunan parsial dari kedua sisi Persamaan ( 15 ) terhadap
:

2.4 Model Mekanistik dan Solusi Numerik

 

2.5 Integrasi DP-SOL Dengan Model RPC
DP-SOL digabungkan dengan model mekanistik RPC. Untuk sistem pemisahan terner, termasuk pengotor yang teradsorpsi lemah (W), produk utama (P), dan pengotor yang teradsorpsi kuat (S), dan elusi gradien linier yang dilakukan dengan pengubah organik, DP-SOL dapat direpresentasikan sebagai:

3 Bahan dan Metode
3.1 Percobaan
Oligonukleotida yang digunakan adalah DNA untai tunggal 20-mer (5′-ATA CCG ATT AAG CGA AGT TT-3) yang disediakan oleh YMC Jepang. Percobaan RPC dilakukan pada ContiChrom CUBE30+ (YMC ChromaCon), yang mencakup detektor UV/Vis BlueShadow 40D eksternal yang diatur pada 300 nm dan termostat kolom Azura CT2.1 eksternal dengan kartrid pra-pemanasan pelarut yang dioperasikan pada 50°C, keduanya dari Knauer. Kolom YMC Triart C18-S, panjang 100 mm, diameter internal 4,6 mm, ukuran partikel 10 μm dan ukuran pori 12 nm dengan porositas total 0,54 digunakan untuk percobaan elusi. Parameter spesifik kolom
ditentukan melalui percobaan titrasi silanol (Arkell et al. 2017 ),𝓉
ditentukan dengan percobaan injeksi pulsa menggunakan NaCl sebagai pelacak non-pengikat (Chen et al. 2024 ), sementara
dihitung dari efisiensi kolom melalui
, panjang kolom
dan nomor panggung
:

Untuk percobaan elusi, buffer A terdiri dari 99% natrium asetat 0,2 M dan 1% asetonitril, sedangkan buffer B terdiri dari 90% natrium asetat 0,2 M dan 10% asetonitril. Kondisi operasi (komposisi buffer, kecepatan, dan volume) dirinci dalam Tabel 1 , dan volume pemuatan dan panjang gradien dilaporkan dalam Tabel 2. Konduktivitas yang diukur diubah menjadi %B menggunakan hukum Kohlrausch (Carta dan Jungbauer 2020 ).

 

Tabel 1. Kondisi operasi percobaan elusi gradien linier. CV: volume kolom.
Melangkah Penyangga (%B) Kecepatan (cm/jam) Volume (KV)
Imbang 30 400 3
Memuat Campuran pakan 300 Seperti pada Tabel  2
Mencuci 30 150 2
Gradien 30–100 200 Seperti pada Tabel  2
Mengupas 100 150 2

 

Tabel 2. Beban dan panjang gradien percobaan elusi gradien linier. CV: volume kolom.
Nomor exp. Label Beban (g/L resin ) Persentase tolok ukur Panjang gradien (CV) Persentase tolok ukur Tujuan
1 Beban15_GL6p5 15 100% 6.5 100% Pelatihan
2 Beban7p5_GL6p5 7.5 50% 6.5 100% Pelatihan
3 Beban15_GL8p5 15 100% 8.5 130% Pelatihan
4 Beban15_GL4p6 15 100% 4.6 70% Pengujian
5 Beban22p5_GL6p5 22.5 150% 6.5 100% Pengujian
6 Beban22p5_GL8p5 22.5 150% 8.5 130% Pengujian

Semua fraksi yang dikumpulkan dari percobaan elusi dianalisis dengan kromatografi cair kinerja tinggi fase terbalik. Proses analisis dilakukan menggunakan kolom YMC Triart C18 (100 × 2 mm, ukuran partikel = 1,9 μm, porositas = 12 nm) pada sistem HPLC Agilent 1200, dengan deteksi pada 300 nm menggunakan detektor dioda-array. Suhu dan laju alir masing-masing konstan hingga 50°C dan 0,2 mL/menit. Buffer keseimbangan adalah larutan heksafluoro isopropanol 100 mM + trietilamin 4 mM. Buffer elusi adalah metanol murni. Buffer disaring melalui membran PVDF 0,2 μm dan didegaskan sebelum digunakan. Sistem diseimbangkan pada buffer elusi 5% selama 1 menit, sebelum gradien ke buffer elusi 10% dalam 2 menit, dari 10% ke 15% dalam 22 menit dan ke 90% dalam 2 menit tambahan. Akhirnya, penyeimbangan ulang pada buffer elusi 5% dilakukan selama 15 menit.

Pengotor yang dielusi dalam waktu 8 menit setelah permulaan gradien dianggap dapat diabaikan, karena pengotor tersebut tidak ikut terelusi dengan produk utama (P) selama percobaan preparatif. Pengotor yang ikut terelusi di bagian depan P selama proses preparatif dikelompokkan sebagai pengotor yang teradsorpsi lemah (W), dan dipisahkan melalui HPLC antara 8 dan 30,2 menit. Produk P dielusi pada 30,2 menit. Spesies yang terelusi setelah produk P diidentifikasi sebagai pengotor yang teradsorpsi kuat (S). Rincian lebih lanjut tentang pengumpulan data dan metode analisis dapat ditemukan dalam metode kolom tunggal dari pekerjaan kami sebelumnya (Fioretti et al. 2024 ).

3.2 Implementasi Model di Pytorch

3.3 Inisialisasi Jaringan Berdasarkan Model Mekanistik
NN diinisialisasi menggunakan model mekanistik. Ini dikalibrasi terlebih dahulu melalui pendekatan standar yang diusulkan oleh Chen et al. ( 2024 ), termasuk metode parameter demi parameter yang diikuti oleh metode invers (Chen et al. 2022 , 2023 ; Yang et al. 2024 ; Yang et al. 2024 ). Perlu digarisbawahi bahwa set pelatihan yang digunakan untuk mengkalibrasi model mekanistik ini identik dengan yang digunakan setelahnya untuk melatih DP-SOL. Fungsi kerugian, metode normalisasi, partisi set data untuk pemodelan mekanistik konsisten dengan yang digunakan dalam DP-SOL. Setelah inisialisasi jaringan selesai, parameter model mekanistik tetap tidak berubah selama proses pelatihan NN.

3.4 Pemilihan Hiperparameter
Sebelum pelatihan NN formal, kami menggunakan pencarian grid untuk memilih hiperparameter yang relevan. NN menjalani 20 periode pada set pelatihan selama setiap iterasi. Benih acak untuk inisialisasi lapisan konsisten di seluruh iterasi.

3.5 Prosedur Pembelajaran
Prosedur pembelajaran meliputi: (1) pembagian dataset eksperimen ke dalam set pelatihan dan pengujian; (2) perolehan independen model mekanistik terkalibrasi dari set pelatihan untuk menginisialisasi NN; (3) pemilihan hiperparameter yang relevan; (4) pelatihan DP-SOL pada set pelatihan untuk 2000 iterasi di bawah hiperparameter yang dipilih; (5) evaluasi ekstrapolabilitas DP-SOL yang dilatih ke set pengujian.

4 Hasil
4.1 Persiapan dan Partisi Data
Pembagian set data yang sadar dalam set pelatihan dan pengujian dapat memastikan model berkinerja baik pada data yang tidak terlihat. Untuk menyiapkan set data, kami mengikuti pendekatan satu faktor pada satu waktu mulai dari kondisi eksperimen yang dilaporkan dalam Tabel 1 dengan panjang gradien 6,5 CV dan pemuatan resin 15 g/L . Sebanyak enam eksperimen, memvariasikan panjang gradien dan pemuatan dengan
30% dan
50%, masing-masing, dibagi menjadi set pelatihan (eksperimen No. 1, 2, dan 3 pada Tabel 2 ) dan set pengujian (eksperimen No. 4, 5, dan 6 pada Tabel 2 ) dalam rasio 1:1. Dari hasil ini, kami mengumpulkan fraksi selama gradien dan menganalisisnya melalui HPLC untuk mendeteksi dan mengukur spesies yang berbeda. Di antara berbagai komponen yang diidentifikasi, kami menyatukan spesies yang menunjukkan perilaku serupa. Secara khusus, pengotor yang keluar lebih awal dari produk dikelompokkan dalam pseudo-komponen W. Ini terutama diwakili oleh shortmer, dan khususnya oleh oligonukleotida n-1 . Di sisi lain, pengotor yang keluar lebih lambat dari produk dikelompokkan dalam pseudo-komponen S. Oleh karena itu, sistem multikomponen direduksi menjadi campuran terner yang terdiri dari W, P dan S.

4.2 Inisialisasi Jaringan Syaraf Tiruan Berdasarkan Model Mekanistik
NN diinisialisasi oleh model mekanistik terkalibrasi, yang juga berfungsi sebagai tolok ukur untuk perbandingan dengan model hibrida. Parameter yang digunakan untuk model mekanistik diturunkan menurut metode yang dilaporkan di Bagian 3.3 dan tercantum dalam Tabel 3. Parameter ini bermakna secara fisik. Misalnya,
peningkatan pergerakan dari W ke P dan S, dan pada gilirannya dengan waktu retensi mereka.

 

Tabel 3. Parameter model mekanistik dari pengotor yang teradsorpsi lemah (W), produk utama (P), dan pengotor yang teradsorpsi kuat (S).
Komponen ν keq σ kkin
Kami 6.08 7.38E-5 29.17 2.89E-7
P 7.70 7.31E-6 12.49 4.49E-10
S 12.63 8.15E-9 angka 0 1.56E-12

Kurva elusi yang disimulasikan berdasarkan parameter model ini ditunjukkan pada Gambar S1 dalam Informasi Pendukung. Karena perbedaan yang signifikan dalam kandungan produk dan pengotor dalam campuran minyak mentah, evaluasi kinerja model yang lebih mudah diberikan pada Gambar S2 , di mana konsentrasi pada saluran keluar kolom dinormalisasi oleh konsentrasi yang sesuai dalam umpan. Melalui model ini, kerugian rata-rata
Dan
untuk set pelatihan dan pengujian, masing-masing. Nilai-nilai ini menunjukkan bahwa model mekanistik sudah dapat memberikan representasi yang baik dari proses RPC untuk oligonukleotida ini. Memang, waktu retensi ditangkap secara akurat.

Namun, bentuk puncak tidak dimodelkan secara tepat. Khususnya, untuk pengotor S, puncak yang diukur adalah tailing (adsorpsi Langmuirian) sedangkan puncak yang disimulasikan adalah fronting (adsorpsi anti-Langmuirian), sehingga menghasilkan
lebih rendah daripada yang untuk pengotor W dan produk P (terutama untuk Gambar S2D ). Menurut penelitian kami sebelumnya (Chen et al. 2025 ), penafsiran jenis adsorpsi berdasarkan simetri puncak (tailing vs. fronting) memerlukan kondisi aliran yang konstan. Namun, seperti yang ditunjukkan oleh profil laju aliran pada Gambar S1 dan S2 , laju aliran elusi tidak konstan selama elusi pengotor S. Oleh karena itu, simetri puncak saja tidak dapat digunakan untuk menentukan mekanisme adsorpsi secara andal dalam kasus ini.

Selain itu, saat produk Pe dielusi, varians signifikan diamati dalam konduktivitas terukur akibat efek perpindahan (Chen et al. 2024 ; Fioretti et al. 2022 ). SDM dapat mensimulasikan varians ini (Arkell et al. 2017 ; Arkell et al. 2018 ), tetapi gagal sepenuhnya konsisten dengan eksperimen.

4.3 Pemilihan Hiperparameter

GAMBAR 2
Hasil pencarian hiperparameter: Kontur fungsi kerugian antara nomor lapisan dan nomor neuron pada laju pembelajaran: (A) 10 − 1 , (B) 10 − 2 , (C) 10 − 3 , dan (D) 10 −4 . (E) Pentingnya hiperparameter untuk fungsi kerugian dan waktu proses. (F) Probabilitas kumulatif dari distribusi empiris.

4.4 Pelatihan Model

GAMBAR 3
(A) Fungsi kerugian dari DP-SOL dan model mekanistik (MM) selama iterasi berturut-turut. (B) Kontribusi terhadap fungsi kerugian dari tiga eksperimen berbeda selama pelatihan model.

GAMBAR 4
Hasil pelatihan model hibrida DP-SOL: kromatogram ternormalisasi (A–C) dan tak ternormalisasi (D–F) dari simulasi model (garis padat) dan pengukuran eksperimen (hamburan) untuk pengotor yang teradsorpsi lemah (W), produk utama (P), dan pengotor yang teradsorpsi kuat (S). (A) dan (D): pemuatan resin 7,5 g/L dan panjang gradien 6,5 CV. (B) dan (E): pemuatan resin 15 g/L dan panjang gradien 6,5 CV. (C) dan (F): pemuatan resin 15 g/L dan panjang gradien 8,5 CV. CV: volume kolom. Secara keseluruhan dan individual disediakan dalam tanda kurung pada judul dan legenda.

Mengenai kurva konduktivitas (garis hitam pada Gambar 4 ), model yang dikembangkan menunjukkan variasi serupa dengan pengukuran, meskipun gagal mereplikasi besarnya secara tepat.

Mengenai kurva elusi oligonukleotida (garis berwarna pada Gambar 4 ), hasil pemasangan yang memuaskan dicapai dalam tinggi puncak, bentuk, dan waktu retensi, di seluruh pemuatan dan panjang gradien yang berbeda. Untuk pengotor W dan S, meskipun konsentrasinya rendah, model tersebut dapat mensimulasikan kurva elusinya secara luar biasa. Hasil ideal ini terkait erat dengan normalisasi, termasuk masukan operator
, total keluaran DP-SOL, dan
Normalisasi secara efektif menskalakan fitur ke rentang yang sama, mengurangi dominasi fitur tertentu dalam pembaruan gradien dan dengan demikian mengurangi risiko gradien menghilang atau meledak. Dalam kromatogram yang tidak dinormalisasi (Gambar 4D–F ), keseluruhan
hampir sama dengan individu
produk P karena konsentrasinya lebih tinggi daripada konsentrasi pengotor (W dan S) dengan orde besaran tertentu. Sebaliknya, dalam kromatogram yang dinormalisasi (Gambar 4A–C ), semua puncak diskalakan agar memiliki luas puncak yang hampir sama, sehingga meningkatkan refleksi kecocokan keseluruhan
.

Perbandingan berdasarkan set data eksperimen yang sama, dengan mempertimbangkan kromatogram yang dinormalisasi mengikuti pendekatan yang identik, mengungkapkan bahwa model hibrida (Gambar 4A–C ) mewarisi kemampuan pembelajaran NN dan dapat menangkap perilaku adsorpsi pengotor S pada kecepatan yang bervariasi, meskipun model kolom dan arsitektur NN sederhana, dan hibridisasi diterapkan hanya pada model adsorpsi. Hal ini tidak mungkin dilakukan dengan model mekanistik (Gambar S2 dalam Informasi Pendukung), yang menunjukkan ketidakakuratan besar untuk pseudo-komponen ini.

4.5 Pengujian Model
DP-SOL yang telah dilatih kemudian diaplikasikan pada simulasi kondisi elusi yang dipilih untuk pengujian (eksperimen No. 4, 5 dan 6 pada Tabel 2 ). Gambar 5 menunjukkan bahwa DP-SOL yang telah dilatih dapat memprediksi kurva elusi pada panjang gradien dan kondisi pembebanan yang berbeda dari yang dipertimbangkan untuk pelatihan model, meskipun ada beberapa osilasi pada kurva tertentu (posisi puncak produk P).

GAMBAR 5
Hasil pengujian model hibrida DP-SOL: kromatogram ternormalisasi (A–C) dan tak ternormalisasi (D–F) dari simulasi model (garis padat) dan pengukuran (hamburan) untuk pengotor yang teradsorpsi lemah (W), produk utama (P), dan pengotor yang teradsorpsi kuat (S). (A) dan (D): muatan resin 15 g/L dan panjang gradien 4,6 CV. (B) dan (E): muatan resin 22,5 g/L dan panjang gradien 6,5 CV. (C) dan (F): muatan resin 22,5 g/L dan panjang gradien 8,5 CV. CV: volume kolom. Total dan individual disediakan dalam tanda kurung pada judul dan legenda.

Selama persiapan set data model hibrida, prinsip desain satu faktor pada satu waktu (yaitu, memvariasikan panjang gradien elusi atau pemuatan) diadopsi untuk memastikan bahwa model dapat menangkap efek individual dari variabel-variabel ini. Seperti yang dirangkum dalam Tabel 3 , kecepatan yang berbeda diterapkan di berbagai langkah kromatografi. Efek dari perubahan kecepatan diperhitungkan ke dalam model hibrida melalui istilah konveksi dan dispersi dalam Persamaan ( 20 ), di mana
dimodelkan sebagai bergantung aliran sesuai dengan Persamaan ( 35 ).

Namun,
pada Gambar 5A (beban resin 15 g/L dan panjang gradien CV 4,6) hanya 0,784, terutama karena prediktabilitas yang buruk untuk pengotor S, karena dapat disimpulkan dari masing-masingnya
Pengotor S terdeteksi secara eksperimental hanya dalam dua fraksi, karena hasil analisis menunjukkan bahwa pengotor S hanya mencapai 1,2% dari campuran kasar, dan konsentrasi rendah dapat membatasi keakuratan kuantifikasi. Hal ini dapat diamati dalam kromatogram yang tidak dinormalisasi (Gambar 5D ), di mana kurva elusi pengotor S mendekati garis horizontal. Hilangnya kinerja model karena kumpulan data yang tidak normal tidak membenarkan ekstrapolasi DP-SOL yang buruk. Eksperimen ini digunakan sebagai pengujian daripada untuk pelatihan model, yang secara efektif meminimalkan dampak keakuratan analitis pada pengembangan model. Meskipun hanya memiliki dua titik data, model hibrida masih dapat memprediksi bentuk puncak dengan cukup baik.

5 Diskusi
Dalam studi ini, set pelatihan hanya terdiri dari tiga eksperimen elusi gradien linier. Berbeda dengan model yang murni berbasis data yang mengandalkan set data ekstensif, strategi pembelajaran few-shot DP-SOL ini menawarkan kemudahan bagi pengguna dalam persiapan data. Hal ini khususnya penting dalam bidang biofarmasi, yang dicirikan oleh ketersediaan data terbatas dan biaya eksperimen tinggi. Biaya untuk menyiapkan set data DP-SOL sebanding dengan model mekanistik tradisional, yang memungkinkan pengguna untuk beralih dengan lancar dari model mekanistik konvensional ke model hibrida tanpa menimbulkan biaya eksperimen tambahan. Lebih jauh, hal ini memungkinkan pengguna untuk membandingkan kinerja berbagai model pada set data yang sama.

Tidak seperti kebanyakan model berbasis data (prediksi interpolatif), DP-SOL dinilai melalui prediksi ekstrapolatif. Model ini dilatih menggunakan panjang gradien mulai dari 6,5 hingga 8,5 CV dan beban dari 7,5 hingga 15,0 g/L resin , sementara prediksi dibuat pada panjang gradien 4,6 CV dan beban 22,5 g/L resin . Oleh karena itu, kami memastikan tidak ada tumpang tindih antara set pelatihan dan pengujian, sehingga keduanya saling independen.

Dalam pelatihan model, strategi optimasi berbasis gradien menggunakan AD dan backpropagation menghasilkan pelatihan NN yang efisien. Metode ini dapat sama efektifnya dalam ruang parameter berdimensi lebih tinggi dan NN yang lebih dalam, di mana metode kuadrat terkecil tidak memadai. Dalam pengujian model, DP-SOL menunjukkan peningkatan kinerja yang signifikan dibandingkan dengan model mekanistik murni. Kami mengaitkan ekstrapolabilitas DP-SOL yang sangat baik dengan dua komponennya.

Di satu sisi, kontribusi berasal dari model mekanistik (kotak putih), misalnya, operator
SDM bekerja dengan baik dalam memprediksi panjang gradien yang berbeda dengan adanya pelarut organik, suatu keuntungan yang diwarisi oleh DP-SOL. Akan tetapi, penelitian terkini menunjukkan bahwa SDM gagal dalam memprediksi beban tinggi (Koch et al. 2022 ; Seelinger et al. 2022 ; Seelinger et al. 2023 ; Seelinger et al. 2022 ), sebagaimana dibuktikan dalam Gambar S2E,F (beban tinggi), yang menunjukkan kesalahan pengujian yang lebih besar dibandingkan dengan eksperimen lain pada beban rendah.

Di sisi lain, kontribusi model berbasis data (kotak hitam), misalnya, operator
Pengenalan NN memungkinkan DP-SOL untuk menginterpretasikan mekanisme yang tidak diketahui (Park et al. 2023 ; Schiemer et al. 2023 ), seperti perilaku elusi pada pemuatan tinggi, meskipun menggunakan model kolom yang sangat sederhana dan NN dangkal, sementara hanya mempertimbangkan kontribusi oligonukleotida pada fase stasioner. Ketika Ding et al. ( 2023 ) menggunakan NN untuk mengembangkan model hibrida untuk kromatografi interaksi hidrofobik, penulis mempertimbangkan NN terpisah untuk resistansi perpindahan massa dan isoterm adsorpsi, menggabungkannya untuk mendapatkan keluaran akhir. Sebagai perbandingan, DP-SOL berfungsi sebagai paradigma pemodelan umum pada tingkat penyelesai. Bahkan, ini menghilangkan kebutuhan untuk beberapa NN atau penyelidikan cermat integrasi antara NN dan PDE. Oleh karena itu, DP-SOL lebih sederhana dan lebih ramah pengguna.

Dalam hal interpretabilitas, DP-SOL mempertahankan transparansi fisik dari fenomena transportasi utama, seperti perpindahan massa, dispersi, dan konveksi, yang diwarisi dari model mekanistik. Hanya perilaku adsorpsi yang dipelajari melalui operator NN, yang memungkinkan model untuk digeneralisasikan melampaui kondisi pelatihannya sambil mempertahankan interpretabilitas parsial. Struktur ini memungkinkan pengguna untuk melacak bagaimana kondisi input menyebar melalui mekanisme fisik untuk menghasilkan output model, yang sangat berharga dalam pengembangan proses biofarmasi di mana pemahaman tentang parameter proses kritis sangat penting. Dari perspektif Kualitas menurut Desain, DP-SOL dapat mendukung pengoptimalan proses, penilaian risiko, evaluasi ketahanan, dan penerimaan regulasi secara lebih efektif daripada model yang murni digerakkan oleh data.

Secara keseluruhan, hibridisasi DP-SOL memanfaatkan keunggulan model mekanistik dan berbasis data. DP-SOL memiliki kapabilitas model berbasis data untuk menginterpretasikan mekanisme yang tidak diketahui, yang melengkapi model mekanistik yang diketahui. Model mekanistik dengan kinerja yang buruk dapat diubah menjadi model hibrid sempurna menggunakan DP-SOL. Sebenarnya, DP-SOL termasuk dalam ranah pembelajaran operator. Dengan menghitung jumlah tiga operator, kami mengamati bahwa untuk setiap langkah waktu dalam loop DP-SOL, ada 12 operator yang disumbangkan oleh NN untuk pembelajaran dan 1920 operator yang ditentukan oleh model mekanistik. Kami menghitung derajat hibridisasi (diusulkan oleh Narayanan et al. [ 2022 ]) dalam penelitian ini menjadi sekitar 0,6%. Ini menyiratkan bahwa DP-SOL lebih condong ke arah pemodelan mekanistik daripada pemodelan berbasis data. Hal ini menjelaskan mengapa DP-SOL menunjukkan karakteristik seperti pembelajaran beberapa contoh, interpretabilitas, dan ekstrapolabilitas yang sangat baik, yang merupakan ciri khas model mekanistik.

Akan tetapi, DP-SOL juga mewarisi kelemahan dari model mekanistik dan berbasis data, yang terutama terlihat dalam implementasinya. Semua isu yang perlu dipertimbangkan dalam implementasi model mekanistik dan berbasis data harus dievaluasi ulang dalam DP-SOL, termasuk persamaan yang mengatur, diskritisasi, pemilihan penyelesai untuk model mekanistik, penentuan struktur NN, dan pemilihan hiperparameter untuk model berbasis data. Meskipun demikian, hal ini juga menyiratkan bahwa pengetahuan tentang metode numerik dari model mekanistik yang diketahui tidak akan dibuang jika dibandingkan dengan model yang murni berbasis data. Kelemahan lainnya terletak pada biaya komputasi. Waktu komputasi DP-SOL mendekati jumlah waktu komputasi untuk model mekanistik dan berbasis data. Dengan memanfaatkan metode numerik yang efisien seperti DG-FEM dan kemajuan dalam pembelajaran terdistribusi dan daya komputasi, DP-SOL akan menghasilkan lebih banyak aplikasi di masa mendatang.

Sebagai paradigma pemodelan hibrida yang baru dan serbaguna, DP-SOL berpotensi untuk berdampak signifikan pada pendekatan pemodelan di bidang pemrosesan hilir dan bidang biofarmasi yang lebih luas. Dengan mengubah persamaan yang mengatur, bentuk diskritisasi, penyelesai, dan struktur NN, DP-SOL dapat diterapkan ke berbagai proses (Andersson et al. 2023 ; Ding et al. 2022 ; Gomis-Fons et al. 2024 ; Tiwari et al. 2023 ). Misalnya, dapat digunakan dalam desain proses dan pengoptimalan pemurnian gradien pelarut arus berlawanan multi-kolom (MCSGP) oligonukleotida. Informasi gradien dalam DP-SOL dapat dengan mudah menetapkan pemetaan antara tujuan pengoptimalan dan variabel keputusan, sehingga memecahkan masalah pengoptimalan MCSGP secara lebih efisien.

6 Kesimpulan
Studi ini memperkenalkan kerangka kerja pemodelan hibrida yang diberi nama DP-SOL, yang memadukan model mekanistik tradisional dengan NN. Kerangka kerja ini memanfaatkan operator fisik yang dapat dibedakan dan gradiennya, dan diterapkan untuk menggambarkan pemurnian RPC dari oligonukleotida. Kami pertama-tama mengumpulkan satu set data kecil untuk pembelajaran beberapa bidikan dengan melakukan enam eksperimen elusi gradien linier pada pemuatan resin dan kemiringan gradien yang berbeda, dengan tiga eksperimen masing-masing untuk pelatihan dan pengujian dalam rasio 1:1. NN diinisialisasi menggunakan model mekanistik yang dikalibrasi. Hiperparameter ditentukan melalui pencarian grid, menghasilkan NN dengan 2 lapisan tersembunyi dan 14 simpul. Dibandingkan dengan model mekanistik murni, model hibrida DP-SOL menunjukkan peningkatan kinerja yang signifikan, selalu mencapai tingkat
pada set pelatihan dan pengujian, dengan
> 0,97 untuk yang pertama. Kami mengaitkan kemampuan prediktif yang kuat dari DP-SOL dengan kombinasi model mekanistik dan NN pada tingkat penyelesai. Sebagai paradigma pemodelan hibrida yang baru dan serbaguna, DP-SOL berpotensi untuk berdampak signifikan pada pemurnian kromatografi biologik, menjadikan perangkat digital sebagai sumber daya utama untuk mengurangi waktu dan biaya pengembangan proses.

Leave a Reply

Your email address will not be published. Required fields are marked *