From a060fa69c536dd38cb3a854c0c0e750852f7f46f Mon Sep 17 00:00:00 2001
From: Joshua Salako <salakojoshua1234@gmail.com>
Date: Sat, 3 May 2025 15:40:50 +0100
Subject: [PATCH] Refactor data loading and streaming pipeline endpoints for
 improved file handling - Updated `/load-data` endpoint to make the file
 parameter optional and added validation for CSV uploads. - Introduced a new
 dependency function `get_file_if_csv` to streamline file checks when loading
 data from CSV. - Enhanced `/run/streaming-pipeline` endpoint to utilize the
 new file handling logic. - Improved code readability by restructuring file
 renaming logic.

---
 .../__pycache__/api.cpython-311.pyc           | Bin 25064 -> 25512 bytes
 salary_analytics/api.py                       |  35 +++++++++++-------
 2 files changed, 22 insertions(+), 13 deletions(-)
diff --git a/salary_analytics/__pycache__/api.cpython-311.pyc b/salary_analytics/__pycache__/api.cpython-311.pyc
index 374ad32cc2419cd20d985fa180ab38af80261fac..af607134f8518e20255f63ad5788722ea8f79abb 100644
GIT binary patch
delta 4669
zcmb7HYj9h|6~3!0>B_P!$=1UU`EhN@u@xtFj2%0696OHlw&Oeud58od>t5SRt{$vp
zf;~<gnovS15Lg%(0!<1`nwI=vMxAM=lnx9T3KK|^;()8tnRNQ2l+vjwoetBPKF(R$
z%7dhjYv1plbN1|>$L^k8efl;z`*TwFy@CR>08d+;d+eJV1mSncEIfJh#Fs~&tn*Gs
zrGP{Pg(#wCisl9KIIY*r(fmL@rwy7VS`aAUv{AE0Z2?=<9<WCX1BF~BX+?n|=r3uG
zfP;UX0Vn^u0&e~-4iv-Jq?JTV0wugpo>m$y3zPx9-K^wmo@jZX92m1=(JG>qfy!uA
zpo;SanjEbTRCC&@)kM7kFQ;vqFIpR@C4x>+o%<Ipga&jSbCar7&i(Z{ng0wCgjeCs
zK7qy1N2e4i4#j!Sbw-3Xc<0+1)P~bbSaY3Ir{=Tc#2YR@11+yEv<rcyiWHFHZG^W5
zUY}0bASk8B1f@(ZxM{E^-sXX}@~^cmQ!0)Lfo3pw2bgm)udc?>0$eNSg1{}$aVLRm
z1Fjw0M4#HkGCHqeMNU!&k}}b2=*UU@APIn^Gbd>P$@8M$ureoU1j$v<=>kdCYK6Xt
ztYXXbE<<-ts|B=%^<G2If`pyY+o#(gg+@iXF|i{$rCnX6tWa&Lp){AV5xvrJ%y3f{
zSKqQfxlRAhV}?L4+Fuxyb<`C=B!%iS_PO4(rA_IA@g%kPCVxae-YRv?*L*T6-Cy&m
zPmzWMe-B$`Xdy<X7*^(Gq_t{7jVa0WDZ?Li_F6DcEeHh&i`es~Ek-YrUiK%`&b&rW
z0<Z@qHyh4-W3>;MLBB-numu++^&>0>$cT|xiY`I60bwZuAE61UW)3W9-fQH-=JZ=;
z3-R8ll_?C5so?`bC6o#UwRlKT723__^1Dc5dZ|U!lLppouXEvmnSx|0L{sC5pnAUw
zhWpb|dxj7n+gMa5_oA^i2se$dr}21-Ze>ptwUS15zUYVE!CPoq#?+9O8Vhn~=ny;U
zXaNU);dn=9#01b<cGA75qyxx7e?IL-(KU-*>{srp4LpnMu?33Nd`9#@eP2g;);9y4
z)B(sc<>A;uv5+<~sRj?I69?l|q5GgwW0ySj>CxhZNOrQ>vUcMx5YpYu<!PwcgXC>}
z*yr&z+>IKybA;}N)|?0IoTrL}*!!M8lY7!XEkCLQd#kJ37VJ$`E&ea|-mdcgU-k;+
zN}{l3GTM`??IPLDnte6@#Yn>E>*De7$ZnBczerUGD<e@g5vQpn<!Kf{Bx9c0C7+wb
z)4%tv6j$LyPL{5tG*0D6OpeACRg+UR6p2M*qn$FnF1_ZjPjRr`*Ll0l`bpL-*5~=j
zweW$1+(?op({I%OQg0lCb~?(QSvus_fXrC6$N^QG2&y3(Q)v>K{<$<pI#{&v2h-@y
zpugZ|M;tf=UtqYlGP-z@9!A2bJ`hPl_;@g8Ov9n18Vf~L$}@(W)32u~Y%-5TG&PtA
zrN)wU5eTx5<5-Zdg@via4_afm8H3rZ(udNoG_BSfvl(KawbYXPn7y@p_~wm(77FQj
zEI2Z*X~9G!p=uF`Ea&faYm+;r%Sg%ba9B;w&)ap|gFcMjJ)C~L^$&VONDrxH6CID4
zm&ox%DiVjC!;GDY{72BD7*5_#SFi^={YKm!^l|oD=a%MgA<08TC72>Ezz`-K>qC$Q
zMNY+Kj8ewpLyxn@l?}%2*vrR)D@V3<0h!6;Y2XSEB5xdzK}ZKEUyrL$`57)w#Wl!(
zHs8E5<ca{)PHy>8=IW}iK8{`Z8kK;;oWsNG0eu0RUP#~5by(*MV<r|JoSmcaeu*CS
z3q*KUn1b65D{b?zo*w5kftqia?8p{+H5Q)0z{Wx`MN?&*Zh1Vx!;HtY3Hjid8k3Xp
zaT-?TNK%H>HPXjnT)G0`1Og@z@`Yyox_Re;&Xo?JGqzDR736CvvUVhh6Yw&K;bJ2s
z@j&<#{*DM&rGgW#Z%iMVelB%n`Zre3S@BY9=#q8#vUPaII(*4AJezMj($9|!_DOds
ziLk$QFVfBAv)?XnWyg9d2w^YvY+z>#Z0xI^Q8>}6x0L7<iA}C<sx_U<I|E62HJ2zN
zj0%U0iusVF<R23bnIJ_Lc5!vJr$Diuv)!n>TsV|Br8{lKTN2y0-l{(;D0a52x6fc#
z;Ez4f+b5E9h3sd&rKE`cWW8T>OiApEQfInkO(Bt-Q_@L6aj|86E^umnpI0n6=Vn@8
zyT3SvYhwPHvfOx>PuY|b?D?YZTq%<`RkF|eR!U`jEDt-pX=lCiAG<5%$~9$qehlj#
z@cfYdu>A!2_S4|`S8HDuE0jw1opnQos?-4Nn#)Vdn0@{BTx9i2rW{jb5`0vOCe4BX
zH01D*6Ef$Ta!ol7aPLnL`pJ}}@Zgt2@DQ&&<pkgLH^u}v*=jVi@PJ;;6an<6OEv^=
zpQ<)Cx3SvB)3GoxPs*<A5;C55tB5NXB957|ksl-ng$Kkv!a)M=6BgLK748IwH&wAu
zmK3pHZ?=#M;L6!Zi^IV)bxq%28%nXo{g1ML^>?$sbU1IUE(2_6V4d$Vh%CD|o<Ius
z#$-Y5p4w=w60F@=yQOxBj;7xkc!Q8<*s;Mj(!^dL++f^{8)1T(wyvC>GYYP<X9u1d
zn03puZttwy2RN5!SZtjW08R{iAsAe?zaku8H)ow!esb{X!Q<<$I!cZYWUo}XN7vIQ
z(TAr12K^+H7akjr9Y{tdRa%H{6>g((tfg?A$-|*kcudY1huP~}`&@Tmw-$s}gyjf6
z=Gf*XdszFnM+RIV$e8(XK|Y=h1!63IFk^zMHj;|KS%UR1d)Vmr$0M<fq(mq`WbjPN
zn4+NrDoB#7aJy^zB<iNQoT_k+V1eLeaSb*UA@JfEK<ZwEFhUd{V@$<SKVu9f@aCGm
zN8alEe-X8%a6A@M!znlcW21Q3*g>kJPWICF`g~q^U%`<dWmmR$tm1k2G4iJnP9uC5
z;YSEqUTF*<Q^eB;r(behOC|YnNjJ0p9bVGH;yapPl27d@cYh43ew^q{P|LFwZ?0xH
zyS$@@Ifstg?0KbgLJoZCGegWc?b>M<-Y#ulTP~irTYx@au3sxl=VcLTFG1SJ>H1zz
zf3xt8zR$GDs(a6(1Li%exxd)(UP*6jf05yW#R#GcMFtREC>D|SxM7eB&F%q7d|&D%
zz<glp8FYvjCA4(Wp&u;XC0#7W;V+hv!D8v6XN?V*OAUSbL+!$cZP?|*cJp05;tc6+
zy{l8avfKcoE1d=qUFop{{gK_gt4{o=tk<-wM*O(O0E~YvUCexU*OpNe=B{ug1o!kr
zq!F^0h{uvDTuRtIcUMe9t$}5dm{3BoR3uFEku|0!60lsa`$=L2adxTop@O8vM`2n=
zGsXlQXrUxuRP<R?;%n5LyiW^haBYuH@R`r(qi~_)D=cG#r7;p2rTot1tj0bcAn?_0
zPlmJ*od_l<tlDrYPN|!D_Lh@kwqkFMu@3cm*}Z#9r}?Vji`9$5W(2(VWK8kc!Y>hI
zMK}@ZR%{(YR-cH&&e?~22th%JBP0><`a>T=co>17{dj`XHUwN*^FL%Nk!%9^yQvFq
zljEA&O+N<~)}4^-F|fjYuBKh&lCblC|4(n-_Ybjlwr0_rcfNV&yS}#q=L2)X64J%t
zxjz0mJNDY-Oye3B49T7A$R_gU+IO9AZ9czwPS6uOhtppEIlKF{{WD8@ugR~YEbMTo
zG<vnjJ?r+&R@a{{K3jFUx?`rgV@?{=p*_S|i)~Is;;P*-XW(+9kncFrIb*K8UN5Wt
Vg(&DYkr}daPIqmHY!k1O{|3WzW?ujR

delta 4304
zcmb7HX;53&6@K?UZ3qDZZR`ky02u?qfESjS#l|=W#SUI#)mT<|4=nSv^h$)70ozkE
zwv#3)$@L^@R=1fFx1rOtO49sjXVOWUCgX&0TG!2JI-Ru5kEH3eq|1+brZYX~3Q<g)
zCKZ0)JIg)i-gEAG_a0yV1^MW8Qu};Pj!}T$BR{qtKi4k^e?%tpGprDQ*F0S7I!y$b
z$dalL8~g@NYt*c;(Qo9mR?QBZ{3cH8)SPgxKR2A`&kLLVW-imK`Tl&c*Q*8o0{*u6
zE&Ofu+xXk=x5L|@I>HXWgWF`Oh2bK95zt0CTOBG6m-tIKV^T}QW&W~oxxbwAIci1N
z>34EESFH?J`Kvgcr@F$`{%RtKf?_%0&V&VY4J#%UU6vEItFpQUA_y<Qlm7WVU?a)}
zvPHHo+7=|x!Ly><plrBQ&+^NyqGDtZ5Z7qQ0%%^y=mq~qS?{larvaWycwC~eOOT7^
z1i4r-t#j7MbtRxH{fw?jE}IklUYM>Krn9kHu}ZrMxE9Wh0@u3AJquhLaGOylRV$6`
zccM$XWmQrOl5)wV-MT9AfaEAhwyjF)LGp~`(YCKj8bR_QjOhRgpS8hzbE4#CrE^S_
zH_d6*<)CZTM+^8E)3~&^Wh5<a>wMfMZ&5nst%`O`BX672uJg1#W4F6qF)K|)t9f2@
zFNlzLc+x+4d&ZC4sdSI&<gU;7>XG%sf~T7;YFmhweW2|~R_i_y&DG$5W+Rvo+^iyN
zNLPhq6{A@Pbq#59DeHQ-3rL?wPis(w^+W3rJOC*v6iLu}WH%seMBt{4NO?K14~<9C
z{=CWlY!k^|Gm4Fv9Hfg)nmTjPETxYpf;2H1V}UYz@|x-Q64}6BG1uDAT`Ffq8Bp#~
zVA|W0e>0~Daj|y`YMtFURS&`%?`Wi<(P)DDnAOrs8rW{jORk|?j4~Zpf@<P;VDz{$
zIzjJbPHPKkNba}3De5qMTFsn}n!>F>`aIdR3q{=se8vuT)KSsLleZIv{RliC8lb)_
zQl9MHK*w?CoKDKa$qPn;>d9#(Frl2Bic*;#NxtTIN+Ji?NXZu6L3DD6JyB9$b{CSL
zJNF+-s_XqY;`0_jzXICTnOSpb1v$p{mHw5CBzwxviuwbfp7!o%W@jP$m))VKD^nBa
zhA)_U!0GzGrhe2}PDa_wPMrEXm1c<?Vy{$JeZeIEtgasBq46MZkzkKRWe6dqr%EhJ
z6LHEjjfa;rlWOz05>aR{p#(BxB1zTVAwlt6uB%wP0OMyj_rtpC_Rq_$hooo2V{~O(
zO$izdMFQcdtf+BHlf9l_YINhEr(>+Rao9eAYt2<d6N-8=padx_EDox(jS(I0@w9`P
zn{3R~G=CcR-RH?!zoG*4#cK@9D<wwbbQTGna&IUO;o~KiGTa@EE0JJWp*&+)jUEk+
zqsllIQk6g~m^dD%ctxZmKwprrOl`{1soaPf4azGSqjO1*w_Br2*CLCyx*K9(F>TpN
zX_Puc5oatEQ`AsIX?OZOx5(npS{)s$i(XT!d}Shh_>-ffN_=JW)_f-P94_%(($e;^
zMx4IENc)5A@%C8u1rVpC(fB=d3$t{1c<$(fthZyR`98GZk>McNA}+v{Ph0wf5WMV6
zM4cF%Qx3v;bDq7{QLo#JRxb8w$JpKuAX8a9dOqL`^18_ggf~HX8Fu2}i(H(Ds*v_{
zn!8cF`uW3|$!ETwJ>OYZc^-AVH1$AXs^P~^0{SGXo=h%xo)U|v9ZhsH(gYrrU^o;R
zZ^-2JWA;pUji@uRvCU)bMt2zzSz*sEqG!i?CW(Q)=PMNDEVkU!<Tfs5-+WCFVO*Hi
z$);JooHHlP8fFAp%XaiumgLHLi{_ihwh6OYGvrb(-uBE}o2xl1$oXucw@;fd!yo%g
zZ(o_XSa7q^4q={*JTYsU(aRR*9q<rq^4`8$Qf8acKPkxer=^>R&*shK$_Dn69WE(%
z(ZRg8Zx-c3Hn^v>U?xv4LYt?>#o`4mTy<LZ;#NC5y0c4P!hMx8XTOtK_pDfyWtGYQ
zRaENN8ojtjo1H&vK4qRK4_t(mNBW<W%H;}X-8HOrCI$t85qmK^w`<>OWOW;7EHmOX
z?1pTaHVOjJP>Hiv$eeA)He<n0SAbCIZ!>}Ft$bCL?AU<AQH4%3KZx5kBLY?@9~uaJ
z`BWUT@dU_~Gge50=B70K==P3vX*lq|<1gXyM+`E5Pmw9%Ug@wfMIacFUEOmBaWm&&
z7b%CNma<P;ES7cSJT<`+?9$-Z*{OCje07^y?NBdUYPYjr4ee}v079i(5FSFn!;3zM
z@C|_J9QR>&*ewU#1MVUBFda*F`hH5tMRwzk&7_ev@7<;AgF`bu#ZK+*2z+2IdTj8K
z!S{=+-!HCxzqk%?IZM02zAOOD4}L0WZH|8+T-dp65^Tjd_+j5g--VqYSPCx;@|L5Y
z&g0|{1Nb~7l{I>NGBOblO)J#QD)t?*HKTSDLJLAGf{V@XbCJ8)OZ)CSZ3RKf$gKk0
zEEfe*Bs!Hcz}GmI2*F``2CevMt2q%3MN)b>MENO;hjPjg4o)Z_iPJ}M++zrjBYYF#
z34|X4qzv$F%K<#Qx>3fPh|zo``MGi!sQ|*=2r58Imx!W4N*9d9l!%;et!{NAK82(8
zqtQr28BM^Q5E+LvndYG*3#%Be%T6Cj$bXyNIlQf!=j9dTpFwyQ;S$2j2zV6IF#Ex9
zA=%B|8g`LQ?9anZu!E)hOYOe~r3-iQ1RQA}!QUBSx%e>i?XO}rU6m}h|Ewc7t7utR
z1*c#tm_Km;_WRf!UC$-If8ZnS>BfT|;q^^hcC<-vcuYXQ(Wcq4P5;I=3F%IPbQjV;
zCp{&DM&Zq}KEv)>@ol#V%-glbJznkG%{{Gq>a|zgIuKo{*MjJZS3<hg4u<a-?SoF~
z9cK>#=H1HezKzn76K7i5sPTDE>zBOfeyN4{y!xfq-aKI5)AVKUHw)MD(Bzugc(72q
zR@~Ei&>~&W)q?1{MGK<qg=VBZ#=8XRdP|StP>1xJ4lOVqk>bVUgT{ov>9>IM^rkyz
z{a6s%*jR{SgF-dz)R6*PDt|@TNR@aj8i^}#i?i<?DLb77gHndrNjVrvghnZxNmvRe
zV{kF7>E3hD)ft3d9H3XD<FM=FDP1fWk%Mtwbm@}hHEoQ4RSl}p>V{A9!boYt(6LY~
zz?2RuXDl>Md6Qwm`REk{E89C_FSp?kdpxKHX{L7xtaP!I+S%Mlm97Ry!+$qMica&|
z;T2tlLN5Zg&M8AQlIh`*mBtn5&{2CQvYJ>FzPBUDA43>Lh#*h|Y#8Vq0`Cm?-PwjL
zR^!_4{}Avu44u%3O{&Um^iRM-tqSq0(CREpgpg%XB${Ob!5|PHxhf2OnSaTJqyLsH
z%i>1Txhw!Y-p5~;Pq4S{c7{al`NFRiUNyR2-0^DJwbor{3g06G*T}%KsEBBQc-fME
bzuKODU-gfqiM9BtB#67oI?MC`e%}2Dd@cpx

diff --git a/salary_analytics/api.py b/salary_analytics/api.py
index 8172a9b..ed4e7e5 100644
--- a/salary_analytics/api.py
+++ b/salary_analytics/api.py
@@ -2,7 +2,7 @@
 FastAPI application for salary analytics.
 """
 
-from fastapi import FastAPI, HTTPException, BackgroundTasks, UploadFile, File
+from fastapi import FastAPI, HTTPException, BackgroundTasks, UploadFile, File, Depends
 from fastapi.responses import FileResponse
 from fastapi.middleware.cors import CORSMiddleware
 from pydantic import BaseModel
@@ -242,13 +242,13 @@ async def run_full_pipeline():
         raise HTTPException(status_code=500, detail=str(e))
 
 @app.post("/load-data")
-async def load_data(source: str = "db", file: UploadFile = None):
+async def load_data(source: str = "db", file: Optional[UploadFile] = File(None)):
     """
     Load data from either database or CSV file.
     
     Args:
         source (str): Source of data ('db' or 'csv')
-        file (UploadFile): CSV file to load (required if source is 'csv')
+        file (UploadFile, optional): CSV file to load (required if source is 'csv')
     
     Returns:
         dict: Status of data loading
@@ -288,15 +288,25 @@ async def load_data(source: str = "db", file: UploadFile = None):
         logger.error(f"Error loading data: {str(e)}")
         raise HTTPException(status_code=500, detail=str(e))
 
+async def get_file_if_csv(source: str, file: Optional[UploadFile] = File(None)):
+    """Dependency to handle file upload only when source is csv."""
+    if source == 'csv' and not file:
+        raise HTTPException(status_code=400, detail="File must be provided when loading from CSV")
+    return file
+
 @app.post("/run/streaming-pipeline", response_model=List[BatchResponse])
-async def run_streaming_pipeline(source: str = "db", file: UploadFile = None, batch_size: int = 10000):
+async def run_streaming_pipeline(
+    source: str = "db",
+    batch_size: int = 10000,
+    file: Optional[UploadFile] = Depends(get_file_if_csv)
+):
     """
     Run the complete salary analytics pipeline in batches.
     
     Args:
         source (str): Source of data ('db' or 'csv')
-        file (UploadFile): CSV file to load (required if source is 'csv')
         batch_size (int): Number of rows to process in each batch
+        file (UploadFile, optional): CSV file to load (required if source is 'csv')
     
     Returns:
         List[BatchResponse]: List of responses for each batch processed
@@ -305,9 +315,6 @@ async def run_streaming_pipeline(source: str = "db", file: UploadFile = None, ba
         if source not in ['db', 'csv']:
             raise HTTPException(status_code=400, detail="Source must be either 'db' or 'csv'")
         
-        if source == 'csv' and not file:
-            raise HTTPException(status_code=400, detail="File must be provided when loading from CSV")
-        
         # Initialize data loader
         data_loader = DataLoader()
         data_loader.chunk_size = batch_size
@@ -326,12 +333,14 @@ async def run_streaming_pipeline(source: str = "db", file: UploadFile = None, ba
             chunk['trx_start_date'] = pd.to_datetime(chunk['trx_start_date'])
             chunk['trx_end_date'] = pd.to_datetime(chunk['trx_end_date'])
             
+            # Rename columns
             chunk = chunk.rename(columns={
-                    'd1': 'trx_type',
-                    'd2': 'trx_subtype',
-                    'd3': 'initiated_by',
-                    'd4': 'customer_id'
-                    })
+                'd1': 'trx_type',
+                'd2': 'trx_subtype',
+                'd3': 'initiated_by',
+                'd4': 'customer_id'
+            })
+            
             chunk = chunk.dropna()
             
             return chunk