Banking and Financial Use Cases With Hadoop & R

client = load '/user/itsupport/data_berka/client.csv' using PigStorage(',') AS (Client_id:int,dob:chararray,dist_id:int) ; client_fields = foreach client generate $0 as client_id,$2 as district_id,$1 as birthday_n_sex;

transaction = load '/user/itsupport/data_berka/transaction.csv' using PigStorage(',') as (trans_id:int,ac_id:int,date:chararray,type:chararray,operation:chararray,amount:int,bal:int,k_sym:chararray,bank:int,account:int); transaction_fields = foreach transaction generate $1 as ac_id,$2 as date_of_transaction,$3 as transaction_type,$5 as amount,$6 as bal_post_trnsaction;

card = load '/user/itsupport/data_berka/card.csv' using PigStorage(',') ; card_fields = foreach card generate $1 as disposition_id,$2 as card_type; grp_card_disp_id = group card_fields by $0; flatten_card = foreach grp_card_disp_id generate FLATTEN(card_fields); filtered_card = filter flatten_card by card_type != 'type'; store filtered_card into '/bank_project/card_required_out' using PigStorage(',');

REGISTER alljars/pig_substractjar.jar district = load '/user/itsupport/data_berka/district.csv' using PigStorage(',') AS (dist_id:int,dist_name:chararray,region:chararray,no_inhabs:long,mun_499:int,mun_1999:int,mun_10k:int,mun_more:int,no_of_cities:int,no_of_urban_inhabs:double ,avg_sal:int,unemp_95:double,unemp_96:double,entre_ratio:int); district_fields = foreach district generate $0 as district_id,$1 as district_name,$2 as region,$10 as avg_salary,$11 as unemp_rate_95,$12 as unemp_rate_96,$13 as entrepreneur_per_1000; grp_dist_id = group district_fields by $0; MAX_grp_dist = FOREACH grp_dist_id GENERATE group,FLATTEN(district_fields); B = filter MAX_grp_dist by unemp_rate_95 > 0.0 AND unemp_rate_96 > 0.0; unem_percentage = foreach B generate $1, district_name,avg_salary,bank.substract(unemp_rate_95,unemp_rate_96),entrepreneur_per_1000 ; store unem_percentage into '/bank_project/district_required_out' using PigStorage(',');

disposition = load '/user/itsupport/data_berka/disposition.csv' using PigStorage(',') ; disposition_fields = foreach disposition generate $2 as ac_id,$0 as disposition_id,$3 as disposition_type,$1 as client_id; grp_disposition_disp_id = group disposition_fields by $1; flatten_disposition_disp_id = foreach grp_disposition_disp_id generate FLATTEN(disposition_fields); filtered_disposition_disp_id = filter flatten_disposition_disp_id by disposition_type != 'type';

Client_age = load '/bank_project/age_required_out' using PigStorage(',') AS (client_id:int,dist_id:int,age:double,sex:chararray); card_type = load '/bank_project/card_required_out' using PigStorage(',') AS (disp_id:int,type:chararray); transaction_sum = load '/bank_project/transaction_left_bal_required_out' using PigStorage(',') AS (ac_id:int,trans_sum:long,bal_sum:long); loan_status = load '/bank_project/loan_required_out' using PigStorage(',') AS (ac_id:int,loan_id:int,amount:int,status:chararray); district_info = load '/bank_project/district_required_out' using PigStorage(',') AS (district_id:int,dist_name:chararray,avg_sal:int,unemprate:double,entrepreneur:int); join_disp_client = join filtered_disposition_disp_id by $3,Client_age by $0; join_disp_client_card = join join_disp_client by $1,card_type by $0; join_disp_client_card_district = join join_disp_client_card by $5,district_info by $0; join_disp_client_card_district_trans_loan = join join_disp_client_card_district by $0,transaction_sum by $0,loan_status by $0; pick_fields = foreach join_disp_client_card_district_trans_loan generate $0 as ac_id,$2 as disp_type,$6 as age,$7 as sex,$9 as card_type,$11 as dist_name,$12 as avg_sal,$13 as unemp_rate,$14 as no_of_entre,$16 as transaction_sum,$20 as loan_amount,$21 as loan_status; store pick_fields into '/bank_project/combined_out' using PigStorage(','); Good = filter pick_fields by $9 > 1000000 AND $6 > 10000 AND $11 == 'A' AND (($2 >= 25.0 AND $2 <=65.0)); store Good into '/bank_project/VIP_customer' using PigStorage(','); Normal = filter pick_fields by $9 < 1000000 AND $9 >150000 AND $6 > 6000 AND ($11=='A' OR $11=='C') AND (($2 <= 55.0) AND ($2 >=25.0)) AND $7 < 0.80; store Normal into '/bank_project/good_customer' using PigStorage(','); Risky = filter pick_fields by $6 > 6000 AND ($11 == 'B' OR $11 == 'D') AND $2 > 35.0 AND $8 > 100; store Risky into '/bank_project/risky_customer' using PigStorage(',');

Travel Portal Development Company says:
Feb 13, 2023 at 7:31 am GMT
good instruction.
Reply
faheen fathima says:
Mar 29, 2019 at 5:37 am GMT
hey abhay,
Nice blog. Can you please share the jar file codes here? the links provided in the comment section is not worling.
Reply
Prashant Agarwal says:
Feb 24, 2018 at 11:55 am GMT
Hi,
Can you convert or share this project in Hive rather than Pig?
Reply
- EdurekaSupport says:
  Feb 27, 2018 at 9:14 am GMT
  Hey Prashant, we will definitely look into your suggestions. Thanks :)
  Reply
Purnima Reddy says:
Feb 7, 2018 at 1:46 pm GMT
i just want to know how much time it requires to complete this project in real time?
Reply
- EdurekaSupport says:
  Feb 13, 2018 at 12:08 pm GMT
  Hey Purnima, the time taken to complete the entire project depends a lot on your exposure to these technologies and your expertise in it. If you know Pig, R and how Hadoop works, you can easily complete this project within 4-5 hours.
  Hope this help :)
  Reply
Dhanashri says:
Jul 12, 2017 at 11:51 am GMT
Can you please share code with me of pigagecalculator.jar file ??
Reply
- EdurekaSupport says:
  Jul 14, 2017 at 7:20 am GMT
  Hey Dhanashri, thanks for checking out our blog.
  Reply
  - Dhanashri says:
    Jul 14, 2017 at 10:46 am GMT
    Hi.. These are data files… I need code of the the solution that you have given above
    Reply
sindhu Y says:
Jun 27, 2017 at 6:34 am GMT
Hi Team, The google drive link for data is temporarily down.can you please give us the new link.
Reply
- EdurekaSupport says:
  Jul 3, 2017 at 10:54 am GMT
  Hey Sindhu, thanks for checking out our blog.
  We rechecked the link given in the comment and it’s working fine. Please click on it, don’t copy because the link is shortened automatically. That should work. Do let us know.
  Hope this helps. Cheers!
  Reply