随记百万级数据读取并处理（java批量插入，多线程处理，并行流查询）-物联网技术文章-傲云油气装备网

随记百万级数据读取并处理（java批量插入，多线程处理，并行流查询）

日期：2020-05-30 浏览：125 评论：0

核心提示：一. 将数据入库在Linux中将文件进行拆分：split -a 2 -l 1000000 -d test.csv file_ （百万切割csv文件）将文件复制到本地进行解析采用策略使用 java.sql.PreparedStatement 批处理数据（启用事务）批处理：数据库处理速度极快，单次吞吐量很大，执行效率高，addBatch()将sql装载在一起，一次性送往数据库执行 // 构建连接 private Connection getConnection() throws Excejava

一. 将数据入库

在Linux中将文件进行拆分：split -a 2 -l 1000000 -d test.csv file_ （百万切割csv文件）
将文件复制到本地进行解析
采用策略使用 java.sql.PreparedStatement 批处理数据（启用事务）
批处理：数据库处理速度极快，单次吞吐量很大，执行效率高，addBatch()将sql装载在一起，一次性送往数据库执行

    // 构建连接
	private Connection getConnection() throws Exception {
		Class.forName(driver);
		Connection conn = DriverManager.getConnection(url, user, pwd);
		return conn;
	}
	@Test
    public void importCsvFile() {
    	// 传入文件
        String inputFile = "G:\\csvImport\\file_00.csv";
        Map<Integer, Test> testInfoMap = new HashMap<>();
        Connection con = null;
        try {
            con = getConnection();
            String sql = "insert into test(id, name, info) VALUES (?, ?, ?)";
            con.setAutoCommit(false); // 事务处理
            PreparedStatement ptatm = con.prepareStatement(sql);
            // 读取文件
            BufferedInputStream bis = new BufferedInputStream(new FileInputStream(new File(inputFile)));
            BufferedReader br = new BufferedReader(new InputStreamReader(bis, StandardCharsets.UTF_8), 10 * 1024 * 1024);
            while (br.ready()) {
                String line = in.readLine();
                try {
                    String[] split = line.split(",");
                    Test test= new Test();
 					test.setId(split[0]); // 数据赋值按需求修改
 					// 这里使用map是为了防止主键冲突
                    testInfoMap.put(Integer.valueOf(arr[0]), test);
                } catch (Exception e) {
                    System.out.println("error:" + e + ",line:" + line);
                }
            }
            in.close();
            int i = 0; // 用于控制条数
            try {
                //将内存读取数据，批量写入数据库
                for (Map.Entry<Integer, Test> testEntry : testInfoMap.entrySet()) {
                    Test test= testEntry .getValue();
                    ptatm.setInt(1, test.getId());
                    ptatm.setString(2, test.getName().trim());
                    ptatm.setString(3, test.getInfo());
                    ptatm.addBatch();  //批量记录到容器里
                    if (i == 100000) {  //当数据读取到10w条则把这部分数据先写入数据库
                        i = 0;          //重置计数器
                        ptatm.executeBatch();    //执行批量SQL语句
                        ptatm.clearBatch();      //清除容器中已写入的数据,预备下次存入数据使用
                    }
                    i++;
                }
                if (i < 100000) {    //清空剩余数据
                    ptatm.executeBatch();
                    ptatm.clearBatch(); 
                }
                ptatm.close();
                con.commit(); 
            } catch (Exception e) {
                ptatm.close();
                con.commit();
                e.printStackTrace();
            }
        } catch (Exception e) {
            e.printStackTrace();
        }
    }

二. 对数据进行过滤处理

由于数据量级较大，对数据进行信息填充需要查询sql以及接口交互，因此采用多线程的方式进行数据二次处理，在进行数据获取时可以通过并行流的方式处理

    public void runAndParse() {
    	System.out.println(new Date());
        // 起5个线程进行数据处理
        // 控制线程结束
        CountDownLatch latch = new CountDownLatch(5);
        // 获取执行顺序（原子性） 
        AtomicInteger queryCnt = new AtomicInteger(0);
        for (int i = 0; i < 5; i++) {
            new Thread(() -> {
                // 默认从1开始处理（page默认为1），当前线程也为1
                int curCnt = queryCnt.addAndGet(1);
                System.out.println("begin:" + curCnt);
                Pager<Test> testPager = testService.queryList(null, curCnt , 10000);
                List<Test> testList = testPager.getList();
                // 进行数据解析
                parseData(list);
                System.out.println("done:" + curCnt);
                // 线程处理结束标记
                latch.countDown();
            }).start();
        }
        // 控制所有线程结束时重新执行递归该方法，直至数据处理完毕（结束标记根据需求设定）
        try {
            latch.await();
        } catch (InterruptedException e) {
            e.printStackTrace();
        }
        System.out.println(new Date());
        System.out.println("线程全部执行结束");
        runThread();
    }
    
    private void parseData(List<Test> list) {
    	// 使用并行流的方式进行数据获取处理
        List<Test> collect = list.parallelStream().peek(this::judgeTest).collect(Collectors.toList());
        Connection con = null;
        try {
            con = getConnection();
            // 后续代码跟导入时类似，进行sql处理与批量更新操作

三. 速率对比分析

数据量	操作	单线程	多线程	并行流	耗时
1w	查询、更新	是	否	否	10min
1w	查询、批量更新	是	否	否	8min
1w * 5	查询、批量更新	否	是	否	13min
1w * 5	查询、批量更新	否	是	是	6min

打赏

所有权利归属于原作者，如文章来源标示错误或侵犯了您的权利请联系微信13520258486

更多>最近资讯中心

更多>最新资讯中心

更多>相关资讯中心

0 条相关评论

• MySQL基础[本人复习时的记录,适合有基础的朋友	• MySQL死锁和卡死分析
• java对properties配置的mysql操作进行简单封装	• javaweb项目使用jdbc连接数据库中文乱码超详细
• 十三、MySQL存储过程相关知识总结 + 案例讲解（	• 解决Oracle违反唯一约束，Oracle修改sequence值

• Esp8266天猫精灵_RGB灯_非点灯平台	• STM32F103 串口1和串口3对发数据配合蓝牙模块
• TMS570学习【1】了解什么是TMS570	• 新闻稿 \| Qt公司收购froglogic公司以巩固市场领
• [Java]SpringBoot2整合mqtt服务器EMQ实现消息订	• 苹果群控投屏同步操作原理及运用的平台APP分享

• Esp8266天猫精灵_RGB灯_非点灯平台	• STM32F103 串口1和串口3对发数据配合蓝牙模块
• TMS570学习【1】了解什么是TMS570	• 新闻稿 \| Qt公司收购froglogic公司以巩固市场领
• [Java]SpringBoot2整合mqtt服务器EMQ实现消息订	• 苹果群控投屏同步操作原理及运用的平台APP分享
• STM32查询式按键输入[直接用寄存器]	• Ubuntu系统 USB设备端口绑定
• 2021-04-14 第四次按键输入实验	• Flutter扫码功能完美实现

• 谈谈Spring中的对象跟Bean，你知道Spring怎么创	• 面试\|有关字符串中字符出现重复字符的面试问题
• 老王的JAVA基础课：第4课以hello world学习基	• 配置SpringBoot项目热部署
• 我的Java学习之路（九）-- 模拟斗地主扑克牌发	• 深入浅出的Java面向对象编程，助你深入探索开发
• 关于blob与流互转的问题	• 在Java中MD5、SHA、SHA256、SHA512加密的实现[
• Java设计模式---原型模式	• spring boot整合mybatis+druid和多数据源外加dr