当前位置：首页 > Java

java如何获取dataset

2026-03-25 03:32:22Java

获取 Dataset 的方法

在 Java 中，Dataset 通常指代一种结构化数据集合，可能来源于数据库、文件或 API。以下是几种常见的获取 Dataset 的方法：

从数据库获取 Dataset

使用 JDBC 连接数据库并获取数据：

java如何获取dataset

import java.sql.*;
import java.util.ArrayList;
import java.util.List;

public class DatabaseDataset {
    public static List<String[]> getDatasetFromDB(String url, String user, String password, String query) {
        List<String[]> dataset = new ArrayList<>();
        try (Connection conn = DriverManager.getConnection(url, user, password);
             Statement stmt = conn.createStatement();
             ResultSet rs = stmt.executeQuery(query)) {
            ResultSetMetaData metaData = rs.getMetaData();
            int columnCount = metaData.getColumnCount();
            while (rs.next()) {
                String[] row = new String[columnCount];
                for (int i = 1; i <= columnCount; i++) {
                    row[i - 1] = rs.getString(i);
                }
                dataset.add(row);
            }
        } catch (SQLException e) {
            e.printStackTrace();
        }
        return dataset;
    }
}

从 CSV 文件获取 Dataset

使用 OpenCSV 库读取 CSV 文件：

import com.opencsv.CSVReader;
import java.io.FileReader;
import java.util.List;

public class CsvDataset {
    public static List<String[]> getDatasetFromCSV(String filePath) {
        try (CSVReader reader = new CSVReader(new FileReader(filePath))) {
            return reader.readAll();
        } catch (Exception e) {
            e.printStackTrace();
            return null;
        }
    }
}

使用 Apache Commons CSV

另一种读取 CSV 文件的方法：

java如何获取dataset

import org.apache.commons.csv.CSVFormat;
import org.apache.commons.csv.CSVParser;
import org.apache.commons.csv.CSVRecord;
import java.io.Reader;
import java.nio.file.Files;
import java.nio.file.Paths;
import java.util.ArrayList;
import java.util.List;

public class CommonsCsvDataset {
    public static List<String[]> getDatasetFromCSV(String filePath) {
        List<String[]> dataset = new ArrayList<>();
        try (Reader reader = Files.newBufferedReader(Paths.get(filePath));
             CSVParser csvParser = new CSVParser(reader, CSVFormat.DEFAULT)) {
            for (CSVRecord record : csvParser) {
                String[] row = new String[record.size()];
                for (int i = 0; i < record.size(); i++) {
                    row[i] = record.get(i);
                }
                dataset.add(row);
            }
        } catch (Exception e) {
            e.printStackTrace();
        }
        return dataset;
    }
}

使用 Java 8 Stream API 处理数据

从文件读取数据并使用 Stream 处理：

import java.io.IOException;
import java.nio.file.Files;
import java.nio.file.Paths;
import java.util.List;
import java.util.stream.Collectors;

public class StreamDataset {
    public static List<String[]> getDatasetFromFile(String filePath) {
        try {
            return Files.lines(Paths.get(filePath))
                    .map(line -> line.split(","))
                    .collect(Collectors.toList());
        } catch (IOException e) {
            e.printStackTrace();
            return null;
        }
    }
}

使用第三方库（如 Apache Spark）

如果处理大规模数据，可以使用 Apache Spark 的 Dataset API：

import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.SparkSession;

public class SparkDataset {
    public static Dataset<Row> getDatasetFromSpark(String filePath) {
        SparkSession spark = SparkSession.builder()
                .appName("Java Spark SQL Example")
                .master("local[*]")
                .getOrCreate();
        return spark.read().csv(filePath);
    }
}