EclipseLink批量插入非常非常慢

问题描述：

我试图使用EclipseLink优化我的JPA实现。我已经向它添加了批处理操作。但是它仍然花费很多时间来做5万个插入。它花费的时间比使用JDBC的原始SQL执行完全相同的插入所花费的时间多10倍以上。EclipseLink批量插入非常非常慢

为了确保批处理操作实际上正常工作，我使用Wireshark检查了我的数据包，它没有使用批量插入。

这里的插件包中的一个：

enter image description here

它不这样做的：

INSERT INTO ENTITYCLASSTEST (LASTNAME, NAME) VALUES ('sfirosijfhgdoi 0', 'dsufius0'), ('sfirosijfhgdoi 0', 'dsufius0'), ('sfirosijfhgdoi 0', 'dsufius0'), ('sfirosijfhgdoi 0', 'dsufius0')... and so on

我期待它如上面做的，但它是将每个包的一行，而不是每个数据包多行。

这里是我的实体类：

@Entity 
public class EntityClassTest implements Serializable { 
    private static final long serialVersionUID = 1L; 

    @Id 
    @GeneratedValue(strategy = GenerationType.IDENTITY) 
    private Long id; 

    private String name; 
    private String lastname; 

    public EntityClassTest() { 
    } 

    public EntityClassTest(Long id, String name, String lastname) { 
     this.id = id; 
     this.name = name; 
     this.lastname = lastname; 
    } 

    public EntityClassTest(String name, String lastname) { 
     this.name = name; 
     this.lastname = lastname; 
    } 

    public Long getId() { 
     return id; 
    } 

    public String getName() { 
     return name; 
    } 

    public String getLastName() { 
     return lastname; 
    } 

    public void setId(Long id) { 
     this.id = id; 
    } 

    public void setName(String name) { 
     this.name = name; 
    } 

    public void setLastName(String lastname) { 
     this.lastname = lastname; 
    } 

    @Override 
    public int hashCode() { 
     int hash = 0; 
     hash += (id != null ? id.hashCode() : 0); 
     return hash; 
    } 

    @Override 
    public boolean equals(Object object) { 
     // TODO: Warning - this method won't work in the case the id fields are not set 
     if (!(object instanceof EntityClassTest)) { 
      return false; 
     } 
     EntityClassTest other = (EntityClassTest) object; 
     if ((this.id == null && other.id != null) || (this.id != null && !this.id.equals(other.id))) { 
      return false; 
     } 
     return true; 
    } 

    @Override 
    public String toString() { 
     return "database.EntityClassTest [id=" + id + " ]"; 
    } 

}

这里是我的坚持是接收List和内部仍然存在的所有对象的方法。

public void insertListToTable(final String persistenceUnit, final List list) throws SQLException { 
     final EntityManagerFactory entityManagerFactory = Persistence.createEntityManagerFactory(persistenceUnit); 
     final EntityManager entityManager = entityManagerFactory.createEntityManager(); 
     final EntityTransaction transaction = entityManager.getTransaction(); 

     try {    
      final int listSize = list.size(); 
      transaction.begin(); 

      for (int i = 0; i<listSize; i++) { //Object object : list) { 
       final Object object = list.get(i); 
       entityManager.persist(object); 

       if (i % 500 == 0) { //500, same as the JDBC batch size defined in the persistence.xml 
        //flush a batch of inserts and release memory: 
        entityManager.flush(); 
        entityManager.clear(); 
       } 
      } 
      transaction.commit(); 
     } 
     catch(Exception e) { 
      if (transaction != null) { 
       transaction.rollback(); 
      } 
      throw new SQLException(e.getMessage()); 
     } 
     finally { 
      entityManager.close(); 
     } 
    }

而且我persistence.xml，在这里我设置为500批次值信息，文件是：

<?xml version="1.0" encoding="UTF-8"?> 
<persistence version="2.1" xmlns="http://xmlns.jcp.org/xml/ns/persistence" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://xmlns.jcp.org/xml/ns/persistence http://xmlns.jcp.org/xml/ns/persistence/persistence_2_1.xsd"> 
<persistence-unit name="ExternalServer" transaction-type="RESOURCE_LOCAL"> 
    <provider>org.eclipse.persistence.jpa.PersistenceProvider</provider> 
    <!-- List of Entity classes --> 
    <class>model.EntityClassTest</class> 
    <properties> 
     <property name="javax.persistence.jdbc.url" value="jdbc:mysql://myServer:3306/testdb?zeroDateTimeBehavior=convertToNull"/> 
     <property name="javax.persistence.jdbc.user" value="testdbuser"/> 
     <property name="javax.persistence.jdbc.driver" value="com.mysql.jdbc.Driver"/> 
     <property name="javax.persistence.jdbc.password" value="myPassword"/> 
     <property name="javax.persistence.schema-generation.database.action" value="create"/> 

     <!-- Weaving --> 
     <property name="eclipselink.weaving" value="static"/> 
     <!-- SQL dialect/Database type --> 
     <property name="hibernate.dialect" value="org.hibernate.dialect.MySQLDialect"/> 
     <property name="eclipselink.target-database" value="MySQL"/> 
     <!-- Tell the JPA provider to, by default, create the table if it does not exist. --> 
     <property name="javax.persistence.schema-generation.database.action" value="create"/> 
     <!-- No logging (For development change the value to "FINE") --> 
     <property name="eclipselink.logging.level" value="OFF"/> 
     <!-- Enable batch writing --> 
     <property name="eclipselink.jdbc.batch-writing" value="JDBC"/> 
     <!-- Batch size --> 
     <property name="eclipselink.jdbc.batch-writing.size" value="500"/> 

    </properties> 
    </persistence-unit> 
</persistence>

所以我的问题是，为什么是不是批量插入？我相信我已经从EclipseLink网站上阅读的内容中很好地配置了EclipseLink，在此也是如此。

////////////////////////////编辑//////////////// //////////

正如克里斯的回答表明，我在EntityClassTest这个值改为@GeneratedValue(strategy = GenerationType.IDENTITY)到@GeneratedValue(strategy = GenerationType.SEQUENCE)并重新运行测试，数据包将被作为前发送（如图像I张贴在上面）。所以它并没有解决我害怕的问题。

////////////////////////////编辑2 /////////////// /////////

我已将persistence.xml文件中的日志记录级别更改为FINEST，如下所示。

<property name="eclipselink.logging.level" value="FINEST"/>

这里是生成的日志。我把它放在一个pastebin中，因为它很长。

http://pastebin.com/rKihCKMW

好像被调用Execute query InsertObjectQuery相当多的时间。

////////////////////////////编辑3 /////////////// /////////

下面是我使用的每个组件的版本。

+-------------------------+------------------------------+ 
| Variable_name   | Value      | 
+-------------------------+------------------------------+ 
| innodb_version   | 5.6.12      | 
| protocol_version  | 10       | 
| slave_type_conversions |        | 
| version     | 5.6.12-log     | 
| version_comment   | MySQL Community Server (GPL) | 
| version_compile_machine | x86_64      | 
| version_compile_os  | Win64      | 
+-------------------------+------------------------------+ 

Netbeans 8.0 

EclipseLink (JPA 2.1) 

mysql-connector-java-5.1.24.jar

//////////////////////////// EDIT 4 //////////// ////////////

继CuriousMind的答案我已经编辑我的EntityClassTest ID注释：

@Id 
    @GeneratedValue(strategy = GenerationType.AUTO, generator="id-seq-gen") 
    @SequenceGenerator(name="id-seq-gen", sequenceName="ID_SEQ_GEN", allocationSize=500) 
    private Long id;

但它并没有解决我的问题，我还是每个数据包获得一个插入（如上图所示）和EclipseLink我得到的日志：

[EL Fine]: sql: 2014-10-19 06:44:02.608--ClientSession(824177287)--Connection(1674390738)--Thread(Thread[main,5,main])--SELECT LAST_INSERT_ID() 
[EL Finest]: sequencing: 2014-10-19 06:44:02.608--UnitOfWork(1985011414)--Thread(Thread[main,5,main])--assign sequence to the object (1.251 -> database.EntityClassTest [id=null ]) 
[EL Finest]: query: 2014-10-19 06:44:02.608--UnitOfWork(1985011414)--Thread(Thread[main,5,main])--Execute query InsertObjectQuery(database.EntityClassTest [id=null ]) 
[EL Finest]: query: 2014-10-19 06:44:02.608--ClientSession(824177287)--Thread(Thread[main,5,main])--Execute query ValueReadQuery(name="ID_SEQ_GEN" sql="SELECT LAST_INSERT_ID()") 
[EL Fine]: sql: 2014-10-19 06:44:02.608--ClientSession(824177287)--Connection(1674390738)--Thread(Thread[main,5,main])--INSERT INTO ENTITYCLASSTEST (LASTNAME, NAME) VALUES (?, ?) 
    bind => [sfirosijfhgdoi 2068, dsufius1034] 
[EL Fine]: sql: 2014-10-19 06:44:02.608--ClientSession(824177287)--Connection(1674390738)--Thread(Thread[main,5,main])--SELECT LAST_INSERT_ID() 
[EL Finest]: sequencing: 2014-10-19 06:44:02.608--UnitOfWork(1985011414)--Thread(Thread[main,5,main])--assign sequence to the object (1.252 -> database.EntityClassTest [id=null ]) 
[EL Finest]: query: 2014-10-19 06:44:02.608--UnitOfWork(1985011414)--Thread(Thread[main,5,main])--Execute query InsertObjectQuery(database.EntityClassTest [id=null ]) 
[EL Finest]: query: 2014-10-19 06:44:02.608--ClientSession(824177287)--Thread(Thread[main,5,main])--Execute query ValueReadQuery(name="ID_SEQ_GEN" sql="SELECT LAST_INSERT_ID()") 
[EL Fine]: sql: 2014-10-19 06:44:02.608--ClientSession(824177287)--Connection(1674390738)--Thread(Thread[main,5,main])--INSERT INTO ENTITYCLASSTEST (LASTNAME, NAME) VALUES (?, ?) 
    bind => [sfirosijfhgdoi 2244, dsufius1122]

等等......

你可以请发布你使用的每个软件的版本，如MySQL，Eclipse链接，MySQL驱动等。 – CuriousMind 2014-10-19 05:00:36

您是否尝试将rewriteBatchedStatements = true添加到连接属性？ – 2014-10-20 13:39:08

@MárcioSouzaJúnior你是对的。我忘了在'persistence.xml'文件中的连接中添加'rewriteBatchedStatements = true'，我在JDBC中有这个文件，并且错误地认为我在'persistence.xml'中也有。这部分解决了我的问题。克里斯的回答确实解决了我的问题。 – dazito 2014-10-20 23:50:41

答

您正在使用GenerationType.IDENTITY进行测序，这需要通过一个检索每个插入语句一个的ID。尝试排序方案，允许预分配中的500批，你会看到改进： http://en.wikibooks.org/wiki/Java_Persistence/Identity_and_Sequencing#Identity_sequencing

我在我的'EntityClassTest'中将这个值'@GeneratedValue（strategy = GenerationType.IDENTITY）'改为'@GeneratedValue（strategy = GenerationType.SEQUENCE）'并重新运行测试并且数据包像以前那样发送图片我发布在我的问题）。所以它并没有解决我害怕的问题。 – dazito 2014-10-17 15:50:58

您需要能够批量获取与您的批处理写入大小相匹配的序列，否则JPA必须中断批处理以获取附加序列值。我不相信MySQL有排序，所以它是默认的;你需要使用表排序。请参阅http://java-persistence-performance.blogspot.com/2011/06/how-to-improve-jpa-performance-by-1825.html?showComment=1379577956140#c4472664570410361957 – Chris 2014-10-20 13:15:55

答

看来序列生成已经导致了问题，你参考这个post。它提供了预分配序列生成的方法。

答

已经过了一年了，可能已经太迟了。就我而言，我发现flush（）会导致问题。我在每个记录的persist（）之后调用flush（）。这样可以防止批量编写进行优化，并导致插入性能不佳。删除flush（）后，一切进展顺利。

答

这可能是监守序列/恒等式（需使用预分配），而且对MySQL的，我认为你需要一个连接字符串属性，允许批量插入：

rewriteBatchedStatements =真

jdbc:mysql://localhost:3306/test?rewriteBatchedStatements=true

EclipseLink批量插入非常非常慢

相关推荐