home news forum careers events suppliers solutions markets expos directories catalogs resources advertise contacts
 
News Page

The news
and
beyond the news
Index of news sources
All Africa Asia/Pacific Europe Latin America Middle East North America
  Topics
  Species
Archives
News archive 1997-2008
 

Stronger together: New data approach makes plant predictions more accurate
Gemeinsam statt einsam: Neuer Datenansatz macht Pflanzenvorhersagen präziser


Gatersleben, Germany
May 13, 2025



By integrating data sources at an academic data trustee more genotypes with high-quality observations can be used for performance prediction. Graphic: IPK Leibniz Institute/ M. Lell

 

Large amounts of data (“big data”) offer enormous potential for improving the accuracy of genome-wide predictions in plant breeding. Encouraged by successful results with wheat hybrids, researchers at the IPK Leibniz Institute have now extended this approach to so-called inbred lines. For the first time, they combined phenotypic and genotypic data from four commercial wheat breeding programmes. The study results were published in the “Plant Biotechnology Journal”.

Deep learning methods have become increasingly crucial in genomic prediction in recent years. In contrast to conventional methods, deep learning approaches work with flexible, non-linear transformations of the input data. The aim is to recognise patterns in the data and link these to observable characteristics such as yield or plant height. The parameters required for this are optimised based on extensive training data. Such methods promise particular advantages when plant characteristics are strongly influenced by complex interactions that are insufficiently considered in conventional models.

In this context, a research team at the IPK has taken on the role of academic data trustee and merged the data from four wheat breeding programmes with trial data from earlier public-private partnerships. “We needed data from many genotypes that had already been tested in different environments, i.e. at different locations”, explains Prof. Dr. Jochen Reif, head of the department “Breeding Research” at the IPK.

The new data set covered twelve years of trial activity in 168 environments and formed a training set for genomic predictions with up to 9,500 genotypes - including grain yield, plant height and heading date. One main challenge was merging the different data and ultimately making it comparable. “Despite the heterogeneous phenotypic and genotypic information, we were able to break down the companies‘ data silos and thus obtain linkable data through meticulous data preparation, including the imputation of missing SNPs”, says Prof. Dr. Jochen Reif.

The team used this data to compare classic genomic prediction methods with deep learning approaches based on neural networks. With the help of neural networks, it was possible to recognise patterns in structured data. “Our analyses showed that different test series can be flexibly combined for genomic predictions and that the prediction accuracy continuously improves as the size of the training set increases - at least up to around 4,000 genotypes”, explains Moritz Lell, first author of the study. If the training set is increased further, the prediction values increase only slightly.

“However, we assume that this plateau can be overcome if we include significantly more environments in the data set”, emphasises Prof. Dr. Jochen Reif. “This would make it possible to utilise the potential of big data in breeding research even better.” And this is precisely the aim of the “Drive” project, which has been running since November 2024 and is funded by the Federal Ministry of Education and Research (BMBF).

Original publication:

Lell et al. (2025): Breaking down data silos across companies to train genome-wide predictions: A feasibility study in wheat. Plant Biotechnology Journal. DOI: 10.1111/pbi.70095



Gemeinsam statt einsam: Neuer Datenansatz macht Pflanzenvorhersagen präziser

Große Datenmengen („Big Data“) bieten ein enormes Potenzial, um die Genauigkeit genomweiter Vorhersagen in der Pflanzenzüchtung zu verbessern. Ermutigt durch erfolgreiche Ergebnisse bei Weizenhybriden haben Forschende am IPK Leibniz-Institut diesen Ansatz nun auch auf sogenannte Inzuchtlinien ausgeweitet. Dazu kombinierten sie erstmals phänotypische und genotypische Daten aus insgesamt vier kommerziellen Weizenzuchtprogrammen. Die Ergebnisse der Studie wurden im „Plant Biotechnology Journal“ veröffentlicht.

In den vergangenen Jahren haben Deep-Learning-Methoden im Bereich der genomischen Vorhersage an Bedeutung gewonnen. Im Gegensatz zu klassischen Verfahren arbeiten Deep-Learning-Ansätze mit flexiblen, nichtlinearen Transformationen der Eingabedaten. Ziel ist es, Muster in den Daten zu erkennen und diese mit beobachtbaren Eigenschaften wie Ertrag oder Pflanzenhöhe zu verknüpfen. Die dafür notwendigen Parameter werden auf der Basis von umfangreichen Trainingsdaten optimiert. Solche Verfahren versprechen insbesondere dann Vorteile, wenn Pflanzeneigenschaften stark von komplexen Wechselwirkungen beeinflusst werden, die in herkömmlichen Modellen nicht oder nur unzureichend berücksichtigt werden.

Ein Forschungsteam am IPK hat in diesem Zusammenhang die Rolle eines akademischen Datentreuhänders übernommen und die Daten aus vier Weizenzüchtungsprogrammen mit Versuchsdaten aus früheren öffentlich-privaten Partnerschaften zusammengeführt. „Wir brauchten im Grunde Daten von vielen Genotypen, die bereits in unterschiedlichen Umwelten, also an unterschiedlichen Standorten, getestet wurden“, erläutert Prof. Dr. Jochen Reif, Leiter der Abteilung „Züchtungsforschung“ am IPK.

Insgesamt umfasste der neue Datensatz zwölf Jahre Versuchstätigkeit in 168 Umwelten und bildete ein Trainingsset für genomische Vorhersagen mit bis zu 9.500 Genotypen - unter anderem zu Kornertrag, Pflanzenhöhe und Ährenschieben. Eine der zentralen Herausforderungen bestand darin, die verschiedenen Daten zusammenzuführen und letztlich vergleichbar zu machen. „Trotz der heterogenen phänotypischen und genotypischen Informationen konnten wir durch eine sehr sorgfältige Datenaufbereitung, inklusive Imputation fehlender SNPs, die Datensilos der Unternehmen aufbrechen und so verknüpfbare Daten gewinnen“, sagt Prof. Dr. Jochen Reif.

Diese Daten nutzte das Team, um klassische genomische Vorhersagemethoden mit Deep Learning-Ansätzen auf Basis neuronaler Netzwerke zu vergleichen. Mit Hilfe der neuronalen Netzwerke war es möglich, Muster in strukturierten Daten zu erkennen. „Unsere Analysen zeigten, dass sich verschiedene Versuchsserien flexibel für genomische Vorhersagen kombinieren lassen und sich die Vorhersagegenauigkeit dabei mit wachsender Größe des Trainingssets kontinuierlich verbessert - zumindest bis zu etwa 4.000 Genotypen“, erklärt Moritz Lell, Erstautor der Studie. Wird das Trainingsset darüber hinaus weiter vergrößert, steigen die Vorhersagewerte nur noch geringfügig.

„Wir gehen jedoch davon aus, dass sich dieses Plateau überwinden lässt, wenn wir noch deutlich mehr Umwelten in den Datensatz aufnehmen“, betont Prof. Reif. „Das würde es ermöglichen, das Potenzial von Big Data in der Züchtungsforschung noch besser zu nutzen.“ Und genau das ist auch das Ziel des Projekts „Drive“, das bereits seit November 2024 läuft und vom Bundesministerium für Bildung und Forschung gefördert wird.

 

 



More news from: IPK Gatersleben - Leibniz Institute of Plant Genetics and Crop Plant Research


Website: http://www.ipk-gatersleben.de

Published: May 14, 2025

The news item on this page is copyright by the organization where it originated
Fair use notice


Copyright @ 1992-2026 SeedQuest - All rights reserved