SeedQuest - Central information website for the global seed industry

News Page

The news
and
beyond the news

Index of news sources

Topics

Alliances / M & A
Artificial intelligence
Bees & pollinators health
Biodiversity
Bioinformatics
Biologicals & inoculants
Biotechnology
Carbon
Cereal crops
Climate resilience
Coexistence
Conservation seed
Cover crops
Crop protection
Data science
Digital agriculture
Drones / UAV
Drought tolerance
Education & careers
Financial
Food & health
Food safety
Food security
Forage crops
Fungicide resistance
Genetic resources
Genome-editing technology
Genomics
Heat tolerance
Herbicide resistance
Indoor agriculture
Insecticide resistance
Intellectual property protection
Legal & regulatory
Legumes
Lighting technology
Machinery & equipment
Market data
Microbials / Microbiome
New breeding techniques
New products & tools
New services
New technologies
Non-food agriculture
Oilseed crops
Organic
Ornamentals
Pasture grasses
People
Pesticide resistance
Phenotyping / Phenomics
Plant & seed nutrition
Plant breeding
Plant health
Plant protein
Post-harvest technology
Precision agriculture
Published in print
Pulse crops
Reclamation
Regenerative agriculture
Remote sensing
Research
Robots / Robotics
Root health
Seed analysis
Seed colorants & polymers
Seed enhancement
Seed health
Seed processing
Seed science & technology
Seed testing
Seed treatment
Soil health
Sustainable ag
Turfgrass
Urban farming
Vegetable crops
Web & IT solutions
Weed management

Species

Archives

News archive 1997-2008

Stronger together: New data approach makes plant predictions more accurate
Gemeinsam statt einsam: Neuer Datenansatz macht Pflanzenvorhersagen präziser

Gatersleben, Germany
May 13, 2025

By integrating data sources at an academic data trustee more genotypes with high-quality observations can be used for performance prediction. Graphic: IPK Leibniz Institute/ M. Lell

Large amounts of data (“big data”) offer enormous potential for improving the accuracy of genome-wide predictions in plant breeding. Encouraged by successful results with wheat hybrids, researchers at the IPK Leibniz Institute have now extended this approach to so-called inbred lines. For the first time, they combined phenotypic and genotypic data from four commercial wheat breeding programmes. The study results were published in the “Plant Biotechnology Journal”.

Deep learning methods have become increasingly crucial in genomic prediction in recent years. In contrast to conventional methods, deep learning approaches work with flexible, non-linear transformations of the input data. The aim is to recognise patterns in the data and link these to observable characteristics such as yield or plant height. The parameters required for this are optimised based on extensive training data. Such methods promise particular advantages when plant characteristics are strongly influenced by complex interactions that are insufficiently considered in conventional models.

In this context, a research team at the IPK has taken on the role of academic data trustee and merged the data from four wheat breeding programmes with trial data from earlier public-private partnerships. “We needed data from many genotypes that had already been tested in different environments, i.e. at different locations”, explains Prof. Dr. Jochen Reif, head of the department “Breeding Research” at the IPK.

The new data set covered twelve years of trial activity in 168 environments and formed a training set for genomic predictions with up to 9,500 genotypes - including grain yield, plant height and heading date. One main challenge was merging the different data and ultimately making it comparable. “Despite the heterogeneous phenotypic and genotypic information, we were able to break down the companies‘ data silos and thus obtain linkable data through meticulous data preparation, including the imputation of missing SNPs”, says Prof. Dr. Jochen Reif.

The team used this data to compare classic genomic prediction methods with deep learning approaches based on neural networks. With the help of neural networks, it was possible to recognise patterns in structured data. “Our analyses showed that different test series can be flexibly combined for genomic predictions and that the prediction accuracy continuously improves as the size of the training set increases - at least up to around 4,000 genotypes”, explains Moritz Lell, first author of the study. If the training set is increased further, the prediction values increase only slightly.

“However, we assume that this plateau can be overcome if we include significantly more environments in the data set”, emphasises Prof. Dr. Jochen Reif. “This would make it possible to utilise the potential of big data in breeding research even better.” And this is precisely the aim of the “Drive” project, which has been running since November 2024 and is funded by the Federal Ministry of Education and Research (BMBF).

Original publication:

Lell et al. (2025): Breaking down data silos across companies to train genome-wide predictions: A feasibility study in wheat. Plant Biotechnology Journal. DOI: 10.1111/pbi.70095

Gemeinsam statt einsam: Neuer Datenansatz macht Pflanzenvorhersagen präziser

Große Datenmengen („Big Data“) bieten ein enormes Potenzial, um die Genauigkeit genomweiter Vorhersagen in der Pflanzenzüchtung zu verbessern. Ermutigt durch erfolgreiche Ergebnisse bei Weizenhybriden haben Forschende am IPK Leibniz-Institut diesen Ansatz nun auch auf sogenannte Inzuchtlinien ausgeweitet. Dazu kombinierten sie erstmals phänotypische und genotypische Daten aus insgesamt vier kommerziellen Weizenzuchtprogrammen. Die Ergebnisse der Studie wurden im „Plant Biotechnology Journal“ veröffentlicht.

In den vergangenen Jahren haben Deep-Learning-Methoden im Bereich der genomischen Vorhersage an Bedeutung gewonnen. Im Gegensatz zu klassischen Verfahren arbeiten Deep-Learning-Ansätze mit flexiblen, nichtlinearen Transformationen der Eingabedaten. Ziel ist es, Muster in den Daten zu erkennen und diese mit beobachtbaren Eigenschaften wie Ertrag oder Pflanzenhöhe zu verknüpfen. Die dafür notwendigen Parameter werden auf der Basis von umfangreichen Trainingsdaten optimiert. Solche Verfahren versprechen insbesondere dann Vorteile, wenn Pflanzeneigenschaften stark von komplexen Wechselwirkungen beeinflusst werden, die in herkömmlichen Modellen nicht oder nur unzureichend berücksichtigt werden.

Ein Forschungsteam am IPK hat in diesem Zusammenhang die Rolle eines akademischen Datentreuhänders übernommen und die Daten aus vier Weizenzüchtungsprogrammen mit Versuchsdaten aus früheren öffentlich-privaten Partnerschaften zusammengeführt. „Wir brauchten im Grunde Daten von vielen Genotypen, die bereits in unterschiedlichen Umwelten, also an unterschiedlichen Standorten, getestet wurden“, erläutert Prof. Dr. Jochen Reif, Leiter der Abteilung „Züchtungsforschung“ am IPK.

Insgesamt umfasste der neue Datensatz zwölf Jahre Versuchstätigkeit in 168 Umwelten und bildete ein Trainingsset für genomische Vorhersagen mit bis zu 9.500 Genotypen - unter anderem zu Kornertrag, Pflanzenhöhe und Ährenschieben. Eine der zentralen Herausforderungen bestand darin, die verschiedenen Daten zusammenzuführen und letztlich vergleichbar zu machen. „Trotz der heterogenen phänotypischen und genotypischen Informationen konnten wir durch eine sehr sorgfältige Datenaufbereitung, inklusive Imputation fehlender SNPs, die Datensilos der Unternehmen aufbrechen und so verknüpfbare Daten gewinnen“, sagt Prof. Dr. Jochen Reif.

Diese Daten nutzte das Team, um klassische genomische Vorhersagemethoden mit Deep Learning-Ansätzen auf Basis neuronaler Netzwerke zu vergleichen. Mit Hilfe der neuronalen Netzwerke war es möglich, Muster in strukturierten Daten zu erkennen. „Unsere Analysen zeigten, dass sich verschiedene Versuchsserien flexibel für genomische Vorhersagen kombinieren lassen und sich die Vorhersagegenauigkeit dabei mit wachsender Größe des Trainingssets kontinuierlich verbessert - zumindest bis zu etwa 4.000 Genotypen“, erklärt Moritz Lell, Erstautor der Studie. Wird das Trainingsset darüber hinaus weiter vergrößert, steigen die Vorhersagewerte nur noch geringfügig.

„Wir gehen jedoch davon aus, dass sich dieses Plateau überwinden lässt, wenn wir noch deutlich mehr Umwelten in den Datensatz aufnehmen“, betont Prof. Reif. „Das würde es ermöglichen, das Potenzial von Big Data in der Züchtungsforschung noch besser zu nutzen.“ Und genau das ist auch das Ziel des Projekts „Drive“, das bereits seit November 2024 läuft und vom Bundesministerium für Bildung und Forschung gefördert wird.

More news from: IPK Gatersleben - Leibniz Institute of Plant Genetics and Crop Plant Research

Website: http://www.ipk-gatersleben.de

Published: May 14, 2025

The news item on this page is copyright by the organization where it originated
Fair use notice